你的顯卡又因為跑 FLUX 爆 VRAM 閃退了嗎?別急著刷卡換 RTX 4090。跑最新的巨獸級 AI 模型,就像是要硬塞一頭大象進你的機車車廂,以前只有砸大錢升級硬體這條路。但最近在 GitHub 上爆紅的「ComfyUI-GGUF」擴充套件,直接顛覆了這個常理。開發者把原本用在大型語言模型的壓縮黑科技搬到了繪圖圈,完美拯救了我們這些還在死守 8GB 或 12GB 平民顯卡的玩家!
打破硬體天花板的縮小燈
開發者 city96 弄出的這個神級節點,簡單講,就像是被哆啦A夢的縮小燈照過一樣。原本幾十 GB 的模型,畫質幾乎沒掉,體積卻狠狠縮水到剩幾 GB。想裝起來?說實話,用「ComfyUI Manager」最快。打開右下角的管理器,鑽進 Custom Nodes Manager,搜尋 ComfyUI-GGUF。認明作者按下去安裝。搞定。記得重啟軟體。如果你是喜歡自己來的硬派玩家,當然也能開終端機下 Git 指令去 custom_nodes 慢慢抓原始碼。
檔案分流:跟揪團購一樣講究
接下來是重頭戲:檔案該放哪?這跟以前把一整坨 checkpoint 隨便丟進資料夾的玩法完全不同。GGUF 走的是精緻的拆分路線。這有點像我們在網路上揪團購,買了一大箱零食回來,你得把餅乾、飲料分門別類放進不同的櫃子裡。去 Hugging Face 抓檔案時,請分成三個部分處理。第一,附檔名是 .gguf 的 UNet 主模型(例如 flux1-dev-Q4_K_S.gguf),請乖乖放進 models/unet/。第二,龐大的 CLIP 文本編碼器(像是 t5xxl-Q8_0.gguf)也得放進專屬的 models/clip/ 裡。最後,那個負責自動編碼的 VAE 通常檔案不大,直接抓原版的 .safetensors 丟進 models/vae/ 就行了。
工作流的無痛替換術
檔案歸位後,怎麼叫出它們?在畫布上雙擊左鍵。把以前那個笨重的常規載入器踢掉,換上 Unet Loader (GGUF) 來接管主模型,再把它連上 KSampler。接著呼叫 DualCLIPLoaderGGUF 來負責讀取文本編碼器,牽線給你的正負面提示詞。接法其實跟以前一模一樣。按下 Queue Prompt 的瞬間,看著那低得不可思議的顯存佔用率,你會懂那種感動的。
Q4還是Q8?別再選擇困難症
下載時看到一堆 Q4、Q8 的後綴,頭都暈了吧?教你個最直白的挑選法。手邊是 12GB 到 16GB 的顯卡?直上 Q8 或 Q6!這幾乎是無損畫質的極致表現。但如果你的顯卡只有 8GB... 聽我的,秒選 Q5 或 Q4。這是畫質與效能間最完美的甜蜜點,肉眼根本分不出跟原版的差異。至於 Q3 甚至是更低的版本?那些省下來的空間全是犧牲畫面細節換來的。除非你的顯存真的見底到隨時會當機,不然我實在不推。
AI 的進化速度快得讓人喘不過氣,但也總有大神把高不可攀的門檻一腳踢開。今天下班後,準備好讓你的舊顯卡再次燃燒起來了嗎?
留言
張貼留言