你是不是也遇過這個狀況:在 ComfyUI 用 SD 1.5 (AnimateDiff) 算影片,結果人物的臉突然融化、石頭變成奇怪的肉塊、鏡頭只要稍微拉遠就變成一團抽象畫?這不是你的錯,而是舊時代模型的「語意理解」到了極限!今天,我們將帶你升級到與 Sora 相同架構的 DiT (Diffusion Transformer) 模型。這是一套專為 Mac (M2 Max) 32GB 記憶體完美量身打造的 LTX-Video 影片生成工作流!
1. 為什麼要放棄 SD 1.5 改用 LTX-Video (DiT)?
💡 支援白話文劇本
不用再寫 (1girl, looking at viewer:1.5) 這種奇怪的單字方程式。內建 T5 語言大腦,完全聽得懂電影劇本級的自然語言。
💡 物理邏輯不崩壞
理解三維空間與地心引力。人物轉頭、物體掉落、鏡頭推進都不會再發生「恐怖融化」的幻覺現象。
💡 M2 Max 完美護航
特別調校的 65 幀限制,完美控制在 Mac 32GB 統一記憶體內,保證不爆 Swap,享受全速 GPU 渲染品質。
2. 準備工作:下載次世代引擎零件
要啟動這套工作流,你需要下載三個核心檔案。請確保你的硬碟還有大約 15GB 的空間:
1. LTX 主引擎 (UNET)
處理畫面生成的核心模型 (約 2B 參數)。
💡 32GB Mac 推薦:請直接下載 ltx-video-2b-v0.9.1.safetensors (約 3.9GB)。您的記憶體非常充足,無需下載壓縮降規版,可享受最完整的原生畫質!
路徑:ComfyUI/models/unet/
2. 語言大腦 (T5 LLM)
讓 AI 聽懂白話文的關鍵。
💡 32GB Mac 推薦:請下載 t5xxl_fp8_e4m3fn.safetensors (約 4.9GB)。影片生成極度耗費 RAM,使用 FP8 版本能省下近 5GB 空間給畫面渲染,且對語意理解幾乎毫無影響!
路徑:ComfyUI/models/clip/
3. 專屬解碼器 (VAE)
將 AI 的高維度數據還原為我們看到的影片像素。
💡 檔案位置指引:請點擊進入 vae 資料夾,下載 diffusion_pytorch_model.safetensors。(強烈建議下載後改名為 ltx-video-vae.safetensors 方便辨識!)
路徑:ComfyUI/models/vae/
3. 💡 咒語撰寫小技巧 (Prompts)
在 LTX-Video 中,請把指令當成「寫小說」或「寫電影劇本」。千萬不要再使用舊版 SD 那種單字堆疊法。以下是一個標準的優質範例:
留言
張貼留言