ComfyUI 版 Z-Image

Z Image Turbo 支持 ComfyUI,它採用 qwen_3_4b.safetensors 的 Text encoder 及 Flux 1 VAE

Z-Image 是一款功能強大且高效的影像生成模型,擁有60 億個參數。目前共有三個版本:

🚀 Z-Image-Turbo – Z-Image 的精簡版,僅需8 次函數評估 (NFE),即可達到甚至超越領先競爭對手的性能。它在企業級 H800 GPU 上可實現⚡️亞秒級推理延遲⚡️,並能輕鬆適配16G 顯存的消費級設備。它在照片級圖像生成、雙語文字渲染(中英文)以及強大的指令執行能力方面表現卓越。

🧱 Z-Image-Base – 未經精簡的基礎模型。透過發布此版本,我們旨在充分釋放社群驅動的微調和自訂開發的潛力。

✍️ Z-Image-Edit – Z-Image 的一個衍生版本,專為影像編輯任務而最佳化。它支援創意圖像到圖像的生成,並具備強大的指令跟隨功能,允許根據自然語言提示進行精確編輯。

Flux 2 Was Too Heavy… But Z-Image FIXED Everything — Smaller • Faster • More Realistic!
Categories: 阿里巴巴, 影像模型, 開源

OVI 11B 低 VRAM 顯卡上做 10 秒影片

影片教你怎樣用「ComfyUI + OVI 11B」在低 VRAM 顯示卡上做 10 秒有畫又有聲嘅影片生成功能,重點係一步步教你放啱模型檔、設定 workflow,同埋用 LoRA 喺低 steps 都保持畫質。

ComfyUI OVI Workflow: Text & Image to 10s Video on Low VRAM

主要功能

  • 用 ComfyUI 的 OVI workflow,一套 graph 就可以同時支援「text to video」同「image to video」,唔需要兩個 workflow。​
  • 支援 OVI 11B FP8 或 BF16,針對低 VRAM / 中高 VRAM 有唔同精度選擇。​
  • 一次 render 就生成 10 秒影片連同步音訊,包括對白同環境聲。
Categories: 阿里巴巴, 影像模型, 教學, 數字人




USO:統一風格的生成模型

USO 全稱為「Unified Style-Subject Optimized customization model」,能將任何影像主體融入任何風格,開啟創作新紀元並在各種情境中自由揮灑創意。

傳統上,風格驅動生成模型側重於風格相似性,而主體驅動生成模型則強調主體的一致性,這兩者往往難以兼顧。USO 模型的誕生,打破了這種壁壘,它提出了一種統一的框架,透過對「內容」與「風格」的解耦與重組,實現了兩者的自由組合。無論您想將特定人物融入動漫風格,或是為靜物照片賦予水彩畫的韻味,USO 都能輕鬆應對。

(more…)
Categories: 字節跳動, 影像模型, 影像處理, 開源

ROSE2025 移除影片中任何物件

ROSE2025,全名為「可靠且開放集事件修補(Remove Objects with Side Effects)」。旨在推動電腦視覺領域,為處理複雜、動態的視覺數據缺失問題提供更穩健、更智能的解決方案。在不斷演進的電腦視覺領域,事件修補(Event Inpainting)正成為一項引人注目的新興研究方向。

ROSE2025 涵蓋了多個關鍵研究主題,包括但不限於:基於生成式模型的事件修補方法、深度學習在事件資料恢復的應用、新穎的損失函數與評估指標、開源數據集與基準的創建、以及與機器人、自動駕駛、監控等實際應用場景的結合。

Categories: 香港大學, 影像模型, 影像處理, 視覺模型, 視頻模型, 開源

Page 4 of 6
1 2 3 4 5 6