MAI-UI:圖形介面代理。

MAI-UI 是一系列涵蓋各種規模的基礎GUI代理,包括2B、8B、32B和235B-A22B等變體。我們指出了實際部署面臨的四大挑戰:缺乏原生代理-使用者互動、僅依賴UI操作的限制、缺乏實用的部署架構以及在動態環境中的脆弱性。

MAI-UI 採用統一的方法論來解決這些問題:一個自演化的資料管道,用於擴展導航資料以包含使用者互動和 MCP 工具呼叫;一個原生設備-雲端協作系統,用於根據任務狀態路由執行;以及一個具有高級優化的線上強化學習框架,用於擴展平行環境和上下文長度。

Categories: 開源, 阿里巴巴, 編程



ComfyUI 版 Z-Image

Z Image Turbo 支持 ComfyUI,它採用 qwen_3_4b.safetensors 的 Text encoder 及 Flux 1 VAE

Z-Image 是一款功能強大且高效的影像生成模型,擁有60 億個參數。目前共有三個版本:

🚀 Z-Image-Turbo – Z-Image 的精簡版,僅需8 次函數評估 (NFE),即可達到甚至超越領先競爭對手的性能。它在企業級 H800 GPU 上可實現⚡️亞秒級推理延遲⚡️,並能輕鬆適配16G 顯存的消費級設備。它在照片級圖像生成、雙語文字渲染(中英文)以及強大的指令執行能力方面表現卓越。

🧱 Z-Image-Base – 未經精簡的基礎模型。透過發布此版本,我們旨在充分釋放社群驅動的微調和自訂開發的潛力。

✍️ Z-Image-Edit – Z-Image 的一個衍生版本,專為影像編輯任務而最佳化。它支援創意圖像到圖像的生成,並具備強大的指令跟隨功能,允許根據自然語言提示進行精確編輯。

Flux 2 Was Too Heavy… But Z-Image FIXED Everything — Smaller • Faster • More Realistic!
Categories: 開源, 阿里巴巴, 影像模型

OVI 11B 低 VRAM 顯卡上做 10 秒影片

影片教你怎樣用「ComfyUI + OVI 11B」在低 VRAM 顯示卡上做 10 秒有畫又有聲嘅影片生成功能,重點係一步步教你放啱模型檔、設定 workflow,同埋用 LoRA 喺低 steps 都保持畫質。

ComfyUI OVI Workflow: Text & Image to 10s Video on Low VRAM

主要功能

  • 用 ComfyUI 的 OVI workflow,一套 graph 就可以同時支援「text to video」同「image to video」,唔需要兩個 workflow。​
  • 支援 OVI 11B FP8 或 BF16,針對低 VRAM / 中高 VRAM 有唔同精度選擇。​
  • 一次 render 就生成 10 秒影片連同步音訊,包括對白同環境聲。
Categories: 數字人, 阿里巴巴, 教學, 影像模型

Wan-Animate:統一角色動畫及整體替換

Wan-Animate,一個用於角色動畫和替換的統一框架。給定一張角色圖像和一段參考視頻,Wan-Animate 可以透過精確複製視頻中角色的表情和動作來為角色製作動畫,從而產生高保真度的角色視頻。或者,它可以將動畫角色整合到參考影片中替換原始角色,複製場景的光線和色調,實現與環境的無縫融合。

Categories: 開源, 阿里巴巴, 視頻模型

Qwen-Image-Edit

Qwen-Image-Edit 是 Qwen-Image 的圖像編輯版本,基於20B模型進一步訓練,支持精准文字編輯和語義/外觀雙重編輯能力。它具備多項關鍵功能與技術優勢:

  • 精準文字編輯:支援中英文文字的增、刪、改,並能保留原始文字的大小、字體與樣式。這得益於 Qwen-Image 獨特的文字渲染能力被擴展至編輯任務。
  • 雙重語義/外觀編輯:不僅能進行風格轉換、物件增刪等視覺外觀編輯,也支援 IP 創作、物件旋轉等高層次語義編輯。這透過將輸入影像同時饋入 Qwen2.5-VL(語義控制)和 VAE 編碼器(外觀控制)實現。
  • 強大跨基準效能:在多個公開基準測試中,Qwen-Image-Edit 在編輯任務上取得了最先進(SOTA)成果。
This new AI image editor is a BEAST. Qwen Image Edit tutorial
Categories: 開源, 阿里巴巴, 教學, 影像模型, 影像處理

FantasyPortrait

FantasyPortrait 支援使用多個單人影片或單一多人影片驅動多個角色,產生細緻的表情和逼真的肖像動畫。

從靜態圖像中製作富有表現力的臉部動畫是一項極具挑戰性的任務。現有方法缺乏對多角色動畫的支持,因為不同個體的驅動特徵經常相互幹擾,使任務變得複雜。FantasyPortrait 提出了 Multi-Expr 資料集和 ExprBench,它們是專門為訓練和評估多角色肖像動畫而設計的資料集和基準。大量實驗表明,FantasyPortrait 在定量指標和定性評估方面均顯著超越了最先進的方法,尤其是在具有挑戰性的交叉重現和多角色情境中表現出色。

FantasyPortrait: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion
Categories: 開源, 數字人, 阿里巴巴, 視頻模型, 影像處理