開源 – Infer News

ComfyUI 版 Z-Image

Z Image Turbo 支持 ComfyUI，它採用 qwen_3_4b.safetensors 的 Text encoder 及 Flux 1 VAE 。

Z-Image 是一款功能強大且高效的影像生成模型，擁有60 億個參數。目前共有三個版本：

🚀 Z-Image-Turbo – Z-Image 的精簡版，僅需8 次函數評估 (NFE)，即可達到甚至超越領先競爭對手的性能。它在企業級 H800 GPU 上可實現⚡️亞秒級推理延遲⚡️，並能輕鬆適配16G 顯存的消費級設備。它在照片級圖像生成、雙語文字渲染（中英文）以及強大的指令執行能力方面表現卓越。

🧱 Z-Image-Base – 未經精簡的基礎模型。透過發布此版本，我們旨在充分釋放社群驅動的微調和自訂開發的潛力。

✍️ Z-Image-Edit – Z-Image 的一個衍生版本，專為影像編輯任務而最佳化。它支援創意圖像到圖像的生成，並具備強大的指令跟隨功能，允許根據自然語言提示進行精確編輯。

Flux 2 Was Too Heavy… But Z-Image FIXED Everything — Smaller • Faster • More Realistic!

Watch this video on YouTube

Categories: 開源, 阿里巴巴, 影像模型

UniVA 全能型影片處理框架

一套開源、多代理的「全能型影片處理框架」UniVA，目的是將影片理解、分割、剪輯與生成等功能統合成自動化且可擴展的工作流程。

主要創新與架構

Plan-and-Act 雙代理架構：系統分成「規劃代理」與「執行代理」。規劃代理會解析用戶意圖，分解成結構化的多步影片處理任務；執行代理則利用模組化的工具伺服器（MCP-based servers）來完成分析、生成、剪輯、追蹤等步驟。
分層記憶機制：建立了全球知識、任務上下文與用戶偏好三層記憶，確保長時段推理、上下文連續性及代理間溝通，有助於符合用戶風格或偏好的一致性影片製作。
端到端全能影片工作流：支援任何條件（文字、圖片、影片等）進行生成 → 多輪剪輯 → 物件分割 → 合成等自由流程，而非單一模型侷限的功能。
模組化擴展生態系：架構原生支援加入新工具與模型，方便根據需求進行功能擴充，提升系統柔性與持續性開發。

Categories: 開源, 影像處理

ComfyUI Fusion LoRA 教學

ComfyUI Tutorial Fusion LoRA Easy Compositing

Categories: ComfyUI, 開源, 影像模型, 影像處理

视频也能 P Comfyui 最强视频工作流

视频也能P Comfyui最强视频工作流三连发

Categories: ComfyUI, 開源, 影像模型, 影像處理

Gemini CLI v0.9.0 互動式終端

Google 在最新的官方開發者更新中宣布，Gemini CLI v0.9.0 現已支援完整的「互動式終端命令」體驗，這是該工具迄今最大的架構升級之一。

主要更新特點

互動式命令支援：使用者現在可以直接在 Gemini CLI 內運行 vim 編輯器、top 系統監控、
git rebase -i 等互動性命令，而無需離開 CLI 環境。

Pseudo-terminal（PTY） 整合：CLI 現在透過 node-pty 函式庫啟動虛擬終端（pseudo-terminal）進程，讓作業系統識別該 session 為終端機應用，使應用可如原生環境般運行。

即時輸出串流：新增的 serializer 元件能持續擷取虛擬終端的畫面快照（包含文字、顏色、游標位置等），並即時串流回使用者端，呈現如「直播」般的互動視覺效果。

雙向通訊能力：CLI 支援將鍵盤輸入即時傳送至背景進程，並能隨視窗大小自動調整顯示區域，就像原生 shell 一樣。

增強的色彩輸出：輸出渲染引擎改進，能正確顯示彩色終端輸出，呈現更完整的命令列視覺效果。

快捷鍵焦點切換：可使用 Ctrl + F 專注於互動終端視窗。

安裝與升級方式

Gemini CLI v0.9.0 起預設啟用此互動式 shell，可透過下列指令升級至最新版本：

npm install -g @google/gemini-cli@latest

背後技術亮點

這項更新的核心在於引入 pseudo-terminal (PTY) 與 即時序列化/串流處理機制，構成完整的「可觀察、可輸入、可重繪」終端環境，使 Google 的 Gemini CLI 同時具備 AI 輔助與原生 shell 操作體驗。

Categories: 開源, 編程

OpenSpec 按規範寫代碼的革命工具

OpenSpec 是一套專為 AI 助手而設計的規格驅動開發（Spec-driven Development, SDD）工具，主要用於 AI 協同開發時，提前鎖定功能需求和規格，避免 AI 直接從對話生成不可控的實作。

OpenSpec: NEW Toolkit Ends Vibe Coding! 100x Better Than Vibe Coding (Full Tutorial)

Watch this video on YouTube

OpenSpec：让AI按规范写代码的革命工具 OpenSpec: The Revolutionary Tool That Makes AI Write Spec-Driven Code

Watch this video on YouTube

Categories: 開源, 編程

Ovi 生成視頻、對嘴音頻

Ovi 使用了專屬預訓練 5B 音頻分支，架構設計類似 WAN 2.2 5B，同時提供了 1B 融合分支，支持純文本或文本+圖片輸入，自動生成視頻、對嘴音頻，以及匹配場景的背景音效和音樂。

FINALLY! Open-source AI video with audio!

Watch this video on YouTube

OVI ComfyUI Workflow: Image & Text-to-Video with Sound (2025) — Is It Better Than VO3?

Watch this video on YouTube

Categories: ComfyUI, 開源, 數字人

Sora 2 in ComfyUI

Sora 2 in ComfyUI: Step-by-Step Free Workflow to Generate 15-Sec AI Video New

Categories: Sora, ComfyUI, 開源

VChain 推理時間視覺思維鏈

近期的影片生成模型已能產生流暢且具視覺吸引力的影片片段，但在結合複雜動態與連貫的事件因果上仍然面臨挑戰。如何準確建模隨時間變化的視覺結果與狀態，依然是核心難題。

相對而言，大型語言與多模態模型（如 GPT-4o）展現出強大的視覺狀態推理與未來預測能力。為了結合這些優勢，VChain 是一種新穎的「推理時間視覺思維鏈」框架。VChain 將多模態模型的視覺推理信號，注入影片生成過程中，以增強生成模型的推理一致性。

具體而言，VChain 包含一個專用管線，利用大型多模態模型生成一組稀疏的關鍵幀作為事件快照，並在這些關鍵時刻指導預訓練影片生成器進行稀疏推理時間調整。這種設計使調整過程高效、開銷極低，且無需密集監督。

VChain: Chain-of-Visual-Thought for Reasoning in Video Generation

Watch this video on YouTube

Categories: 開源, 視頻模型

Paper2Video 論文自動生成視頻系統

Paper2Video 能從輸入的論文（LaTeX源碼）、一張圖片和一段音頻，生成完整的學術報告視頻。集成了幻燈片生成、字幕生成、游標定位、語音合成、講者視頻渲染等多模態子模塊，實現一條龍的演示視頻製作流程。支持並行處理以提升視頻生成效率，推薦GPU為NVIDIA A6000（48G顯存）及以上。

需要設定 GPT-4.1 或 Gemini2.5-Pro 等大型語言模型 API Key，支持本地 Qwen 模型。

Categories: Gemini, 開源, 數字人, Python, 語音

Page 1 of 13

1 2 3 … 13 Next »