Light-X 修正相片/影片光渲染及視角

Light-X 是個視訊生成框架,它能夠從視訊中實現可控渲染,並同時控制視角和光照。

Light-X 提出一種解耦設計,將幾何形狀和光照信號解耦:幾何形狀和運動通過沿用戶定義的相機軌跡投影的動態點雲來捕獲,而光照線索則由始終投影到相同幾何形狀的重新光照幀提供。這些明確的、細粒度的線索能夠有效地解耦,並指導高品質的光照。

為了解決缺乏配對的多視角和多光照視頻的問題,Light-X 引入了Light-Syn,這是一種基於退化和逆映射的流程,它利用自然場景下的單目視頻素材合成訓練對。此策略產生了一個涵蓋靜態、動態和 AI 生成場景的資料集,確保了訓練的穩健性。大量實驗表明,Light-X 在聯合相機光照控制方面優於基線方法,並且在文字和背景兩種條件下均優於以往的視訊重光照方法。

httpv://www.youtube.com/watch?v=ui9Lg2H–0c
Categories: 香港中文大學, 影像處理, 開源

TwinFlow-Qwen-Image-v1.0 極速生成影像框架

TwinFlow 利用自對抗流實現大型模型的一步生成框架,是一個能夠實現高品質單步和少步生成而不會造成管道臃腫的框架。

值得注意一般大型多模態模型為了取得了驚人的生成能力,代價十分高昂:因為推理效率低。標準的擴散模型和流動匹配模型通常需要50-100 次非特徵提取 (NFE)才能產生一幅影像。

Categories: 影像模型, 開源


ComfyUI 版 Z-Image

Z Image Turbo 支持 ComfyUI,它採用 qwen_3_4b.safetensors 的 Text encoder 及 Flux 1 VAE

Z-Image 是一款功能強大且高效的影像生成模型,擁有60 億個參數。目前共有三個版本:

🚀 Z-Image-Turbo – Z-Image 的精簡版,僅需8 次函數評估 (NFE),即可達到甚至超越領先競爭對手的性能。它在企業級 H800 GPU 上可實現⚡️亞秒級推理延遲⚡️,並能輕鬆適配16G 顯存的消費級設備。它在照片級圖像生成、雙語文字渲染(中英文)以及強大的指令執行能力方面表現卓越。

🧱 Z-Image-Base – 未經精簡的基礎模型。透過發布此版本,我們旨在充分釋放社群驅動的微調和自訂開發的潛力。

✍️ Z-Image-Edit – Z-Image 的一個衍生版本,專為影像編輯任務而最佳化。它支援創意圖像到圖像的生成,並具備強大的指令跟隨功能,允許根據自然語言提示進行精確編輯。

Flux 2 Was Too Heavy… But Z-Image FIXED Everything — Smaller • Faster • More Realistic!
Categories: 阿里巴巴, 影像模型, 開源

UniVA 全能型影片處理框架

一套開源、多代理的「全能型影片處理框架」UniVA,目的是將影片理解、分割、剪輯與生成等功能統合成自動化且可擴展的工作流程。

主要創新與架構

  • Plan-and-Act 雙代理架構:系統分成「規劃代理」與「執行代理」。規劃代理會解析用戶意圖,分解成結構化的多步影片處理任務;執行代理則利用模組化的工具伺服器(MCP-based servers)來完成分析、生成、剪輯、追蹤等步驟。
  • 分層記憶機制:建立了全球知識、任務上下文與用戶偏好三層記憶,確保長時段推理、上下文連續性及代理間溝通,有助於符合用戶風格或偏好的一致性影片製作。
  • 端到端全能影片工作流:支援任何條件(文字、圖片、影片等)進行生成 → 多輪剪輯 → 物件分割 → 合成等自由流程,而非單一模型侷限的功能。
  • 模組化擴展生態系:架構原生支援加入新工具與模型,方便根據需求進行功能擴充,提升系統柔性與持續性開發。

Categories: 影像處理, 開源



Gemini CLI v0.9.0 互動式終端

Google 在最新的官方開發者更新中宣布,Gemini CLI v0.9.0 現已支援完整的「互動式終端命令」體驗,這是該工具迄今最大的架構升級之一。

主要更新特點

互動式命令支援:使用者現在可以直接在 Gemini CLI 內運行 vim 編輯器、top 系統監控、
git rebase -i 等互動性命令,而無需離開 CLI 環境。​

Pseudo-terminal(PTY) 整合:CLI 現在透過 node-pty 函式庫啟動虛擬終端(pseudo-terminal)進程,讓作業系統識別該 session 為終端機應用,使應用可如原生環境般運行。​

即時輸出串流:新增的 serializer 元件能持續擷取虛擬終端的畫面快照(包含文字、顏色、游標位置等),並即時串流回使用者端,呈現如「直播」般的互動視覺效果。​

雙向通訊能力:CLI 支援將鍵盤輸入即時傳送至背景進程,並能隨視窗大小自動調整顯示區域,就像原生 shell 一樣。​

增強的色彩輸出:輸出渲染引擎改進,能正確顯示彩色終端輸出,呈現更完整的命令列視覺效果。​

快捷鍵焦點切換:可使用 Ctrl + F 專注於互動終端視窗。

安裝與升級方式

Gemini CLI v0.9.0 起預設啟用此互動式 shell,可透過下列指令升級至最新版本:

npm install -g @google/gemini-cli@latest

背後技術亮點

這項更新的核心在於引入 pseudo-terminal (PTY) 與 即時序列化/串流處理機制,構成完整的「可觀察、可輸入、可重繪」終端環境,使 Google 的 Gemini CLI 同時具備 AI 輔助與原生 shell 操作體驗。

Categories: 編程, 開源

OpenSpec 按規範寫代碼的革命工具

OpenSpec 是一套專為 AI 助手而設計的規格驅動開發(Spec-driven Development, SDD)工具,主要用於 AI 協同開發時,提前鎖定功能需求和規格,避免 AI 直接從對話生成不可控的實作。

OpenSpec: NEW Toolkit Ends Vibe Coding! 100x Better Than Vibe Coding (Full Tutorial)
OpenSpec:让AI按规范写代码的革命工具 OpenSpec: The Revolutionary Tool That Makes AI Write Spec-Driven Code
Categories: 編程, 開源

Ovi 生成視頻、對嘴音頻

Ovi 使用了專屬預訓練 5B 音頻分支,架構設計類似 WAN 2.2 5B,同時提供了 1B 融合分支,支持純文本或文本+圖片輸入,自動生成視頻、對嘴音頻,以及匹配場景的背景音效和音樂。

Finally, open-source AI video with SOUND! Ovi tutorial
OVI ComfyUI Workflow: Image & Text-to-Video with Sound (2025) — Is It Better Than Veo 3?
Categories: ComfyUI, 數字人, 開源

Page 7 of 19
1 5 6 7 8 9 19