開源 – Page 4 – Infer News

VChain 推理時間視覺思維鏈

近期的影片生成模型已能產生流暢且具視覺吸引力的影片片段，但在結合複雜動態與連貫的事件因果上仍然面臨挑戰。如何準確建模隨時間變化的視覺結果與狀態，依然是核心難題。

相對而言，大型語言與多模態模型（如 GPT-4o）展現出強大的視覺狀態推理與未來預測能力。為了結合這些優勢，VChain 是一種新穎的「推理時間視覺思維鏈」框架。VChain 將多模態模型的視覺推理信號，注入影片生成過程中，以增強生成模型的推理一致性。

具體而言，VChain 包含一個專用管線，利用大型多模態模型生成一組稀疏的關鍵幀作為事件快照，並在這些關鍵時刻指導預訓練影片生成器進行稀疏推理時間調整。這種設計使調整過程高效、開銷極低，且無需密集監督。

VChain: Chain-of-Visual-Thought for Reasoning in Video Generation

Watch this video on YouTube

Categories: 視頻模型, 開源

Paper2Video 論文自動生成視頻系統

Paper2Video 能從輸入的論文（LaTeX源碼）、一張圖片和一段音頻，生成完整的學術報告視頻。集成了幻燈片生成、字幕生成、游標定位、語音合成、講者視頻渲染等多模態子模塊，實現一條龍的演示視頻製作流程。支持並行處理以提升視頻生成效率，推薦GPU為NVIDIA A6000（48G顯存）及以上。

需要設定 GPT-4.1 或 Gemini2.5-Pro 等大型語言模型 API Key，支持本地 Qwen 模型。

Categories: Gemini, Python, 數字人, 語音, 開源

musubi-tuner 影像微調 (LoRA)

musubi-tuner 提供使用 HunyuanVideo、Wan2.1/2.2、FramePack、FLUX.1 Kontext 和 Qwen-Image 架構訓練 LoRA（低秩自適應）模型的腳本。

Qwen Image LoRA保姆级训练教程 | 秘密武器：一个LoRA，通吃image和edit模型，完美解决角色一致性！

Watch this video on YouTube

basic guide to Qwen-Image LoRA training

For fundamentals, you can watch the video, although reading the text will also help. This article is related to the Qwen-Image LoRA character Eva Q…

Categories: 模型訓練, 開源

GitHub Copilot CLI 正式發佈

GitHub Copilot 編碼代理的強大功能直接帶到您的終端。透過 GitHub Copilot CLI，您可以在本地與能夠理解您的程式碼和 GitHub 上下文的 AI 代理程式同步工作。

Categories: MCP, Linux, Mac, Vibe Coding, Win, 編程, 開源

Chrome MCP 伺服器是一款基於 Chrome 擴充功能的
模型上下文協定 (MCP) 伺服器，它將您的 Chrome 瀏覽器功能開放給 Claude 等 AI 助手，從而實現複雜的瀏覽器自動化、內容分析和語義搜尋。與傳統的瀏覽器自動化工具（例如 Playwright）不同，
Chrome MCP 伺服器直接使用您日常使用的 Chrome 瀏覽器，利用現有的使用者習慣、配置和登入狀態，讓各種大型模型或聊天機器人控制您的瀏覽器，真正成為您的日常助理。

ai 编程测试， chrome mcp server ，自动化必备，web 开发必备工具！

Watch this video on YouTube

Categories: MCP, Linux, Mac, Win, 編程, 開源

CWM 320 億參數 (32B) 的代碼推理模型

CWM 由 Meta 開發，是個 320 億參數 (32B) 的密集自回歸解碼器語言模型（dense decoder-only autoregressive LLM）

特別強調如何建模與推理「程式和指令」對環境狀態的影響，被設計為能理解 agentic workflow（即 LLM 與計算環境互動過程中的軌跡）

專注於程式合成與程式理解、代碼推理等研究相關任務。不適合拿來做常規知識問答、閒聊助理、或生產環境 AI。(相關論文) （GitHub）

Meta's Code World Model

Watch this video on YouTube

Categories: 編程, 開源

Wan-Animate：統一角色動畫及整體替換

Wan-Animate，一個用於角色動畫和替換的統一框架。給定一張角色圖像和一段參考視頻，Wan-Animate 可以透過精確複製視頻中角色的表情和動作來為角色製作動畫，從而產生高保真度的角色視頻。或者，它可以將動畫角色整合到參考影片中替換原始角色，複製場景的光線和色調，實現與環境的無縫融合。

Categories: 阿里巴巴, 視頻模型, 開源

NVidia Cosmos 重組光源

開源 Cosmos DiffusionRenderer 是一個視訊擴散框架，用於高品質影像和視訊的去光和重光。它是原始
DiffusionRenderer 的重大更新，在 NVIDIA 改進的資料管理流程的支持下，實現了顯著更高品質的結果。

最低要求
Python 3.10
NVIDIA GPU 至少配備 16GB VRAM，建議配備 >=48GB VRAM
NVIDIA 驅動程式和 CUDA 12.0 或更高版本
至少 70GB 可用磁碟空間

Relight Any Scene with AI: NVIDIA Research Unveils DiffusionRenderer

Watch this video on YouTube

教學：

NVIDIA's new AI Just Made Any Video Relightable (DiffusionRenderer Demo)

Watch this video on YouTube

Categories: Linux, 影像處理, 教學, 視頻模型, 開源

HuMo：文本、圖片和音訊三種輸入

HuMo 是一個以人類為核心的多模態條件影片生成框架，能夠根據文本、圖片和音訊三種輸入產生高品質且可精細控制的人物影片。專案由清華大學與字節跳動智創團隊聯合開發

主要特色

支援 文本-圖片、文本-音訊 及 文本-圖片-音訊 的多模態影片生成，可自由設計角色造型、服裝、道具和場景。
文字指令的高遵循度、角色連貫性，以及音訊帶動的動作同步。
可生成 480P 或 720P 的高規格影片，並支援多 GPU 計算。

快速安裝及使用

透過 Conda 及 pip 安裝相關依賴（Python 3.11、Torch 2.5.1 等），並下載模型檔。
支援直接輸入文本、參考圖片和音訊檔案，根據三種模式（TA、TIA）選擇推理腳本運行生成。

Categories: 字節跳動, 數字人, 視頻模型, 開源

UniVerse-1 同步生成有聲影片

UniVerse-1 是個類似 Veo-3 的模型，可根據參考圖像和文字提示同時產生同步音訊和視訊。

統一音視頻合成：具有同時生成音訊和視訊的強大功能。它能夠解析輸入提示，產生完美同步的視聽輸出。
語音音訊產生：此模型可直接根據文字提示產生流暢的語音，展現了其內建的文字轉語音 (TTS) 功能。至關重要的是，它能夠根據生成的特定字元調整語音音色。
樂器演奏聲音生成：此模型在創造樂器聲音方面也非常熟練。此外，它還提供了「邊彈邊唱」的功能，可以同時產生人聲和樂器音軌。
環境聲音生成：此模型可以產生環境聲音，產生與視訊視覺環境相符的背景音訊。
第一個開源的基於 Dit 的音訊視訊聯合方法：我們是第一個開源基於 DiT、類似 Veo-3 的聯合視聽生成模型。

Categories: 香港科技大學, 多模態模型, 視頻模型, 開源

Page 4 of 15

« Previous 1 2 3 4 5 6 … 15 Next »