VChain 推理時間視覺思維鏈

近期的影片生成模型已能產生流暢且具視覺吸引力的影片片段,但在結合複雜動態與連貫的事件因果上仍然面臨挑戰。如何準確建模隨時間變化的視覺結果與狀態,依然是核心難題。

相對而言,大型語言與多模態模型(如 GPT-4o)展現出強大的視覺狀態推理與未來預測能力。為了結合這些優勢,VChain 是一種新穎的「推理時間視覺思維鏈」框架。VChain 將多模態模型的視覺推理信號,注入影片生成過程中,以增強生成模型的推理一致性。

具體而言,VChain 包含一個專用管線,利用大型多模態模型生成一組稀疏的關鍵幀作為事件快照,並在這些關鍵時刻指導預訓練影片生成器進行稀疏推理時間調整。這種設計使調整過程高效、開銷極低,且無需密集監督。

VChain: Chain-of-Visual-Thought for Reasoning in Video Generation
Categories: 開源, 視頻模型

Paper2Video 論文自動生成視頻系統

Paper2Video 能從輸入的論文(LaTeX源碼)、一張圖片和一段音頻,生成完整的學術報告視頻。集成了幻燈片生成、字幕生成、游標定位、語音合成、講者視頻渲染等多模態子模塊,實現一條龍的演示視頻製作流程。支持並行處理以提升視頻生成效率,推薦GPU為NVIDIA A6000(48G顯存)及以上。

需要設定 GPT-4.1 或 Gemini2.5-Pro 等大型語言模型 API Key,支持本地 Qwen 模型。

Categories: Gemini, 開源, 數字人, Python, 語音


musubi-tuner 影像微調 (LoRA)

musubi-tuner 提供使用 HunyuanVideo、Wan2.1/2.2、FramePack、FLUX.1 Kontext 和 Qwen-Image 架構訓練 LoRA(低秩自適應)模型的腳本。

Qwen Image LoRA保姆级训练教程 | 秘密武器:一个LoRA,通吃image和edit模型,完美解决角色一致性!

Categories: 開源, 模型訓練


Chrome MCP 伺服器

Chrome MCP 伺服器是一款基於 Chrome 擴充功能的
模型上下文協定 (MCP) 伺服器,它將您的 Chrome 瀏覽器功能開放給 Claude 等 AI 助手,從而實現複雜的瀏覽器自動化、內容分析和語義搜尋。與傳統的瀏覽器自動化工具(例如 Playwright)不同,
Chrome MCP 伺服器直接使用您日常使用的 Chrome 瀏覽器,利用現有的使用者習慣、配置和登入狀態,讓各種大型模型或聊天機器人控制您的瀏覽器,真正成為您的日常助理。

ai 编程测试, chrome mcp server ,自动化必备,web 开发必备工具!
Categories: 開源, MCP, 編程, Mac, Win, Linux

CWM 320 億參數 (32B) 的代碼推理模型

CWM 由 Meta 開發,是個 320 億參數 (32B) 的密集自回歸解碼器語言模型(dense decoder-only autoregressive LLM)

特別強調如何建模與推理「程式和指令」對環境狀態的影響,被設計為能理解 agentic workflow(即 LLM 與計算環境互動過程中的軌跡)

專注於程式合成與程式理解、代碼推理等研究相關任務。不適合拿來做常規知識問答、閒聊助理、或生產環境 AI。(相關論文) (GitHub

Meta's Code World Model
Categories: 開源, 編程

Wan-Animate:統一角色動畫及整體替換

Wan-Animate,一個用於角色動畫和替換的統一框架。給定一張角色圖像和一段參考視頻,Wan-Animate 可以透過精確複製視頻中角色的表情和動作來為角色製作動畫,從而產生高保真度的角色視頻。或者,它可以將動畫角色整合到參考影片中替換原始角色,複製場景的光線和色調,實現與環境的無縫融合。

Categories: 開源, 阿里巴巴, 視頻模型


Page 3 of 57
1 2 3 4 5 57