CWM 320 億參數 (32B) 的代碼推理模型

CWM 由 Meta 開發,是個 320 億參數 (32B) 的密集自回歸解碼器語言模型(dense decoder-only autoregressive LLM)

特別強調如何建模與推理「程式和指令」對環境狀態的影響,被設計為能理解 agentic workflow(即 LLM 與計算環境互動過程中的軌跡)

專注於程式合成與程式理解、代碼推理等研究相關任務。不適合拿來做常規知識問答、閒聊助理、或生產環境 AI。(相關論文) (GitHub

Meta's Code World Model
Categories: 開源, 編程

Wan-Animate:統一角色動畫及整體替換

Wan-Animate,一個用於角色動畫和替換的統一框架。給定一張角色圖像和一段參考視頻,Wan-Animate 可以透過精確複製視頻中角色的表情和動作來為角色製作動畫,從而產生高保真度的角色視頻。或者,它可以將動畫角色整合到參考影片中替換原始角色,複製場景的光線和色調,實現與環境的無縫融合。

Categories: 開源, 阿里巴巴, 視頻模型


NVidia Cosmos 重組光源

開源 Cosmos DiffusionRenderer 是一個視訊擴散框架,用於高品質影像和視訊的去光和重光。它是原始
DiffusionRenderer 的重大更新,在 NVIDIA 改進的資料管理流程的支持下,實現了顯著更高品質的結果。

最低要求
Python 3.10
NVIDIA GPU 至少配備 16GB VRAM,建議配備 >=48GB VRAM
NVIDIA 驅動程式和 CUDA 12.0 或更高版本
至少 70GB 可用磁碟空間
Relight Any Scene with AI: NVIDIA Research Unveils DiffusionRenderer

教學:

NVIDIA's new AI Just Made Any Video Relightable (DiffusionRenderer Demo)
Categories: 開源, 視頻模型, 教學, Linux, 影像處理


Spec Kit:AI 驅動的規範導向開發工具包

Screenshot

Spec Kit 是一個由 GitHub 開發並開源的工具包,旨在透過 規範導向開發(Spec-Driven Development) 來幫助開發者更快速地建構高品質的軟體。

這套工具顛覆了傳統的開發模式,將規格文件從靜態的藍圖轉變為可執行的程式碼。它以用戶或產品的意圖為核心,利用了先進的 AI 模型建立清晰且詳細的規格,步優化和完善開發流程,最後直接生成可運作的軟體。

Categories: 編程, Vibe Coding

HuMo:文本、圖片和音訊三種輸入

HuMo 是一個以人類為核心的多模態條件影片生成框架,能夠根據文本、圖片和音訊三種輸入產生高品質且可精細控制的人物影片。專案由清華大學與字節跳動智創團隊聯合開發

主要特色

  • 支援 文本-圖片文本-音訊 及 文本-圖片-音訊 的多模態影片生成,可自由設計角色造型、服裝、道具和場景。
  • 文字指令的高遵循度、角色連貫性,以及音訊帶動的動作同步。
  • 可生成 480P 或 720P 的高規格影片,並支援多 GPU 計算。

快速安裝及使用

  • 透過 Conda 及 pip 安裝相關依賴(Python 3.11、Torch 2.5.1 等),並下載模型檔。
  • 支援直接輸入文本、參考圖片和音訊檔案,根據三種模式(TA、TIA)選擇推理腳本運行生成。

Categories: 字節跳動, 開源, 數字人, 視頻模型

UniVerse-1 同步生成有聲影片

UniVerse-1 是個類似 Veo-3 的模型,可根據參考圖像和文字提示同時產生同步音訊和視訊。

  • 統一音視頻合成:具有同時生成音訊和視訊的強大功能。它能夠解析輸入提示,產生完美同步的視聽輸出。
  • 語音音訊產生:此模型可直接根據文字提示產生流暢的語音,展現了其內建的文字轉語音 (TTS) 功能。至關重要的是,它能夠根據生成的特定字元調整語音音色。
  • 樂器演奏聲音生成:此模型在創造樂器聲音方面也非常熟練。此外,它還提供了「邊彈邊唱」的功能,可以同時產生人聲和樂器音軌。
  • 環境聲音生成:此模型可以產生環境聲音,產生與視訊視覺環境相符的背景音訊。
  • 第一個開源的基於 Dit 的音訊視訊聯合方法:我們是第一個開源基於 DiT、類似 Veo-3 的聯合視聽生成模型。

Categories: 香港科技大學, 開源, 視頻模型, 多模態模型

OpenCode 基於終端機的 AI 開發工具

opencode 是一個基於終端機的 AI 工具,專注於協助開發者在終端機環境中進行編碼、除錯等任務。它提供了一個互動式的終端使用者介面(TUI),並支援多種 AI 模型和語言伺服器協議(LSP),以提供程式碼智能功能。

不同於其他工具(如 Claude Code),opencode 不依賴特定 AI 提供商,支援超過 75 個大型語言模型(LLM)提供商,包括 OpenAI、Anthropic Claude、Google Gemini、AWS Bedrock、Groq、Azure OpenAI 等,甚至支援本地模型。

主要功能

  • 互動式 TUI:使用 Bubble Tea 框架打造,提供流暢的終端機使用者體驗。
  • 多會話管理:支援在同一專案中並行啟動多個 AI 代理。
  • 工具整合:AI 能執行指令、搜尋檔案、修改程式碼,並支援外部工具透過 Model Context Protocol(MCP)進行整合。
  • LSP 支援:內建語言伺服器協議,提供跨語言的程式碼智能功能。
  • 檔案變更追蹤:追蹤並可視化會話期間的檔案變更。
  • 可分享連結:支援將與 opencode 的對話生成可分享的連結,便於團隊協作或除錯。
  • 支援 Claude Pro:可透過 Anthropic 帳戶登入使用 Claude Pro 或 Max。
  • 自訂功能:支援主題自訂、鍵盤綁定、程式碼格式化工具設定及自訂指令。
Categories: 開源, 編程, Vibe Coding

DeepCode AI 驅動的開發平台

DeepCode 是個 AI 驅動的開發平台,可自動執行程式碼產生和實作任務。我們的多代理系統能夠處理將需求轉化為功能齊全、結構良好的程式碼的複雜性,讓您專注於創新,而不是實現細節。

DeepCode 透過為常見的開發任務提供可靠的自動化來解決這些工作流程效率低下的問題,從而簡化從概念到程式碼的開發工作流程。
https://github.com/HKUDS/DeepCode

DeepCode: This FREE Agentic AI Coder is INSANE!
Categories: 香港大學, 開源, 編程, Vibe Coding

Page 2 of 56
1 2 3 4 56