四個提升作業效能的開源工具

You NEED to try these open-source AI projects right now...

GStack 由 Y Combinator 總裁 Garry Tan 開發,已獲近 5 萬 GitHub 星標,提供 20+ 角色工具如 CEO 審核、工程經理和 QA。
安裝簡單,只需在 Claude Code 貼上指令,即可透過 /gstack 命令啟用辦公室會議、程式碼審核等流程。
適合 solo 開發者模擬矽谷團隊,基於 Tan 的創業經驗。

NousResearch 的 Hermes Agent 類似 OpenClaw,已有 12k+ 星標,具自改善迴圈,能從經驗產生技能並優化。
支援終端介面、多聊天 app(如 Telegram)、並行子代理和記憶遷移。
強調自主學習,適合想探索 OpenClaw 替代者的你。

Obra 的 Superpowers 插件給 Claude Code 超能力,已超 11 萬星標,聚焦 TDD(測試驅動開發)和工作樹平行化。
安裝只需 claude plugin install superpowers,即用 /s brainstorm 等命令規劃、執行和審核程式碼。
強調從腦storm 到部署的全流程,適合開發導向使用者。

Paperclip 旨在打造零人力公司,33k+ 星標,使用 Node.js 和 React UI 協調 AI 代理團隊追蹤目標、成本和工單。
如 CEO、CTO 等角色自動處理 issue,支援心跳排程和審計日誌,但作者警告不易立即獲利。
未來將加知識庫和 OpenClaw 整合,適合實驗自主業務。

Categories: 新聞, 開源

Pulse of Motion 讓影片更自然

Pulse of Motion 讓你在觀看影片時「感覺更舒服」,但看不到技術本身。目前很多生成影片(如 SVD、Pika 等)的動作時間常常跑偏,作者稱這種現象為 chronometric hallucination,也就是「看起來平滑但實際上時間尺度錯亂」。

現在很多生成模型會「時間錯亂」角色走路太快/太慢;手勢、動作和音效不搭;看起來動作很順,但「感覺怪怪的」。這套技術可以用來:調整生成模型的輸出(例如:自動快慢放或重採樣),讓影片「更像真實拍攝」,看起來更舒服。自動檢測影片的 真實時間尺度

Categories: 影像處理, 視頻模型, 開源, 中國

LumosX 精準個性化數字人

LumosX 是一個針對 個性化多主體視訊生成(personalized multi‑subject video generation)提出的框架,重點在:

  • 讓每個「身份」(例如不同人物)和其對應的屬性(年齡、外貌、服飾、動作等)有明確、精準的對齊;
  • 用關係性注意力機制來強化「組內一致性」(同一組人物屬性一致)和「組間區分度」,減少多主體時的屬性糾纏(attribute entanglement)。

簡單說:一樣可以做 text‑to‑video + ID conditioning,但對多個人物、每個人對應什麼屬性,控制得更精細、更一致「可控視訊生成」與「多主體個性化內容」場景,例如多角色劇本生成、廣告、虛擬試衣、多角色 VTuber 相容演出等。

Categories: 阿里巴巴, 數字人, 視頻模型, 開源

TRIBE v2 (Meta) 全腦神經活動資訊

TRIBE v2(Trimodal Brain Encoder)是一個多模態基礎模型,用於輸入一段影片、音訊或文字,然後輸出一個對應的「全腦神經活動圖」(約 7 萬個體素的 fMRI‑style 活動預測)。
它在 Algonauts 2025 獲獎架構上進一步提升,準確度約是上一代 2–3 倍,空間解析度提高約 70 倍,並支援跨受試者、跨語言、跨任務的 zero‑shot 預測。

可以當成一個「神經科學可視化工具」,用來研究。例如內容設計(影片、廣告、UI)如何觸發大腦特定區域(視覺皮層、語言區等)。又或者多模態 embedding 是否真的對齊人類大腦的處理路徑。

若你在做 RAG、多模態搜尋或 Brain‑AI 類實驗,可以拿這個 demo 來:比較不同 prompt/多模態輸入對「腦激活圖」的差異(例如:同一段文字用不同語氣、圖片風格重製)。

Categories: Medical醫學, 視覺模型, 開源, Meta

PrismAudio 視訊立體聲模型框架

PrismAudio 是一個把視訊畫面轉成立體聲(stereo)音訊的 AI 模型框架,目標是在四個維度上同時優化:

  • 語義合理性(Semantic)
  • 音視同步性(Temporal synchrony)
  • 音質美感(Aesthetic quality)
  • 空間準確度(Spatial accuracy)

作者的關鍵點是:現有模型通常把這些目標混在一個損失函數裡,會造成「目標互相干擾」(objective entanglement),而 PrismAudio 用 分解式 Chain‑of‑Thought(CoT)推理+多維度強化學習(RL) 來避免這個問題。

Categories: 聲效, 視覺模型, 開源

Matrix-Game 3.0 記憶增強世界模型

Matrix‑Game 3.0 是一個基於 Diffusion Transformer(DiT)的記憶增強世界模型,目標是做 720p 解析度、可達 40 FPS 的實時長序列互動視訊生成,用於第一人稱、第三人稱等遊戲/虛擬世界場景。它能根據滑鼠+鍵盤輸入一邊生成新畫面,一邊維持場景長時間的一致性(例如分鐘級序列),並可擴展到 2×14B 甚至 28B MoE 規模。

三大技術層面

  1. Data Engine
    • 用 Unreal Engine 生成合成資料,加上對 AAA 遊戲的大規模自動錄製、與真實影片資料增強,產出高品質的 Video–Pose–Action–Prompt 四元資料
    • 這種「工業級無限資料機器」讓模型能學習大量互動式行為與視角變化。
  2. 記憶增強模型(Memory‑augmented DiT)
    • 基礎模型是一個統一的雙向 DiT,把過去的潛在畫面、當前加噪畫面與動作輸入(滑鼠/鍵盤)放在同一個架構裡。
    • 用 residual error buffer 收集預測殘差,再以「error injection」把誤差加回訓練,讓模型學會在長時間序列上自我修正,增強長時一致性。
    • 加入 camera‑aware memory retrieval,只撿選視角相關的歷史畫面作為記憶條件,用 Plücker 編碼處理幾何關係,並用一個「sink latent」(第一幀)錨定場景整體風格。
  3. 高效實時推論(Distillation + Quantization)
    • 採用多段式的自生成 few‑step distillation(基於 Distribution Matching Distillation),讓「學生模型」在訓練時就模擬實際的少量步數 autoregressive 推論流程,做到訓練與推論對齊。
    • 搭配 INT8 量化、輕量化 VAE 解碼器(MG‑LightVAE)以及 GPU 加速的記憶檢索,單個 5B 模型可在 8 張 GPU 上達到 720p @ 40 FPS,而 2×14B 模型則在更長時間和更複雜場景下表現更好。
Categories: 影像模型, 視頻模型, 開源


daVinci‑MagiHuman 單流數字人

daVinci‑MagiHuman 是一個 15B 參數、專注數字人(human‑centric)的文本到視頻生成模型,同時支援視頻與音頻 token 的聯合生成,主打「人類主體」表現力。daVinci‑MagiHuman 由 SII‑GAIR Lab(中國上海人工智慧實驗室 SII‑GAIR)與 Sand.ai 這兩方聯合開發

  • 單流 Transformer — 一個統一的 150 億參數、40 層的 Transformer,僅透過自註意力機制即可聯合處理文字、視訊和音訊。無需交叉注意力,也無需多流處理。
  • 🎭卓越的以人為本的品質— 富有表現力的面部表情、自然的語音表達協調、逼真的身體動作以及準確的音視頻同步。
  • 🌍多語言— 支援中文(國語和粵語)、英語、日語、韓語、德語和法語。
  • 超快推理-在單一 H100 GPU 上,可在2 秒內產生 5 秒 256p 視頻,在38 秒內產生5 秒 1080p 影片。
  • 🏆最先進的結果—在超過 2,000 次的成對人工評估中,與 Ovi 1.1 的勝率達到80.0% ,與 LTX 2.3 的勝率達到60.9% 。
  • 📦完全開源— 我們發布完整的模型堆疊:基礎模型、精煉模型、超解析度模型和推理程式碼。
Categories: 數字人, 模型, 視頻模型, 開源

Helios – 實時生成分鐘級長視頻

Helios 是一個 140 億參數(14B)自回歸擴散模型(autoregressive diffusion model),設計成可以在 單張 NVIDIA H100 GPU 上以約 19.5 FPS 實時生成分鐘級長視頻。它原生支援 Text‑to‑Video(T2V)、Image‑to‑Video(I2V)和 Video‑to‑Video(V2V) 三種任務,並有一個統一的輸入表示。

在維持 14B 規模的前提下,不使用 KV‑cache、稀疏/線性注意力、量化等常見加速技術,單卡就能跑到 19.5 FPS。

  • Helios‑Base(高質量)
  • Helios‑Mid(中間 checkpoint)
  • Helios‑Distilled(極端高效、對消費卡更友好),有 YouTuber 甚至在 RTX 4090 級別上跑 33 幀每段、分鐘級長視頻。
Helios - A 14B ByteDance Real-Time Long Video Generation Model Run Locally.

Categories: 字節跳動, 視頻模型, 開源

Utonia – Point Cloud 的單一編碼器

Utonia 是一個統一的自監督點雲 Transformer 編碼器,目標是「一個編碼器適用於所有點雲域」,也就是在不同感測器與場景(遙感、戶外 LiDAR、室內 RGB‑D、物件級 CAD 模型、單目視頻轉 3D 點雲等)上共享同一個 backbone,讓預訓練特徵能跨域遷移。

Utonia 在大量異構點雲資料上 jointly 預訓練一個單一的 Point Transformer V3 編碼器,不依賴 domain‑specific 的頭或模組,只用一個 shared representation space。

跨域資料混合
研究中混合了遙感(衛星/航拍)、自駕車用 LiDAR、室內 RGB‑D 掃描、CAD 物件模型、以及從 RGB 影片 lift 上來的點雲,一起放入 masked autoencoding 式的自監督訓練流程。

Categories: 香港中文大學, 影像模型, 影像處理, 開源

Page 4 of 23
1 2 3 4 5 6 23