開源 – Page 4 – InferNews

四個提升作業效能的開源工具

You NEED to try these open-source AI projects right now...

Watch this video on YouTube

GStack 由 Y Combinator 總裁 Garry Tan 開發，已獲近 5 萬 GitHub 星標，提供 20+ 角色工具如 CEO 審核、工程經理和 QA。
安裝簡單，只需在 Claude Code 貼上指令，即可透過 /gstack 命令啟用辦公室會議、程式碼審核等流程。
適合 solo 開發者模擬矽谷團隊，基於 Tan 的創業經驗。

NousResearch 的 Hermes Agent 類似 OpenClaw，已有 12k+ 星標，具自改善迴圈，能從經驗產生技能並優化。
支援終端介面、多聊天 app（如 Telegram）、並行子代理和記憶遷移。
強調自主學習，適合想探索 OpenClaw 替代者的你。

Obra 的 Superpowers 插件給 Claude Code 超能力，已超 11 萬星標，聚焦 TDD（測試驅動開發）和工作樹平行化。
安裝只需 claude plugin install superpowers，即用 /s brainstorm 等命令規劃、執行和審核程式碼。
強調從腦storm 到部署的全流程，適合開發導向使用者。

Paperclip 旨在打造零人力公司，33k+ 星標，使用 Node.js 和 React UI 協調 AI 代理團隊追蹤目標、成本和工單。
如 CEO、CTO 等角色自動處理 issue，支援心跳排程和審計日誌，但作者警告不易立即獲利。
未來將加知識庫和 OpenClaw 整合，適合實驗自主業務。

Categories: 新聞, 開源

Pulse of Motion 讓影片更自然

Pulse of Motion 讓你在觀看影片時「感覺更舒服」，但看不到技術本身。目前很多生成影片（如 SVD、Pika 等）的動作時間常常跑偏，作者稱這種現象為 chronometric hallucination，也就是「看起來平滑但實際上時間尺度錯亂」。

現在很多生成模型會「時間錯亂」角色走路太快／太慢；手勢、動作和音效不搭；看起來動作很順，但「感覺怪怪的」。這套技術可以用來：調整生成模型的輸出（例如：自動快慢放或重採樣），讓影片「更像真實拍攝」，看起來更舒服。自動檢測影片的 真實時間尺度；

Categories: 影像處理, 視頻模型, 開源, 中國

LumosX 精準個性化數字人

LumosX 是一個針對 個性化多主體視訊生成（personalized multi‑subject video generation）提出的框架，重點在：

讓每個「身份」（例如不同人物）和其對應的屬性（年齡、外貌、服飾、動作等）有明確、精準的對齊；
用關係性注意力機制來強化「組內一致性」（同一組人物屬性一致）和「組間區分度」，減少多主體時的屬性糾纏（attribute entanglement）。

簡單說：一樣可以做 text‑to‑video + ID conditioning，但對多個人物、每個人對應什麼屬性，控制得更精細、更一致「可控視訊生成」與「多主體個性化內容」場景，例如多角色劇本生成、廣告、虛擬試衣、多角色 VTuber 相容演出等。

Categories: 阿里巴巴, 數字人, 視頻模型, 開源

TRIBE v2 (Meta) 全腦神經活動資訊

TRIBE v2（Trimodal Brain Encoder）是一個多模態基礎模型，用於輸入一段影片、音訊或文字，然後輸出一個對應的「全腦神經活動圖」（約 7 萬個體素的 fMRI‑style 活動預測）。
它在 Algonauts 2025 獲獎架構上進一步提升，準確度約是上一代 2–3 倍，空間解析度提高約 70 倍，並支援跨受試者、跨語言、跨任務的 zero‑shot 預測。

可以當成一個「神經科學可視化工具」，用來研究。例如內容設計（影片、廣告、UI）如何觸發大腦特定區域（視覺皮層、語言區等）。又或者多模態 embedding 是否真的對齊人類大腦的處理路徑。

若你在做 RAG、多模態搜尋或 Brain‑AI 類實驗，可以拿這個 demo 來：比較不同 prompt／多模態輸入對「腦激活圖」的差異（例如：同一段文字用不同語氣、圖片風格重製）。

Categories: Medical醫學, 視覺模型, 開源, Meta

PrismAudio 視訊立體聲模型框架

PrismAudio 是一個把視訊畫面轉成立體聲（stereo）音訊的 AI 模型框架，目標是在四個維度上同時優化：

語義合理性（Semantic）
音視同步性（Temporal synchrony）
音質美感（Aesthetic quality）
空間準確度（Spatial accuracy）

作者的關鍵點是：現有模型通常把這些目標混在一個損失函數裡，會造成「目標互相干擾」（objective entanglement），而 PrismAudio 用 分解式 Chain‑of‑Thought（CoT）推理＋多維度強化學習（RL） 來避免這個問題。

Categories: 聲效, 視覺模型, 開源

Matrix-Game 3.0 記憶增強世界模型

Matrix‑Game 3.0 是一個基於 Diffusion Transformer（DiT）的記憶增強世界模型，目標是做 720p 解析度、可達 40 FPS 的實時長序列互動視訊生成，用於第一人稱、第三人稱等遊戲／虛擬世界場景。它能根據滑鼠＋鍵盤輸入一邊生成新畫面，一邊維持場景長時間的一致性（例如分鐘級序列），並可擴展到 2×14B 甚至 28B MoE 規模。

三大技術層面

Data Engine
- 用 Unreal Engine 生成合成資料，加上對 AAA 遊戲的大規模自動錄製、與真實影片資料增強，產出高品質的 Video–Pose–Action–Prompt 四元資料。
- 這種「工業級無限資料機器」讓模型能學習大量互動式行為與視角變化。
記憶增強模型（Memory‑augmented DiT）
- 基礎模型是一個統一的雙向 DiT，把過去的潛在畫面、當前加噪畫面與動作輸入（滑鼠／鍵盤）放在同一個架構裡。
- 用 residual error buffer 收集預測殘差，再以「error injection」把誤差加回訓練，讓模型學會在長時間序列上自我修正，增強長時一致性。
- 加入 camera‑aware memory retrieval，只撿選視角相關的歷史畫面作為記憶條件，用 Plücker 編碼處理幾何關係，並用一個「sink latent」（第一幀）錨定場景整體風格。
高效實時推論（Distillation + Quantization）
- 採用多段式的自生成 few‑step distillation（基於 Distribution Matching Distillation），讓「學生模型」在訓練時就模擬實際的少量步數 autoregressive 推論流程，做到訓練與推論對齊。
- 搭配 INT8 量化、輕量化 VAE 解碼器（MG‑LightVAE）以及 GPU 加速的記憶檢索，單個 5B 模型可在 8 張 GPU 上達到 720p @ 40 FPS，而 2×14B 模型則在更長時間和更複雜場景下表現更好。

Categories: 影像模型, 視頻模型, 開源

RealRestorer – 通用真實世界影像復原

RealRestorer 是一個開源、通用型實拍圖像修復模型，目標是統一處理多種真實世界降級（blur、rain、low‑light、noise、haze 等），同時盡量保留原始場景結構與細節。

Categories: 影像模型, 影像處理, 開源

daVinci‑MagiHuman 單流數字人

daVinci‑MagiHuman 是一個 15B 參數、專注數字人（human‑centric）的文本到視頻生成模型，同時支援視頻與音頻 token 的聯合生成，主打「人類主體」表現力。daVinci‑MagiHuman 由 SII‑GAIR Lab（中國上海人工智慧實驗室 SII‑GAIR）與 Sand.ai 這兩方聯合開發

單流 Transformer — 一個統一的 150 億參數、40 層的 Transformer，僅透過自註意力機制即可聯合處理文字、視訊和音訊。無需交叉注意力，也無需多流處理。
🎭卓越的以人為本的品質— 富有表現力的面部表情、自然的語音表達協調、逼真的身體動作以及準確的音視頻同步。
🌍多語言— 支援中文（國語和粵語）、英語、日語、韓語、德語和法語。
⚡超快推理－在單一 H100 GPU 上，可在2 秒內產生 5 秒 256p 視頻，在38 秒內產生5 秒 1080p 影片。
🏆最先進的結果—在超過 2,000 次的成對人工評估中，與 Ovi 1.1 的勝率達到80.0% ，與 LTX 2.3 的勝率達到60.9% 。
📦完全開源— 我們發布完整的模型堆疊：基礎模型、精煉模型、超解析度模型和推理程式碼。

Categories: 數字人, 模型, 視頻模型, 開源

Helios – 實時生成分鐘級長視頻

Helios 是一個 140 億參數（14B）自回歸擴散模型（autoregressive diffusion model），設計成可以在單張 NVIDIA H100 GPU 上以約 19.5 FPS 實時生成分鐘級長視頻。它原生支援 Text‑to‑Video（T2V）、Image‑to‑Video（I2V）和 Video‑to‑Video（V2V）三種任務，並有一個統一的輸入表示。

在維持 14B 規模的前提下，不使用 KV‑cache、稀疏/線性注意力、量化等常見加速技術，單卡就能跑到 19.5 FPS。

Helios‑Base（高質量）
Helios‑Mid（中間 checkpoint）
Helios‑Distilled（極端高效、對消費卡更友好），有 YouTuber 甚至在 RTX 4090 級別上跑 33 幀每段、分鐘級長視頻。

Helios - A 14B ByteDance Real-Time Long Video Generation Model Run Locally.

Watch this video on YouTube

Categories: 字節跳動, 視頻模型, 開源

Utonia – Point Cloud 的單一編碼器

Utonia 是一個統一的自監督點雲 Transformer 編碼器，目標是「一個編碼器適用於所有點雲域」，也就是在不同感測器與場景（遙感、戶外 LiDAR、室內 RGB‑D、物件級 CAD 模型、單目視頻轉 3D 點雲等）上共享同一個 backbone，讓預訓練特徵能跨域遷移。

Utonia 在大量異構點雲資料上 jointly 預訓練一個單一的 Point Transformer V3 編碼器，不依賴 domain‑specific 的頭或模組，只用一個 shared representation space。

跨域資料混合：
研究中混合了遙感（衛星/航拍）、自駕車用 LiDAR、室內 RGB‑D 掃描、CAD 物件模型、以及從 RGB 影片 lift 上來的點雲，一起放入 masked autoencoding 式的自監督訓練流程。

Categories: 香港中文大學, 影像模型, 影像處理, 開源

Page 4 of 23

« Previous 1 2 3 4 5 6 … 23 Next »