框架 Archives - Page 6 of 13

Surflo 用全域狀態重建一致 3D 表面

2026 年 6 月 14 日

Surflo: a single coherent surface decoded from one global state

Surflo 是一個由多張未對位影像重建 3D 表面的項目。它先把數量可變的輸入視角整合成單一 global latent state，再用 flow-matching ODE 逐點生成表面，目標是避免傳統每個視角各自輸出、最後難以拼合的問題。

這個項目的核心做法，是把 N 張影像壓縮成固定大小的全域狀態 z，當中只有 K=128 tokens，之後再按需要解碼任意數量的表面點。因為每個點可獨立生成，同一次編碼之後便能輸出不同解析度，最高提到可處理 M up to 10^6 oriented points。

為了令獨立生成的點仍然保持同一個連貫表面，Surflo 加入 communication guidance 機制，利用 shared rendering loss 在 ODE 積分過程中協調鄰近點。系統會把點轉成 3D Gaussians，再用 Gaussian Splatting 渲染，藉此減少局部表面互相矛盾的情況。

Surflo: Consistent 3D Surface Flow from a Global State

Watch this video on YouTube

重點項目：
– 支援 variable number of unposed images，不要求固定視角數量
– 以單一 global state 取代 per-view tokens 堆疊，控制表示大小
– 可按需要解碼任意表面解析度，不必重新編碼
– 在 8 個 benchmarks、2 到 32 views 條件下報稱達到 state of the art performance
– 另提供真實場景資料集，約 10.5K DL3DV scenes，包含 full scene meshes

這類項目較適合做多視角 3D 重建、場景數碼化，或者需要由少量到多量視角靈活輸入的研究工作。文中亦點名對比現代 feed-forward 3D 模型如 VGGT(https://huggingface.co/facebook/VGGT-1B)、DUSt3R、DepthAnything-3；若你關心的是如何由多張相片穩定得到同一個完整表面，Surflo 的全域狀態設計值得留意。

模型列表：VGGT(https://huggingface.co/facebook/VGGT-1B)、DUSt3R、DepthAnything-3。

項目： https://anttwo.github.io/surflo/

Categories: 開源, Agentic, 3D, Meta, 框架

graphify：把雜亂資料變成可查詢知識圖譜

2026 年 6 月 14 日

graphify 是一個給 AI coding assistant 用的 skill，能把你的 codebase、文件、PDF、圖片、影片轉成可查詢的 knowledge graph。

它支援多種 AI 工具與 IDE，包括 Claude Code、Codex、Cursor、Gemini CLI、OpenCode、OpenClaw 等。

它較有新意的地方，在於 fully multimodal 與持久化設計同時出現。graphify 會用 Claude vision 從圖片、白板相片、示意圖抽取概念，再跟文字與程式碼內容接起來；同時用 SHA256 cache 只重跑變更過的檔案，令更新流程不會每次由零開始。

Graphify: Turn Your Codebase into a Queryable Knowledge Graph for Claude Code

Watch this video on YouTube

支援 code、PDF、markdown、screenshots、diagrams、whiteboard photos 等多種輸入
輸出不只一種，包含互動圖譜、Obsidian vault、wiki 頁面與報告檔
官方描述提到每次查詢可比直接讀原始檔案減少 71.5x tokens
提供 --update 與 --mode deep，適合持續整理變動中的資料集

這個項目較適合幾類人：長期維護大型 codebase 的開發者、要整理研究材料的人、會把文件與截圖混在一起存檔的知識工作者。若你的資料本來就很少、結構清楚，它的優勢未必會完全發揮；但對資訊來源分散、跨格式混雜的情境，graphify 顯得相當對症。

性能資料目前公開重點以 token 節省為主，屬於效率導向的訊號，不等於完整基準測試。相關技術與依賴可直接見到 Claude Code、Claude vision、Obsidian，以及知識圖譜輸出流程；若你想為 AI coding assistant 建立可追蹤、可累積的內容索引，這個項目有明顯可試價值。

支援工具表

工具 / 平台	安裝或啟用指令
Claude Code	`graphify install`
CodeBuddy	`graphify install --platform codebuddy`
Codex	`graphify install --platform codex`
OpenCode	`graphify install --platform opencode`
Kilo Code	`graphify install --platform kilo`
GitHub Copilot CLI	`graphify install --platform copilot`
VS Code Copilot Chat	`graphify vscode install`
Aider	`graphify install --platform aider`
OpenClaw	`graphify install --platform claw`
Factory Droid	`graphify install --platform droid`
Trae	`graphify install --platform trae`
Trae CN	`graphify install --platform trae-cn`
Gemini CLI	`graphify install --platform gemini`
Hermes	`graphify install --platform hermes`
Kimi Code	`graphify install --platform kimi`
Amp	`graphify amp install`
Kiro IDE/CLI	`graphify kiro install`
Pi coding agent	`graphify install --platform pi`
Cursor	`graphify cursor install`
Devin CLI	`graphify devin install`
Google Antigravity	`graphify antigravity install`

GitHub： https://github.com/safishamsi/graphify

Categories: 開源, Agentic, 框架

WeaveBench：測試 CUA 真本事的基準

2026 年 6 月 13 日

Click to watch: an agent managing a RabbitMQ dead-letter-queue topology end-to-end

WeaveBench 是一個 benchmark 基準項目，聚焦測試 Computer-use agents（CUAs）在真實桌面環境中，能否把 GUI 點擊、shell 指令與程式碼編修串成同一條工作流程。它處理的不是單一步驟準確率，而是長流程、多介面協作這類更接近日常工作的問題。

這個項目的判分方式比常見的「有沒有生成某個檔案」嚴格得多。它使用 trajectory-aware Agent-as-Judge，會閱讀 chat trace、交付物，並按條款提供證據；論文亦指出，只看最終結果會高估代理表現，這點對研究 CUAs 的人很有參考價值。

如果想先了解它怎樣運作，可以先看離線 demo，直接觀察 score.json、judge model 回應和逐項證據，再決定是否下載完整資料集與 qcow2 執行環境。完整流程需要 Linux、KVM、Docker 及相當多記憶體與磁碟空間，較適合研究團隊、模型評測人員，或正在建構代理系統的工程師。

114 個長流程任務，涵蓋 8 個工作領域
每個任務都要求 GUI 與 CLI/code 交替操作
最佳公開結果為 41.2% PassRate，顯示難度仍然很高
提供 OSWorld hybrid-scoring experiment，可對照不同評分與執行框架
資料集、runtime 與 qcow2 已放在 🤗 wanlilll/WeaveBench

相關模型與組合方面，公開結果包括 Claude Opus 4.7 + Claude Code、Claude Opus 4.7 + OpenClaw、GPT-5.5 + Codex CLI、GPT-5.5 + OpenClaw、GPT-5.4 + OpenClaw，以及 Gemini 3.1 Pro + OpenClaw。若你關心代理是否真的懂得跨介面完成工作，而不是只會在單一測試集刷分，這個項目很有研究價值。

GitHub： https://github.com/weavebench/WeaveBench

項目： https://weavebench.github.io/

Categories: 開源, 微軟, 清華大學, 框架

ARM：把生圖與修圖收進同一模型

2026 年 6 月 11 日

ARM 是一個 AutoRegressive Large Multimodal Model（ARM）類型的多模態模型，把圖像轉成離散 visual tokens，再以同一套 next-token prediction 處理理解、text-to-image 和指令式編輯，目標是把三種能力收進單一流程。

它的核心新意，是用 shared visual token space 連接看圖、生成與修圖，再以純 autoregressive multimodal modeling 處理交錯的文字與圖像 tokens。對一般讀者來說，可理解成「把圖片也變成語言模型可續寫的內容」。

• 7B 規模，重點在統一表示
• reinforcement learning（RL）結合 preference optimization
• WISE overall 由 0.50 升至 0.56
• GEdit-Bench-EN overall 由 5.75 升至 6.68

現階段較適合先讀論文和 benchmark。儲存庫節錄未見完整安裝、推理或權重說明，因此目前看來更像研究項目，不一定適合立即部署。

如果你關注 Large Multimodal Models（LMMs）、image editing，或想比較 unified autoregressive models，這個項目有參考價值。可對照的相關模型路線，包括 unified autoregressive models 與主流 image generation systems；論文亦提到它在 GenEval、DPG、WISE 具競爭力。

GitHub： https://github.com/wdrink/ARM

Paper： https://arxiv.org/pdf/2606.11188

Categories: 開源, 字節跳動, 影像處理, 模型, 框架

SCAIL-2 把動畫角色控制再推前一步

2026 年 6 月 11 日

SCAIL-2 是一個用於 End-to-End Character Animation 的開源模型，重點是把驅動影片的視覺資訊直接送入模型，減少依賴 skeleton、mask 這類中介表示。它要處理的問題很明確：傳統角色動畫控制在複雜動作、多角色互動、跨角色替換時，容易因中介資訊過少或含糊而失真。

這項目在於把多種角色動畫子任務合併成同一套流程，並以 Unified Motion Transfer Interface、in-context mask conditioning 與 mode-specific RoPE 作統一控制。根據公開說明，模型還利用 MotionPair-60K 這類合成動作配對資料訓練，並支援 cross-identity replacement、multi-character animation，甚至 animal-driving 與 mesh-based control 這些 zero-shot 能力。

可調參數包括 denoising steps、flow-matching scheduler shift、classifier-free guidance scale、solver，以及是否啟用 offload model；這些設定會影響生成速度、顆粒感與顯示資源負擔，較適合已有 GPU 環境、想比較不同動畫控制效果的人。

用模型來把驅動動作轉到指定角色身上
不再把 skeleton map 當核心依據，目標是減少資訊流失
已列出相關模型：SCAIL-Preview、Wan-Animate、MoCha、SAM3D-Body
可處理多角色、角色替換、跨身份動畫等場景
推論可調整 steps、guide scale、solver 等參數

如果你是做 AI 影片、虛擬角色內容、動畫研究，或者正留意角色動作遷移技術，SCAIL-2 有一定參考價值。至於效能表現，項目明確表示它在多項任務上優於既有 state-of-the-art approaches。

GitHub： https://github.com/zai-org/SCAIL-2

項目： https://teal024.github.io/SCAIL-2/

Categories: 開源, 影像處理, 模型, 視覺模型, 視頻模型, 框架

Bernini：影片生成與編輯的新路線

2026 年 6 月 10 日

Bernini 是一個影片生成與編輯框架，核心是把 MLLM-based semantic planner 與 DiT-based renderer 組合起來，處理一般影片擴散模型常見的內容漂移、指令跟從不穩定，以及長片段規劃鬆散等問題。從定位看，它不是單純再堆大模型，而是先做語意規劃，再交由生成器落實畫面。

這個項目的關鍵想法，在於「Latent Semantic Planning」：先在潛在空間安排語意，再做 video diffusion。對非研究背景讀者來說，可以理解為先寫分鏡草稿，再逐格畫面化，這比直接由文字一步到位生成影片，更有機會保持故事連貫和編輯意圖一致。

如果想試，較合理的切入點是影片編輯任務，例如風格轉換、字幕或水印移除、局部修改，再觀察輸出有沒有跟足指令。倉庫列出的環境偏高階，建議準備 CUDA 12.4、Python 3.11.2，以及 torch==2.5.1+cu124、diffusers==0.35.2、accelerate==0.34.2、transformers==4.57.3；若有 H100、H800、H200 可配合 FlashAttention-3，其他 CUDA GPU 則退回 FlashAttention-2 或 PyTorch SDPA。

Bernini 在 video editing 的表現進入部分主流 closed-source commercial models 的第一梯隊，評分來自其自建 arena，以人工盲選、Bradley-Terry score 及 pairwise win-rate matrix 彙整。這類結果有參考價值，但暫時主要反映編輯場景；若你關心更複雜的人物生成，官方也提到 1.3B 的 Bernini-R 在簡單任務接近 14B 版本，面對複雜任務仍有差距。

Bernini: Latent Semantic Planning for Video Diffusion

Watch this video on YouTube

核心組成是 MLLM-based semantic planner + DiT-based renderer
已公開 Bernini-R 權重，包含 1.3B 版本
適合研究影片生成、影片編輯流程，或想比較規劃式生成方法的人
硬件門檻偏高，Multi-GPU sequence parallel 亦需要 Open-VeOmni
相關模型可先留意 Bernini-R-1.3B-Diffusers，以及文中提到的 14B 變體

整體來看，Bernini 最有價值的地方不是「再一個影片模型」，而是把規劃與渲染拆開處理，令可控性成為主要賣點。若你想找可直接在普通電腦輕鬆跑的項目，它未必合適；但如果你重視研究方向、編輯質素與系統設計，這個項目相當值得細看。

GitHub： https://github.com/bytedance/Bernini

Categories: 開源, 字節跳動, 影像模型, 影像處理, 模型, 視覺模型, 視頻模型, 語音, 框架

Data2Story：把數據變成可查證故事

2026 年 6 月 10 日

Data2Story turns a dataset into a reproducible multimodal story

Data2Story 是一個 agent skill 類型的項目，核心目標是把原始資料整理成可查證的多模態故事，處理的不只是「寫得像文章」，而是連圖片、敘事與證據對應都放進同一流程。從儲存庫描述看，它較接近給 AI 代理協作的工作流，而不是單一模型。

它的用法算是明確：先準備資料集，再叫 Claude Code、Codex 或其他代理依照 skills/SKILL.md 執行整個 Data2Story pipeline。完成後會產出 index.html 文章頁，以及 viewer.html 證據檢視頁，適合先用官方網站展示的案例感受效果，再決定是否放進自己的資料敘事流程。

這個項目較有新意的地方，在於它把 detective、analyst、editor、designer、programmer、auditor、inspector 這些角色拆開處理，像一個小型編輯部協作。另一個關鍵是「verifiable」不是口號，viewer.html 強調每句內容可追溯來源，對新聞、研究整理或企業報告這類重視可信度的場景更有價值。

支援 Claude Code、Codex 及其他 coding agent
可把資料轉成多模態故事，而非只輸出文字
會產生獨立版本項目資料夾，方便保留不同結果
提供 evidence viewer，讓句子對應資料來源

如果你是資料記者、研究人員、內容團隊，或者想把表格與資料故事化，這個項目有不錯的參考價值。至於效能與量化評測，儲存庫首頁未見具體指標；現階段較適合先看網站範例與論文，再判斷它在你的資料規模、敘事要求與媒體生成品質上是否合用。相關模型與服務層面，項目明確提到可配合 Claude Code、Codex、Cursor、Gemini CLI，媒體生成預設經 OpenRouter 處理。

GitHub： https://github.com/QinghongLin/data2story-skill

Paper： https://arxiv.org/pdf/2606.11176

Categories: 開源, Agentic, AI productions, 框架

Agents’ Last Exam 評測框架：當 AI 代理考專業試

2026 年 6 月 10 日

這個開源項目是一套AI 代理人評測基準，專門用來量度 Computer-use agents（CUAs）在長時間、跨步驟的真實工作流程中表現如何。它的設計目標是讓業界能用同一把尺，去比較 Claude Code、Codex、Openclaw 等不同代理人在真實場景下的能力差距，而不再停留在簡單的問答測試。

ALE 與坊間常見的排行榜最大分別，在於它把任務對齊到美國 O*NET / SOC 2018 職業分類，涵蓋 55 個非實體行業，例如動畫、工程製造、建築設計與神經影像分析等。基準的題目並非由研究員憑空設計，而是由 300 多位業界專家收集並驗證，因此每一條任務都貼近真實工作場景，而且配有隱藏參考答案與確定性評分機制，杜絕模型「走旁門左道」蒙混過關。

在技術架構上，評測框架由三部分組成：代理執行環境（harness） 負責驅動底層基礎模型；虛擬沙箱（sandbox） 模擬真實作業系統環境；任務單元（task） 則以可執行方式描述一項專業工作。目前公開的 150 條任務屬於 1,500 題以上語料庫的子集，整個項目正在朝 5,000 題目標推進。評測時，框架會在雲端建立沙箱、讓代理人完成任務，再以確定性評分器評分，過程全自動化。

測試前需要先在 Google Cloud 完成一次性設定（約 10 分鐘，現有 $300 美元免費額度足以應付），之後即可在自家模型上執行 hello-world 任務以熟悉流程，進一步換成正式任務。這個項目適合 AI 代理人開發者、企業採購團隊、學術研究者，以及任何想用客觀分數比較不同 CUA 表現的人。

代理評測基準：專為 Computer-use agents 設計的真實工作流程測試。
行業覆蓋廣：對齊 O*NET / SOC 2018，涵蓋 55 個行業，公開 150 條任務。
結果可驗證：採用隱藏參考答案與確定性評分器，公平且可重現。
雲端沙箱環境：在 Google Cloud 內建立虛擬機重現真實作業流程。
社群共創：由柏克萊 RDI 與 300 多位業界專家共同維護。

GitHub： https://github.com/rdi-berkeley/agents-last-exam

項目： https://agents-last-exam.org/

Categories: 開源, Agentic, 框架

OmniCap-IF：讓影片描述模型聽懂你的格式要求

2026 年 6 月 10 日

現時不少多模態模型可以為影片自動生成字幕或描述，但當用戶要求「用 Markdown 表格整理時間點」或「特別提及背景音樂」等具體指示時，模型往往只輸出一般化文字。OmniCap-IF 正正針對這個落差，研究模型能否在理解畫面與聲音之餘，亦嚴格跟隨用戶指定的結構、風格、時間、視覺、音訊與音視覺等多重限制。

這個項目由南京大學 NJU-LINK 團隊與快手 Kling 團隊合作推出，包含三部分：用作評估的 OmniCap-IF Benchmark、用作訓練的 OmniCap-IF-54K 數據集，以及以此微調出來的 OmniCaptioner-IF 模型系列。基準涵蓋 480 段影片共 1,920 條樣本，橫跨 50 種約束類型，平均片長約 54.6 秒，並以清單式評分機制同時檢查格式與內容。

對研發人員而言，最直接的做法是透過 Hugging Face 下載預訓練模型（提供 3B 與 7B 兩個版本），再以 Python 載入影片並輸入帶有格式要求的指令。模型會根據指令產生相應的影片描述，研究者便可與基準結果比較，判斷自家系統在指令遵從度上的強弱。

這個項目的創新之處在於雙軌評分機制：一方面驗證輸出是否符合結構規定（例如段落、表格、時間戳），另一方面把內容拆成視覺、音訊與音視覺三個維度逐一核對，並加入時間定位。這種「分項打分」比單純的整體相似度更能診斷模型失誤的位置。配套的 54K 訓練集亦採用了「內容與格式分離生成」的策略，令模型在複雜格式下仍能保持內容準確。

適合從事影片理解、字幕生成、內容審核或需要可控 AI 輸出的團隊。

重點摘要：

OmniCap-IF Benchmark：1,920 條樣本、50 種約束的影片描述指令遵從評估基準。
OmniCap-IF-54K：54,000 條影片—指令—回應三元組的訓練數據集。
OmniCaptioner-IF：3B 與 7B 兩款模型，可從 Hugging Face 直接下載。
雙軌評分機制：分開檢查結構格式與視覺／音訊／音視覺內容。
時間定位能力：把時間戳準確度納入評分，支援需要時序分析的應用。

GitHub： https://github.com/NJU-LINK/omnicap-if

項目： https://nju-link.github.io/OmniCap-IF/

Categories: 開源, 視覺模型, 框架

OASIS：模擬訓練、部署人形機器人框架

2026 年 6 月 10 日

OASIS（Simulation Data Collection to Real-World Humanoid Loco-Manipulation）由中國電信 TeleAI 等機構開源，目標是讓人形機器人的「移動＋操作」（loco-manipulation）策略，靠模擬數據訓練後就能直接搬到 Unitree G1 真機執行，省去費時的真機遙操作。

整個流程有三個核心階段。先用 3D 生成模型把真實物品影像重建為可用的 3D 資產；接著透過 PICO VR 頭盔搭配 Isaac Lab v2.1.0 進行沉浸式遙操作收集示範數據，過程中 PICO 會即時接收頭部相機畫面，X、Y、A、B 鍵分別負責錄影、停止、重置、視角切換，板機與握把可控制夾爪開合；最後在 replay 階段加入多樣化的光照與環境隨機化，並訓練層次化視覺運動策略（hierarchical visuomotor policy）。

論文結果指出，在零樣本（zero-shot）部署下，純模擬數據訓練的策略在大多數任務的成功率，反而高於用真機遙操作數據訓練的版本，主要原因是模擬能涵蓋真機難以拍攝的光照與環境變化。團隊也展示了一鍵重啟的故障恢復機制，解決真機跌倒後需要人工搬運、重置場景的痛點。

OASIS: From Simulation Data Collection to Real-World Humanoid Loco-Manipulation

Watch this video on YouTube

幾個重點摘要：

項目定位：模擬數據驅動的人形機器人 loco-manipulation 框架，並非通用 LLM 或多模態模型
創新處：以 3D 生成模型重建資產，加上後處理階段的 domain randomization，解決模擬到真機的差距
相關模型／組件：Unitree G1 人形機器人、Isaac Lab 模擬器、PICO VR、PICO SDK、GMR、XRoboToolkit
硬體要求：PC 必須安裝 Ubuntu 22.04，PICO 須與 PC 處於同一網段
適用場景：研究 humanoid 移動操作、想用模擬取代部分真機遙操作成本、Unitree G1 開發者

適合機器人研究團隊、人形機器人開發者，以及想嘗試 sim-to-real 路線的人。不過整套環境對 VR 設備與 Linux 版本要求嚴格，純 Windows 或 Mac 用戶門檻偏高，建議先評估手上硬體是否到位再投入。

GitHub： https://github.com/TeleHuman/OASIS

Paper： https://arxiv.org/pdf/2606.08548

Categories: 開源, Robotic, 框架

Page 6 of 13

« Previous 1 … 4 5 6 7 8 … 13 Next »