Data2Story:把數據變成可查證故事

Data2Story turns a dataset into a reproducible multimodal story

Data2Story 是一個 agent skill 類型的項目,核心目標是把原始資料整理成可查證的多模態故事,處理的不只是「寫得像文章」,而是連圖片、敘事與證據對應都放進同一流程。從儲存庫描述看,它較接近給 AI 代理協作的工作流,而不是單一模型。

它的用法算是明確:先準備資料集,再叫 Claude Code、Codex 或其他代理依照 skills/SKILL.md 執行整個 Data2Story pipeline。完成後會產出 index.html 文章頁,以及 viewer.html 證據檢視頁,適合先用官方網站展示的案例感受效果,再決定是否放進自己的資料敘事流程。

這個項目較有新意的地方,在於它把 detective、analyst、editor、designer、programmer、auditor、inspector 這些角色拆開處理,像一個小型編輯部協作。另一個關鍵是「verifiable」不是口號,viewer.html 強調每句內容可追溯來源,對新聞、研究整理或企業報告這類重視可信度的場景更有價值。

  • 支援 Claude Code、Codex 及其他 coding agent
  • 可把資料轉成多模態故事,而非只輸出文字
  • 會產生獨立版本項目資料夾,方便保留不同結果
  • 提供 evidence viewer,讓句子對應資料來源

如果你是資料記者、研究人員、內容團隊,或者想把表格與資料故事化,這個項目有不錯的參考價值。至於效能與量化評測,儲存庫首頁未見具體指標;現階段較適合先看網站範例與論文,再判斷它在你的資料規模、敘事要求與媒體生成品質上是否合用。相關模型與服務層面,項目明確提到可配合 Claude Code、Codex、Cursor、Gemini CLI,媒體生成預設經 OpenRouter 處理。

GitHub: https://github.com/QinghongLin/data2story-skill

Paper: https://arxiv.org/pdf/2606.11176

Categories: 開源, Agentic, AI productions, 框架

Agents’ Last Exam 評測框架:當 AI 代理考專業試

logo

這個開源項目是一套AI 代理人評測基準,專門用來量度 Computer-use agents(CUAs)在長時間、跨步驟的真實工作流程中表現如何。它的設計目標是讓業界能用同一把尺,去比較 Claude Code、Codex、Openclaw 等不同代理人在真實場景下的能力差距,而不再停留在簡單的問答測試。

ALE 與坊間常見的排行榜最大分別,在於它把任務對齊到美國 O*NET / SOC 2018 職業分類,涵蓋 55 個非實體行業,例如動畫、工程製造、建築設計與神經影像分析等。基準的題目並非由研究員憑空設計,而是由 300 多位業界專家收集並驗證,因此每一條任務都貼近真實工作場景,而且配有隱藏參考答案與確定性評分機制,杜絕模型「走旁門左道」蒙混過關。

在技術架構上,評測框架由三部分組成:代理執行環境(harness) 負責驅動底層基礎模型;虛擬沙箱(sandbox) 模擬真實作業系統環境;任務單元(task) 則以可執行方式描述一項專業工作。目前公開的 150 條任務屬於 1,500 題以上語料庫的子集,整個項目正在朝 5,000 題目標推進。評測時,框架會在雲端建立沙箱、讓代理人完成任務,再以確定性評分器評分,過程全自動化。

測試前需要先在 Google Cloud 完成一次性設定(約 10 分鐘,現有 $300 美元免費額度足以應付),之後即可在自家模型上執行 hello-world 任務以熟悉流程,進一步換成正式任務。這個項目適合 AI 代理人開發者、企業採購團隊、學術研究者,以及任何想用客觀分數比較不同 CUA 表現的人。

  • 代理評測基準:專為 Computer-use agents 設計的真實工作流程測試。
  • 行業覆蓋廣:對齊 O*NET / SOC 2018,涵蓋 55 個行業,公開 150 條任務。
  • 結果可驗證:採用隱藏參考答案與確定性評分器,公平且可重現。
  • 雲端沙箱環境:在 Google Cloud 內建立虛擬機重現真實作業流程。
  • 社群共創:由柏克萊 RDI 與 300 多位業界專家共同維護。

GitHub: https://github.com/rdi-berkeley/agents-last-exam

項目: https://agents-last-exam.org/

Categories: 開源, Agentic, 框架

Gemma 4 12B (QAT 量化感知訓練)

Gemma 4 12B 這波某程度上算是在回應那個「手機級模型和大模型之間,會補一個中階模型」的傳聞。不過真正讓人眼睛一亮的,還是 QAT (Quantization Aware Training,量化感知訓練)真的做上來了。再加上現在也支援 MTP,Gemma 4 這代在本地模型的能力和效能上,整體都往前推了不少。總算看到除了 Qwen 之外,其他實驗室開始打出像樣的競爭了;最近的 local AI,真的很像一直都是 Qwen 在 carry。

Google Just Found a Loophole in AI Hardware Limitations
Categories: 模型

LWS:聽寫說三通道:語音模型也能即時寫出程式碼?

Listen-Write-Speak tri-channel legend

一般語音大型語言模型只能說出口頭回應,許多文字擅長的工作(例如編寫程式、條列分析、逐步推理)在即時對話中往往被犧牲。Listen-Write-Speak(LWS)正是針對這個瓶頸而設計,它讓單一自回歸大型語言模型同時處理三個通道:持續聆聽使用者音訊、即時生成可見的文字、並行輸出語音回應,三者共享同一個因果注意力脈絡。

這是模型、框架,還是什麼? LWS 是一個完整的語音模型項目,包含推理服務、Triplex/LWS runtime、前端展示以及測試,並非單純的網頁展示殼層。它建基於 OpenBMB 的 MiniCPM-o-4_5,再透過 Token Schema 機制在不改動模型架構的前提下,把文字輸出提升為第一公民的通道。

創新之處在於打破了「文字只是隱藏中間狀態」的慣例:寫入螢幕的內容不再只是語音的草稿,而是可被檢視、可被複製、可被審核的正式輸出。這對於需要邊說邊整理思緒的場景特別有幫助,例如教學、編程輔助、會議摘要。

性能與評估方面,項目在 VoiceBench AlpacaEval 達到 4.72 分,書寫與語音一致性為 92.6%,並在 Full-Duplex-Bench 與多語言 URO-Bench 都有穩定表現,顯示三通道並行並未犧牲即時反應。

適合的對象包括研究語音介面的開發者、需要可審核對話紀錄的團隊,以及對全雙工(full-duplex)互動有興趣的 AI 工程師。如想測試,可透過 ModelScope 下載基座模型 OpenBMB/MiniCPM-o-4_5 與 LWS 資產後運行推理服務與前端展示。

重點摘要

  • 三通道並行:聆聽、可見書寫、語音輸出共享一個因果注意力脈絡
  • 文字優先:寫入內容是第一公民輸出,不再是隱藏草稿
  • 無需改架構:透過 Token Schema 在標準自回歸 LLM 上實現
  • 完整開源 runtime:包含推理服務、runtime 與前端,非單純展示
  • 多項基準驗證:在 Full-Duplex-Bench、VoiceBench、URO-Bench 均有報告數據

GitHub: https://github.com/zly-idleness/lws_demo

項目: https://royalzhang.com/project/lws-page/

Categories: 開源, 編程, 語音

OmniCap-IF:讓影片描述模型聽懂你的格式要求

OmniCap-IF evaluation framework

現時不少多模態模型可以為影片自動生成字幕或描述,但當用戶要求「用 Markdown 表格整理時間點」或「特別提及背景音樂」等具體指示時,模型往往只輸出一般化文字。OmniCap-IF 正正針對這個落差,研究模型能否在理解畫面與聲音之餘,亦嚴格跟隨用戶指定的結構、風格、時間、視覺、音訊與音視覺等多重限制。

這個項目由南京大學 NJU-LINK 團隊與快手 Kling 團隊合作推出,包含三部分:用作評估的 OmniCap-IF Benchmark、用作訓練的 OmniCap-IF-54K 數據集,以及以此微調出來的 OmniCaptioner-IF 模型系列。基準涵蓋 480 段影片共 1,920 條樣本,橫跨 50 種約束類型,平均片長約 54.6 秒,並以清單式評分機制同時檢查格式與內容。

對研發人員而言,最直接的做法是透過 Hugging Face 下載預訓練模型(提供 3B 與 7B 兩個版本),再以 Python 載入影片並輸入帶有格式要求的指令。模型會根據指令產生相應的影片描述,研究者便可與基準結果比較,判斷自家系統在指令遵從度上的強弱。

這個項目的創新之處在於雙軌評分機制:一方面驗證輸出是否符合結構規定(例如段落、表格、時間戳),另一方面把內容拆成視覺、音訊與音視覺三個維度逐一核對,並加入時間定位。這種「分項打分」比單純的整體相似度更能診斷模型失誤的位置。配套的 54K 訓練集亦採用了「內容與格式分離生成」的策略,令模型在複雜格式下仍能保持內容準確。

適合從事影片理解、字幕生成、內容審核或需要可控 AI 輸出的團隊。

重點摘要:

  • OmniCap-IF Benchmark:1,920 條樣本、50 種約束的影片描述指令遵從評估基準。
  • OmniCap-IF-54K:54,000 條影片—指令—回應三元組的訓練數據集。
  • OmniCaptioner-IF:3B 與 7B 兩款模型,可從 Hugging Face 直接下載。
  • 雙軌評分機制:分開檢查結構格式與視覺/音訊/音視覺內容。
  • 時間定位能力:把時間戳準確度納入評分,支援需要時序分析的應用。

GitHub: https://github.com/NJU-LINK/omnicap-if

項目: https://nju-link.github.io/OmniCap-IF/

Categories: 開源, 視覺模型, 框架

AHA-WAM:讓機械人決策一致的世界動作模型

PDF

機械人學習操作技能時,往往要把「預測未來畫面」和「即時輸出動作」綁在同一個節奏上,導致規劃與控制互相拉扯。上海交通大學、百度智能雲及上海人工智能實驗室等團隊提出的 AHA-WAM(Asynchronous Horizon-Adaptive World-Action Modeling)項目,就是要把兩者拆開來處理。

核心架構:雙分支異步運作

AHA-WAM 採用兩個 Diffusion Transformer(DiT)分支:低頻的 video DiT 負責長程的視覺世界規劃,並利用滾動式 K/V 記憶體儲存可重用的上下文;高頻的 action DiT 則接收本體感覺訊號,向 video DiT 查詢所需上下文後,即時產生短時閉環動作區塊。兩者各司其職,避免互相拖累。

兩項關鍵訓練與推論機制

  • Horizon-Adaptive Offset Training(水平自適應偏移訓練):讓執行器在規劃器與執行器出現相位差時仍能穩定運作。
  • Observation-Guided Video-Context Routing(觀察引導的視覺上下文路由):根據最新觀察調整快取的規劃上下文,無需重新運行 video DiT 即可對齊當下狀態。

實測表現亮眼

在 RoboTwin 2.0 模擬環境的 50 項雙臂任務中,AHA-WAM 達到 92.80% 平均成功率,且無需任何機械人數據預訓練;在四項原始設定的真實雙手任務中則取得 78.33% 成功率。控制頻率方面,閉環頻率達 24.17Hz;經 ODE 蒸餾的輕量版 AHA-WAM-Flash 更可達 56.95Hz,相比 Fast-WAM 提升約 10.82 倍。

AHA-WAM 適合研究世界模型、機械人操控策略,以及追求高頻閉環控制的開發團隊;其異步架構亦為離線規劃與即時控制分離的設計思路提供新參考。

項目: https://serene-sivy.github.io/aha-wam/

Categories: 開源, 香港大學, 模型, 視頻模型, 世界模型, 百度, 上海人工智慧實驗室

SwiftVR:低清、模糊影片實時修復

SwiftVR qualitative comparison

把低清、模糊的影片即時變成清楚版本,一直是擴散式(diffusion-based)影片修復(VR, Video Restoration)模型的痛點:畫質漂亮,卻慢得跑不動。SwiftVR 是一個以單步生成(one-step generative)路線設計的串流修復框架,主打把高解析度延遲壓到可即時播放的範圍,同時保持擴散模型的視覺品質。

為何能跑得這麼快? 項目作者從兩個瓶頸下手。第一是空間注意力在高解析度下的二次方成本:SwiftVR 引入 MFSWA(Mask-free shifted-window self-attention),把每個空間窗口預先重排成稠密張量,讓每次注意力呼叫都走標準的 SDPA(Scaled Dot-Product Attention)路徑,省掉遮罩、循環位移、稀疏 kernel,吞吐量比全注意力教師模型提升約 1.62×。第二個瓶頸是傳統 3D VAE 解碼太笨重:他們改用一個輕量級的 ReAE(Restoration-aware Autoencoder),與 DiT(Diffusion Transformer)聯合在像素空間微調,讓分塊解碼不再卡住流水線。

數字上多誇張? 同一個權重檔,在單張 H100 上,QHD(2560×1440)24 幀約 31 FPS、4K(3840×2160)約 14 FPS,而所有比較的擴散式 VR baseline 在 4K 都 OOM(Out-of-Memory,記憶體溢位)。換到消費級的單張 RTX 5090,1080p 可達約 26 FPS,達到即時串流門檻,且全程不需重寫 kernel 或重新訓練。所有推理走預設 PyTorch SDPA 與 bfloat16。

誰適合關注? 需要為直播、視訊會議、老片修復平台做即時前處理的研究員與工程師;對 DiT、串流推理、邊緣部署有興趣的開發者;以及想找一個 open-source 起點、把生成式 VR 推上消費硬體的團隊。

與同類相比的相對位置: 對照組 DOVE、SeedVR2-3B、FlashVSR-Tiny 在 QHD 下分別約 0.85、1.39、9.61 FPS,SwiftVR 約 31.32 FPS,速度差距明顯。論文亦宣稱在無參考感知品質指標上具競爭力,但具體分數請以原論文表格為準。

重點摘要:

  • 單步生成路線:放棄多步擴散,以一步生成換取低延遲。
  • MFSWA 注意力:把窗口預聚集成稠密張量,繞過稀疏 kernel。
  • ReAE 解碼器:取代 3D VAE,解放分塊解碼的瓶頸。
  • 因果分塊串流:無滾動 KV、快取即可限制時間軸成本。
  • 消費級硬體可達即時:RTX 5090 1080p 約 26 FPS,H100 一路到 4K。

GitHub: https://github.com/H-oliday/SwiftVR

項目: https://h-oliday.github.io/SwiftVR/

Categories: 開源, 影像處理, 模型, 視頻模型

OASIS:模擬訓練、部署人形機器人框架

Cover

OASIS(Simulation Data Collection to Real-World Humanoid Loco-Manipulation)由中國電信 TeleAI 等機構開源,目標是讓人形機器人的「移動+操作」(loco-manipulation)策略,靠模擬數據訓練後就能直接搬到 Unitree G1 真機執行,省去費時的真機遙操作。

整個流程有三個核心階段。先用 3D 生成模型把真實物品影像重建為可用的 3D 資產;接著透過 PICO VR 頭盔搭配 Isaac Lab v2.1.0 進行沉浸式遙操作收集示範數據,過程中 PICO 會即時接收頭部相機畫面,X、Y、A、B 鍵分別負責錄影、停止、重置、視角切換,板機與握把可控制夾爪開合;最後在 replay 階段加入多樣化的光照與環境隨機化,並訓練層次化視覺運動策略(hierarchical visuomotor policy)。

論文結果指出,在零樣本(zero-shot)部署下,純模擬數據訓練的策略在大多數任務的成功率,反而高於用真機遙操作數據訓練的版本,主要原因是模擬能涵蓋真機難以拍攝的光照與環境變化。團隊也展示了一鍵重啟的故障恢復機制,解決真機跌倒後需要人工搬運、重置場景的痛點。

OASIS: From Simulation Data Collection to Real-World Humanoid Loco-Manipulation

幾個重點摘要:

  • 項目定位:模擬數據驅動的人形機器人 loco-manipulation 框架,並非通用 LLM 或多模態模型
  • 創新處:以 3D 生成模型重建資產,加上後處理階段的 domain randomization,解決模擬到真機的差距
  • 相關模型/組件:Unitree G1 人形機器人、Isaac Lab 模擬器、PICO VR、PICO SDK、GMR、XRoboToolkit
  • 硬體要求:PC 必須安裝 Ubuntu 22.04,PICO 須與 PC 處於同一網段
  • 適用場景:研究 humanoid 移動操作、想用模擬取代部分真機遙操作成本、Unitree G1 開發者

適合機器人研究團隊、人形機器人開發者,以及想嘗試 sim-to-real 路線的人。不過整套環境對 VR 設備與 Linux 版本要求嚴格,純 Windows 或 Mac 用戶門檻偏高,建議先評估手上硬體是否到位再投入。

GitHub: https://github.com/TeleHuman/OASIS

Paper: https://arxiv.org/pdf/2606.08548

Categories: 開源, Robotic, 框架

Bayesian-Agent:讓代理流程愈跑愈準

Bayesian-Agent banner

Bayesian-Agent 是一個 Bayesian self-evolving agent framework,更準確地說,它像是疊在代理系統之上的演化層:把已驗證的 agent trajectories 整理成可重用、帶證據權重的 Skills 與 SOPs。它不改動底層模型參數,而是調整推理階段可見的證據、失敗模式與流程選擇,目標是令代理在有限樣本下也能持續修正決策。

這個項目最實用的地方,在於它不要求你由零重建整套系統。文件顯示它支援三種路線:從零開始跑完整任務、接到既有代理後只修補失敗軌跡、以及在不同 execution harness 之間轉接。對手上已有 agent workflow 的團隊來說,這比重新訓練模型更貼近日常維護需要。

v0.5 加入 first-party native harness,內含自己的 LLM loop、workspace tools、三層記憶與 trajectory capture;同時保留 GenericAgent、mini-swe-agent、Claude Code 等 compatibility backends。這表示項目的重點不是綁死某一套框架,而是用可攜的 trajectory schema 和 adapter boundary,令 Skills 演化結果能跨環境沿用。

  • 核心定位是 Bayesian Skill Evolution,不是單純聊天模型
  • 可把 verified success/failure evidence 轉成可重用 Skills 與 SOPs
  • 支援 full-run evolution、incremental repair、cross-harness adaptation
  • 內建 Bayesian Evidence Model,亦保留 Beta-Bernoulli backend 作 ablations
  • 適合已有代理流程、想減少重試成本與修復失敗任務的團隊

表現方面,公開資訊提到 SOP-Bench、Lifelong AgentBench、RealFin-Bench 的實驗結果,並列出 deepseek-v4-flash 與 deepseek-v4-pro 的 native-harness 測試,但這裡未見完整數字,較穩妥的判斷是:項目已朝可比較、可驗證的方向整理實驗,而不是只停留在概念。若你正管理會反覆執行任務的 agent 項目,尤其需要判斷何時停止、重試或重寫流程,Bayesian-Agent 的價值會比一次性 Demo 更明顯。

GitHub: https://github.com/DataArcTech/Bayesian-Agent

項目: https://dataarctech.github.io/Bayesian-Agent/

Categories: 開源, 香港科技大學, Agentic, 框架

CoVEBench 檢查影片編輯模型的真功夫

近年不少影片編輯模型已能根據文字改片,但一遇到多個要求同時出現,例如一邊改主體、一邊保留背景與動作連貫,表現就容易失準。CoVEBench 是一個診斷型 benchmark,專門檢查 compositional instruction-guided video editing 在複雜條件下是否真的做得到。

這項目的判斷方法比一般「整體看起來差不多」更嚴格。它把表現分成指令完成度、畫質與來源保真度三條線來看,並用細緻 checklist 檢查多個編輯點有沒有同時成立;就算模型個別要求做到幾項,只要無法通過 union criterion,分數仍然不高,這種設計能更早看出模型短板。

如果想了解它的內容,較合適的做法是先看示範頁與資料集規模,再對照評估指標。CoVEBench 收錄 416 段來源影片、626 條多重指令、9,990 個細項檢查點,預設會抽取 10 張等距 frame 做 frame-level metrics;AES、VQR、MSM 則只針對 edited videos 計算,方便把「改得夠不夠」與「有沒有改壞其他地方」分開分析。

  • 核心用途是評測 video editing models,不是直接拿來剪片
  • 主要指標包括 Union Accuracy(UAS)、Instruction Following Score(IFS)、Video Realism Score(VRS)、Semantic Consistency(SEM)
  • 設計重點在細粒度 checklist,而非只看單一總分
  • 結果顯示強模型未必兼顧保留原片內容,編輯力度與保真度存在拉扯
  • 項目亦比較了 joint editing 與 stepwise decomposition 的差異,前者表現更好

從公開資訊看,CoVEBench 的價值在於它把失敗原因拆得夠清楚,適合研究團隊、評測人員,以及想比較閉源與開源方案的人參考。相關模型包括 Wan2.7 與 HappyHorse1.0;即使領先系統在複合編輯上較強,UAS 仍未算高,反映這個領域離穩定可靠還有一段距離。

GitHub: https://github.com/NJU-LINK/CoVEBench

項目: https://nju-link.github.io/CoVEBench/

Categories: 開源, 影像處理, 框架

Page 6 of 96
1 4 5 6 7 8 96