YoCausal 用影片倒播測試模型因果感

YoCausal Logo

YoCausal 是一個用來評測 Video Diffusion Models(VDMs)嘅項目,核心問題好直接:模型見到一段影片時,究竟係理解事件因果,定只係記住畫面常見嘅時間模式。呢個項目用正播同倒播影片比較 denoising loss,若模型對正向影片分數更合理,代表它較能分辨自然因果關係。

它提出兩個關鍵指標:Reverse Surprise Index(RSI)同 Causality Cognition Index(CCI)。RSI 主要睇模型有幾多次偏好正向時間流;CCI 再進一步將「知道時間方向」同「真正理解因果」分開,避免只靠時間線索就被誤判為懂因果。

使用呢個項目時,重點唔係訓練新模型,而係替現有模型寫 evaluator,然後用指定資料集跑評測。項目亦提供 leaderboard 提交格式,會要求模型名稱、版本或 checkpoint、模型大小,以及 evaluation result JSON 檔案;若改動過預設設定或 preprocessing protocol,也要一併說明。

YoCausal: How Far is Video Generation from World Model? A Causality Perspective
  • 用真實世界影片倒播做 counterfactual,比純合成資料更貼近常見場景
  • 以 denoising loss 比較正播與倒播,測法清楚而且可擴充
  • RSI 測時間方向感知,CCI 嘗試拆出更接近因果理解嘅部分
  • 已評測 13 個 state-of-the-art VDMs,結果顯示時間感知不等於因果理解
  • 文件提到 Wan Model Evaluation(DiffSynth-Studio),亦支援排行榜提交流程

由論文內容看,YoCausal 最大價值係指出一個常被忽略嘅落差:影片生成愈靚,唔代表愈接近 world model。評測結果顯示,即使係表現較前嘅模型,例如 Wan2.2-A14B,與 human baseline 之間似乎仍有明顯差距;中後段模型如 CogVideoX1.5-5B、AnimateDiff-SDXL 則較易出現違反因果嘅畫面變化。

呢個項目適合研究 Video Diffusion Models(VDMs)、world model、影片理解與生成評測嘅人,也適合想比較不同模型因果能力嘅團隊。對一般開發者而言,它最有用之處係提供一套較有解釋力嘅檢查方法,幫你知道模型失分係因為唔懂因果,定只係對時間方向反應不足。

GitHub: https://github.com/youzhe0305/YoCausal

項目: https://www.youzhexie.me/papers/YoCausal/index.html

Categories: 開源, 3D, 視覺模型, 世界模型, 框架

contrastive-probing:拆解 VLM 空間判斷偏差的輕量診斷項目

Repository image for cheolhong0916/contrastive-probing

contrastive-probing 是一個用來檢查 Vision-Language Models(VLMs)內部空間表示的輕量項目,焦點不是模型答對幾多題,而是它腦內如何分開 left / right、above / below、far / close。它沿用論文《Why Far Looks Up: Probing Spatial Representation in Vision-Language Models》的 contrastive probing 方法,透過交換問題中的兩個物件,再比較 hidden states 差異,抽出 Δ vectors 作分析。

使用時,做法是把一張圖片配上一條原始空間問題,再生成一條交換 obj1 ↔ obj2 的對照問題,之後對同一個 VLM 跑兩次 forward,並在每層 transformer 擷取最後 token 的表示。這個流程可配合 🤗 transformers 載入的模型,然後輸出 Axis Coherence、6×6 Δ-similarity heatmap、2D/3D PCA 視覺化,以及 Vertical–Distance Entanglement Index(VD-EI)等結果。

這個項目解決的核心問題,是 benchmark accuracy 往往只告訴你模型有冇答中,卻未必揭示它是否用對了空間線索。論文與附帶說明指出,多個模型家族都出現 vertical-distance entanglement,也就是把畫面較高的位置誤當成較遠,反映自然照片常見的 perspective heuristic「higher in the image ⇒ farther away」。

  • 用最少對照設計觀察表示層,而不只看答題分數
  • 可比較不同 layer 的空間軸是否清晰分離
  • 能發現 vertical 與 distance 是否糾纏,幫助找出偏差來源
  • 適合分析 EmbSpatial-Bench、SpatialTunnel 這類空間推理資料

對研究者、模型分析人員,或者要檢查 multimodal assistant、robotics、embodied agents 背後空間推理可靠性的人,這個項目尤其有用。現有資料顯示,就算 benchmark 分數相近,不同 VLM 的內部表示也可能差很遠,而空間軸分得較清楚的模型,通常在不同測試上的穩健性會較好。

整體來看,這不是訓練新模型的項目,而是一套偏向診斷與解釋的工具。它的創新點在於用 minimal contrastive pairs 加上 representation-level analysis,把「模型為何會答對或答錯」拆成更具體的內部結構問題,對想深入理解 VLM 空間能力的人,價值比單看排行榜更高。

GitHub: https://github.com/cheolhong0916/contrastive-probing

項目: https://cheolhong0916.github.io/whyfarlooksup.github.io/

Categories: 開源, NVIDIA, 3D, 模型訓練, 視覺模型, 世界模型, 框架

minWM:由影片生成走向 World Model

Repository image for shengshu-ai/minWM

minWM 的定位很清楚:它不是再提供一個新模型,而是把建立 video world model 的整條流程拆開,讓人由 bidirectional T2V(Text-to-Video)或 TI2V(Text-and-Image-to-Video)基礎模型,一步步轉成 action-conditioned video world model。對剛接觸這個領域的人來說,這種完整路線比只放權重或單段程式碼更有幫助。

這項目重點不是「裝完即用」,而是按它提供的資料處理、訓練、蒸餾與推理流程逐段走。項目公開了 data → training → inference 的全流程,並提供 example data、runnable scripts、Claude Skills 與新手知識整理,方便你先跟一次標準流程,再按自己需要改 backbone、資料分佈或控制方式。

它要解決的問題,在於高質影片生成模型未必等同可互動的 world model。要做到低延遲、可因果 rollout、可回應鏡頭軌跡等操作,背後需要 camera control、autoregressive training、few-step distillation 及 streaming inference 等整套機制;minWM 正是把這些環節模組化,並用 Causal Forcing、Causal Forcing++、Teacher Forcing 與 asymmetric DMD 串連起來。

  • 支援 4-step DMD inference,並提到 multi-GPU sequence parallelism
  • 可用 pose strings 或 JSON 檔控制 camera trajectory
  • 提供 debug-world-model,整理 loss NaN、jitter、camera drift 等常見失敗模式
  • 提供 integrate-new-backbone,示範怎樣接入新的 video DiT
  • 參考 backbone 包括 Wan2.1-T2V-1.3B、HY1.5-TI2V-8B,亦提到 HY Action2V、HY TI2V、Wan Action2V

項目的新意在於它同時處理「怎樣訓練」與「怎樣改造」。除了支援不同 backbone 與 condition injection 方式,也把團隊累積的排錯經驗與 Claude 協作流程寫進項目,令研究者或工程人員不只看到結果,還能理解常見錯誤從哪裡出現。

它的目標是 real-time interactive video world models,並附有對 camera trajectory quality、controllability training steps、minimal batch-size requirements 的實驗分析。不過公開資訊較偏向框架與流程,若你想比較單一模型跑分,這個項目更適合當作建立、重現及擴展 World Model 的工作底座。

GitHub: https://github.com/shengshu-ai/minWM

Categories: 開源, 香港科技大學, Agentic, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 視頻模型, 世界模型, 框架

OmniRetrieval:整合多種知識來源的檢索項目

OmniRetrieval overview

OmniRetrieval 想處理的,是資料散落在不同系統時的查詢麻煩。一般檢索工具多數只懂一種來源,但這個項目會先理解自然語言問題,再挑選合適知識來源,為各來源生成對應查詢,最後合併結果。

使用這個項目時,核心流程分成 route、generate、execute、select 四步:先選來源,再寫出來源原生查詢,之後執行,最後從多份結果中挑出較合適的證據。對非研究用途讀者來說,可把它理解成一個「跨系統問答協調層」,放在文字語料、SQL、SPARQL、Cypher 之上。

它的重點不在把所有資料硬轉成同一格式,而是保留各種來源原本的表達能力。這種做法能保住關聯式資料庫的 schema、RDF knowledge graph 的 ontology,以及 property graph 的圖結構查詢能力,避免統一格式後反而損失資訊。

  • 支援四類來源:free-form text、SQL、SPARQL、Cypher
  • 基準涵蓋 13 個資料集、309 個 distinct knowledge bases
  • 可量度 source selection accuracy,以及 query formulation 的 exact match 與 token-level F1
  • 提供 LLM provider 選擇,文中可見 openai 與本地 vllm 設定
  • 相關資料集包括 BEIR、Spider、BIRD、LC-QuAD 2.0、QALD-10、SimpleQuestions、Text2Cypher

表現方面,來源資料指出 OmniRetrieval 在跨來源基準上超越 single-source baselines,但不同模型、資料預處理和外部執行環境都會影響結果。從項目結構看,它較適合研究 heterogeneous knowledge retrieval、企業內多資料源問答,或想測試 Large Language Model 如何生成 SQL、SPARQL、Cypher 的開發者。至於模型,項目至少提到 openai 預設骨幹與可本地運行的 vllm,示例亦出現 Qwen/Qwen3.5-4B。

GitHub: https://github.com/JinheonBaek/OmniRetrieval

Categories: 開源, Agentic, 框架

CollectionLoRA:把多個效果 LoRA 濃縮成一個

Repository image for Qwen-Applications/CollectionLoRA

CollectionLoRA 是一個針對 LoRA 管理成本而設的項目,核心做法是用 multi-teacher on-policy distillation,將多個效果 LoRAs 的概念,以及 few-step generation 能力,一次過蒸餾進單一 LoRA。對一般使用者來說,意思就是原本要為不同效果切換或串接多個 adapter,現在有機會改用一個整合版本處理,流程會更簡潔。

使用這個項目時,重點不是由零開始訓練,而是先按項目提供的 ckpt/ 結構放好權重,之後以 50_in_1/ 作推理用途。倉庫亦提供公開的 training and inference code,而 data/manga_tone/ 內有起步用的 teacher LoRA 和示範訓練資產,方便了解整個資料與模型配置方式。

它解決的問題相當明確:當效果 LoRA 數量愈來愈多,部署、切換與疊加都會變得麻煩,配合 acceleration modules 時,還可能出現互相干擾。CollectionLoRA 嘗試把「多效果」與「少步數生成」合併到同一個 LoRA,這比單純收藏大量 LoRA 更像是重新整理整個工作流。

項目公開的重點包括幾個方向:
– 可把 50→1,甚至 180→1 的效果教師整合到單一 LoRA
– 在 EffectBench 上,文中稱其於 8 NFE 下可取得較高 VSA 與較低 BCR
– 支援 zero-shot 的 A ⊕ B 組合效果,推理時可配對兩個已訓練教師,無需額外訓練
– 已開放 training and inference code,但 model weights 仍標示為未全面開放

這個項目較適合會接觸生成效果控制、需要管理大量 LoRA 的研究者與開發者,也適合想減少部署複雜度的團隊。若你關心的是把多種風格或效果整合成較易分發的模型形式,CollectionLoRA 展示的方向很有參考價值;不過現階段公開資訊主要集中在框架、指標與示範資產,完整權重供應情況仍要留意項目後續更新。

GitHub: https://github.com/Qwen-Applications/CollectionLoRA

Categories: 開源, 阿里巴巴, 影像模型, 影像處理, 視覺模型, 框架

UI-KOBE:幫手機代理先認路再操作

Repository image for YuxiangChai/UI-KOBE

UI-KOBE 是一個面向手機圖形介面代理的項目,核心做法是先探索 Android app,再把畫面與操作路徑整理成狀態轉移圖。對非研究背景的讀者來說,可以把它理解成先替代理畫好地圖,之後代理就不用每一步都盲撞。

動手使用這個項目,需要先備好 Python 3.10、uv、Android SDK、adb、emulator,以及已安裝目標 app 的 Android Virtual Device,另外還要提供 VLM 服務憑證。它依賴 AITK,並可把產生的圖拿去配合 AITK 或 Android World 使用,所以較適合已經有 Android 自動化或代理測試流程的人。

這個項目解決的問題很明確:手機代理在 app 內工作時,容易因畫面變化、按鈕位置或流程分支而迷路。UI-KOBE 會先開啟 app、觀察畫面、選擇探索動作,再記錄結果;每個 app 狀態成為圖節點,能把狀態改變的操作變成邊,之後執行階段可先匹配當前畫面,再從附近路徑選下一步,必要時也可用 free-form fallback action 補位。

  • 先建立 UI knowledge graph,再交給下游代理導航
  • 可接到 AITK 與 Android World 代理流程
  • 依靠 state-transition graphs 減少盲目點擊與重複探索
  • 內含 explore、audit_graph、plot_graph 等腳本,方便檢查圖內容

從設計看,UI-KOBE 的創新點不在單一模型,而在把探索與執行拆成兩段:先累積 app 結構知識,再於 runtime 重用。儲存庫亦提到 UI-KOBE v2 runtime 會載入圖、比對當前畫面節點,再根據圖邊決策;這種做法在多步驟 app 任務中,理論上比純即時決策更穩。

就用途而言,這個項目很適合研究 Computer-use agents(CUAs)、mobile GUI agents、Android 任務代理。

GitHub: https://github.com/YuxiangChai/UI-KOBE

Categories: 開源, 香港中文大學, Agentic, 框架

AsyncTool 點樣測試代理多工工具能力

Dataset construction pipeline

AsyncTool 是一個基準測試項目,重點不在教模型怎樣調用工具,而是檢查它在多個任務同時進行、而 Function Calling 回應又有延遲時,會否亂了節奏。一般工具使用測試多數假設結果即時返回,但這個項目刻意加入等待時間,看看代理能否先處理其他不相依的步驟。

AsyncTool 主要是透過儲存庫內的 runner 與評估腳本,將模型接到模擬工具環境,再比較它在同步與非同步情境下的表現。同時可配合 OpenRouter API 的 deepseek/deepseek-chat-v3.1:free,亦可接本地 vLLM endpoint 上的 Qwen/Qwen2.5-7B-Instruct,對想測試不同部署方式的人算是方便。

AsyncTool 把「等工具結果時應否轉做別的事」變成可量化問題。它不單看工具有沒有調對,還會檢查代理是否記得任務狀態、能否遵守步驟依賴、何時切換任務,以及最後能否完整完成整個流程。

  • 核心焦點是 asynchronous tool calling,不是假設工具即時回應
  • 評分分成 step-level、sub-task-level、task-level 三層
  • 會觀察 task switching 時機,而非只計切換次數
  • 內含 benchmark data、tool executors、evaluation scripts

項目顯示不少模型在同步設定下尚可,但遇上非同步延遲後,成功率會明顯下跌。這反映問題未必在於模型不懂用工具,而是它未必擅長長時間追蹤依賴關係和維持多項目狀態。

這項目適合研究 LLM-based agents、agentic workflow、工具調用編排的人,也適合想替自家代理流程做壓力測試的團隊。若你關心的不是單一步驟答對,而是代理在繁忙環境下能否穩定完成工作,AsyncTool 的測試角度相當有參考價值。

項目由中國科學技術大學及多倫多大學合作

GitHub: https://github.com/StoKou/repo-asynctool

Categories: 開源, Agentic, 中國, 框架

CNS 點樣改良擴散取樣效率

CNS teaser

Colored Noise Sampling(CNS),核心想法是按影像頻率分配雜訊,而不是每一步都加入同樣的 white noise。對非研究背景讀者來說,可以把它理解成:模型早段已經大致砌好輪廓,就不必再把力氣花在這些部分,反而集中補足仍未成形的細節。

它要解決的問題很明確:傳統 Stochastic Differential Equations(SDE)取樣器會平均地把隨機能量灑向所有頻段,但 diffusion models 本身有 spectral bias,低頻結構較早完成,高頻細節較後才逐步補上。CNS 會利用預先計算好的 gamma matrix,判斷每個頻段在不同時間步的完成程度,再把雜訊導向仍然欠缺結構的部分。

這個設計吸引之處,在於它屬於 training-free,而且是 plug-and-play sampler substitution。換句話說,不用重新訓練原有模型,不用增加步數,主要改動只在 noise injection;對已經有生成流程的人,這比重建整個項目方便得多。

  • 保留原模型與原取樣步數,只改取樣時的雜訊策略
  • 依靠 gamma matrix 做頻率感知的動態分配
  • 支援多種架構,文件提到 SiT、JiT、FLUX
  • 在 ImageNet-256 的 FID 結果有明顯改善,尤其 unguided 設定較突出

項目提供了較具體數字:SiT-XL/2 的 unguided FID 由 8.26 降到 6.27,JiT-B/16 由 32.39 降到 26.69,JiT-H/16 由 11.88 降到 8.31;使用 Classifier-Free Guidance 時也有一致改善。這些結果顯示,CNS 並非單靠理論包裝,而是在多個模型上都有可量化的收益。

這項目較適合已經在研究或測試 diffusion models 生成品質的人,例如想比較 ODE 與 SDE 取樣差異、希望在不改訓練成本下提升輸出表現的開發者。若你只想快速理解概念,重點就是:CNS 不是換模型,而是把每一步加入的隨機能量分配得更精準。

GitHub: https://github.com/hadardavidson/colored-noise-sampling

Categories: 開源, 影像處理, 框架

Context-CoT 先讀資料後再推理

Hero image preview

Context-CoT 係一個用來提升大型語言模型「讀完新資料再推理」能力的項目。論文指出,現有模型處理依賴上下文的任務時表現偏弱,在 CL-Bench 上,GPT-5.1 約為 23.7%,開源模型多數只有 13% 至 15%。

這樣就可以解決模型經常只靠原有記憶答題,未能從長篇材料抽取重點再應用。對法律文件、工業排錯或研究資料整理這類工作,這個方向相當實際。

  • 先把長上下文整理成與任務相關的中間資訊,再展開推理。
  • 產生推理資料時盡量隱藏答案與評分規則,減少資料洩漏。
  • 按目標模型的輸出習慣挑選推理路徑,提升微調效率。
  • 實驗指向可明顯減少忽略上下文的錯誤。

你可把它理解為一套「資料合成加微調」流程:先準備長文本任務,再用三段方法生成高質推理資料,最後拿去微調開源模型。這較適合已有模型訓練流程的團隊或研究者。

論文並未展示完整版本、模型名單與全部分數,所以現階段較適合視為有潛力的訓練方法,而非即插即用工具。文中明確提到的模型包括 GPT-5.1,其餘開源模型名稱在現有內容未完整列出。

Paper: https://arxiv.org/pdf/2605.25354v1

Categories: 中國, 北京大學, 清華大學, 框架

MobileGym:手機操作測試搬到瀏覽器

MobileGym — Program Mobile Worlds. Train GUI Agents. Verify by State. A verifiable and highly parallel simulation platfo

MobileGym 是一個放在瀏覽器內運行的手機模擬環境,重點不是做出一部「像真手機」,而是讓研究者可以穩定測試手機操作代理。它針對真機與模擬器常見的難題,例如狀態難以重現、評分不穩、成本高,提供一套較可控的做法。

使用相當直接:先開啟模擬環境,再把代理接上去執行任務,之後用內建評分函式檢查有沒有完成目標。這個項目提供 28 個模擬 app、416 個任務模板,也支援把整個環境狀態存成 JSON,方便重設、比較與重跑同一組測試。

MobileGym 在「結果驗證」不靠模糊文字比對,也不依賴視覺模型做人手味很重的判斷,而是直接檢查結構化狀態。這代表系統不止能知道任務是否成功,還能發現副作用,例如錯誤追蹤了某個帳戶,或誤發訊息,這類情況在真機流程往往較難完整看見。

  • 支援 256 個並行實例,同一台伺服器可同時跑大量測試
  • 每個實例約 400 MB 記憶體,冷啟動約 3 秒
  • 評分為可程式化且具決定性,官方稱可達亞毫秒級
  • 已展示模擬到真機的轉移效果,保留約 95.1% 的訓練增益

性能數字是這個項目的另一個賣點:官方資料指 256 個任務的完整評估可在約 6 分鐘完成,而且 CPU 佔用不高。對需要反覆訓練、比較不同策略或模型的人,例如 Qwen3-VL-4B 搭配 GRPO 這類流程,這種可並行、可重現的設計比單靠真機測試更實際。

整體來看,MobileGym 適合做手機 GUI 代理研究、評測流程設計,以及強化學習訓練驗證。它未必取代真機,但作為前期迭代與大規模評估平台,定位十分明確;尤其當你重視可重現性、成本控制,以及能否清楚知道代理到底做對了甚麼、又做錯了甚麼,這個項目值得留意。

GitHub: https://github.com/Purewhiter/mobilegym

Categories: 開源, 香港中文大學, 北京大學, 框架

Page 10 of 13
1 8 9 10 11 12 13