WorldReasonBench:AI 識唔識用影片推演真實世界?

WorldReasonBench overview

WorldReasonBench 係一個用嚟評估影片生成模型嘅基準,重點唔係畫面是否逼真,而係模型能否根據起始狀態同事件,合理推演之後個世界會點變。簡單講,即係測試 AI 係「識畫面」定真係「識道理」。

呢個專案收錄 436 個測試案例,覆蓋 4 個推理面向同 22 個細分類,並比較多個影片生成器嘅表現。它亦加入約 6,000 組專家偏好配對,令評分唔只靠單一數字,而係更貼近人點樣判斷一段影片合唔合理。

實際使用上,研究團隊或開發者可以用佢去壓力測試自家模型:先生成影片,再由視覺語言模型回答片中問題,之後交由大型語言模型判斷答案是否正確。專案亦提出 Score PR,同時考慮答對程度同動態推理質素,另外用 Δ RG 觀察模型喺有提示同冇提示下嘅能力落差。

相比一般只看畫質、流暢度或人類偏好嘅評測,呢個專案較有新意嘅地方係將影片生成重新理解為「未來世界狀態預測」。換句話說,它關心物理、社會、邏輯同資訊層面有冇前後一致,呢點對真正需要可靠推演嘅應用特別重要。

  • 不只評畫面:核心係測試世界演化是否合理
  • 評估方法較完整:結合問答、判分同偏好配對
  • 指標較實用:可同時睇準確度與推理穩定性
  • 適合比較模型:方便橫向檢視不同生成器表現

如果你係做 AI 影片研究、模型選型,或者想知道一個生成器係咪只會「整靚片」,呢個基準幾值得留意。對一般用家嚟講,它亦提供一個更貼地嘅角度:一段 AI 影片可信唔可信,未必只靠觀感,而係要睇內容有冇按常理發展。

Source: https://github.com/UniX-AI-Lab/WorldReasonBench

Categories: 開源, 香港科技大學, Agentic, 影像處理, 框架

AutoRubric-as-Reward:用明文評分準則教 AI 揀靚圖

Repository image for OpenEnvision/AutoRubric-as-Reward

這個專案的核心,不是再訓練一個「黑盒」分數模型,而是先把人對圖片好壞的偏好,整理成可讀的文字評分準則。簡單講,系統會看一小批已標示「邊張較好」的圖片對,抽出判斷依據,再交給視覺語言模型作裁判,輸出成對訓練有用的獎勵訊號。

實際使用上,它較適合已有偏好資料的人員:例如你手上有兩張生成圖,並知道哪張較符合要求,系統就可根據這些例子自動產生 rubric。之後你可以檢查、保存和重用同一份準則文件,令後續訓練或比較更一致,而不是每次靠隱藏分數重新估計。

我認為這個專案最有意思的地方,是它把「評分理由」由隱性變成顯性。它不只會生成準則,還會用已標記例子反覆驗證與修訂;若準則判錯,就再調整,這比單純叫模型直接揀贏家更容易追查問題。論文亦指出,這類做法有助減少位置偏差,並提升少量標註下的效率。

  • 最大特色:獎勵不再是看不到的分數,而是可閱讀的文字準則
  • 流程較可驗證:生成後會對照標註樣本檢查,失敗就修訂
  • 支援範圍實用:可用於文字生圖,也可處理帶來源圖的編輯任務
  • 重用性高:準則可存成檔案,之後重複用於較穩定的訓練流程

最適合的場景,是你想微調圖片生成或圖片編輯模型,但又希望知道模型究竟憑甚麼作出偏好判斷。此專案已接好文字生圖的 FLUX.1-dev LoRA RPO,以及圖片編輯的 Qwen-Image-Edit LoRA RPO;作裁判的視覺語言模型則可用本地 Qwen3-VL(經 vLLM)或 OpenAI 相容端點。

整體來看,AutoRubric-as-Reward較像一套「把審美與要求寫清楚」的工具鏈,而不只是另一個評分器。對研究或進階開發者而言,它的價值在於透明、可檢查、可重現;但對一般用家來說,前提仍是你需要有成對偏好資料,以及願意花時間檢視準則是否真的反映你的標準。

以下係條式嘅詳細拆解:

1. 左手邊:$P^*(y^+ \succ y^- | x)$

  • $x$:係指輸入嘅內容(Input/Prompt)。
  • $y^+$ 同 $y^-$:係一對輸出。通常 $y^+$ 代表人類偏好嗰個(好嘅),$y^-$ 代表被捨棄嗰個(差嘅)。
  • $\succ$:呢個符號代表「優於」或者「偏好」。
  • 意思係「喺已知 $input$ 嘅情況下,人類偏好 $y^+$ 多過 $y^-$ 嘅機率」。

2. 右手邊:分數分配

呢個部分係用嚟將「好感度」量化:

  • $r^*(x, y)$:呢個係獎勵函數 (Reward Function)。你可以想像成模型幫每一個輸出打嘅「分」。分數越高,代表嗰個輸出越符合人類偏好。
  • $\exp(\dots)$:即係指數函數 $e^x$。用指數係為咗確保計出嚟嘅數值係正數,而且可以放大分數之間嘅差距。

3. 成條式嘅邏輯

$$P^*(y^+ \succ y^- | x) = \frac{\exp(r^*(x, y^+))}{\exp(r^*(x, y^+)) + \exp(r^*(x, y^-))}$$

呢個結構其實同我哋平時見嘅 Softmax 或者 Sigmoid 函數好似:

  • 分子:係偏好輸出 ($y^+$) 嘅得分。
  • 分母:係兩個輸出($y^+$ 同 $y^-$)得分嘅總和。
  • 結論:如果 $y^+$ 嘅得分比 $y^-$ 高好多,分子就會佔分母好大比例,機率就會接近 1(代表好肯定人類會揀 $y^+$)。如果兩者得分差唔多,機率就會接近 0.5(代表人類覺得兩個都差唔多)。

總結

呢條式喺訓練 AI(例如 RLHF 或者 DPO)嗰陣好重要,佢幫模型學識點樣根據人類嘅選擇,去調整背後嗰個 $r^*$ 獎勵分數,令模型之後生成嘅嘢越來越接近人類鍾意嘅答案。

Source: https://github.com/OpenEnvision/AutoRubric-as-Reward

Categories: 開源, 香港中文大學, 影像處理, 框架

SCOPE:複雜圖片生成,點樣更少走樣?

Repository image for nopnor/SCOPE

SCOPE 係一個面向複雜圖片生成嘅研究型框架,核心做法唔係單靠一次過輸入長提示詞,而係先將要求拆成可追蹤嘅「語義承諾」,例如人物、物件、關係、限制同未確定資訊。之後每個步驟都圍繞同一份結構化規格運作,減少中途遺漏要求嘅情況。

實際使用上,呢個專案比較似一套流程引擎,而唔係即開即用嘅圖片 App。使用者需要準備 Python 3.10+、設定運行環境,並按需要接駁圖片生成、驗證同搜尋等後端服務;如果想跑完整代理式工作流程,亦需要 Codex CLI。

佢最值得留意嘅創新,在於將「生成失敗咗邊一項」具體化。SCOPE 唔係見結果唔理想就整張圖重來,而係透過驗證同修補階段,集中處理未解決或違反咗嘅承諾,令後續動作更有方向,對多角色、多約束、知識密集型提示尤其重要。

  • 以結構化規格保存提示要求,而唔係只靠一段文字
  • 將檢索、推理、生成、驗證、修補串成可追蹤流程
  • 適合研究同評測複雜圖片生成效果
  • 內含配置範例、CLI 工具同 Gen-Arena 評估相關實用程式

如果你係研究人員、工程團隊,或者正測試高要求圖像任務,SCOPE 會比一般單步生成流程更有分析價值。相反,若你只係想快速出圖,呢個專案門檻會較高,因為它重點係流程控制、可驗證性同評估,而唔係簡化操作介面。

整體來講,SCOPE 展示咗一個幾清晰嘅方向:當提示變得愈來愈複雜,單靠模型「自己理解」未必足夠,最好有一套能夠持續記錄、檢查同修正要求嘅機制。以官方資料所見,佢亦配合 Gen-Arena 呢類基準做評估,令成效唔只停留喺示範圖片層面。

Source: https://github.com/nopnor/SCOPE

Categories: 開源, 香港理工大學, Gemini, 影像處理, 提示詞, 框架

Flow-OPD:讓文生圖多工對齊更穩的關鍵一步

Teaser

Flow-OPD 是一個針對 Flow Matching 文生圖模型的後訓練框架,核心目標不是單純追高某一項分數,而是把 OCR、組合理解、問答與人類偏好等不同能力整合進同一個學生模型。從公開資訊來看,它建立在 SD-3.5-Medium 上,並以兩階段流程處理「先培養專長、再統一能力」這個多任務對齊難題。

實際使用上,這個專案目前較適合研究者或進階生成模型開發者參考其方法與權重,而不是一般使用者直接拿來當完整訓練工具鏈。README 顯示模型權重已釋出,但完整訓練程式仍在進行中,因此比較合理的使用方式,是先檢視論文與模型成果,再評估是否將其蒸餾思路移植到自己的 Flow Matching 訓練流程。

它最值得注意的創新,在於把原本稀疏的標量獎勵,改成由多個教師模型提供的軌跡級稠密向量場監督。配合 on-policy 的 SDE 採樣,學生模型能在自身生成軌跡上接受更細緻的指導;再加上 MAR 正則化,則是用來降低純 RL 對齊常見的美感退化問題,這點對文生圖品質維持特別重要。

從結果看,Flow-OPD 的價值在於它不只比 vanilla GRPO 更強,還試圖解決多任務訓練常見的「翹翹板效應」。公開數據顯示,該方法在 GenEval、OCR、DeQA 與 PickScore 上都有提升,平均表現優於基線,且在 OCR、DeQA 上甚至出現超越個別教師的現象;不過這些結論仍應以論文設定與基準環境為前提理解。

  • 定位明確:專注於 Flow Matching 文生圖模型的多任務後訓練與對齊。
  • 方法新意:以多教師稠密監督取代單一標量獎勵,降低任務間梯度干擾。
  • 實務亮點:MAR 用來守住美感品質,避免只追指標造成生成退化。
  • 適用場景:適合需要同時兼顧文字生成、構圖理解與偏好對齊的通用型文生圖系統。
  • 使用前提:目前較偏研究型專案,若要重現訓練流程,可能仍需等待完整訓練程式公開。

Model download: https://huggingface.co/CostaliyA/Flow-OPD

Source: https://github.com/CostaliyA/Flow-OPD

Categories: 開源, 香港中文大學, 影像模型, 影像處理, 模型

HERMESV2:把3D理解與未來預測合而為一的自駕世界模型

HERMES++ overview

HERMES++是一個面向自動駕駛的統一世界模型,核心目標不是只做未來場景生成,而是同時處理3D場景理解未來幾何預測。這點很關鍵,因為多數方法通常偏重其中一端,導致語意理解與物理演化之間仍有落差。

實際使用上,它比較適合拿來當研究型框架:先把多視角輸入整理成BEV表示,再讓模型在共享表示上同時回答當前場景理解任務,並推估未來幾何變化。若團隊正在做自駕感知、模擬預測或世界模型整合,這種設計能減少分散建模的成本。

這個專案最有意思的創新,在於把適合語意推理的資訊與幾何演化需求接起來。它透過BEV token承接多視角空間資訊,再加入LLM-enhanced world queriesCurrent-to-Future LinkJoint Geometric Optimization,讓目前場景語意能更自然地影響未來結構生成。

重點摘要如下:
– 以單一框架同時支援3D理解與未來點雲/幾何預測
– 使用BEV表示壓縮多視角輸入,保留較一致的空間結構
– 透過語言推理增強的world queries傳遞語意與世界知識
– 用幾何顯式與隱式約束提升未來場景結構一致性

若從應用場景來看,HERMES++最適合用在需要「理解現在、推演未來」的自駕研究,例如未來場景模擬、感知與預測聯合建模,或作為下游規劃系統的前端世界表徵。README與專案頁面顯示它在多個基準上有不錯表現,但若要評估實務部署價值,仍建議進一步確認推論成本、資料需求與特定任務設定。

如需特定模型,專案內容明確提到會結合大型語言模型(LLMs)進行語意知識轉移;不過實際採用的基礎模型細節,從目前提供資訊中不宜過度推定。整體而言,這不是入門型套件,而是一個相當有研究含量、試圖打通理解與生成邊界的自駕世界模型方案。

Source: https://github.com/H-EmbodVis/HERMESV2

Categories: 開源, 香港大學, 影像處理, 世界模型

ComboStoc 擴散模型訓練更快的關鍵

ComboStoc samples

ComboStoc 是一個針對擴散生成模型訓練流程的研究型實作,核心目標不是換掉整個模型架構,而是修正既有訓練對「組合式結構」取樣不足的問題。這個版本以 PyTorch 為主,提供影像擴散模型、訓練腳本,以及預訓練權重,定位相當明確:拿來驗證論文方法,也適合已有 SiT 或相近擴散管線的人直接比較。

這個專案真正有辨識度的地方,在於它不再把整筆資料視為同步走在同一個 diffusion timestep。相反地,它讓不同維度、patch,甚至可能的屬性使用非同步時間步,藉此更完整覆蓋高維資料中的組合空間;這也是它和一般只調 loss、scheduler 或採樣器的做法最不一樣之處。

實務上,它延續 SiT 風格的實作思路,並提供基於 PyTorch DDP 的訓練流程,代表它不是紙上談兵,而是可在分散式訓練中直接測試。推論端也不只是在既有 checkpoint 上出圖,還能利用非同步時間步做更細緻的控制;若參考論文描述,這種機制對局部條件控制或結構化生成尤其有意義。

最能受益的族群,會是正在研究影像生成、擴散模型訓練效率,或需要面對高度結構化資料的人。若你關心的是更快收斂、較低 FID,或想把相同模型延伸到更有屬性組合複雜度的任務,這個專案值得細看;至於 3D structured shape 的完整程式,儲存庫目前看來仍是後續補上。

  • 特色在於非同步 diffusion timestep,不是單純更換 backbone
  • PyTorch 實作,並提供 DDP 訓練腳本
  • 已附預訓練的 ComboStoc-XL-2 權重,可直接做採樣比較
  • 適合拿來研究高維資料中組合複雜度對生成品質的影響

Source: https://github.com/Xrvitd/ComboStoc

Categories: 開源, 香港大學, 影像模型, 模型

AnyRecon:使用視頻擴散模型進行任意視角3D重建

logo
OpenImagingLab/AnyRecon 在 GitHub 上

AnyRecon利用視頻擴散模型從輸入視頻中重建任意的3D視圖。這個創新的工具對於希望探索視覺敘事新維度的內容創作者和研究人員特別有用。

在開始使用AnyRecon時,最初應專注於理解其核心功能——將連續幀轉換為空間上一致的3D重建。該過程涉及將視頻數據通過預訓練模型,該模型輸出詳細的3D模型。此工作流程需要仔細準備輸入視頻並精確配置模型參數。

研究人員和藝術家最能受益於AnyRecon的功能。它使他們能夠從現有的視頻內容生成沉浸式的3D環境,為虛擬現實應用和互動媒體打開了可能性。然而,用戶應該意識到該工具需要強大的大型語言模型(LLM)才能達到最佳性能。

主要收穫包括:
* AnyRecon使用視頻擴散模型進行3D重建。
* 適合內容創作和研究目的。
* 需要堅固的LLM以獲得最佳效果。

了解AnyRecon的底層機制有助於用戶有效地量身定製他們的項目。通過嘗試不同的視頻輸入和調整設置,創作者可以解鎖獨特的視覺體驗。

Source: https://github.com/OpenImagingLab/AnyRecon

Categories: 開源, 香港大學, 香港中文大學, 影像處理, 模型

MultiWorld 可擴充的多代理、多視角視頻世界模型

Screenshot

MultiWorld 在可擴充的多代理、多視角視頻世界模型的開發上代表了一個重要的進步。這個專案對於那些希望在複雜環境中模擬多個代理和視角的人工智慧和機器人領域的研究人員和開發人員特別有價值。在深入研究 MultiWorld 時,首先需要理解其基礎概念:建立一個虛擬世界,讓多個代理能夠同時從各種角度進行互動和學習。這種設定不僅增強了模擬的真實感,還提供了一個堅實的平台,用於在動態和不可預測的情境中測試和優化 AI 算法。

在實際應用中,MultiWorld 通過將先進的機器學習技術與複雜的模擬環境相結合來運作。該系統允許創建詳細的虛擬世界,每個代理可以從其獨特的視角感知環境,與其他代理互動,並從這些互動的結果中學習。這種方法對於需要高度情境意識和適應性決策的應用特別有益,例如自動駕駛汽車導航或複雜的機器人任務。然而,需要注意的是,這種系統的複雜性也帶來了某些權衡。例如,運行多個代理和視角的計算需求可能相當大,需要強大的硬體和高效的資源管理。

從 MultiWorld 中受益最大的研究人員和開發人員是那些從事需要深入了解多代理互動和多視角感知的專案的人。這包括人工智慧研究、機器人技術,甚至遊戲開發領域的專業人士,這些領域中真實和動態的環境是必不可少的。通過利用 MultiWorld,這些專業人士可以創建更準確的模擬,從而做出更明智的決策和創新。然而,實施時必須清楚了解專案的目標和模擬環境的具體需求。

在考慮將 MultiWorld 用於專案時,有幾個因素需要注意。首先,系統的複雜性意味著需要對底層的機器學習演算法和模擬環境有深入的了解。這可能需要額外的培訓或與這些領域的專家合作。其次,運行模擬所需的計算資源可能是相當大的,因此仔細規劃和優化是必不可少的。最後,雖然 MultiWorld 為模擬多代理、多視角場景提供了一個強大的工具,但重要的是要認識到其侷限性,並考慮這些侷限性可能如何影響專案的結果。通過仔細權衡這些考慮因素,開發人員和研究人員可以最大化 MultiWorld 的好處,同時最小化潛在的缺點。

對於那些希望在多代理系統和多視角模擬領域取得進展的人來說,MultiWorld 提供了一個令人信服的機會。儘管在理解和資源方面需要大量的投資,但在增強模擬能力和改進 AI 算法方面的潛在回報是巨大的。對於那些準備應對挑戰的人,MultiWorld 為人工智慧和機器人領域的創新和發現提供了一個強大的平台。

Source: https://github.com/CIntellifusion/MultiWorld

Categories: 開源, 香港大學, 世界模型

OmniShow 全方位人體物件互動影片生成模型

OmniShow 標誌
Correr-Zhou/OmniShow 在 GitHub 上

OmniShow 提出了一種突破性的人體物件互動影片生成(HOIVG)解決方案,提供了一個統一的框架,整合了文字、參考圖像、音訊和姿態條件。這個多功能模型特別吸引電腦視覺和多媒體處理領域的研究人員和開發人員,他們希望推動影片合成技術的邊界。對於考慮使用此工具的人,首先應該關注其核心功能以及如何應用於各種任務,例如音訊驅動的化身、物件交換和影片混音。

該模型的有效性在於其能夠無縫處理多種類型的輸入數據。在實踐中,OmniShow 使用 統一通道條件 來整合參考圖像和姿態,使用由參考重建損失監督的偽幀增強影片令牌。這確保生成的影片與輸入數據保持語義一致性。此外,閘控局部上下文注意力 在對齊音訊特徵與影片幀方面發揮了重要作用,確保精確同步。分離然後聯合訓練 策略允許高效使用多樣化的數據集,最初在單個任務上訓練專業模型,然後將它們合併以實現全面的多模式能力。

從 OmniShow 中受益最大的研究人員和開發人員是那些從事需要高保真影片生成和複雜多模式輸入的專案的人。該模型在單一框架內支援 R2V(參考到影片)、RA2V(參考+音訊到影片)、RP2V(參考+姿態到影片)和 RAP2V(參考+音訊+姿態到影片)等任務的靈活性,使其成為無價的工具。它啟用廣泛的應用,從創建對音訊輸入做出反應的逼真化身,到生成準確反映指定姿態和物件的影片。

然而,需要考慮權衡。OmniShow 架構的複雜性可能對那些新接觸先進影片生成模型的人構成挑戰。使用者應當準備好面對陡峭的學習曲線和由於模型的全面性可能導致的較長訓練時間。此外,對多種模式的高品質輸入數據的要求可能很嚴苛,因為劣質輸入可能會導致不滿意的輸出。

為了充分利用 OmniShow,使用者應從探索 HOIVG-Bench 開始,這是一個專門的基準測試,提供在各種多模式條件下對 HOIVG 的系統評估。該基準測試包括 135 個精心挑選的樣本,配有詳細的文字說明、參考圖像、音訊和姿態序列,提供了一個全面的數據集,用於測試和驗證模型的性能。通過檢查這些樣本,使用者可以了解 OmniShow 如何處理不同類型的輸入數據,並識別潛在改進的領域。

OmniShow 是任何參與先進影片生成任務的人的強大工具。其將多種模式統一到單一連貫框架中的能力使其與其他模型區別開來。儘管它提供了顯著的好處,使用者應當注意與其複雜性和數據需求相關的挑戰。通過仔細考慮這些因素並專注於模型的核心優勢,研究人員和開發人員可以釋放其全部潛力,並推動人體物件互動影片生成領域的創新。

Source: https://github.com/Correr-Zhou/OmniShow

Categories: 開源, 香港大學, 香港中文大學, 騰訊, 視頻模型

DeepTutor:原生個人化學習助理

DeepTutor
HKUDS/DeepTutor 在 GitHub 上

DeepTutor 是一個革命性的個人化學習平台,提供一系列 AI 驅動的工具,滿足多樣化的教育需求。無論您是準備考試的學生,還是希望提升技能的專業人士,DeepTutor 都能提供全面的解決方案。該平台的突出特點是其 統一聊天工作區,將五種不同的模式——聊天、深入解決、測驗生成、深入研究和數學動畫——無縫整合到單一、連貫的線程中。這種設計確保用戶可以輕鬆地在不同的學習活動之間切換,而不會丟失上下文或動力。

對於初次接觸 DeepTutor 的用戶,最好的開始方式是使用 聊天模式。這種模式作為一個多功能的起點,您可以進行流暢的對話、提出問題並獲得即時反饋。隨著您對平台的熟悉,您可以逐步探索其他模式。例如,深入解決 模式適合解決複雜問題,提供包括規劃、調查、解決和驗證在內的結構化方法。每個步驟都經過精心記錄,確保透明度並有助於學習過程。

個人導師機器人 是 DeepTutor 的另一個亮點。與傳統的聊天機器人不同,這些自主導師在自己的工作區內運行,擁有獨特的個性和技能組。它們可以設置提醒、學習新技能並隨著您的教育旅程共同進化。由 nanobot 驅動的這些導師機器人提供個人化協助,適應您的學習風格和節奏。這項功能對於需要持續指導和支持的學生特別有益。

在實際應用中,DeepTutor 通過建立用戶的 活躍檔案 來運作。這個檔案涵蓋了您所學習的內容、學習方式以及未來的方向。這些資訊在所有功能和導師機器人之間共享,並隨著每次互動變得更加精確。這種持久的記憶確保平台可以隨著時間提供越來越量身訂製的建議和支持。知識中心 進一步增強了這種個人化體驗,允許您上傳 PDF、Markdown 和文本文件以創建 RAG 就緒的知識庫。這些文件不是靜態的;它們主動推動每一次對話,與您的學習生態系統無縫整合。

DeepTutor 的優勢對於重視結構化、適應性學習的個人來說最為顯著。學生可以利用該平台創建視覺化、逐步的學習旅程,而專業人士可以使用它進行持續的技能發展。例如,引導學習 功能將個人材料轉化為結構化的多步驟計劃,為每個知識點生成互動頁面。這種方法不僅促進更深的理解,還促進了與材料的主動互動。

然而,也有一些權衡需要考慮。DeepTutor 的先進功能伴隨著學習曲線,特別是對於不熟悉 AI 驅動教育工具的用戶。設置平台需要一些技術知識,特別是在配置環境變量和與各種 LLM 和嵌入提供者整合時。此外,DeepTutor 的效果在很大程度上取決於您建立的知識庫的質量和相關性。用戶必須花時間整理和組織他們的材料,才能充分利用平台的功能。

儘管存在這些挑戰,DeepTutor 為那些希望提升學習體驗的人提供了一個令人信服的解決方案。它能夠整合多種學習模式、提供個人化輔導並建立全面的知識中心,使其成為任何致力於持續學習和技能發展的人的寶貴工具。通過專注於核心功能並逐步探索更先進的功能,用戶可以釋放 DeepTutor 的全部潛力並轉變他們的教育旅程。

Source: https://github.com/HKUDS/DeepTutor

Categories: 開源, 香港大學, Agentic

Page 5 of 9
1 3 4 5 6 7 9