VideoRLVR:教影片模型學會推理

Repository image for luka-group/VideoRLVR

VideoRLVR 是一個用來訓練影片推理模型的項目,核心做法是把強化學習加入影片生成流程,並用「可驗證」的獎勵來判斷答案是否正確。簡單說,它不是只追求畫面像真,而是希望模型在生成影片時,連帶表現出可檢查的解題能力。

這個項目目前圍繞 Wan2.2-TI2V-5B 展開,並以 Maze、FlowFree、Sokoban 這類有明確規則的任務作為訓練與評估場景。這類設計的好處,是模型表現不只靠主觀觀感,而是可以透過任務成功與否來量度,對研究推理能力特別重要。

要理解這個項目,可先由它提供的資源入手:公開集合內有 SFT 與 RLVR 檢查點,也有訓練及測試資料。程式結構亦分開了訓練、推論與評估腳本,並提供多任務及單一任務版本,方便比較不同設定下的結果。

  • 重點放在可驗證獎勵,比只看主觀生成質素更易評估
  • 以 Wan2.2-TI2V-5B 為基礎,提供 SFT 與 RLVR 相關模型
  • 任務涵蓋 Maze、FlowFree、Sokoban,偏向規則清晰的推理測試
  • 已整理模型與資料集到 Hugging Face,查找資源較方便

這個項目的新意,在於把影片生成與可量化的推理訓練更緊密地結合,並且明確提供一套可重複的訓練配方。從 README 可見,它亦包含多任務訓練、純成功訊號版本,以及 OOD 推論與評估腳本,表示作者不只關心是否學會指定題目,也在意模型離開熟悉分佈後的表現。

適合留意這個項目的人,包括研究多模態模型、影片生成、強化學習,或想觀察模型如何在規則環境中表現推理能力的開發者。至於性能數字,這份儲存庫摘要未展示完整量化結果,因此較穩妥的看法是:它的價值目前更偏向研究方法、訓練流程與公開資源,而不是單靠一兩個分數定勝負。

GitHub: https://github.com/luka-group/VideoRLVR

Paper: https://arxiv.org/pdf/2605.15458

Categories: 開源, 微軟, 深度學習, 視覺模型

NudgeRL:用更聰明方式訓練數學推理

Repository image for tally0818/NudgeRL

如果你有留意近年大語言模型點樣練習數學題,NudgeRL算係一個幾有方向感的研究型專案。佢主要針對一個常見問題:模型唔係唔努力,而係好多時只會喺自己熟悉的解題路線入面打轉,結果要靠大量重複抽樣先撞到更好答案。

NudgeRL的做法唔係一味加大運算量,而係先提供較輕量的「策略層面背景」,引導模型用唔同思路展開推理,再將當中有效的行為學返去原本模型。簡單講,即係先畀方向去探索,再將成功經驗整理吸收,呢點比純粹盲試更有系統。

實際上手方面,呢個儲存庫已經分好幾部分:資料建立、訓練基線、NudgeRL訓練,同埋評估流程。較適合本身已經會用 Python、PyTorch、CUDA 同 vLLM 的研究者;如果你係一般開發者,都可以先由評估腳本、資料格式同設定檔入手,理解整體流程先。

  • 針對數學推理中的探索不足,而唔係只求更大抽樣數量
  • 內置 GRPO 同 POPE 風格基線,方便比較方法差異
  • 提供 DAPO-Math-17k 相關資料建構工具,唔使由零砌流程
  • 評估涵蓋 AIME、AMC23、MATH500、Apex Shortlist 等數學基準
  • 核心特色係將多樣化策略探索同後續行為蒸餾結合

如果你想比較相關模型或訓練路線,呢個專案最直接涉及的包括以 GRPO 為代表的 RLVR 方法、POPE 風格 oracle-prefix 基線,以及可配合 Hugging Face 模型與 LoRA adapter 的訓練評估流程。整體而言,NudgeRL較適合做推理增強、數學能力研究、後訓練方法比較的人;對想了解「如何更有效探索」而唔係「如何堆更多算力」的讀者,尤其有參考價值。

網址: https://github.com/tally0818/NudgeRL

網址: https://arxiv.org/pdf/2605.15726

Categories: 開源, 香港中文大學, 模型訓練, 深度學習

Lighthouse Attention:長上下文訓練新思路

Repository image for ighoshsubho/lighthouse-attention

如果你有留意大型語言模型,應該知道文字愈長,運算成本往往升得愈快。Lighthouse Attention 針對的正正是這個痛點:在極長上下文訓練時,用分層挑選的方法,先縮細需要重點處理的內容,再交回現成的高效注意力流程處理。

這個儲存庫不是一個即開即用的聊天程式,而是建基於 PyTorch 的 torchtitan 訓練框架之上,以補丁形式整合。換句話說,較適合本身已經做模型訓練、想比較不同注意力機制的人;一般用家未必會直接跑起,但讀它的設計仍很有參考價值。

它較特別的地方,在於不是把稀疏機制硬塞進自訂核心,而是先做選擇,再沿用現有的 FlashAttention 密集計算路線。這樣的好處是較易受惠於上游優化,也減少為新方法重寫整套底層核心的負擔。資料顯示,它提供 normdilatedgla 三種評分變體,亦支援可選的 context parallel 路徑。

如果你想上手,較實際的做法是先把它當成研究原型:按版本要求準備好 torchtitan、對應提交版本、兩個額外原始檔及補丁,再用 configs 內不同設定比較 top-K、pool、大細層數與 scorer 差異。官方資訊亦提到,它曾在 530M Llama-3 規模、以及最高百萬 token 訓練情境下驗證。

重點可以這樣看:
– 主要用途是降低超長上下文訓練時的注意力成本
– 核心做法是分層挑選重要片段,再交由密集注意力計算
– 已列出多組可比較設定:top-K、pool、levels、scorer、CP
– 相關評分或路線包括 normdilatedgla
– 較適合模型研究、訓練基建開發及長文本實驗場景

只要是標準的 decoder-only Transformer / causal LM,基本都可以替換它的 Q/K/V self-attention 層。

判斷標準
只要模型滿足下面幾點,就通常能做這種替換:
有 self-attention 層,而不是依賴複雜的外部編碼器。
層裡能清楚找到 q_proj / k_proj / v_proj 或等價實現。
是 decoder-only 架構,使用 causal mask。
沒有把 attention 邏輯寫死成特別難拆的自定義模塊。

最適合的模型類型
Llama 系列:最常見,結構標準,Q/K/V 分明,最容易改。
Qwen 系列:也是標準 decoder-only 路線,通常同樣適合做 attention 替換。
Mistral 系列:同樣屬於 decoder-only LLM,理論上也適合。
GPT-style / LLaMA-style 自回歸模型:只要是單向 causal attention,一般都能改。

整體來說,Lighthouse Attention 最吸引之處,不只是追求更快,而是嘗試在訓練期保留與現有生態的相容性。對需要探索 98K、512K 甚至更長上下文訓練的人,它是一個值得細看、但明顯偏研究與工程用途的專案。

網址: https://github.com/ighoshsubho/lighthouse-attention

網址: https://nousresearch.com/lighthouse-attention

Categories: 開源, 模型訓練, 深度學習

SU-01:數理推理模型的新示範

SU-01 training and inference pipeline

如果你對「AI識答數學題」有興趣,SU-01是一個幾有代表性的案例。它是一個 30B-A3B 推理模型,目標不是單靠背答案,而是嘗試完成較長步驟、較講求證明結構的數學與科學題目,尤其接近競賽題風格。

對一般讀者而言,最易理解的用法,是把它當成一個專注於複雜解題的模型來看,而不是萬能聊天機械人。官方資訊顯示,模型已公開權重,亦有技術報告與專案頁面;如果你本身會用 Hugging Face 一類平台,就可以進一步了解它的輸出表現與測試方式。

SU-01較特別的地方,在於它不依賴外部工具、寫程式執行,或者專門符號求解器,仍然想把長鏈條推理做好。訓練上,它用了較有策略的資料排序方式,以及分兩階段強化學習,先追求可驗證答案,再逐步改善證明質素,這點對處理多步驟題目尤其重要。

  • 重點放在數學、物理等需要嚴謹步驟的解題
  • 嘗試處理長篇推理與證明修正,而非只輸出最終答案
  • 在 IMO 2025(第66屆國際數學奧林匹亞)、USAMO 2026(美國數學奧林匹亞)、IPhO 2024/2025 有高水準成績
  • 相關模型可留意同類推理系統,例如 DeepSeek-R1、OpenAI o1 類型模型,以及其他數理導向大型語言模型

如果你是研究員、教育科技開發者,或者想比較不同推理模型在高難度題目的差異,SU-01很值得觀察。對一般學生來說,它未必是即開即用的溫習工具,但作為理解 AI 如何由「識答題」走向「識證明」的例子,參考價值相當高。

整體來看,SU-01吸引之處不只在分數,而是在方法上走一條相對簡潔統一的路線。從公開資料判斷,它更像是一個展示「後訓練如何提升嚴謹推理」的研究型專案,適合關心 AI 推理上限的人細看。

網址: https://github.com/Simplified-Reasoning/SU-01

Categories: 開源, 香港中文大學, 模型, 深度學習, 中國

POISE:語言模型用自己狀態做強化學習

Og image

POISE 是一個用於語言模型強化學習的方法,重點是讓模型在生成答案時,直接利用自己已有的隱藏狀態與熵等訊號,估計回報基線。簡單來說,它希望模型「一邊作答,一邊判斷自己表現大概應該有幾好」,從而更有效更新訓練方向。

實際使用上,這類方法特別適合有可驗證結果的任務,例如數學題最終答案是否正確。傳統做法通常要額外訓練一個 critic 模型,或者對同一提示做多次 rollout 來估基線;POISE 則改為重用 actor 本身生成時已計算出的資訊,理論上可減少訓練成本。

它的主要創新,在於把模型內部表徵重新納入 RL 更新流程,而不是依賴獨立的大型評分器。網站內容指出,這個估值器會隨政策變化持續更新,配合當前及近期 rollout,目標是令線上學習更穩定。

  • 以 actor 自身隱藏狀態做 value estimation
  • 不需要獨立 critic 模型
  • 減少同一 prompt 的額外取樣開銷
  • 適合有明確對錯驗證的任務
  • 著重更輕量與穩定的 RL 訓練流程

在初步評估方面,POISE 在 held-out 的 DAPO-Math rollouts 上,內部狀態探針的 Pearson r 為 0.870、MAE 為 0.141。對比一個由 Qwen3-4B 微調而成的 critic,其 r 為 0.676、MAE 為 0.262,顯示 actor 內部訊號至少在這項基準中具有不錯的預測能力。

受惠工作包括數學解題、可程式驗證推理,以及其他能以結果回饋作訓練的語言模型流程。不過目前頁面展示內容以方法概念與初步結果為主,較完整的泛化表現與不同任務上的最終效益,仍要留意論文後續公開分析。

實驗結果

模型方法Avg@32 (數學推理)訓練時間 (B200 GPU)
Qwen3-4BDAPO0.50849 小時
Qwen3-4BPOISE0.50036 小時 
DeepSeek-R1-Distill-Qwen-1.5BDAPO0.29624 小時
DeepSeek-R1-Distill-Qwen-1.5BPOISE0.30318 小時 

POISE 在數學推理基準 (AMC23/24, AIME24/25/26, HMMT25, BRUMO25) 上達到與 DAPO 相當的性能,但計算成本更低 。

Categories: , 模型訓練, 深度學習


Top 0.1% AI Researchers – BYTES LLM Inputs

這是 AI 領域的「秘密突破」,僅有頂尖 0.1% 的研究者知曉:直接將原始位元組(raw bytes)輸入大型語言模型(LLMs),並使用代數拓撲(algebraic topology)分析,透過持久同調(persistent homology)揭示傳統模型無法察覺的隱藏資料結構。這可能改變 AI 處理多模態資料(如文字、影像、影片)的未來。

SECRET: Top 0.1% AI Researchers - BYTES LLM Inputs - Topology - Persistent Homology - Episode 1
(more…)
Categories: Embedding, , 教學, 深度學習, 編程

VisionThink 智慧高效視覺語言模型

VisionThink 利用強化學習自主學習減少視覺 token。與傳統的高效 VLM 方法相比,這方法在
微粒度基準測試(例如涉及 OCR 相關任務的基準測試)上取得了顯著的提升。

由香港中文大學,香港大學,科技大學大聯合開發

VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning
Categories: 開源, 香港大學, 香港中文大學, 香港科技大學, 推理引擎, 模型, 深度學習, 視覺模型

ART:特工強化訓練師

ART 是一個開源強化學習框架,它允許 LLM 從經驗中學習,從而提高代理的可靠性。 ART 提供了符合人體工學的框架,可將 GRPO 整合到任何 Python 應用程式中。

RULER(Relative Universal LLM-Elicited Rewards)透過使用 LLM-as-judge 自動評分代理軌跡,消除了手動設計獎勵函數的需要。只需在系統提示字元中定義您的任務,RULER 就會處理剩下的工作—— 無需標記資料、專家回饋或獎勵工程

Categories: 開源, 模型訓練, 深度學習, 編程

Absolute Zero 無人訓練模型!

Absolute Zero 是由清華大學主導的一項創新語言模型訓練方法。這個方法最顯著的特點是不再需要由人類提供的數據進行訓練,而是自動生成問題,然後嘗試自動解決問題來進行學習。過往的監督學習,或者強化學習,一般都是由人類設定目標進行監管,而 Absolute Zero 可以透過自我對弈機制。能夠在數學和程式設計的領域中自動提升推理能力。研究顯示,這種模型不僅在這些領域達到了最先進的性能,甚至超越了由人類策劃的數據去訓練的模型。

Categories: 開源, 模型訓練, 深度學習

Page 2 of 2
1 2