EffOPD:助訓練模型流程更精明

Repository image for caiyuchen-ustc/EffOPD

EffOPD 是一個圍繞模型訓練流程改良的研究實作,重點不在做一個全新聊天產品,而是在訓練途中更有效率地挑選值得評估的候選參數。從儲存庫資訊可見,它建基於 verl 與 GOPD,並調整訓練器與工作流程相關檔案,屬於偏底層的優化工具。

實際使用時,做法是沿用原本 OPD 的訓練流程,再加入迭代測試相關設定,並準備一份 parquet 格式的輕量驗證資料。這種安排的意思很直接:模型訓練到某些檢查點時,系統會額外評估幾個外推候選,而不是每次都用完整驗證流程,從而加快判斷。

專案想解決的,是大模型強化學習或蒸餾訓練中,評估成本高、嘗試路線多的問題。它較特別的地方,在於把「外推搜尋」和「即時輕量驗證」結合,讓訓練期間可以更早篩走不理想方向;儲存庫亦提到可設定每次最多測試 5 個候選,反映它著重效率與可控性之間的平衡。

  • 建基於 verlGOPD,較適合已有相關訓練基礎的人
  • 透過啟用迭代測試,在訓練中加入外推式候選搜尋
  • 使用 parquet 驗證檔建立輕量驗證集,減少即時評估負擔
  • 可調整每個檢查點評估的候選數量,預設實驗值為 5

適合主要作為研究實驗、訓練流程調校,以及想比較不同訓練決策成本的人。相關脈絡上,儲存庫明確提到 OPDGOPDEffOPD,而論文方向亦圍繞大型語言模型的強化學習動態與 on-policy distillation;對一般用家未必即插即用,但對做模型訓練研究的人有參考價值。

GitHub: https://github.com/caiyuchen-ustc/EffOPD

Paper: https://arxiv.org/pdf/2605.11739

Categories: 開源, 香港科技大學, 騰訊, 模型訓練

DepthVLM:識睇圖又識估距離

DepthVLM Logo

如果你曾經好奇電腦點樣由一張相片判斷物件有幾遠,DepthVLM 就係一個幾有代表性的答案。呢個專案主打由單張圖片直接輸出具實際尺度的深度資訊,同時保留問答、理解畫面內容等多模態能力,唔係只做單一視覺任務。

對一般開發者而言,上手方向算清晰:程式碼、模型權重同基準資料都已有公開入口,亦提供示例視覺化結果方便先睇效果。要留意資料本身受授權限制,作者未有直接派發整理後全集,但有公開資料整理流程,較適合願意自己重現訓練或評估的人。

佢較特別之處,在於唔需要將「睇圖理解」同「估深度」拆開做。論文資訊顯示,DepthVLM 會喺單次推理中同時產生深度圖與文字輸出,並以輕量模組接到語言模型骨幹上,速度亦比同類 VLM 方案如 DepthLMYoutu-VL 更快。

如果你做機械人、AR/VR、室內導航,或者想研究影像中的 3D 空間推理,呢類模型特別有價值。從公開內容看,相關比較對象包括 DepthLM-12BYoutu-VL-4BInternVL3.5-38B,以及偏純視覺路線的 Depth Anything V3UniDepth V2Metric3D v2Depth ProZoeDepth

  • 一個模型兼顧畫面理解與深度預測
  • 可輸出具米制尺度的稠密深度圖
  • 推理效率強調比部分現有 VLM 更快
  • 已提供範例、模型檔與基準標註入口
  • 較適合研究、實驗同進階應用整合

整體來講,DepthVLM 吸引之處唔單止係準確度,而係它試圖將 3D 感知正式帶入視覺語言模型工作流。若你想搵一個連接「識答問題」同「識判斷空間距離」的方案,呢個專案相當值得先收藏再深入試用。

網址: https://github.com/hanxunyu/DepthVLM

網址: https://arxiv.org/pdf/2605.15876

Categories: 開源, 香港科技大學, 騰訊, 影像模型, 視覺模型

NudgeRL:用更聰明方式訓練數學推理

Repository image for tally0818/NudgeRL

如果你有留意近年大語言模型點樣練習數學題,NudgeRL算係一個幾有方向感的研究型專案。佢主要針對一個常見問題:模型唔係唔努力,而係好多時只會喺自己熟悉的解題路線入面打轉,結果要靠大量重複抽樣先撞到更好答案。

NudgeRL的做法唔係一味加大運算量,而係先提供較輕量的「策略層面背景」,引導模型用唔同思路展開推理,再將當中有效的行為學返去原本模型。簡單講,即係先畀方向去探索,再將成功經驗整理吸收,呢點比純粹盲試更有系統。

實際上手方面,呢個儲存庫已經分好幾部分:資料建立、訓練基線、NudgeRL訓練,同埋評估流程。較適合本身已經會用 Python、PyTorch、CUDA 同 vLLM 的研究者;如果你係一般開發者,都可以先由評估腳本、資料格式同設定檔入手,理解整體流程先。

  • 針對數學推理中的探索不足,而唔係只求更大抽樣數量
  • 內置 GRPO 同 POPE 風格基線,方便比較方法差異
  • 提供 DAPO-Math-17k 相關資料建構工具,唔使由零砌流程
  • 評估涵蓋 AIME、AMC23、MATH500、Apex Shortlist 等數學基準
  • 核心特色係將多樣化策略探索同後續行為蒸餾結合

如果你想比較相關模型或訓練路線,呢個專案最直接涉及的包括以 GRPO 為代表的 RLVR 方法、POPE 風格 oracle-prefix 基線,以及可配合 Hugging Face 模型與 LoRA adapter 的訓練評估流程。整體而言,NudgeRL較適合做推理增強、數學能力研究、後訓練方法比較的人;對想了解「如何更有效探索」而唔係「如何堆更多算力」的讀者,尤其有參考價值。

網址: https://github.com/tally0818/NudgeRL

網址: https://arxiv.org/pdf/2605.15726

Categories: 開源, 香港中文大學, 模型訓練, 深度學習

DexJoCo:靈巧機械手模擬實驗入門

Repository image for brave-eai/dexjoco

DexJoCo 是一個以 MuJoCo 為基礎的模擬基準與工具集,重點放在「有目標的靈巧操作」:例如用機械手完成特定任務,而不只是做單一抓取動作。對初學者來說,它的價值在於把模擬環境、示範收集,以及遙控操作相關元件放在同一個專案內,較容易看清整體流程。

如果你想使用,先把它當成任務模擬平台,再了解示範資料如何被記錄。README 提到可輸出 Zarr 格式重播資料與相機影片,這表示它不只用來「睇畫面」,亦方便之後做訓練、重播或比較不同方法表現。

它較有意思的地方,是把遙控操作設計成依賴明確的 UDP 封包協定。換句話說,模擬器本身與外部裝置之間有一定解耦,無論是 Vive tracker、Rokoko,甚至內含的 GeoRT 流程,都較像可替換的輸入橋樑,令擴充與整合更實際。

  • 以 MuJoCo 為核心,集中處理靈巧操作任務
  • 支援示範收集,並輸出重播資料及影片
  • 內建多種遙控相關橋接元件,方便接駁外部追蹤資料
  • 可切換互動模式與較適合策略執行的無畫面模式

適合的讀者主要是機械人研究者、學生,或者想測試手部操作任務的人;如果你正研究 imitation learning、policy evaluation,這類資料輸出會特別有用。從專案內容可見的相關組件包括 MuJoCo、Vive bridge、Rokoko、GeoRT,以及用於資料儲存的 Zarr;至於 README 亦提到 policy mode 與離屏渲染設定,反映它同時兼顧互動收集與批次實驗兩種場景。

整體來看,DexJoCo 未必是面向一般用家的即開即用工具,但作為研究型基礎設施,它的定位相當清楚。若你需要一個把任務模擬、遙控輸入和示範記錄串連起來的環境,這個專案值得留意。

網址: https://github.com/brave-eai/dexjoco

Categories: 開源, 香港中文大學, Robotic, 世界模型

SU-01:數理推理模型的新示範

SU-01 training and inference pipeline

如果你對「AI識答數學題」有興趣,SU-01是一個幾有代表性的案例。它是一個 30B-A3B 推理模型,目標不是單靠背答案,而是嘗試完成較長步驟、較講求證明結構的數學與科學題目,尤其接近競賽題風格。

對一般讀者而言,最易理解的用法,是把它當成一個專注於複雜解題的模型來看,而不是萬能聊天機械人。官方資訊顯示,模型已公開權重,亦有技術報告與專案頁面;如果你本身會用 Hugging Face 一類平台,就可以進一步了解它的輸出表現與測試方式。

SU-01較特別的地方,在於它不依賴外部工具、寫程式執行,或者專門符號求解器,仍然想把長鏈條推理做好。訓練上,它用了較有策略的資料排序方式,以及分兩階段強化學習,先追求可驗證答案,再逐步改善證明質素,這點對處理多步驟題目尤其重要。

  • 重點放在數學、物理等需要嚴謹步驟的解題
  • 嘗試處理長篇推理與證明修正,而非只輸出最終答案
  • 在 IMO 2025(第66屆國際數學奧林匹亞)、USAMO 2026(美國數學奧林匹亞)、IPhO 2024/2025 有高水準成績
  • 相關模型可留意同類推理系統,例如 DeepSeek-R1、OpenAI o1 類型模型,以及其他數理導向大型語言模型

如果你是研究員、教育科技開發者,或者想比較不同推理模型在高難度題目的差異,SU-01很值得觀察。對一般學生來說,它未必是即開即用的溫習工具,但作為理解 AI 如何由「識答題」走向「識證明」的例子,參考價值相當高。

整體來看,SU-01吸引之處不只在分數,而是在方法上走一條相對簡潔統一的路線。從公開資料判斷,它更像是一個展示「後訓練如何提升嚴謹推理」的研究型專案,適合關心 AI 推理上限的人細看。

網址: https://github.com/Simplified-Reasoning/SU-01

Categories: 開源, 香港中文大學, 模型, 深度學習, 中國

AlphaGRPO:能自我修正的多模態生成

Og image

AlphaGRPO 係一個用喺原生統一多模態模型嘅訓練框架,重點係令模型唔只係「生成」,而係會根據提示主動推理,並喺輸出有偏差時嘗試自行修正。網頁內容指出,佢主要面向文字生圖同相關編輯場景,目標係改善細節理解、構圖一致性,同埋對隱含要求嘅掌握。

呢個方法特別之處,在於將 GRPO 引入 AR-Diffusion 類型嘅統一模型,而且唔需要額外 cold-start 階段。另一個核心設計係 DVReward:先將複雜指令拆成多個可核實嘅細問題,再由開源多模態模型按語意對齊同畫面品質提供較穩定、可解釋嘅回饋,避免只靠單一分數太過籠統。

如果你想理解點樣使用,概念上可以當佢係一種訓練或強化現有多模態生成模型嘅方法,而唔係一般終端用家即開即用嘅 App。較適合研究人員、模型工程師,或者需要改善文字生圖、細粒度屬性控制、影像編輯泛化能力嘅團隊參考同實作。

  • 支援推理型文字生圖,能更主動補足用家未明講嘅意圖
  • 可做自我反思式修正,生成後再檢查並調整錯配內容
  • 回饋機制較細緻,將要求拆解成可驗證項目再評估
  • 在多個生成基準上有一致進步,亦可遷移到編輯任務
  • 推論階段加入自我修正後,文中指最高可再提升 5.8%

就評估結果而言,頁面提到 AlphaGRPO 喺 GenEval、TIIF-Bench、DPG-Bench、WISE 等生成基準,以及 GEdit 編輯任務都有提升,而且編輯能力並非靠專門編輯訓練得來,反映泛化表現不俗。不過,具體效果仍應按模型底座、評測設定同實際資料而定。

訓練程式碼和模型權重目前正在進行內部審核,審核通過後將予以發布。

網址: https://huangrh99.github.io/AlphaGRPO/

Categories: 開源, 香港大學, 字節跳動, 影像模型, 影像處理, 框架

ODE點樣訓練識睇圖又識搜尋的AI代理

main full

如果你對「會自己搵資料的 AI」有興趣,ODE 係一個幾值得留意的研究型專案。它唔係單純訓練模型直接輸出答案,而係讓代理按步驟去搜尋網頁、找圖片、查看學術結果,甚至對圖片放大、旋轉或翻轉,再整理證據作判斷。

對初學者來講,可以先將它理解為一個「工具操作訓練場」。專案目前已提供訓練程式、評估環境同公開工具整合,重點係同一套流程可同時用於測試與強化學習;不過自動化資料演化部分現時似乎仍在逐步補完。

它想解決的核心問題,是傳統靜態訓練資料未必足夠教到代理點樣靈活使用工具。ODE 的做法,是先用監督式訓練教基本動作格式,再用強化學習讓代理在真實互動中調整策略,之後分析操作軌跡,找出行為缺口,再回頭改善下一輪訓練資料。

比較特別的是,它把中途見過的圖片保存成可重用參照,之後可以再裁切、檢視或做視覺搜尋,唔使每次由零開始。這種設計對需要圖文交叉查證的任務尤其重要,亦比只靠文字搜尋的代理更貼近真實使用情境。

  • 支援多種工具流程:網頁搜尋、圖片搜尋、學術搜尋、瀏覽頁面、視覺搜尋與本地圖片操作
  • 著重保留中間圖像證據,方便後續步驟重用
  • 訓練方式結合 SFTRL,並用操作紀錄反推資料改進方向
  • 已展示在 Qwen3-VL-8BQwen3-VL-30B 這類視覺語言模型上的提升

如果你本身做 AI 代理、檢索增強系統,或者關心模型如何可靠地「邊找邊想」,這個專案會有參考價值。對一般讀者而言,它亦提供了一個清楚例子:未來較實用的 AI,未必只係更大模型,而係更懂得在圖像與文字之間有條理地找證據。

網址: https://github.com/JoeYing1019/ODE

網址: https://on-policy-data-evolution.github.io/

Categories: 開源, 香港科技大學, Agentic, 框架

PyRAG:多跳推理RAG值唔值得留意

Repository image for GasolSun36/PyRAG

PyRAG看起來是一個以 Python 為主的 RAG 實驗專案,重點不是搜一次資料就作答,而是把檢索、推理、再檢索拆成可執行流程。對一般讀者來說,可把它理解成較重視「答案點樣得出來」的問答系統。

實際使用時,通常會先接入文件庫、知識庫或程式碼內容,再讓系統按問題逐步找線索,最後整理成答案。遇到要前後串連資訊的問題,例如先查概念、再補細節、最後整合結論,這類多跳流程會比普通 RAG 更合適。

  • 做什麼:把檢索增強生成變成多步查找與推理
  • 主要創新:中間步驟可追蹤,較易查證與除錯
  • 適合場景:複雜問答、研究助理、文件或程式碼知識庫
  • 相關模型:概念上可配合 GPT、Llama、Mistral 等生成模型,以及 BGE、E5 類嵌入模型;實際支援要看設定

我覺得它最吸引的地方,是不像一般聊天機械人那樣直接「估答案」,而是更像逐步查證。對想減少模型亂作、又要向同事交代答案來源的人,這方向特別有價值。

不過,從公開描述看,PyRAG較像研究型工具,實際兼容名單與部署成熟度仍要自行核對。若你只想快速搭一個簡單問答系統,傳統 RAG 可能更省事;若你重視可追溯性,它就值得留意。

網址: https://github.com/GasolSun36/PyRAG

Categories: 開源, 香港科技大學, RAG, 框架

PASA:AI改寫都難甩的文字水印方案

overview

PASA 是一個研究型專案,目標是替大型語言模型生成的文字加入可檢測的「水印」。它特別針對一個常見難題:即使用家把句子改寫、換同義詞,甚至做段落重述,只要意思大致不變,系統仍希望辨認到這段文字原本由 AI 產生。

和不少只看字面詞彙的做法不同,PASA 把重點放在語意層面。簡單講,它不是只標記某些字,而是利用嵌入空間中的語意群組去安排生成與檢測,因此面對 paraphrase 這類「保留意思但改寫表達」的攻擊時,理論上會更穩定。

實際使用上,這個儲存庫主要提供研究重現流程:用 generation.py 進行生成與檢測,並配合語言模型、輔助模型、本地資料集及一份 token 對應語意群組的映射檔來跑實驗。換句話說,它比較適合研究人員或進階開發者驗證效果,而不是一般用家即裝即用的成品工具。

重點可簡單整理如下:
– 針對 AI 文字加入可檢測水印,並強調抗改寫能力
– 核心創新是把水印放到語意嵌入空間,不只看表面用字
– 設計目標包括提升檢測穩定性,同時盡量維持文字品質
– 儲存庫提供官方實作,重點在實驗重現與結果驗證

如果你的場景是內容來源追蹤、平台風險管理,或學術上研究 AI 文字識別,PASA 會很值得留意。相反,若你只是想快速做網站內容偵測,這個專案目前看來仍偏研究導向,需要自行準備資料與模型環境。

從論文與專案說明來看,PASA 的價值不只在「能不能驗出」,而是在改寫攻擊下仍保持可檢測性,這點對現實應用尤其重要。不過它是否適合你的流程,仍要視乎你有沒有能力配置實驗環境,以及是否需要面對高強度的語意改寫情境。

Source: https://github.com/ai-kunkun/PASA

Categories: 開源, 香港科技大學, 框架

CausalCine 多鏡頭影片生成

Repository image for yihao-meng/CausalCine

CausalCine 是一個圍繞多鏡頭敘事影片生成的研究型專案,重點不只是生成單一短片,而是讓多個鏡頭能按故事次序逐步產生。從儲存庫描述來看,它主打即時的自回歸生成方式,目標是令影片在切換場景時仍保留敘事連續性。

對一般使用者來說,可以把它理解為一種「先生成前面內容,再根據已生成結果決定下一鏡」的影片製作方法。這種做法特別適合有劇情推進、場景轉換和角色延續的短片構思,而不只是單次輸出一段互不相關的影片畫面。

它較值得留意的創新,在於把多鏡頭影片當成有因果關係的序列來處理,而不是將每個鏡頭完全分開生成。這意味著角色、氣氛或事件發展,理論上更有機會在前後鏡頭之間保持一致;不過實際效果仍應以專案頁面展示和後續公開內容為準。

  • 核心方向:針對多鏡頭、帶故事性的影片生成
  • 主要特色:採用即時自回歸方式,逐步生成後續鏡頭
  • 實際價值:有助提升鏡頭之間的敘事銜接與連貫感
  • 適合對象:研究者、生成式影片創作者、敘事短片原型開發者

如果你關心的是 AI 如何由「會生成片段」走向「會講故事」,這個專案相當值得留意。它最適合用於概念驗證、研究展示,以及需要快速測試多場景腳本的工作流程;若要投入正式商業製作,仍建議先觀察其公開成果、穩定性和可控程度。

Source: https://yihao-meng.github.io/CausalCine/

Categories: 香港科技大學, 視頻模型

Page 4 of 9
1 2 3 4 5 6 9