CM-EVS:用更少視角看完整個場景

Repository image for Strange-animalss/CM-EVS

CM-EVS 係一個為 3D 場景整理全景 RGB、深度同姿態資料嘅流程工具,重點唔係不停輸出更多畫面,而係用較少但更有代表性嘅視角,盡量覆蓋完整場景。對需要建立訓練資料、檢查場景覆蓋度,或者整理室內空間視圖嘅工作,方向相當清晰。

實際使用時,較穩陣嘅做法係先由 Blender 室內場景路線開始,之後再按需要接 HM3D、一般 GLB 或 ScanNet++ PLY 這類來源。流程大致分成三步:先產生候選視角,再從中揀選衝突較低嘅視角組合,最後輸出已選畫面與相關記錄,方便重現結果同做後續核對。

呢個專案特別之處,在於佢唔單止計算「邊個視角睇到最多」,仲會考慮視角之間是否過分重疊,避免揀出一堆內容相似嘅畫面。對建立稀疏但有效嘅資料集尤其重要,因為畫面數量少啲,後續儲存、檢查同訓練成本通常都更易控制。

  • 支援統一資料格式,涵蓋 ERP RGB、range-depth 同 pose
  • 可處理多種來源,包括 Blender、HM3D/GLB、ScanNet++/PLY
  • 會輸出候選視角、逐步紀錄同已選結果,方便重做與比對
  • 核心模組拆分得較細,例如投影、深度與變形部分可獨立替換

適合對象包括做 3D 視覺、機械人感知、場景重建,或者要整理研究資料集嘅團隊。文中提到嘅相關資料來源與場景類型,主要有 Blender indoor、HM3D、generic GLB、ScanNet++,亦提及可延伸到戶外來源;不過從公開資訊睇,Blender 室內路線仍然係最建議先試嘅入口。

GitHub: https://github.com/Strange-animalss/CM-EVS

Paper: https://arxiv.org/pdf/2605.15597

Categories: 開源, 香港科技大學, 影像處理, 中國

Flash-GRPO:影片生成訓練再提速

LOGO

Flash-GRPO 針對的是影片生成模型訓練中一個很實際的難題:要令模型更貼近人類偏好或評分標準,傳統做法往往要走完整訓練軌跡,計算量高、時間長,對硬件要求亦相當重。這個專案提出單步式優化框架,重點是用較低運算預算,換取更有效率的對齊效果。

從公開資料來看,它主要面向影片擴散模型,並配合獎勵模型一同使用。實際動手時,需要先準備基礎模型 Wan2.1-1.3B,以及 README 提到的 HPSv3 獎勵模型,再按專案提供的訓練流程啟動;現階段較適合已熟悉 Python、分散式訓練和 GPU 環境的人直接試跑。

這個方法較有意思的地方,在於它不只是「少做步驟」,而是嘗試處理時間步之間訓練訊號不穩定的問題。README 提到兩個核心設計:一個是維持同一提示詞在時間上的一致性分組,另一個是修正不同時間步梯度尺度不一致的情況,目標是令訓練更穩定,也更容易比較模型表現。

  • 主打影片擴散模型的對齊訓練,而非一般文字模型微調
  • 強調單步式策略優化,方向上比完整軌跡訓練更省資源
  • 已在 1.3B 到 14B 規模模型做實驗驗證
  • 相關基礎組件,包括 Wan2.1-1.3BHPSv3

整體來說,Flash-GRPO 比較適合做生成式 AI 研究、影片模型訓練優化,或想評估低成本對齊方案的團隊。對一般用家而言,它不是即裝即用的成品;但對需要在有限 GPU 預算下提升訓練效率的人,這個專案展示了一條相當值得關注的技術路線。

GitHub: https://github.com/Shredded-Pork/Flash-GRPO

Paper: https://arxiv.org/pdf/2605.15980

Categories: 開源, 影像模型, 中國, 清華大學

EffOPD:助訓練模型流程更精明

Repository image for caiyuchen-ustc/EffOPD

EffOPD 是一個圍繞模型訓練流程改良的研究實作,重點不在做一個全新聊天產品,而是在訓練途中更有效率地挑選值得評估的候選參數。從儲存庫資訊可見,它建基於 verl 與 GOPD,並調整訓練器與工作流程相關檔案,屬於偏底層的優化工具。

實際使用時,做法是沿用原本 OPD 的訓練流程,再加入迭代測試相關設定,並準備一份 parquet 格式的輕量驗證資料。這種安排的意思很直接:模型訓練到某些檢查點時,系統會額外評估幾個外推候選,而不是每次都用完整驗證流程,從而加快判斷。

專案想解決的,是大模型強化學習或蒸餾訓練中,評估成本高、嘗試路線多的問題。它較特別的地方,在於把「外推搜尋」和「即時輕量驗證」結合,讓訓練期間可以更早篩走不理想方向;儲存庫亦提到可設定每次最多測試 5 個候選,反映它著重效率與可控性之間的平衡。

  • 建基於 verlGOPD,較適合已有相關訓練基礎的人
  • 透過啟用迭代測試,在訓練中加入外推式候選搜尋
  • 使用 parquet 驗證檔建立輕量驗證集,減少即時評估負擔
  • 可調整每個檢查點評估的候選數量,預設實驗值為 5

適合主要作為研究實驗、訓練流程調校,以及想比較不同訓練決策成本的人。相關脈絡上,儲存庫明確提到 OPDGOPDEffOPD,而論文方向亦圍繞大型語言模型的強化學習動態與 on-policy distillation;對一般用家未必即插即用,但對做模型訓練研究的人有參考價值。

GitHub: https://github.com/caiyuchen-ustc/EffOPD

Paper: https://arxiv.org/pdf/2605.11739

Categories: 開源, 香港科技大學, 騰訊, 模型訓練

InsightTok:令生圖文字人臉更清晰

Method

生成圖片時,最常令人出戲的往往不是背景,而是招牌上的字、海報上的字句,或者人臉五官的細節。InsightTok 針對的正正是這兩個難位:它不是直接改整個生圖模型,而是先改善圖片被「拆解成代碼」的方式,讓後續生成時更易保留重要內容。

實際使用上,這類專案較適合已經在做文字生成圖片、研究離散視覺 tokenization,或使用自回歸圖像生成流程的開發者與研究者。重點在於把原有流程中的視覺 tokenizer 換成 InsightTok 這一類方案,後面的生成模型理論上毋須大改,對現有管線算是較容易接入。

它的特別之處,在於沒有只用一般重建目標,而是更有意識地照顧局部而且重要的內容,例如文字區域與人臉區域。根據儲存庫提供的說明,它在相同壓縮率下,能做到更好的文字與人臉重建,同時只用 16× downsampling 和 16,384 個條目的 codebook,額外訓練成本亦相對有限。

  • 主要改善圖片中的文字可讀性人臉細節還原
  • 可兼容標準自回歸圖像生成流程,毋須連下游模型一併重寫
  • 在相同壓縮條件下,重建效果主打更清晰、更忠於原圖
  • 設計上延續 VQGAN 風格 tokenizer 思路,但加強重點區域 supervision
  • 相關脈絡包括離散視覺 tokenizer、VQGAN 風格方法,以及文字生成圖片模型

整體來看,InsightTok 吸引之處不在花巧功能,而在於它抓到生圖最常被批評的痛點,再用相對務實的方法補強。對一般讀者來說,可以把它理解成一個「令 AI 更識得保住字同樣貌」的底層零件;對技術團隊而言,它較像是一個可直接提升畫面可用性的基礎組件。

GitHub: https://github.com/LeapLabTHU/InsightTok

Paper: https://arxiv.org/pdf/2605.14333

Categories: 開源, 微軟, 視覺模型, 視頻模型, 中國, 清華大學

FashionChameleon 讓換衫影片更即時

fashionchameleon

FashionChameleon 針對的是一個很實際的問題:想將人物影片中的服飾換款,但又不想等太耐,亦不想一換衫就令動作、姿勢或畫面穩定性明顯走樣。它把重點放在「生成途中仍可互動調整」,對電商展示、短片製作和虛擬試衫概念都幾有參考價值。

現階段較適合把它當成研究成果去了解,而不是即裝即用工具。公開資訊顯示,作者已提供論文和專案頁,但模型權重、前訓練與後訓練程式碼仍未完全釋出;想實際跟進,可先看示範頁面與技術報告,理解它點樣處理單件服飾影片資料,再留意後續更新。

它較特別的地方,在於不用依賴大量「同一人物不停換多套衫」的影片去訓練,改為先用單一參考圖與服飾圖建立學習方式,再透過串流式蒸餾提升長片段一致性。另一個亮點是生成期間可重整快取機制,令服飾切換更貼近即時互動,而不只是預先算好一條片。

重點可留意以下幾點:
– 主打人物服飾層面的影片客製化,而非單純換背景或整體風格
– 強調即時生成,論文提到單張 GPU 可達 23.8 FPS
– 目標是在換衫時保留動作連貫,減少前後畫面跳動感
– 訓練思路偏向用單件服飾資料學出可切換能力
– 現時較多是研究展示,部署門檻仍視乎後續釋出的程式與權重

相關模型方向可聯想到 image-to-video、人像影片生成、服飾替換與自回歸影片模型;文中亦明確圍繞 teacher model、streaming distillation 和 KV cache rescheduling 幾個核心設計。整體來說,FashionChameleon 最吸引之處不只是「識換衫」,而是朝住可互動、低延遲、長片仍較穩定這三件事同步推進,對需要即時預覽效果的應用尤其值得留意。

GitHub: https://github.com/quanjiansong/FashionChameleon

Paper: https://arxiv.org/pdf/2605.15824

Categories: 開源, 阿里巴巴, 視覺模型, 視頻模型

CiteVQA

CiteVQA overview

做文件問答評測時,很多工具只睇最後答案啱唔啱,但現實上,尤其是合約、財務報告、醫療文件呢類長篇 PDF,真正重要的是「答案來自邊一頁、邊一段、邊個區塊」。CiteVQA 針對的正正是這個缺口:它不只要求系統回答問題,仲要指出支撐答案的文件位置,而且細到元素層級,例如頁碼同區域框選。對想評估文件 AI 是否可靠的人來講,這比單純比拼答題分數實用得多。

實際使用上,這個專案較適合作為評測基準,而唔係一般用家即開即用的聊天工具。研究團隊、產品開發者或企業內部做文件自動化測試時,可以先取得資料集,再用自己的多模態模型跑推論,之後交畀評估程式比對答案與引用位置是否同樣正確。資料涵蓋英文與中文文件,來自 711 份 PDF、共 1,897 條問題,平均每份文件超過 40 頁,亦分成單一文件問答,以及要在多份文件中找答案的情境,難度相當貼近真實工作流程。

這個專案最值得留意的地方,是它把「答對」與「引對證據」綁埋一齊計分。核心指標 SAA 只有在答案正確,而且引用區域同標準證據對得上時先會得分,能更直接揭示模型有冇出現「講得似乎合理,但引用錯地方」的情況。根據公開結果,即使是表現較強的模型,答案分數與這種嚴格分數之間仍有明顯差距,反映現時不少系統其實未真正做到可追溯。這一點對高風險場景尤其重要,因為用戶要的不只是結論,仲要查得到根據。

重點可簡單整理成以下幾點:
不只評分答案,亦檢查引用證據是否真係來自正確頁面與區域
文件夠長亦夠真實,涵蓋 7 個大類領域、30 個細分類,並支援中英文
場景設計多樣,包括單文件、多文件但只有一份正確來源,以及多份來源都可能成立
適合測試文件型多模態模型,特別係要處理 PDF 版面、圖文混合與跨頁搜尋的系統
可用來比較模型可靠度,而唔係只比較誰的答案最似正解

從模型觀察角度看,這個基準亦提供了不錯的參考名單。公開結果提到的相關模型包括 Gemini-3.1-Pro-Preview、Gemini-3-Flash-Preview、GPT-5.4、Gemini-2.5-Pro、Seed2.0-Pro、GPT-5.2、Qwen3.6-Plus、GLM-5V-Turbo、Qwen3-VL-235B-A22B、Gemma-4-31B、Kimi-K2.5、Qwen3.5-397B-A17B 等。由這些結果可見,封閉模型在整體表現上暫時較領先,但開源模型同樣能作為對照組,方便團隊用統一方式測試自家方案。對要建立文件審核、知識搜尋、報告核對、法規查證流程的人來說,CiteVQA 的價值不在於幫你直接產生答案,而在於幫你分辨:哪個模型,才真係值得信。

GitHub: https://github.com/opendatalab/CiteVQA

Paper: https://arxiv.org/pdf/2605.12882

Categories: 開源, Agentic, 中國, 上海人工智慧實驗室

MMSkills:幫視覺代理學識睇畫面做事

MMSkills

MMSkills 是一個為視覺代理而設的技能框架,重點不是單靠文字提示,而是把「點做一件事」連同畫面線索、狀態提示和可參考影像一併保存。對一般讀者來說,可以理解成替 AI 準備一本會按情境翻閱的操作手冊,而不是每次由零開始估。

MMSkills 嘗試解決視覺代理在桌面操作或遊戲場景中,經常知道目標卻未必識得判斷畫面進度、失敗跡象,或者下一步應否轉招。MMSkills 的做法是只保留輕量提示,當偵測到當前狀態適合某個技能時,才臨時開一個分支去查看較完整的步驟與視覺參考,減少主上下文負擔。

留意 agent adapter 如何接入現有代理。公開資料顯示,它已提供可搜尋的多領域技能庫,並支援把技能包接到不同代理流程,較適合已有代理系統、想提升穩定性的人使用。

  • 把文字步驟、狀態卡與關鍵畫面結合,不只靠 prompt
  • 技能可搜尋及重用,現有網站顯示技能庫規模達 515 個
  • 採用臨時分支讀取技能,較像按需要查手冊
  • 適用於 GUI 與遊戲型視覺任務,重點在運行時決策
  • 可對接 Codex、OpenClaw、Claude Code 等代理

這個項目的新意,在於它不只研究模型本身,而是把外部經驗整理成可重用知識包,再在推理時按狀態調用。論文摘要亦提到,這套方法對前沿模型和較小型多模態模型都有幫助;如果你正在關注電腦代操作、自動化測試、遊戲代理,或者想研究 AI 如何「睇畫面再行動」,MMSkills 值得留意。

GitHub: https://github.com/DeepExperience/MMSkills

網址: https://arxiv.org/pdf/2605.13527

Categories: Agentic, 視覺模型, 框架

PhysBrain-VLA:教機械人先懂物理常識

Repository image for Phys-Brain/PhysBrain-VLA

PhysBrain-VLA 係一個面向機械人控制的研究專案,但它最值得留意的地方,其實係訓練思路改變咗。以往不少系統主要靠機械人示範資料學動作,成本高之餘,遇到新場景亦未必識變通;而呢個專案就主張先由大量人類第一身影片抽取「物理常識」,再轉化畀模型學習。

對一般讀者嚟講,可以將它理解為:與其死記「點樣拎起杯」,不如先明白杯喺枱上、手要接近、物件有前後高低關係,甚至某些動作做唔做到。根據公開資料,團隊處理咗超過 3,000 小時人類影片,並整理成包含空間關係、動作可行性同推理線索的多模態訓練資料。

如果你想上手理解這個專案,較實際的方法唔係直接當成即裝即用工具,而係先由它的整體架構入手:先看資料引擎點樣把影片轉成結構化訊息,再看基礎模型如何吸收這些知識,最後理解 VLA 部分點樣把理解能力轉成機械人動作。對研究員、機械人開發者,或者關心 embodied AI 發展方向的人,呢個閱讀路線會比較清晰。

  • 核心價值係減少對昂貴機械人示範數據的依賴
  • 主要做法係由人類第一身影片提煉物理與空間常識
  • 架構包含 PhysBrainTwinBrainVLALangForce
  • 提到的評測包括 ERQA、PhysBench、SimplerEnv-WidowX、LIBERO、RoboCasa

其中較有新意的是 TwinBrainVLA 的雙腦式設計,目標是減輕微調後「學咗新嘢就忘記舊嘢」的問題;LangForce 則把訓練重心由單純模仿行為,轉向較貼近物理推理的學習方式。從論文摘要來看,它在多個理解與控制評測都有強表現,尤其在陌生環境的泛化能力方面值得關注。

整體而言,PhysBrain-VLA 未必係面向普通用家的產品型專案,但作為技術方向,它展示咗一條幾實際的路:先讓模型理解世界,再叫它出手做事。若你想追蹤未來機械人如何由「照做」走向「識判斷」,這個專案相當有參考價值。

Project Page:  https://phys-brain.github.io

網址: https://github.com/Phys-Brain/PhysBrain-VLA

網址: https://arxiv.org/pdf/2605.15298

Categories: 開源, 影像模型, 模型, 視覺模型, Robotic, 中國

PAGER 提升 GUI 操作介面準確度

pager icon v3

而家好多 GUI 智能代理都已經識得喺網頁、手機同桌面介面按掣、輸入文字,但呢類能力多數建立喺「大概撳中就得」嘅情況。呢篇研究處理嘅,係另一種要求高好多嘅環境:喺幾何畫布上落點,少少座標偏差都可能令之後所有圖形關係出錯。

研究團隊將呢類任務界定為對精度非常敏感嘅介面操作,並提出 PAGE Bench 作為評測基準,包含 4,906 條題目,同超過 22.4 萬個帶有過程監督嘅像素級操作資料。對一般讀者嚟講,可以理解為:研究者唔單止睇最後畫啱未,仲會逐步記錄每一下應該點做,方便訓練同評估模型。

為咗應付呢個問題,團隊提出 PAGER。佢會先按幾何物件之間嘅依賴關係做規劃,再執行像素級操作;另外再配合針對精準度嘅強化學習,用當前畫面狀態同幾何回饋去修正行為。簡單講,佢唔只係「認得要畫咩」,而係更著重「每一步要落喺邊個點」。

重點可以歸納為:
– 針對連續畫布上嘅落點操作,而唔係一般按鈕式介面
– 建立咗 PAGE Bench,專門量度像素級幾何控制能力
– 指出多模態模型存在明顯落差:理解指令未必代表真係做到
– PAGER 透過結構化規劃同幾何回饋,提升實際完成率

實驗結果亦幾有代表性。論文指出,一般多模態模型即使喺動作類型判斷上可超過 88% 準確率,整體任務成功率仍低於 6%,反映「語意理解」同「可執行操作」之間有明顯鴻溝;PAGER 就將任務成功率提升到最強通用基線嘅 4.1 倍,步驟成功率亦由不足 9% 提升到超過 62%。如果你關注 AI 代理、自動化操作,或者需要處理 CAD、教學幾何、精密繪圖等場景,呢項工作值得留意。

由應用角度睇,PAGER 特別適合用喺幾何教學軟件、自動作圖代理,同需要高精度圖形互動嘅研究場景。相比只判斷「有冇撳中元件」嘅方法,佢更重視座標、半徑、端點等連續參數,對處理精細圖形操作更有參考價值。

網址: https://openraiser.github.io/Pager-webpage/

Categories: 開源, 影像模型, 中國, Dataset 數據集

DepthVLM:識睇圖又識估距離

DepthVLM Logo

如果你曾經好奇電腦點樣由一張相片判斷物件有幾遠,DepthVLM 就係一個幾有代表性的答案。呢個專案主打由單張圖片直接輸出具實際尺度的深度資訊,同時保留問答、理解畫面內容等多模態能力,唔係只做單一視覺任務。

對一般開發者而言,上手方向算清晰:程式碼、模型權重同基準資料都已有公開入口,亦提供示例視覺化結果方便先睇效果。要留意資料本身受授權限制,作者未有直接派發整理後全集,但有公開資料整理流程,較適合願意自己重現訓練或評估的人。

佢較特別之處,在於唔需要將「睇圖理解」同「估深度」拆開做。論文資訊顯示,DepthVLM 會喺單次推理中同時產生深度圖與文字輸出,並以輕量模組接到語言模型骨幹上,速度亦比同類 VLM 方案如 DepthLMYoutu-VL 更快。

如果你做機械人、AR/VR、室內導航,或者想研究影像中的 3D 空間推理,呢類模型特別有價值。從公開內容看,相關比較對象包括 DepthLM-12BYoutu-VL-4BInternVL3.5-38B,以及偏純視覺路線的 Depth Anything V3UniDepth V2Metric3D v2Depth ProZoeDepth

  • 一個模型兼顧畫面理解與深度預測
  • 可輸出具米制尺度的稠密深度圖
  • 推理效率強調比部分現有 VLM 更快
  • 已提供範例、模型檔與基準標註入口
  • 較適合研究、實驗同進階應用整合

整體來講,DepthVLM 吸引之處唔單止係準確度,而係它試圖將 3D 感知正式帶入視覺語言模型工作流。若你想搵一個連接「識答問題」同「識判斷空間距離」的方案,呢個專案相當值得先收藏再深入試用。

網址: https://github.com/hanxunyu/DepthVLM

網址: https://arxiv.org/pdf/2605.15876

Categories: 開源, 香港科技大學, 騰訊, 影像模型, 視覺模型

Page 18 of 96
1 16 17 18 19 20 96