PhysBrain-VLA:教機械人先懂物理常識

Repository image for Phys-Brain/PhysBrain-VLA

PhysBrain-VLA 係一個面向機械人控制的研究專案,但它最值得留意的地方,其實係訓練思路改變咗。以往不少系統主要靠機械人示範資料學動作,成本高之餘,遇到新場景亦未必識變通;而呢個專案就主張先由大量人類第一身影片抽取「物理常識」,再轉化畀模型學習。

對一般讀者嚟講,可以將它理解為:與其死記「點樣拎起杯」,不如先明白杯喺枱上、手要接近、物件有前後高低關係,甚至某些動作做唔做到。根據公開資料,團隊處理咗超過 3,000 小時人類影片,並整理成包含空間關係、動作可行性同推理線索的多模態訓練資料。

如果你想上手理解這個專案,較實際的方法唔係直接當成即裝即用工具,而係先由它的整體架構入手:先看資料引擎點樣把影片轉成結構化訊息,再看基礎模型如何吸收這些知識,最後理解 VLA 部分點樣把理解能力轉成機械人動作。對研究員、機械人開發者,或者關心 embodied AI 發展方向的人,呢個閱讀路線會比較清晰。

  • 核心價值係減少對昂貴機械人示範數據的依賴
  • 主要做法係由人類第一身影片提煉物理與空間常識
  • 架構包含 PhysBrainTwinBrainVLALangForce
  • 提到的評測包括 ERQA、PhysBench、SimplerEnv-WidowX、LIBERO、RoboCasa

其中較有新意的是 TwinBrainVLA 的雙腦式設計,目標是減輕微調後「學咗新嘢就忘記舊嘢」的問題;LangForce 則把訓練重心由單純模仿行為,轉向較貼近物理推理的學習方式。從論文摘要來看,它在多個理解與控制評測都有強表現,尤其在陌生環境的泛化能力方面值得關注。

整體而言,PhysBrain-VLA 未必係面向普通用家的產品型專案,但作為技術方向,它展示咗一條幾實際的路:先讓模型理解世界,再叫它出手做事。若你想追蹤未來機械人如何由「照做」走向「識判斷」,這個專案相當有參考價值。

Project Page:  https://phys-brain.github.io

網址: https://github.com/Phys-Brain/PhysBrain-VLA

網址: https://arxiv.org/pdf/2605.15298

Categories: 開源, 影像模型, 模型, 視覺模型, Robotic, 中國

PAGER 提升 GUI 操作介面準確度

pager icon v3

而家好多 GUI 智能代理都已經識得喺網頁、手機同桌面介面按掣、輸入文字,但呢類能力多數建立喺「大概撳中就得」嘅情況。呢篇研究處理嘅,係另一種要求高好多嘅環境:喺幾何畫布上落點,少少座標偏差都可能令之後所有圖形關係出錯。

研究團隊將呢類任務界定為對精度非常敏感嘅介面操作,並提出 PAGE Bench 作為評測基準,包含 4,906 條題目,同超過 22.4 萬個帶有過程監督嘅像素級操作資料。對一般讀者嚟講,可以理解為:研究者唔單止睇最後畫啱未,仲會逐步記錄每一下應該點做,方便訓練同評估模型。

為咗應付呢個問題,團隊提出 PAGER。佢會先按幾何物件之間嘅依賴關係做規劃,再執行像素級操作;另外再配合針對精準度嘅強化學習,用當前畫面狀態同幾何回饋去修正行為。簡單講,佢唔只係「認得要畫咩」,而係更著重「每一步要落喺邊個點」。

重點可以歸納為:
– 針對連續畫布上嘅落點操作,而唔係一般按鈕式介面
– 建立咗 PAGE Bench,專門量度像素級幾何控制能力
– 指出多模態模型存在明顯落差:理解指令未必代表真係做到
– PAGER 透過結構化規劃同幾何回饋,提升實際完成率

實驗結果亦幾有代表性。論文指出,一般多模態模型即使喺動作類型判斷上可超過 88% 準確率,整體任務成功率仍低於 6%,反映「語意理解」同「可執行操作」之間有明顯鴻溝;PAGER 就將任務成功率提升到最強通用基線嘅 4.1 倍,步驟成功率亦由不足 9% 提升到超過 62%。如果你關注 AI 代理、自動化操作,或者需要處理 CAD、教學幾何、精密繪圖等場景,呢項工作值得留意。

由應用角度睇,PAGER 特別適合用喺幾何教學軟件、自動作圖代理,同需要高精度圖形互動嘅研究場景。相比只判斷「有冇撳中元件」嘅方法,佢更重視座標、半徑、端點等連續參數,對處理精細圖形操作更有參考價值。

網址: https://openraiser.github.io/Pager-webpage/

Categories: 開源, 影像模型, 中國, Dataset 數據集

DepthVLM:識睇圖又識估距離

DepthVLM Logo

如果你曾經好奇電腦點樣由一張相片判斷物件有幾遠,DepthVLM 就係一個幾有代表性的答案。呢個專案主打由單張圖片直接輸出具實際尺度的深度資訊,同時保留問答、理解畫面內容等多模態能力,唔係只做單一視覺任務。

對一般開發者而言,上手方向算清晰:程式碼、模型權重同基準資料都已有公開入口,亦提供示例視覺化結果方便先睇效果。要留意資料本身受授權限制,作者未有直接派發整理後全集,但有公開資料整理流程,較適合願意自己重現訓練或評估的人。

佢較特別之處,在於唔需要將「睇圖理解」同「估深度」拆開做。論文資訊顯示,DepthVLM 會喺單次推理中同時產生深度圖與文字輸出,並以輕量模組接到語言模型骨幹上,速度亦比同類 VLM 方案如 DepthLMYoutu-VL 更快。

如果你做機械人、AR/VR、室內導航,或者想研究影像中的 3D 空間推理,呢類模型特別有價值。從公開內容看,相關比較對象包括 DepthLM-12BYoutu-VL-4BInternVL3.5-38B,以及偏純視覺路線的 Depth Anything V3UniDepth V2Metric3D v2Depth ProZoeDepth

  • 一個模型兼顧畫面理解與深度預測
  • 可輸出具米制尺度的稠密深度圖
  • 推理效率強調比部分現有 VLM 更快
  • 已提供範例、模型檔與基準標註入口
  • 較適合研究、實驗同進階應用整合

整體來講,DepthVLM 吸引之處唔單止係準確度,而係它試圖將 3D 感知正式帶入視覺語言模型工作流。若你想搵一個連接「識答問題」同「識判斷空間距離」的方案,呢個專案相當值得先收藏再深入試用。

網址: https://github.com/hanxunyu/DepthVLM

網址: https://arxiv.org/pdf/2605.15876

Categories: 開源, 香港科技大學, 騰訊, 影像模型, 視覺模型

NudgeRL:用更聰明方式訓練數學推理

Repository image for tally0818/NudgeRL

如果你有留意近年大語言模型點樣練習數學題,NudgeRL算係一個幾有方向感的研究型專案。佢主要針對一個常見問題:模型唔係唔努力,而係好多時只會喺自己熟悉的解題路線入面打轉,結果要靠大量重複抽樣先撞到更好答案。

NudgeRL的做法唔係一味加大運算量,而係先提供較輕量的「策略層面背景」,引導模型用唔同思路展開推理,再將當中有效的行為學返去原本模型。簡單講,即係先畀方向去探索,再將成功經驗整理吸收,呢點比純粹盲試更有系統。

實際上手方面,呢個儲存庫已經分好幾部分:資料建立、訓練基線、NudgeRL訓練,同埋評估流程。較適合本身已經會用 Python、PyTorch、CUDA 同 vLLM 的研究者;如果你係一般開發者,都可以先由評估腳本、資料格式同設定檔入手,理解整體流程先。

  • 針對數學推理中的探索不足,而唔係只求更大抽樣數量
  • 內置 GRPO 同 POPE 風格基線,方便比較方法差異
  • 提供 DAPO-Math-17k 相關資料建構工具,唔使由零砌流程
  • 評估涵蓋 AIME、AMC23、MATH500、Apex Shortlist 等數學基準
  • 核心特色係將多樣化策略探索同後續行為蒸餾結合

如果你想比較相關模型或訓練路線,呢個專案最直接涉及的包括以 GRPO 為代表的 RLVR 方法、POPE 風格 oracle-prefix 基線,以及可配合 Hugging Face 模型與 LoRA adapter 的訓練評估流程。整體而言,NudgeRL較適合做推理增強、數學能力研究、後訓練方法比較的人;對想了解「如何更有效探索」而唔係「如何堆更多算力」的讀者,尤其有參考價值。

網址: https://github.com/tally0818/NudgeRL

網址: https://arxiv.org/pdf/2605.15726

Categories: 開源, 香港中文大學, 模型訓練, 深度學習

DexJoCo:靈巧機械手模擬實驗入門

Repository image for brave-eai/dexjoco

DexJoCo 是一個以 MuJoCo 為基礎的模擬基準與工具集,重點放在「有目標的靈巧操作」:例如用機械手完成特定任務,而不只是做單一抓取動作。對初學者來說,它的價值在於把模擬環境、示範收集,以及遙控操作相關元件放在同一個專案內,較容易看清整體流程。

如果你想使用,先把它當成任務模擬平台,再了解示範資料如何被記錄。README 提到可輸出 Zarr 格式重播資料與相機影片,這表示它不只用來「睇畫面」,亦方便之後做訓練、重播或比較不同方法表現。

它較有意思的地方,是把遙控操作設計成依賴明確的 UDP 封包協定。換句話說,模擬器本身與外部裝置之間有一定解耦,無論是 Vive tracker、Rokoko,甚至內含的 GeoRT 流程,都較像可替換的輸入橋樑,令擴充與整合更實際。

  • 以 MuJoCo 為核心,集中處理靈巧操作任務
  • 支援示範收集,並輸出重播資料及影片
  • 內建多種遙控相關橋接元件,方便接駁外部追蹤資料
  • 可切換互動模式與較適合策略執行的無畫面模式

適合的讀者主要是機械人研究者、學生,或者想測試手部操作任務的人;如果你正研究 imitation learning、policy evaluation,這類資料輸出會特別有用。從專案內容可見的相關組件包括 MuJoCo、Vive bridge、Rokoko、GeoRT,以及用於資料儲存的 Zarr;至於 README 亦提到 policy mode 與離屏渲染設定,反映它同時兼顧互動收集與批次實驗兩種場景。

整體來看,DexJoCo 未必是面向一般用家的即開即用工具,但作為研究型基礎設施,它的定位相當清楚。若你需要一個把任務模擬、遙控輸入和示範記錄串連起來的環境,這個專案值得留意。

網址: https://github.com/brave-eai/dexjoco

Categories: 開源, 香港中文大學, Robotic, 世界模型

system-prompts-and-models-of-ai-tools:拆解 AI 工具幕後設定的熱門資料庫

Latitude Logo

如果你一直好奇不同 AI 工具背後是怎樣被「設定」出來,這個 GitHub 專案正正提供了一個集中參考點。它主要收集各類 AI 產品的系統提示與所用模型資料,讓人可以從實際例子觀察這些工具如何定義角色、限制回應方式,以及安排功能邏輯。

對一般讀者來說,上手方式不算複雜:直接按工具名稱瀏覽內容,對比不同產品的寫法與模型選擇即可。即使你不寫程式,也可以把它當成一份 AI 產品觀察筆記,了解一個聊天機械人或助理服務背後,原來有不少隱藏規則在控制輸出表現。

這個專案最有價值的地方,在於它把分散、難找、而且經常變動的資料集中整理,節省搜尋時間。它同時提醒了一個現實問題:不少 AI 產品的內部設定一旦外洩,就可能暴露產品策略、安全風險,甚至提示設計上的弱點。

  • 集中收錄多款 AI 工具的系統提示與模型線索
  • 適合做產品研究、提示工程參考及競品觀察
  • 可用來比較不同工具的語氣、限制與任務設計
  • 亦反映 AI 產品在保安與資料外洩上的風險

從儲存庫名稱可見,內容焦點不只在提示文字,亦包括模型資訊;相關例子大致圍繞各類 AI tools 使用的模型配置,但具體覆蓋名單可能會持續更新。若你是開發者、研究 AI 產品的人、內容團隊,甚至單純想更懂 AI 回應為何有某種風格,這個專案都值得收藏,但閱讀時仍要保持審慎,因為部分資料的時效性與來源背景可能需要自行核實。

網址: https://github.com/x1xhlol/system-prompts-and-models-of-ai-tools

Categories: 開源, 提示詞

MacDraw:在 Mac 螢幕即畫即講

MacDraw preview

MacDraw 係一個專為 macOS 而設的桌面工具,重點好直接:開住之後,你可以喺螢幕畫面上層即時塗寫,好似用透明膠片覆蓋住畫面咁。對於要講解流程、直播示範,或者同人遠端睇同一個畫面時,它比起截圖再加工快得多。

實際使用上,它預設唔會長期進入繪圖狀態,平時較似待命;要臨時畫兩筆,可以按住 Control 再點擊或拖曳,講完就放手。若果你想持續書寫,亦可切換成鎖定模式,而按 Escape 就可以即刻停用,對避免誤觸幾有幫助。

它吸引之處,在於做法相當貼近 macOS 原生操作,而且支援多個已連接顯示器一齊覆蓋,對雙螢幕或外接顯示器用家特別實用。除咗自由手繪,亦有矩形框選、擦膠、筆刷顏色與粗幼調整、復原同清除,另有可調時間的殘影效果,適合用來短暫標示路徑或視線焦點。

  • 適合場景清晰:網上教學、產品示範、技術支援、會議講解都用得着
  • 操作門檻低:用快捷鍵臨時畫、即時停用,唔需要學複雜介面
  • 功能夠實際:手繪、矩形、擦除、清空、復原都屬常用配套
  • 多螢幕友善:可覆蓋所有已連接顯示器,唔局限單一畫面
  • 表現方向明確:以原生 macOS AppKit 介面配合透明畫布為主

如果你本身用 Mac 做教學、簡報或錄影,MacDraw 屬於一類「平時未必諗起,但用過會覺得方便」的工具。從程式結構來看,項目主要圍繞控制面板、覆蓋視窗、畫布繪製與鍵盤控制幾部分,暫時見到的重點較集中喺桌面即時標註,而唔係進階圖像編輯;對想要簡單、直接、低干擾體驗的人,方向相當對路。

註:100% Codex 作品!

網址: https://github.com/elbartohub/MacDraw

Categories: 開源, Mac

Causal-Forcing 點樣令影片動作更豐富

overview

如果你對 AI 生成影片有興趣,Causal-Forcing 最值得留意的地方,不只是「出片快」,而是它特別著重動作變化是否合理。很多影片模型可以生成靚畫面,但人物移動、鏡頭轉換或物件軌跡,往往會有忽快忽慢、前後不連貫的情況;呢個專案正正是針對這類動態問題下手。

它的核心想法,是用更符合時間先後關係的方法,去引導自回歸式影片生成。簡單講,模型不只是學每一格畫面「似唔似」,而是更重視每一步動作點樣接續上一刻,令運動軌跡更穩定。README 亦明確指出,Causal Forcing 在視覺品質之外,對 motion dynamics 的表現比 Self Forcing 更好,而且訓練成本與推理效率大致維持同一水平。

對一般使用者而言,上手方向算清晰:它已提供推理與訓練流程,並支援文字生成影片,以及由圖片延伸成影片的形式。特別是 frame-wise 版本,因為按逐格方式處理,較容易理解為直接面向每個時間步,對需要細緻控制動作延續的人會更有吸引力。

  • 重點放在動作連貫性,不只追求單幀畫面靚
  • 支援 chunk-wise 與 frame-wise 兩類模型設計
  • 涵蓋 T2V、I2V,實用場景較廣
  • Causal Forcing++ 再進一步提供 1-step、2-step frame-wise 模型
  • 相關版本可留意 Causal Forcing、Causal Forcing++,以及 README 提到的 Self Forcing 作比較對象

再看它的創新位,關鍵在於用 Causal ODE,或在 Causal Forcing++ 中改用 causal Consistency Distillation,去做一個更合理的初始化,再配合 asymmetric DMD。從專案說明可見,作者很強調「生成軌跡要對齊」這件事,亦因此在某些階段要使用自回歸老師模型,這對保持動作隨時間推進的一致性尤其重要。

如果你的重點是互動式影片、角色連續動作、長一點的鏡頭推進,呢個專案比起只看單張效果的模型更值得研究。它未必是最易即學即用的大眾化工具,但對於想改善 AI 影片「會動但唔自然」這個老問題的人,方向相當明確。

網址: https://github.com/thu-ml/Causal-Forcing

網址: https://arxiv.org/pdf/2605.15141

Categories: 開源, 視頻模型, 清華大學

Lighthouse Attention:長上下文訓練新思路

Repository image for ighoshsubho/lighthouse-attention

如果你有留意大型語言模型,應該知道文字愈長,運算成本往往升得愈快。Lighthouse Attention 針對的正正是這個痛點:在極長上下文訓練時,用分層挑選的方法,先縮細需要重點處理的內容,再交回現成的高效注意力流程處理。

這個儲存庫不是一個即開即用的聊天程式,而是建基於 PyTorch 的 torchtitan 訓練框架之上,以補丁形式整合。換句話說,較適合本身已經做模型訓練、想比較不同注意力機制的人;一般用家未必會直接跑起,但讀它的設計仍很有參考價值。

它較特別的地方,在於不是把稀疏機制硬塞進自訂核心,而是先做選擇,再沿用現有的 FlashAttention 密集計算路線。這樣的好處是較易受惠於上游優化,也減少為新方法重寫整套底層核心的負擔。資料顯示,它提供 normdilatedgla 三種評分變體,亦支援可選的 context parallel 路徑。

如果你想上手,較實際的做法是先把它當成研究原型:按版本要求準備好 torchtitan、對應提交版本、兩個額外原始檔及補丁,再用 configs 內不同設定比較 top-K、pool、大細層數與 scorer 差異。官方資訊亦提到,它曾在 530M Llama-3 規模、以及最高百萬 token 訓練情境下驗證。

重點可以這樣看:
– 主要用途是降低超長上下文訓練時的注意力成本
– 核心做法是分層挑選重要片段,再交由密集注意力計算
– 已列出多組可比較設定:top-K、pool、levels、scorer、CP
– 相關評分或路線包括 normdilatedgla
– 較適合模型研究、訓練基建開發及長文本實驗場景

只要是標準的 decoder-only Transformer / causal LM,基本都可以替換它的 Q/K/V self-attention 層。

判斷標準
只要模型滿足下面幾點,就通常能做這種替換:
有 self-attention 層,而不是依賴複雜的外部編碼器。
層裡能清楚找到 q_proj / k_proj / v_proj 或等價實現。
是 decoder-only 架構,使用 causal mask。
沒有把 attention 邏輯寫死成特別難拆的自定義模塊。

最適合的模型類型
Llama 系列:最常見,結構標準,Q/K/V 分明,最容易改。
Qwen 系列:也是標準 decoder-only 路線,通常同樣適合做 attention 替換。
Mistral 系列:同樣屬於 decoder-only LLM,理論上也適合。
GPT-style / LLaMA-style 自回歸模型:只要是單向 causal attention,一般都能改。

整體來說,Lighthouse Attention 最吸引之處,不只是追求更快,而是嘗試在訓練期保留與現有生態的相容性。對需要探索 98K、512K 甚至更長上下文訓練的人,它是一個值得細看、但明顯偏研究與工程用途的專案。

網址: https://github.com/ighoshsubho/lighthouse-attention

網址: https://nousresearch.com/lighthouse-attention

Categories: 開源, 模型訓練, 深度學習

Orthrus如何令Qwen3生成更快

Orthrus logo

Orthrus 是一個圍繞 Qwen3 模型建立的生成框架,重點不是做全新聊天模型,而是想辦法令文字生成更快,同時保持與原本基礎模型一致的輸出分佈。對一般讀者來說,可以理解成它想保留傳統逐字生成的準確感,又借用擴散式並行生成的速度優勢。

這類工具主要針對大型模型生成時「要逐個字等」的樽頸。Orthrus 提出雙重架構做法,讓同一個模型同時具備兩種觀看方式,並強調結果是無損的,也就是目標並非用近似答案換速度;根據專案資料,生成可有最高約 7.8 倍加速。

如果你想上手,最直接方法不是自行訓練,而是先試用作者提供的模型檢查點,再用 Hugging Face 的常見載入流程做推理。現時公開型號包括 Orthrus-Qwen3-1.7BOrthrus-Qwen3-4BOrthrus-Qwen3-8B,分別對應 Qwen3 的 1.7B、4B 與 8B 基礎模型。

值得留意的是,它不是靠把整個模型重訓來換速度,而是只微調部分參數,基礎 LLM 保持凍結,同時兩種生成視角可共用同一套高保真 KV cache。對部署者來說,這代表它除了講求快,亦有意控制額外記憶體成本,這點對長輸出或高頻推理場景特別實際。

  • 以 Qwen3 為骨幹,現有 1.7B、4B、8B 幾個版本
  • 重點在提升生成吞吐,而非改變模型用途
  • 強調結果與原基礎模型保持一致,而非近似加速
  • 額外記憶體開銷較低,較適合推理部署評估
  • 對研究者、模型工程師及需要大量文字生成的團隊較有參考價值

整體來看,Orthrus 最吸引之處在於它把「快」與「不走樣」放在同一個方案內處理。若你正關注本地或伺服器端 LLM 推理效能,尤其已經在使用 Qwen3 生態,這個專案很適合作為實驗與比較基準;至於與 vLLM 或 SGLang 的更原生整合,則似乎仍在後續規劃中。

網址: https://github.com/chiennv2000/orthrus

Categories: 開源, Qwen, 模型, 模型訓練, 中國

Page 1 of 78
1 2 3 78