PhysBrain-VLA:教機械人先懂物理常識

Repository image for Phys-Brain/PhysBrain-VLA

PhysBrain-VLA 係一個面向機械人控制的研究專案,但它最值得留意的地方,其實係訓練思路改變咗。以往不少系統主要靠機械人示範資料學動作,成本高之餘,遇到新場景亦未必識變通;而呢個專案就主張先由大量人類第一身影片抽取「物理常識」,再轉化畀模型學習。

對一般讀者嚟講,可以將它理解為:與其死記「點樣拎起杯」,不如先明白杯喺枱上、手要接近、物件有前後高低關係,甚至某些動作做唔做到。根據公開資料,團隊處理咗超過 3,000 小時人類影片,並整理成包含空間關係、動作可行性同推理線索的多模態訓練資料。

如果你想上手理解這個專案,較實際的方法唔係直接當成即裝即用工具,而係先由它的整體架構入手:先看資料引擎點樣把影片轉成結構化訊息,再看基礎模型如何吸收這些知識,最後理解 VLA 部分點樣把理解能力轉成機械人動作。對研究員、機械人開發者,或者關心 embodied AI 發展方向的人,呢個閱讀路線會比較清晰。

  • 核心價值係減少對昂貴機械人示範數據的依賴
  • 主要做法係由人類第一身影片提煉物理與空間常識
  • 架構包含 PhysBrainTwinBrainVLALangForce
  • 提到的評測包括 ERQA、PhysBench、SimplerEnv-WidowX、LIBERO、RoboCasa

其中較有新意的是 TwinBrainVLA 的雙腦式設計,目標是減輕微調後「學咗新嘢就忘記舊嘢」的問題;LangForce 則把訓練重心由單純模仿行為,轉向較貼近物理推理的學習方式。從論文摘要來看,它在多個理解與控制評測都有強表現,尤其在陌生環境的泛化能力方面值得關注。

整體而言,PhysBrain-VLA 未必係面向普通用家的產品型專案,但作為技術方向,它展示咗一條幾實際的路:先讓模型理解世界,再叫它出手做事。若你想追蹤未來機械人如何由「照做」走向「識判斷」,這個專案相當有參考價值。

Project Page:  https://phys-brain.github.io

網址: https://github.com/Phys-Brain/PhysBrain-VLA

網址: https://arxiv.org/pdf/2605.15298

Categories: 開源, 影像模型, 模型, 視覺模型, Robotic, 中國

Orthrus如何令Qwen3生成更快

Orthrus logo

Orthrus 是一個圍繞 Qwen3 模型建立的生成框架,重點不是做全新聊天模型,而是想辦法令文字生成更快,同時保持與原本基礎模型一致的輸出分佈。對一般讀者來說,可以理解成它想保留傳統逐字生成的準確感,又借用擴散式並行生成的速度優勢。

這類工具主要針對大型模型生成時「要逐個字等」的樽頸。Orthrus 提出雙重架構做法,讓同一個模型同時具備兩種觀看方式,並強調結果是無損的,也就是目標並非用近似答案換速度;根據專案資料,生成可有最高約 7.8 倍加速。

如果你想上手,最直接方法不是自行訓練,而是先試用作者提供的模型檢查點,再用 Hugging Face 的常見載入流程做推理。現時公開型號包括 Orthrus-Qwen3-1.7BOrthrus-Qwen3-4BOrthrus-Qwen3-8B,分別對應 Qwen3 的 1.7B、4B 與 8B 基礎模型。

值得留意的是,它不是靠把整個模型重訓來換速度,而是只微調部分參數,基礎 LLM 保持凍結,同時兩種生成視角可共用同一套高保真 KV cache。對部署者來說,這代表它除了講求快,亦有意控制額外記憶體成本,這點對長輸出或高頻推理場景特別實際。

  • 以 Qwen3 為骨幹,現有 1.7B、4B、8B 幾個版本
  • 重點在提升生成吞吐,而非改變模型用途
  • 強調結果與原基礎模型保持一致,而非近似加速
  • 額外記憶體開銷較低,較適合推理部署評估
  • 對研究者、模型工程師及需要大量文字生成的團隊較有參考價值

整體來看,Orthrus 最吸引之處在於它把「快」與「不走樣」放在同一個方案內處理。若你正關注本地或伺服器端 LLM 推理效能,尤其已經在使用 Qwen3 生態,這個專案很適合作為實驗與比較基準;至於與 vLLM 或 SGLang 的更原生整合,則似乎仍在後續規劃中。

網址: https://github.com/chiennv2000/orthrus

Categories: 開源, Qwen, 模型, 模型訓練, 中國

SU-01:數理推理模型的新示範

SU-01 training and inference pipeline

如果你對「AI識答數學題」有興趣,SU-01是一個幾有代表性的案例。它是一個 30B-A3B 推理模型,目標不是單靠背答案,而是嘗試完成較長步驟、較講求證明結構的數學與科學題目,尤其接近競賽題風格。

對一般讀者而言,最易理解的用法,是把它當成一個專注於複雜解題的模型來看,而不是萬能聊天機械人。官方資訊顯示,模型已公開權重,亦有技術報告與專案頁面;如果你本身會用 Hugging Face 一類平台,就可以進一步了解它的輸出表現與測試方式。

SU-01較特別的地方,在於它不依賴外部工具、寫程式執行,或者專門符號求解器,仍然想把長鏈條推理做好。訓練上,它用了較有策略的資料排序方式,以及分兩階段強化學習,先追求可驗證答案,再逐步改善證明質素,這點對處理多步驟題目尤其重要。

  • 重點放在數學、物理等需要嚴謹步驟的解題
  • 嘗試處理長篇推理與證明修正,而非只輸出最終答案
  • 在 IMO 2025(第66屆國際數學奧林匹亞)、USAMO 2026(美國數學奧林匹亞)、IPhO 2024/2025 有高水準成績
  • 相關模型可留意同類推理系統,例如 DeepSeek-R1、OpenAI o1 類型模型,以及其他數理導向大型語言模型

如果你是研究員、教育科技開發者,或者想比較不同推理模型在高難度題目的差異,SU-01很值得觀察。對一般學生來說,它未必是即開即用的溫習工具,但作為理解 AI 如何由「識答題」走向「識證明」的例子,參考價值相當高。

整體來看,SU-01吸引之處不只在分數,而是在方法上走一條相對簡潔統一的路線。從公開資料判斷,它更像是一個展示「後訓練如何提升嚴謹推理」的研究型專案,適合關心 AI 推理上限的人細看。

網址: https://github.com/Simplified-Reasoning/SU-01

Categories: 開源, 香港中文大學, 模型, 深度學習, 中國

HiDream-O1-Image:一個模型包辦生圖與改圖

Artificial Analysis Text to Image Arena

HiDream-O1-Image 是一個開源影像生成模型,主打把文字、圖片像素和不同任務條件放進同一個系統處理。對一般用家來說,可以將它理解為一個不只會「生圖」,亦能處理改圖、角色一致化,甚至長文字排版的多功能工具。

實際使用上,它較適合拿來做文字生成圖片、按指令修改現有圖片,或者用同一角色、產品去延伸出不同場景。官方亦提供 Hugging Face 上的模型與線上體驗,因此未必一定要自行搭建環境先感受到效果。

這個專案最值得留意的創新,是它採用所謂 Pixel-Level Unified Transformer,聲稱不依賴外部 VAE 或分開的文字編碼器。簡單講,即是想用更統一的方法直接理解像素與文字,理論上有助減少不同模組之間的割裂,對複雜提示、版面安排和文字渲染會更有幫助。

  • 支援text-to-image、圖片編輯、主體個人化等多種任務
  • 可原生輸出最高 2048×2048,較適合需要細節的畫面
  • 內建 reasoning-driven prompt agent,強調先處理布局與隱含需求
  • 提供 8B 規模版本,並有 distilled 與 undistilled 變體
这个模型居然没有 VAE?实测 HiDream-O1 像素级统一 Transformer 的威力

若你常做海報草圖、分鏡、品牌角色延伸,這類模型會特別實用;如果重視圖片內長文字、指定區域排版,HiDream-O1-Image 亦屬值得關注的一類。不過實際效果仍會受提示寫法、任務類型和版本選擇影響,尤其編輯任務方面,官方就建議優先考慮完整模型。

硬體需求

GPU:需要 CUDA 支援的 NVIDIA GPU 。模型本身有兩個版本 — 標準版(Full)和蒸餾版(Dev)。標準版需要 50 個推理步驟,蒸餾版則需要 28 個步驟,因此蒸餾版對硬體的需求更低。

根據社群資訊,使用 FP8 量化的蒸餾版本可以用約 10GB VRAM 的 GPU 運行 。如果使用全精度模型(Full),VRAM 需求會更高,具體取決於生成的影像解析度(最高支持 2048×2048)。

軟體依賴

安裝後需要執行 pip install -r requirements.txt 。官方強烈建議安裝 flash-attn 以優化注意力運算,如果無法安裝,則需要手動編輯 models/pipeline.py 第 291 行,將 "use_flash_attn": True 改為 "use_flash_attn": False,否則推理會失敗 。

推理模式選擇

  • Dev 模式(蒸餾版):28 步,guidance scale 為 0.0,適合資源受限的環境
  • Full 模式(標準版):50 步,guidance scale 為 5.0,品質更高但運算成本更大

網址 https://github.com/HiDream-ai/HiDream-O1-Image

網址 https://huggingface.co/HiDream-ai/HiDream-O1-Image

Categories: 開源, 影像模型, 模型, 視覺模型

MiniCPM-V-4.6:手機都跑到的多模態模型

Og image

如果你想要一個不一定依賴雲端、又能理解圖片同影片內容的 AI,MiniCPM-V 系列會幾值得留意。它屬於多模態模型,即是可以同時處理文字、影像,部分版本更進一步支援語音同即時串流互動。

實際使用上,它比較適合做圖片問答、文件與畫面內容理解、影片片段分析,甚至可延伸到手機上的 AI 助手。根據專案資料,MiniCPM-V 4.6 可部署到 iOS、Android 同 HarmonyOS,對想做裝置端應用的團隊尤其實際。

這個專案最值得講的,是它不只追求效果,亦非常重視效率。MiniCPM-V 4.6 只有 1.3B 參數,但官方表示表現可超越部分更大的模型,並透過 intra-ViT early compression 把視覺編碼計算成本降低五成以上,對手機或邊緣裝置來說相當關鍵。

另一條支線 MiniCPM-o 4.5 則更著重即時互動,支援視覺、語音、文字一齊運作,並有全雙工串流能力,即是「睇、聽、講」可以同步進行,不用等其中一項完成先再回應。這類設計特別適合即時助理、陪伴互動或主動提醒場景。

重點摘要:
– MiniCPM-V 4.6:主打高效率影像與影片理解,偏向手機端部署
– MiniCPM-o 4.5:加入語音與即時多模態互動,功能更全面
– 視覺壓縮技術有助減少運算成本,對流暢度與耗電更有幫助
– 適合 OCR、畫面理解、行動助理、即時視聽互動等場景
– 相關模型可留意 Gemma4-E2B-it、Qwen3.5-0.8B、Gemini 2.5 Flash、LLaVA-UHD v4

整體來看,MiniCPM-V 系列的吸引力不只是「開源」,而是它把多模態 AI 拉近到真正可落地的裝置使用。若你重視本地運行、回應速度同跨平台部署,這個專案比起單純追求大型模型規模,方向更加清晰。

Source: https://github.com/OpenBMB/MiniCPM-V

Categories: 開源, 模型, 視覺模型

AnyFlow:影片生成更靈活的一步

Repository image for nvlabs/AnyFlow

AnyFlow 是 NVIDIA Labs 推出的影片擴散框架,重點不是單純把片生出來,而是讓同一個模型可按你手上的運算時間,自由調整推理步數。簡單講,趕時間時可以用較少步數先出結果;有更多資源時,再加步數換取更穩定的細節表現。

實際使用上,它較適合研究員、開發者或內容生成團隊,用來測試文字轉影片、圖片轉影片,以及影片轉影片。README 顯示它已有示範程式和預訓練模型,代表使用者可直接下載模型試效果,而不一定要由零開始訓練。

這個專案較有新意的地方,是把傳統常見「固定步數」的限制放寬,做成 any-step 生成。對非專業人士來說,可理解為同一套引擎在快出片與慢慢精修之間更有彈性,而不是每種速度都要換另一個模型。

  • 支援 Text-to-Video、Image-to-Video、Video-to-Video
  • 可配合不同推理步數,平衡速度與質素
  • 涵蓋 causalbidirectional 影片擴散架構
  • 已驗證可擴展到 1.3B 至 14B 參數級別

若你要做社交媒體短片原型、廣告分鏡視覺化,或研究影片生成流程,AnyFlow 的定位相當清晰。相關模型方面,README 提到可找到 AnyFlow-FAR-Wan2.1-1.3B-Diffusers、AnyFlow-FAR-Wan2.1-14B-Diffusers、AnyFlow-Wan2.1-T2V-1.3B-Diffusers、AnyFlow-Wan2.1-T2V-14B-Diffusers;名稱反映它既有偏研究框架,也有文字轉影片版本。整體來看,這不是一般即開即用的消費級工具,但對需要靈活控制生成成本與效果的人,確有參考價值。

Source: https://github.com/nvlabs/AnyFlow

Categories: 開源, NVIDIA, 影像模型, 模型, 視頻模型

Relit-LiVE:令影片重新打燈更自然

Nanjing University

Relit-LiVE 是一個用來幫影片「重新打燈」的研究型專案。簡單講,就是把原本影片中的人物或場景,在不改動內容主體下,換成另一種光線效果,並盡量保持整段影片前後一致,不會一時光、一時暗。

這個專案較特別的地方,是它不依賴預先知道鏡頭姿態,並且會一同生成重打燈影片與環境光影片。這種做法有助提升物理一致性,令反光、陰影等細節看起來更合理,對比只逐格處理的方式,更重視時間上的穩定。

實際使用上,它目前較適合有 NVIDIA GPU 的使用者,官方亦建議至少 24GB VRAM,代表一般人未必適合在普通手提電腦直接試。現階段已提供推論程式與模型權重,但訓練流程、完整 inverse-forward pipeline,以及 Gradio 介面似乎仍未完全公開。

如果你是做影像研究、生成式影片實驗,或者想測試影片後期中的光照控制,這類工具會幾有參考價值。它未必是即開即用的消費級產品,但對需要高質感光影變化、又想減少畫面閃爍的人來說,方向相當清晰。

  • 主要用途是把現有影片重新套用新的光照效果
  • 重點創新是聯合生成環境光影片,提升連貫性與真實感
  • 已公開推論代碼與 checkpoints,適合先做效果驗證
  • 硬件要求偏高,較適合研究者或進階創作者
  • 相關模型資訊可見權重路徑提到的 Wan2.1-T2V-1.3B,亦有 Hugging Face 模型發佈頁可供參考

整體來看,Relit-LiVE 最吸引之處不只是「換光」,而是嘗試令影片中的光影變化更像真實世界。若你關心影片生成中的物理合理性、時間穩定性,以及反射和陰影表現,這個專案值得加入觀察名單。

Source: https://github.com/zhuxing0/Relit-LiVE

Categories: 開源, 影像處理, 模型, 視覺模型, 視頻模型, 中國, 南京大學, 清華大學

Multi-Stream LLMs:多路思考LLM實驗評析

Repository image for seal-rg/streaming

seal-rg/streaming 是一個研究型專案,核心概念是令大型語言模型不再只按單一路徑逐步讀、想、答,而是把輸入、推理過程與輸出拆成多條「stream」並行處理。對一般讀者來說,可以理解成模型一邊讀題、一邊解題,甚至另一條路同時做檢查,減少傳統逐字等待的阻塞感。

實際使用上,這個儲存庫不是即開即用的聊天工具,而是分成三個可獨立運行的實驗資料夾,分別研究效率、安全性及可監察性。若你是研究員或工程團隊,可以按目標選擇對應部分,例如想測試「邊讀邊答」就看效率章節,想研究提示攻擊防護則集中安全章節。

它最有意思的創新,在於多串流共用權重的設計:不是為每條思路各自建一個完整模型,而是在同一模型內並行安排多個資訊通道。README 顯示它涵蓋 2、3 甚至 10 個 streams,並把思考、使用者輸入與模型輸出拆開處理;其中較大型版本還提到每個 stream 的 Gated-DeltaNet 狀態,顯示作者不只追求速度,亦想提升內部行為的可觀察程度。

  • 三個重點面向:效率、安全、可監察性
  • 相關模型包括:Qwen2.5-7B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3.5-27B
  • 已知實驗名稱包括:Stream-8B、Stream-27B
  • 評估任務涵蓋 GSM8K、MATH500、SQuAD、PubMedQA、TensorTrust、IFEval 等

最適合的應用場景,是想研究下一代 LLM 推理流程的人,而不是只想部署一般客服機械人。特別是需要同時兼顧回答速度、抗攻擊能力,以及想更清楚監察模型「正在怎樣想」的團隊,這個專案提供了相當具體的實驗框架;不過它主要仍屬研究代碼,實際產品化前應預期要自行整合與驗證。

使用方法
這個模型需要 自定義推理代碼(標準 Hugging Face Transformers 不能直接支援 Multi-Stream 格式),推薦使用官方推理代碼。

Source: https://github.com/seal-rg/streaming

Categories: 開源, 模型

ToolCUA:電腦代理點樣揀工具先最醒?

tongyi

ToolCUA 是一個面向「電腦代勞」場景的代理系統,目標不是單純模擬人手點擊,而是同時懂得用畫面操作與系統工具完成任務。簡單講,當代理見到桌面程式時,可以選擇按掣、輸入文字、捲動畫面,亦可以在合適時直接呼叫工具處理檔案或應用程式動作。

這個專案最值得留意的地方,是它聚焦在「路徑選擇」而不只是「動作能力」。README 提到,不少模型即使同時擁有 GUI 動作與工具調用能力,仍然會出現判斷混亂:有些幾乎唔用工具,有些又過度依賴工具,結果步驟雖然變少,但任務成功率未必更高。

實際使用上,這個儲存庫較像研究與評估框架,適合想測試混合式電腦代理的人。庫內提供評估資料、代理實作,以及多環境評測程式;如要使用其公開模型,README 有提到 ToolCUA-8B,但整體更偏向研究實驗,而非即裝即用的消費級產品。

重點可概括為:
– 同時處理 GUI 操作與高層工具調用
– 核心問題是判斷何時切換操作路徑
– 以分階段訓練提升工具使用與切換決策
– 提供評估程式與案例,方便研究比較

從公開資料看,ToolCUA 的主要創新在於把 GUI-only 軌跡擴展成 GUI 與工具交錯的訓練資料,再配合強化學習優化整體路徑效率。對企業自動化、桌面任務代理、需要跨應用操作的研究場景尤其有參考價值;如果你想找的是成熟日常助手,現階段可能仍要視乎後續工具鏈與部署支援。

Source: https://github.com/X-PLUG/ToolCUA

Categories: Agentic, 模型, 視頻模型

PAE:令擴散模型更快收斂的潛在空間設計

pae teaser

PAE 是一個為潛在擴散模型而設的自編碼器框架,重點不只是把圖片壓縮再還原,而是先把潛在空間整理成更適合擴散模型學習的形態。簡單講,它關心的不是「壓得靚唔靚」,而是「模型之後生圖時會唔會更順、更穩定」。

實際使用上,PAE 可理解為擴散模型前面的 tokenizer 或影像編碼模組:先把圖片轉成 latent,再交畀後續生成模型訓練。這種做法特別適合本身已在做 latent diffusion、但覺得收斂慢、訓練成本高,或者生成效果未夠穩定的研究與開發流程。

這個專案較有意思的地方,是它明確提出三個「對擴散友善」的潛在空間特質:空間結構一致性、局部流形連續性,以及全域語意組織。作者不是假設這些特質會自然出現,而是用三種 prior-alignment regularization 去主動約束,這比單靠重建誤差的傳統思路更進一步。

根據專案提供的結果,PAE 在 ImageNet 256×256 上做到 gFID 1.03,並且在相同 LightningDiT 設定下,收斂速度最高可比 RAE 快 13 倍。對非研究人員而言,這代表同樣資源下有機會更快見到可用成果;不過這些表現仍應視乎資料集、訓練設定與骨幹模型而定。

  • 核心定位:為 latent diffusion 準備更易學的潛在表示
  • 主要創新:把「擴散友善」拆成三個可優化的性質來訓練
  • 實際價值:有機會縮短訓練週期,提升生成質素與少步數採樣表現
  • 適合場景:影像生成研究、需要高效率訓練的生成系統、比較不同 tokenizer 設計
  • 可配骨幹:支援多種編碼器方向,包括 DINOv2、SigLIP2、DINOv3、MAE

如果你關心的是「如何令擴散模型學得更快,而唔係只換更大模型」,PAE 的切入點相當值得參考。它最適合有一定生成模型流程的人採用;對一般用家而言,未必是即裝即用工具,但作為下一代 latent tokenizer 的設計思路,含金量相當高。

Source: https://github.com/ZhengrongYue/PAE

Categories: 開源, 阿里巴巴, 影像模型, 模型, 模型訓練, 視覺模型, 中國

Page 8 of 18
1 6 7 8 9 10 18