模型訓練 Archives - Page 2 of 6

BRDFusion：物理與生成模型合體，城市街景逆向渲染新框架

2026 年 6 月 16 日

現有的城市場景逆向渲染方法長期面臨兩難：基於物理的渲染（physically-based rendering）雖然能嚴格遵守光學物理，但在重建與渲染階段容易產生雜訊與破圖；生成式模型（generative models，例如 DiffusionRenderer）能產出逼真影像，卻難以精準控制光源，例如車燈這類局部照明往往被忽略。BRDFusion 正是針對這個 trade-off 而設計的混合框架。

這個項目屬於研究型框架，目標是把多視角城市影片分解為幾何（法線、深度）、材質（albedo、roughness、metallic）與 HDR 環境光源，並支援新視角重照明、夜景模擬與動態物件插入等下游應用。具體做法上，它先用物理模型取得明確且一致的場景屬性，再借助生成式先驗（generative priors）緩解優化過程中的歧義；前向渲染時，物理模型負責可控渲染，生成模型則負責去噪與修補瑕疵。

測試方面，作者提供預處理資料集與預訓練權重，研究人員可直接下載並透過 tools/run_pipeline.py 跑推理與評估；硬體需求偏高，建議使用 NVIDIA RTX A6000，RTX 4090 在記憶體允許下可執行部分階段，但 Gen. Render 階段可能突破 24 GB 限制。資料集與評估影片亦同步發佈於 Hugging Face，方便重現結果。

這個項目的創新之處在於把「物理一致性」與「生成式品質」放在同一條管線中互補，而非二選一。對從事自動駕駛模擬、遊戲或影視場景重建的研究團隊而言，這是一個值得關注的方向。

重點摘要

混合範式：物理渲染負責可控性，生成模型負責修補瑕疵，突破單一方法的極限。
完整分解：輸出幾何、材質與 HDR 光源，支援新視角、夜景與物件插入。
高硬體需求：建議 RTX A6000，4090 僅能跑部分階段。
完整開源資源：程式碼、預訓練權重、資料集與評估影片均已公開。
適用場景：自動駕駛模擬、城市數位孿生、影視級場景編輯。

GitHub： https://github.com/shigon255/BRDFusion

Categories: 開源, NVIDIA, Stable Diffusion, Video, Image, 工具, 影像模型, 影像處理, 模型, 模型訓練, 深度學習, 視覺模型, Meta, 清華大學, 框架

DreamX-World：可互動世界模型

2026 年 6 月 16 日

現時不少影片生成模型偏向做短片段合成，畫面可以靚，但一旦要控制鏡頭移動、返回之前看過的位置，或者在同一場景加入事件，往往會出現場景斷裂、風格飄移、前後不一致。DreamX-World 針對的正是這種固定範式的限制，把重點由「生成一段片」改成「維持一個可互動世界」。

這個項目屬於世界模型兼影片生成模型，目標是處理 interactive world simulation，讓文字或圖像驅動的影片不只會動，還能按事件提示改變場景。技術報告提到它支援 camera navigation、重訪已觀察區域，以及 compositional events，亦即多個事件可串連成多步世界變化，這比一般一次性生成更接近遊戲或模擬系統。

DreamX-World

Watch this video on YouTube

它的做法有幾個較鮮明的改動：先用 Unreal Engine 數據、gameplay footage 與 real-world videos 建立資料引擎，再加入 camera estimation 與嚴格過濾；之後用 E-PRoPE、causal forcing、DMD-style distillation、long-rollout training、Memory-Conditioned Scene Persistence 等方法，處理長時段生成常見的記憶斷層與色調漂移。報告亦指出，DreamX-World 1.0 在 5-second basic evaluation 拿到 84.76 overall score、73.75 camera-control score，整體分數高於 HY-WorldPlay 1.5 與 LingBot-World。

如果你想試這個項目，較合理的切入點是先看 DreamX-World-5B-Cam，因為它已公開模型與推理程式，主打 5 秒影片生成；想看長時段能力，就留意 Long-horizon DreamX-World-5B。它較適合研究 world model、互動影片、遊戲 AI 內容生成，或者想比較 autoregressive 與 bidirectional 路線差異的人。

已公開相關模型包括 DreamX-World-5B-Cam 與 DreamX-World-5B
5B-Cam 偏向短片與鏡頭控制，5B 則支援較長時段生成
核心賣點是場景持續性、鏡頭控制與事件組合，不只追求單段畫質
報告提到最高可達 16FPS（八張 RTX5090），反映它有考慮推理效率

整體來看，DreamX-World 的價值不在於再做一個普通 text/image-to-video 模型，而是把「可回看、可操作、可改變」放進同一個生成系統。現階段公開內容仍以模型與技術報告為主，但方法論已相當清楚，對世界模型這條路有明確野心。

GitHub： https://github.com/AMAP-ML/DreamX-World

Paper： https://arxiv.org/pdf/2606.16993

Categories: 開源, Video, Image, AI productions, 模型, 模型訓練, 視頻模型, 世界模型, 清華大學

iMaC：把機械臂動作變成可預測影像

2026 年 6 月 16 日

現時不少 action-conditioned video models 會把未來動作壓成 compact vectors，再經 learned conditioning modules 交給模型處理；作者認為這種做法要模型自行猜測細微空間後果，遇到 real manipulation 時，幾厘米差距已足以改變接觸、物件移動與任務成敗。iMaC 屬於世界模型與影片生成模型，核心是把 future joint actions 轉成 image-like controls，減少「動作有輸入，但空間關係表達不足」的問題。

這個項目的方法相當具體：先利用 robot URDF 與 forward kinematics，渲染 future robot-observation control videos，也就是 motion images；之後再加入 depth 作為輔助訊號，配合 3D pointclouds 建立 two-stream geometry controls，也就是 contact images。舊範式主要靠抽象向量條件化，iMaC 則把「未來機械臂會出現在哪裡、如何接近場景」直接變成可見控制，這是它最清晰的技術分野。

GitHub 儲存庫提供 training、preprocessing 與 inference code，覆蓋 RND-mix stage-one、stage-two，以及 WorldArena 三條流程。想試這個項目的人，會先由資料前處理、depth 與 3D condition 建立開始，再跑 validation inference 看生成影片是否跟動作一致；若本身做 robotic policy evaluation，還可以接到 WorldArena 或 online RND evaluation 場景。

把 actions 轉成 motion images 與 contact images，空間條件更明確
用 depth encoding 和 3D pointclouds 強化 robot-scene 幾何理解
加入 training-time rollout strategy，目標是支援更長時序生成並減少 exposure bias
儲存庫同時涵蓋訓練、前處理、推論，不只是論文展示模型
相關組件包括 Wan transformer variants、Diffusion inference pipelines、RobotWin 2.0、WorldArena

性能方面，論文指出它在八個長時序真實機械人操作任務中，world-model success estimates 與真實 policy performance 呈強正相關。這個結果的價值不在於取代真機測試，而是在正式落機前，先用生成式 world model 篩選 policy checkpoints；對研究 embodied evaluation、robotics 與世界模型的人來說，iMaC 屬於相當值得跟進的一個方向。

GitHub： https://github.com/imac-wm/iMac

Paper： https://arxiv.org/pdf/2606.09813

Categories: 開源, Stable Diffusion, Video, Image, 3D, AI productions, Mac, Vibe Coding, Win, 庫, 模型, 模型訓練, 編程, 視頻模型, Robotic, 世界模型, 清華大學

RhymeFlow：加快影片生成的新路線

2026 年 6 月 16 日

Repository image for Simon-Dcs/RhymeFlow

現時不少影片生成加速方法，主要仍沿用標準 diffusion pipeline：每一幀都要在所有 diffusion timesteps 完整做一次 dense denoising，再配合 sparse attention 或 KV-caching 減少單步計算。RhymeFlow 指出，這種固定範式忽略了相鄰影格內容與動作高度相關，令自然影片裡大量中間步驟其實屬於重複運算。

這是一個免訓練的影片生成加速框架，核心目標是替 DiT（Diffusion Transformers）影片模型減少推理延遲與運算成本。它將不同影格的 denoising trajectory 拆開處理：先找出主導語意變化的 keyframes，讓 keyframes 保持逐步去噪，非 keyframes 則逐步跳過部分步驟，再用 latent trajectory projection 補回時間一致性。

這個做法的創新，不在於單純把 attention 再稀疏化，而是直接挑戰「所有影格都要同步、密集去噪」的舊假設。論文描述，RhymeFlow 在現有 DiT-based video generation models 上，能同時取得更高 inference speed 與更好 visual quality；不過 GitHub 目前公開重點放在 Wan 2.1 adaptation，HunyuanVideo adaptation 仍在準備中。

如果你想試，較合理的切入點是把它當成 Wan 2.1 的加速實驗框架，比較 dense、svg、sap、rhyme、rhyme_sap 幾種方法輸出時間與畫面差異。環境要求偏高，文件列出 CUDA 12.4 / 12.8 與 PyTorch 2.5.1 / 2.6.0，亦牽涉 FlashInfer、flash-attn 和自訂 kernels，較適合已有 GPU 與 PyTorch 經驗的人。

項目類型：training-free 影片生成加速框架，處理 DiT 影片模型推理太慢的問題
方法重點：keyframes 做 dense denoising，非 keyframes 跳步處理，再用 latent trajectory projection 維持時序一致
可比較方法：dense、svg、sap、rhyme、rhyme_sap
相關模型：Wan 2.1 已有 adaptation，HunyuanVideo adaptation 尚未完整釋出
適合場景：研究影片生成推理優化、比較不同加速策略、測試速度與畫質取捨

整體來看，RhymeFlow 的價值很明確：它不是改模型權重，也不是重新訓練，而是重排 denoising flow scheduling，從流程層面節省計算。對研究者與進階開發者而言，這類思路比單純堆硬件更有參考價值；對一般創作者來說，現階段門檻仍在部署與 GPU 環境。

GitHub： https://github.com/Simon-Dcs/RhymeFlow

Paper： https://arxiv.org/pdf/2606.06309

Categories: 開源, 騰訊, NVIDIA, Video, Content Creator, AI productions, Python, 模型訓練, 深度學習, 視頻模型, 清華大學, 框架

S2L-PO 用小模型帶動大模型推理訓練

2026 年 6 月 16 日

這個項目來自跨校團隊，作者包括 Yiming Ren、Yiran Xu、Zicheng Lin 等人，通訊作者是 Yu Qiao 與 Ruihang Chu；所屬機構包括清華大學、上海人工智慧實驗室、香港中文大學及香港城市大學。以研究背景看，團隊明顯集中在大型語言模型訓練、推理強化學習與數學評測。

這是一個針對 Group Relative Policy Optimization（GRPO）訓練流程的研究型框架，目的是提升大型語言模型在推理任務上的 rollout diversity。現有做法多數靠提高 temperature，從 token-level randomness 增加變化，但論文指出這種固定範式容易在長推理鏈累積噪音，令軌跡變得不連貫。

S2L-PO（Small-to-Large Policy Optimization）換了一個角度：不用同一個大模型不停抽樣，而是找同家族的較小模型做 explorer，先產生一部分 qualitatively different reasoning trajectories，再讓大模型用混合 rollout 依照標準 GRPO 訓練。之後再用 progressive annealing，逐步由 small-model exploration 過渡到 fully on-policy learning，避免中途被小模型能力上限拖慢。

論文提供的結果頗有說服力。以 Qwen3-8B learner 配 1.7B explorer 為例，AIME24 Pass@1 由 15.0 提升到 23.8，AIME25 Pass@1 由 12.1 提升到 22.5；Qwen3-14B learner 配 4B explorer 亦比基線 GRPO 高。作者同時聲稱 rollout compute 還可降低，這點對訓練成本敏感的團隊尤其有吸引力。

如果你想測試這個項目，較合理的方式不是當作即裝即用工具，而是把它視為一個訓練策略參考：先看論文與公開模型設定，再比較自己手上的 GRPO 流程是否同樣受 rollout 同質化影響。硬件門檻不算低，資料列出 8B 模型約需 20 GB GPU 記憶體、14B 模型約需 32 GB，較適合研究人員、模型訓練工程師，或正在做數學推理微調的團隊。

核心判斷：這是模型訓練框架，不是一般聊天應用，重點在改善 GRPO 的探索品質
方法差異：由 token-level randomness 轉向 policy-level diversity，減少長鏈推理失真
主要創新：用較小同家族模型充當 natural explorers，再以 progressive annealing 收回大模型主導權
已列相關模型：Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B
適合場景：數學推理、可驗證獎勵訓練、想提升 RLVR 與 GRPO 收斂效率的項目

GitHub： https://github.com/qishisuren123/S2L-PO

Paper： https://arxiv.org/pdf/2605.30789

Categories: 開源, 阿里巴巴, Qwen, 香港, 香港中文大學, Agentic, 工具, Python, 模型, 模型訓練, 深度學習, 香港城市大學, 清華大學, 框架, 上海人工智慧實驗室

OmniVideo-100K：增強影音推理訓練數據集

2026 年 6 月 16 日

現時不少影音問答資料建立流程，普遍沿用「video-caption-QA」範式：先把影片切成短片段，再分開寫視覺與音訊描述，最後生成 QA。論文作者認為這種做法容易出現 modality bias、temporal misalignment，同一角色在不同片段亦可能描述不一致，令問題多數只圍繞局部事件，難以考驗長時間跨度的 audio-visual reasoning。

OmniVideo-100K 是一個 Dataset 數據集，目標是為 Multimodal Large Language Models (MLLMs) 提供較完整的影音推理訓練材料。它提出兩個核心機制：Entity-Anchored Video Scripting 先把原始影片整理成結構化 script，包括摘要、主要實體清單，以及帶時間戳的分段音畫描述；Clue-Guided QA Generation 則先抽取跨片段、跨模態線索，再生成較複雜的問答。

這種設計的關鍵，不在於題目數量大，而在於先整理證據鏈再出題。對比舊方法把長文本理解和 QA 合併成一步，OmniVideo-100K 把線索挖掘獨立出來，較有機會產生涉及因果、未來預測與假設推理的題目，而不只是問畫面中「見到乜」。

如果你想測試這個項目，可以先留意 Hugging Face 上的 OmniVideo-100K 與人手驗證的 OmniVideo-Test，看看資料結構是否適合自己的訓練流程；做研究的人則可直接比較模型在外部 benchmark 的變化。論文提到，VITA-1.5、Qwen2.5-Omni-7B、Qwen3-Omni-30B 經此資料集微調後，在 OmniVideo-Test 最多提升 20.59%，在 Daily-Omni、JointAVBench 也有最多 12.64% 增幅，同時盡量保留在 Video-MME 這類一般影片 benchmark 的能力。

針對舊式「video-caption-QA」流程的三個痛點：modality bias、temporal misalignment、敘事不連貫
用 structured scripts 加 entity list，補回跨片段指代一致性與聲音來源對應
任務覆蓋 10 類，包括 FGP、STD、CU、CP、SA、ESO、SM、CR、FP、HR
適合做影音理解、跨模態推理、指令微調資料研究的人參考
相關模型包括 VITA-1.5、Qwen2.5-Omni-7B、Qwen3-Omni-30B

整體來看，這個項目的價值在於它不只新增一批資料，而是重寫影音 QA 資料的組織方法。若你關心的不是單張畫面問答，而是影片內角色、聲音、事件先後與推論之間的連結，OmniVideo-100K 會比一般自動合成資料集更有研究參考價值。

GitHub： https://github.com/MiG-NJU/OmniVideo-100K

項目：https://yzlmhzz.github.io/OmniVideo-100K/

Categories: 開源, Qwen, Video, Audio, 工具, AI productions, 多模態模型, 庫, 模型, 模型訓練, 語音, Dataset 數據集

[技術文章] 從聊天機械人到數碼同事：AI 怎樣學會「持續工作」

2026 年 6 月 15 日

這項文章由騰訊優圖實驗室、清華大學、中山大學、中南大學及伊利諾大學芝加哥分校的研究團隊共同撰寫，提出一個核心觀點：大語言模型（Large Language Models, LLMs）正從「聊天機械人」邁向「數碼同事」，關鍵差異在於能否持續完成工作，而非只給出對話式回應。

團隊將這個轉變拆成兩個互相牽引的維度。第一個是「認知核心」的進化：LLMs 從依賴下一個詞預測的「快思維」，走向會運用推理時間計算、長思維鏈（Chain-of-Thought）、反思及強化學習的「思考型 LLM」，讓推理過程更謹慎可靠。第二個是「工具輔助任務執行」的進化：從臨時呼叫外部工具的 Agent，走向類似 OpenClaw 風格的工作站系統，配備持久化的工作區（Workspace）、可重用的技能（Skill）、驗證迴圈及治理機制。

文章特別強調「Workspace + Skill」這個範式是關鍵躍升。它讓原本零散的工具操作，變成像同事般有狀態記憶、可重用流程、能完成任務並累積經驗的工作模式。數據結構也從簡單的指令—回應配對，演進為「狀態—動作—觀察」的軌跡記錄；評估方式則從靜態基準測試，轉向沙盒化、可審計、能自我進化的 AI 生態系統。

這份內容適合關注 AI Agent 發展、想了解 LLM 下一代形態的研究者與產品設計者。讀者可透過項目網站（from-chatbot-to-digital-colleague.github.io）取得完整論文與相關資源。

重點摘要：
– 由騰訊優圖實驗室主導，聯同清華、中山、中南及 UIC 共同研究
– 提出從「聊天機械人」到「數碼同事」的範式轉移
– 認知層面：從快思維走向推理驅動的「思考型 LLM」
– 執行層面：從臨時工具呼叫走向持久化 Workspace + Skill 系統
– 評估方式同步轉向沙盒化、可審計的 AI 生態系統

Paper： https://arxiv.org/pdf/2606.14502

Categories: 開源, Agentic, 模型, 模型訓練, 清華大學, 框架

VISTA 準確提升 GUI grounding

2026 年 6 月 15 日

VISTA 是一個面向 GUI grounding 的訓練框架，核心目標是令模型更準確地在螢幕截圖中找出應該點擊的位置。它處理的不是一般文字理解，而是讓模型根據指令，在複雜介面上輸出座標，減少按錯按鈕、點錯輸入框這類問題。

這個項目的重點，在於它不是只從同一張截圖反覆抽樣，而是把同一個 GUI 畫面裁成多個仍保留目標元素的 view，再用這些 view 建立 GRPO 比較組。由於每個 crop 都會精確重映射座標，模型等於在語意相同、幾何位置不同的畫面上學習，能改善單一視角下「全部答錯」或「全部答中」而缺乏學習訊號的情況。

另一個關鍵設計是 self-verified cross-view anchor。它只會在目前 policy 已經產生 maximum-reward rollout 時，才加入 oracle coordinate，避免把訓練直接變成無條件模仿；這點對 GUI 座標生成尤其重要，因為短座標輸出很容易受微小偏差影響。從描述來看，這種做法比標準 GRPO 更重視穩定性，也更保留 reinforcement learning 的比較學習特性。

這是一個訓練方法項目，不是最終應用程式，主要用來提升 GUI grounding 模型表現
核心改動包括 view-consistent GRPO groups 與 self-verified cross-view anchor
在 ScreenSpot-Pro 上，Qwen3-VL 4B/8B/30B-A3B 由 55.5/52.7/53.7 提升至 63.4/65.8/67.0
以 Qwen3.5 初始化的 4B/9B/35B-A3B backbone，亦比 standard GRPO 再高 +2.0/+0.9/+1.2
已公開相關模型包括 VISTA-4B、VISTA-9B

如果你本身有做 Computer-use agents（CUAs）、GUI 自動化、螢幕操作代理，這個項目特別值得留意。它較適合研究人員、模型工程師，或者正在調整 Qwen3-VL、Qwen3.5 視覺語言 backbone 的團隊；一般用家未必會直接部署這個項目，但可以把它視為提升介面定位能力的一套訓練方案。

就公開資料看，VISTA 的說服力主要來自基準分數與訓練動態變化：content reward、更高的 informative group ratio，以及 ScreenSpot-Pro 準確度同步上升。再加上論文提到五個 GUI-grounding benchmarks、較高 worst-view accuracy 和較低 prediction flip rates，整體判斷是：這個項目不是靠包裝取勝，而是針對 GUI grounding 訓練訊號退化問題，提出了相當對症的改法。

GitHub： https://github.com/ZJUSCL/VISTA

Paper： https://arxiv.org/pdf/2606.14579

Categories: 開源, 模型, 模型訓練, 框架

VideoKR：為影片理解補上「知識與推理」拼圖

2026 年 6 月 7 日

過往的影片問答模型，往往只在畫面表層打轉，碰上需要專業背景的內容就顯得吃力。VideoKR 正是針對這個缺口而設計，被稱為首個專為知識與推理密集型影片理解打造的大規模訓練語料庫，內含 31.5 萬條影片推理範例，橫跨 14.5 萬段以 CC 授權新蒐集的專業領域影片。

整個語料庫採用「人機協作、技能導向」的生成流程，刻意提升題目難度、題材多元性，以及 Chain-of-Thought（CoT）推理過程的品質。換句話說，模型不只是被餵大量影片，還要學會「怎樣一步步推論出答案」，而這個訓練流程分為監督式微調（SFT）與 GRPO 強化學習兩個階段，使用了 LLaMA-Factory 與 verl 兩個框架。

評測方面，項目同時釋出 VideoKR-Eval，由專家人工標註，要求模型真正理解影片內容，不能靠文字提示取巧。完成訓練後釋出的權重包括 VideoKR-Qwen2.5-VL-7B-SFT、VideoKR-Qwen3-VL-8B-SFT，以及對應的 GRPO 版本 VideoKR-Qwen2.5-VL-7B 與 VideoKR-Qwen3-VL-8B，涵蓋兩款主流視覺語言模型，方便不同算力門檻的研究團隊選用。

這個項目適合從事多模態研究、需要領域知識影片分析的團隊，以及關注 SFT-GRPO 訓練管線效果的工程師。對教學與科研機構而言，CC 授權的素材也可作為延伸應用的起點。

重點摘要

首個大規模語料庫：31.5 萬條推理範例、14.5 萬段 CC 授權專業影片。
人機協作生成流程：兼顧難度、多元性與 CoT 推理品質。
專家標註評測集 VideoKR-Eval：避免模型依賴文字捷徑作答。
SFT 與 GRPO 雙階段訓練：使用 LLaMA-Factory 與 verl 框架。
開源權重齊備：涵蓋 Qwen2.5-VL-7B 與 Qwen3-VL-8B 兩個規模。

GitHub： https://github.com/Fu-Fu-Fu-Fu/VideoKR

Categories: 開源, 多模態模型, 模型, 模型訓練, 視覺模型

AffordanceVLA：為機械臂加入「先想再做」的能力

2026 年 6 月 7 日

機械臂聽到「把杯子拿起來」這類指令時，傳統的視覺語言動作模型（Vision-Language-Action Model, VLA）往往要直接把影像和文字翻譯成關節角度，中間欠缺一個「思考」步驟。AffordanceVLA 嘗試在這個鴻溝上架一道橋：先讓模型預測結構化的可供性（affordance），再據此生成動作。

整個框架由三個專家模型組成，按單向的 UAA 注意力串接。Understanding Expert（M_und）以 PaliGemma（SigLIP + Gemma）為骨幹，把畫面、指令與機械臂自身狀態融合成統一的語意表示。Affordance Generation Expert（M_gen）以 Gemma 搭配可學習查詢，把上述表示解碼為三種可供性標記：Which2Act 判斷要操作的物件、Where2Act 標出二維互動熱區、How2Act 則推估三維幾何資訊。最後 Action Expert（M_act）以 flow matching 方式輸出整段動作序列（action chunk）。這個設計呼應了論文「Affordances serve as a perfect bridge」的核心想法。

由於現成機器人數據集中缺乏密集的可供性標註，作者額外提供了一條自動化標註管線，並以三階段漸進式課程訓練 MoT 架構。訓練時須留意 model.chunk_size 與 data.chunk_size 保持一致，否則動作 attention mask 會錯位；Which2Act 的 Flux loss 預設為 MSE，可在 src/models/which2act_decoder.py 頂端切換。

這個項目適合研究 VLA、機器人操作策略，或對可供性表示有興趣的開發者。需要一支能跑 PaliGemma 與 flow matching 的 GPU 環境，並準備好仿真或實機評測流程。論文中的模擬與真機實驗橫跨多種操作場景，顯示加入可供性中間層能提升泛化與精確度，但具體數字仍以官方報告為準。

重點摘要

以 Which2Act、Where2Act、How2Act 三段式可供性作為視覺、語言與動作之間的中間橋樑。
採用 MoT 架構，串接 PaliGemma 為基礎的 Understanding、Gemma 為基礎的 Affordance 與 Action Expert。
配套自動化可供性標註管線，緩解機器人數據標註不足的問題。
訓練採三階段漸進式策略，flow matching 輸出整段動作序列。
模型、訓練與標註腳本皆隨開源項目釋出，歡迎社群延伸。

GitHub： https://github.com/Skywalker-yqz/AffordanceVLA

Categories: 開源, 香港中文大學, 香港科技大學, 多模態模型, 模型, 模型訓練, 北京大學

Page 2 of 6

« Previous 1 2 3 4 … 6 Next »