框架 Archives - Page 3 of 13

LooseControlVideo 用 3D 方框指揮 AI 影片動作

2026 年 6 月 21 日

LooseControlVideo（LCV）是一個針對影片生成與編輯的框架，核心做法是用稀疏、帶方向的 3D boxes 來安排物件移動、旋轉、遮擋關係，以及鏡頭運動。它想解決的，是多物件場景中「位置安排」與「時間變化」經常纏在一起，令文字轉影片很難精準控制。

常見控制方法多數依賴 dense depth maps、optical flow 或 3D point tracks，雖然細緻，但要逐格準備條件，製作成本高。LCV 改用人手較易繪製的 3D boxes，讓使用者先定出高層次 blocking，再交由生成模型補足自然的動態、互動與遮擋，控制感和自由度之間取得較好平衡。

技術上，項目以 Wan 2.2 backbone 為基礎微調，並配合 DNOCS 這種編碼方式，表示 3D 尺寸、方向及按深度排序的遮擋資訊。頁面亦提到它支援局部修訂，例如只調整跳躍軌跡，或加入新的互動，而不必大幅破壞整體場景。

重點可先看這幾項：
– 可控制軌跡、旋轉、遮擋、鏡頭運動與局部編輯
– 輸入形式是稀疏 oriented 3D boxes，較易手動建立
– 適合多物件場景與需要導演式安排動作的影片生成
– 在 nuScenes、HO-3D、BEHAVE 上，優於 2D-box 與 flow-based baselines
– 指標上約有 1.2 至 3 倍 Trajectory Error 改善、2 倍 Rigid Motion Consistency 改善，以及 1.5 至 2 倍 Occlusion Accuracy 提升

這類方法特別適合想精準安排角色走位、物件互動，或需要補拍式修改片段的人。現有資料主要展示項目頁與結果示例，若讀者想接觸這個項目，較可行的做法是先觀察它如何用少量 3D boxes 改動單一動作，再比較與傳統 layout-conditioned models 在遮擋與旋轉控制上的差別。

項目： https://shariqfarooq123.github.io/LooseControlVideo/

Categories: Video, 3D, 影像處理, 模型, 視覺模型, 視頻模型, 框架

visually_grounded_thinking：讓 VLM 推理同時指向圖片證據

2026 年 6 月 21 日

現時不少 Vision-Language Models（VLMs）做視覺推理時，通常只輸出文字思路，證據其實來自圖片哪一部分，模型未必講得清。作者認為這種 text-only reasoning trace 難驗證、亦難監督，所以提出 visually grounded thinking：在推理文字中插入 <obj>...</obj>，直接標示 point 或 box 座標，將語句同圖片區域綁在一起。

這不是單純加標籤的格式改動，而是一套訓練與評測流程。項目先用 open-source counting 與 spatial reasoning datasets 合成帶視覺依據的思路，再用 SAM3-based grounding agent 產生 mask supervision，之後分別用 SFT 與 GRPO 訓練；RL 階段再靠 grounding-aware reward，以 box IoU 或 point F1 檢查模型指向的物件是否對應正確證據。

同類做法多數關注答案啱唔啱，這個項目連中間引用的圖像證據都計分，取向明顯較重視可驗證性。不過代價亦很清楚：資料製作、物件對齊、reward routing 都更複雜，訓練門檻比只做文字 reasoning 高，較適合已經有 VLM 訓練流程的研究團隊。

在 counting benchmarks 與 spatial reasoning benchmarks，加上 visually grounded thinking 的 Gemma3-4B-IT 普遍優於原版模型與 non-grounded thinking baseline；在部分空間推理任務，4B 版本甚至可追上或超過 Gemma3-27B-IT。作者亦指出 point grounding 較適合 counting，而 box grounding 在 spatial tasks 配合 grounding rewards 效果更突出。

類型上，它屬於 VLM 訓練框架加研究代碼，重點是改善視覺推理過程缺乏可核對證據的問題。
儲存庫已分開 data_synthesis_pipeline、agent、rl_reward、sft_dataset、VLMEvalKit 與 scripts，結構算清晰，理解流程會比直接改模型權重更重要。
部署思路偏研究用途，較可能需要 Docker 環境、SFT/RL 訓練配置，以及自備算力，而不是即裝即用的終端工具。
相關模型與元件包括 Gemma3-4B-IT、Gemma3-27B-IT、SAM3、GRPO、SFT、VLMEvalKit。
適合關注可解釋視覺推理、VQA、counting、spatial reasoning，或者想把中間推理變成可監督訊號的團隊。

GitHub： https://github.com/Jun-Kai-Zhang/visually_grounded_thinking

Paper： https://arxiv.org/pdf/2606.16122

Categories: 開源, Gemini, Agentic, Image, 工具, 多模態模型, 庫, 模型, 模型訓練, 視覺模型, Meta, 框架, Dataset 數據集

S-Agent 把視覺推理帶入 3D 場景記憶

2026 年 6 月 21 日

現時不少 Vision-Language Model 都偏向用單張圖片、單步回答去做空間判斷；就算加入 agent，也常見為 stateless inference，缺少持續記錄場景變化的能力。S-Agent 提出的做法，是把空間推理改寫成 spatio-temporal evidence accumulation：不是即時猜答案，而是逐步收集 2D、3D 和時間序列證據。

這是一個偏向 Agentic 視覺推理框架 的研究項目，目標是解決多視角圖片與影片中的 3D 空間理解問題。它把 Vision-Language Model 當成 semantic planner，再配合 hierarchical spatial tools、Scene Memory 與 Agent Memory，處理 counting、measurement、orientation、relative position 這類單幀方法較易出錯的任務。

同類做法多數停留在 frame-level prediction，S-Agent 的取向明顯不同：先 grounding 物件，再做 2D-to-3D lifting，之後把幾何線索整合成可推理的 scene-centric understanding。這種設計的代價，是系統比單次問答複雜，亦更依賴工具鏈、記憶狀態與多步推理流程，不算是輕量型項目。

S-Agent: Spatial tool-use elicits reasoning for spatial intelligence.sagent demo video

Watch this video on YouTube

目前 GitHub 提供的是論文與示範資訊，code、data、checkpoint 仍標示 coming soon，所以現階段較適合當成研究方向來理解，而不是即裝即跑的工具。若要測試它的價值，較合理的方法是留意之後公開的 inference / evaluation code，並對照 MMSI-Bench 一類 multi-view 與 video spatial reasoning benchmark 的表現。

核心主張是用 spatio-temporal evidence accumulation 取代 isolated frame-level prediction
系統結構包含 VLM semantic planner、hierarchy of spatial tools、Scene Memory、Agent Memory
論文指在 zero-shot 設定下可提升 Gemini-3-Pro，SFT 後的 S-Agent-8B 亦能接近高階 closed-source models
適合研究 spatial intelligence、multi-view reasoning、video understanding 的團隊留意

相關模型方面，文中明確提到 Gemini-3-Pro、Qwen-VL-8B，以及蒸餾後的 S-Agent-8B。若你關心 Computer-use agents、CUAs 以外，AI 如何真正理解連續 3D 世界，這個項目比一般圖片問答更有研究價值。

GitHub： https://github.com/Ropedia/S-Agent

項目：https://ropedia.github.io/S-Agent/

Categories: 開源, 阿里巴巴, Qwen, Gemini, Agentic, 工具, 3D, 多模態模型, 模型, 視覺模型, 框架

ENPIRE : NVIDIA 閉環系統訓練機械人自我改良

2026 年 6 月 21 日

ENPIRE 是一個用於真實世界機械人策略自我改良的框架，重點不是單一模型，而是把「重設場景、執行策略、檢查結果、再改進」串成可重複閉環。它針對的問題很明確：靈巧操作任務一直很依賴人手監督與大量調參，令機械人研究難以擴展。

系統由四個模組組成：Environment（EN）負責自動重設與驗證、Policy Improvement（PI）負責發動策略改良、Rollout（R）負責在單機或多機械人上測試、Evolution（E）則讓 coding agents 分析紀錄、查閱文獻、調整訓練基建與演算法程式。與常見只在模擬器或純數碼環境做 agent 優化的方法相比，ENPIRE 把回饋迴路直接放到真實機械人上。

列出的案例包括 PushT、Pin Insertion、Tie Zip-tie 與 GPU Insertion，可見它瞄準的是需要精準操作的任務。按頁面描述，frontier coding agents 在這套流程下，可把部分真實操作任務推高至 99% 成功率，但不同任務、機械人配置與訓練設定之間仍可能有差異，閱讀時宜把它視為特定條件下的結果。

若想理解這個項目，可先從它的閉環結構入手，再看 Policy Improvement 支援哪些路線，例如 heuristic learning、tool calling、behavior cloning、offline RL 與 online RL。頁面亦提到 robot fleet scaling、simulation evaluation、auto evaluation 與 auto reset，反映這個項目不只關心模型表現，也在處理如何把測試與迭代流程自動化。

核心價值：把真實機械人訓練流程標準化，減少人手介入
主要差異：不是只生成策略，而是連同驗證、重設、改良一起自動執行
適合讀者：機械人研究者、Agentic AI 開發者、關心自動化實驗流程的人
已提方法：heuristic learning、tool calling、behavior cloning、offline RL、online RL

這項目較適合放在機械人學習、自主代理與真實世界實驗自動化的脈絡下理解。若你關心 Computer-use agents 或 coding agents 能否走出螢幕、直接管理物理系統的迭代流程，ENPIRE 提供了一個相當具體的方向。

項目： https://research.nvidia.com/labs/gear/enpire/

Categories: 開源, NVIDIA, Agentic, Clone, Vibe Coding, 模型, 模型訓練, 編程, Robotic, 框架

Envs-aware-Information-Retrieval：RAG 檢索不應一招走天涯

2026 年 6 月 21 日

Thinking token length dynamics during GRPO training

不少 Retrieval-augmented generation 都把 retrieval 視為通用步驟：先改寫問題，再交給任何檢索器處理。這項論文反對這種 fixed generic tool-call 範式，認為限制在於查詢寫法會受檢索環境影響，同一句問題交給 BM25、Contriever、all-MiniLM-L6-v2 或 Qwen3-Embedding，最佳表達方式可以完全不同，因此提出 Environment-aware Information Retrieval 這個設定，專門研究 LLM 如何因應 retriever 改寫查詢。

項目本質上是研究型框架與實驗資源，用來解決「RAG 查詢改寫是否應按檢索器調整」這個問題。作者用 reinforcement learning（RL）訓練 query rewriter，並以 nDCG@10 當 reward；重點不只是答對與否，而是觀察模型會否學到不同 retriever 對應的語言風格。

不同檢索器之間的策略難以轉移，主要不是 search intent 變了，而是查詢的 structural 或 stylistic 形式不對。例子很清楚，BM25 偏好精簡 keyword-style queries，Contriever 則更受 document-like、statement-style rewrites 幫助；作者亦加入 retriever-specific human guidance 改善 RL 探索，並用 branching rollout 穩定 multi-turn retrieval 訓練中的 credit assignment。

如果你想測試這個項目，做法是挑同一批問題，分別接到 BM25 與 embedding-based retriever，比較原始問題、改寫後查詢，以及 nDCG@10 變化。做 RAG pipeline、query rewriting、search quality tuning 的人會特別啱用；對一般應用團隊來說，這份研究也提醒了一點：不要假設一套 prompt 或 rewrite policy 可以通吃所有 retrieval backend。

這是研究型項目，核心在 retriever-aware query rewriting，而非一般聊天應用
保留的相關模型與檢索器包括 BM25、Contriever、all-MiniLM-L6-v2、Qwen3-Embedding
主要 technical claim 是不同 retriever 需要不同查詢風格，策略轉移性偏低
訓練以 RL 進行，並用 nDCG@10 衡量檢索品質
branching rollout 與 retriever-specific human guidance 是方法上的兩個關鍵補強

整體來看，這不是靠更大模型硬推效果，而是重新檢視「查詢應怎樣配合檢索器」這個常被忽略的步驟。若後續公開更多 benchmark 細節與可重現結果，這個方向有機會成為 RAG 調校中的實用基線，而不只是論文中的觀察。

GitHub： https://github.com/LCO-Embedding/Envs-aware-Information-Retrieval

項目： https://huggingface.co/LCO-Embedding

Categories: 開源, 阿里巴巴, Qwen, Agentic, 工具, Embedding, RAG, 提示詞, 模型, 模型訓練, 框架

SSync 用選擇式蒸餾改善影片物件分解

2026 年 6 月 21 日

現有的 video object-centric learning（VOCL）多數沿用 slot-based frameworks，通常建基於 reconstruction-driven encoder–decoder architectures：encoder 產生 attention maps，decoder 產生 object maps，再嘗試把兩者對齊。近年的 dense alignment strategy 會對所有 spatio-temporal patches 做 contrastive learning，但這種全對全對齊會把 encoder 的雜訊和 decoder 的模糊邊界一併放大，計算量亦會升到 quadratic complexity，影片一長就更難擴展。

SSync（Selective Synergistic Learning）屬於一個可插入現有流程的 PyTorch 學習模組，目標是改善影片中的物件分解質素。它不是強迫所有 patch 全面一致，而是只挑選較可信的訊號做 mutual-distillation：用 encoder 幫手修邊界，用 decoder 清理物件內部雜訊，方向相當明確。

這項目把「全部都對齊」改成 selective distillation，並透過 pseudo-labeling 把成本降到 linear complexity。作者亦加入 transitive pseudo-label merging，處理 slot redundancy，將時序上反覆重疊的 slots 合併，減少模型把同一物件拆成多份的偏差。

如果你本身有研究 Slot Attention、影片分解、無監督物件發現，這項工作相當值得細看；如果你只是想快速試概念，亦可直接留意作者提供的 PyTorch implementation、Hugging Face 權重和 project page。它屬於 plug-and-play module，較適合已有 VOCL 基礎模型的人接入比較，而不是給完全零基礎讀者當成獨立應用程式。

核心問題：dense alignment strategy 計算昂貴，亦會傳播 encoder 與 decoder 各自的錯誤
核心方法：Selective Synergistic Learning 只蒸餾可靠線索，分開處理 boundary refinement 與 interior denoising
結構補強：加入 transitive pseudo-label merging，減少 slot redundancy
論文聲稱：可提升 decomposition quality，並對 slot configurations 有較強 robustness
相關技術詞：VOCL、slot-based frameworks、Slot Attention、mutual-distillation、pseudo-labeling

整體來看，SSync 的價值不在於另起爐灶，而是在既有 slot-based video learning 範式上，直接指出 dense patch alignment 的兩個痛點：錯誤傳播與計算擴張。對研究型讀者而言，這比單純再堆模型容量更有意思；對工程導向團隊而言，它也提供了一個較容易插入現有項目的改良方向。

GitHub： https://github.com/wjun0830/SSync

項目：https://wjun0830.github.io/SSync/

Categories: 開源, Video, IDE, Python, 模型, 深度學習, 編程, 視覺模型, 框架

RATs 用多代理玩出機械人技能庫

2026 年 6 月 21 日

RATs pipeline overview — click to play the video

現有機械人代理很多時仍然沿用 task-driven 路線：先收到明確指令，再透過 Code-as-Policy 產生可執行程式來完成任務。RATs 則批評這種做法太依賴外部任務，令可重用技能只會在被要求時才出現，所以它提出一個多代理 Code-as-Policy 系統，先用 free-form play 自行發明練習目標，再把成功行為整理成技能庫。

這個項目屬於機械人學習框架，要解決的是機械人代理遇到新任務時，欠缺可直接調用的長期技能累積。RATs 分成 Play 與 Evaluation 兩段：前者由 proposer、planner、policy-writer、verifier、failure-diagnoser 幾個 LLM 代理協作，後者把已凍結的技能當成 planner context 重用，而且強調 no gradients、no RL，主要靠 structured natural-language feedback 與 code reuse 學習。

如果你想試這個項目，較適合把它當成研究型系統來跑 benchmark，而不是即裝即用小工具。環境要求包括 Python 3.10、CUDA-capable GPU，並牽涉 LIBERO-PRO、MolmoSpaces、Robosuite 及真實 Franka Panda 流程；比較合理的測試次序，是先看 Play 階段怎樣生成技能，再檢查 Evaluation 階段對 held-out tasks 有沒有改善。

它的創新點，在於把「玩」正式納入 lifelong robot skill learning：不是隨機探索，而是讓代理自己提出可學習任務、逐步驗證中間進度、失敗後再診斷重試，最後把成功執行蒸餾成 reusable skill library。這令技能可在跨環境情境重用，不一定綁死原本訓練場景。

論文給出的結果相當具體：在 LIBERO-PRO 與 MolmoSpaces，play-learned skills 相比 no play 與 random-play baselines 有提升，對 CaP-Agent0 分別高出 20.6 和 17.0 個百分點；把技能直接檢索進其他 inference-time Code-as-Policy agents 的 context，對 Robosuite 與真實世界 transfer 亦分別提升 8.9 和 8.8 點。相關模型與基線主要包括 CaP-X、CaP-Agent0，以及文中使用的 LLM agents 協作流程；若你關心 agentic robotics、技能重用與真機轉移，這個項目很值得細讀。

類型定位：多代理機械人學習框架，核心是 Code-as-Policy 與技能庫重用
方法重點：先 Play 自提任務學技能，再 Evaluation 把技能注入 planner context
技術取向：不靠 gradients 或 RL，主要依賴自然語言回饋、程式修正與 code reuse
適合場景：研究 embodied agents、robot skill library、cross-environment transfer 的團隊
已提到的相關系統：CaP-X、CaP-Agent0、LIBERO-PRO、MolmoSpaces、Robosuite、Franka Panda

GitHub： https://github.com/Playful-RATs/rats

項目： https://playful-rats.github.io/

Categories: 開源, NVIDIA, Agentic, 工具, AI productions, Python, Python NLP, 庫, 模型, 模型訓練, Robotic, 框架, Skill 技能

UniAR 用一個 Transformer 包辦看圖、作圖、改圖

2026 年 6 月 18 日

現有 Unified Multimodal Models（UMMs）多數會把影像理解和影像生成分開處理，常見做法是用兩套 visual tokenizers。作者認為這種 fixed paradigm 會把表示空間拆開，模型生成完圖片後，還要再重新編碼才能理解自己剛產生的內容，shared context 也就難以真正成立；UniAR 因此提出一個 unified autoregressive framework，用單一 discrete visual tokenizer 連接理解、生成與編輯。

項目屬於多模態模型，目標是用同一個 Transformer 解決 image understanding、image generation 和 image editing 之間來回切換的成本。它的核心判斷很直接：若模型看圖與作圖共用同一套視覺 token，流程就不需要額外 re-encoding，系統結構會更一致。

技術上，UniAR 有幾個辨識度很高的設計。Multi-level BSQ tokenizer 把高層語意與低層細節一併保留，並透過 Binary Spherical Quantization 擴大有效 vocabulary；parallel bitwise prediction 則把視覺碼以分組方式一齊預測，令 autoregressive 長序列壓短，論文提到 1024×1024 影像只需 256 個 AR tokens，對應 32x visual compression ratio。

單一 discrete visual tokenizer 取代雙 tokenizer 架構
支援 image understanding、image generation、image editing 同模運作
Multi-level BSQ tokenizer 同時顧及語意與細節
parallel bitwise prediction 壓縮視覺序列，加快 autoregressive 生成
DiT-based visual decoder 以 discrete visual tokens 重建高保真影像
需求：Python 3.12、CUDA 12.1+、推理的 GPU 記憶體 >= 24 GB

如果你想試這個項目，較合理的切入點不是直接拿來當日常工具，而是先看它公開的模型權重與項目頁，分開測理解、生成、編輯三類輸出是否一致。它較適合研究多模態統一架構的人、關注 Qwen 生態的開發者，以及想比較 autoregressive 與 diffusion 混合路線的讀者。

性能方面，原文聲稱 UniAR 經 large-scale pre-training、supervised fine-tuning 和 reinforcement learning 後，在 image generation 與 image editing 達到 state-of-the-art，同時在多模態理解 benchmark 保持競爭力。不過目前公開資訊較像研究成果展示，visual decoder training code 仍未完整放出，因此更適合拿來理解方法論，而不是立即評估成成熟生產工具。

相關模型與組件包括 SD3-medium visual decoder、Qwen Team 背景下的多模態模型路線，以及論文聚焦的 Unified Multimodal Models（UMMs）。若你在意的不是單次生成效果，而是模型能否「理解自己生成的內容」，UniAR 的 shared context 設計確實提出了一個有意思而且相當具體的答案。

GitHub： https://github.com/ShareLab-SII/UniAR

項目： https://sharelab-sii.github.io/uniar-web/

Categories: 開源, 阿里巴巴, Qwen, Stable Diffusion, Image, 工具, AI productions, Vibe Coding, 多模態模型, 影像模型, 影像處理, 模型, 框架

SeeQ 讓 VLM 學識自己出視覺問題

2026 年 6 月 18 日

現有 Vision-Language Models（VLMs）多數按「被動答題」範式訓練：人類或外部模型先提供問題，模型再學習回答。論文認為這種 fixed inputs 做法受制於靜態資料分佈，Visual Question Generation（VQG）亦容易卡在標註成本高、題目深度不足這兩個瓶頸，所以 SeeQ 提出 Self-Evolving Visual Questioner，用同一個 VLM 同時做 proposer 與 filter，自動從未標註圖片生產更難、更貼近畫面內容的問題。

這個項目屬於框架兼研究型工具，重點不是再做一個普通題庫，而是建立完整流水線：先生成 seed questions，再反覆改寫，提升 visual search、context 與 spatial reasoning 要求，之後再由模型自行過濾。作者同時加入 exploration diversity 控制，目標是避免訓練一路收窄，最後只剩單一風格題目。

如果你想試，較合理的做法是先準備圖片對應的 JSON 輸入，再分開看 generation 與 evaluation 兩部分輸出。倉庫內沒有附模型權重、數據集與快取，評測亦會用到 image-capable OpenAI evaluator 與 Qwen embedding models，所以較適合已經有 VLM 環境、想驗證自動出題流程的研究者或多模態團隊。

以未標註圖片開始，自動生成、改寫、過濾視覺問題
保留 Agentic evaluation，從 visual search、evidence coverage、context、spatial reasoning 評分
另用 Qwen embedding models 檢查整體多樣性，不只看單題質素
強調 zero external supervision，不依賴人工標註或 GPT-4V 這類外部 teacher models

創新點在於它不單止用 VLM 產生問題，還把「提問能力」當成可自我增強的訓練訊號，並且把 questioner 與 answerer 兩種模式一起考慮。按論文說法，這套方法在多個 backbone VLMs 上都能提升問題質素，亦把自動出題的難度邊界推高；同樣預算下，比直接用靜態來源資料訓練更有效，而模型的 answerer 能力亦未有明顯犧牲。

相關模型與元件方面，倉庫內容顯示生成流程可配合 Qwen2.5 3B 類型設定，評測會用 OpenAI 的可看圖評估器，以及 Qwen embedding models。若你關心多模態訓練、合成數據、或想建立能自己發問再自我改良的 Agentic workflow，SeeQ 的方法論比單純看分數更有參考價值。

GitHub： https://github.com/tianyi-lab/SeeQ

Paper： https://arxiv.org/pdf/2606.13929