編程 – Page 3 – InferNews

微軟用殘差強化學習補強機械人 VLA

2026 年 6 月 30 日

這是 Microsoft Research 的 Object-Centric Residual RL 方法。它的用途是為 Vision-Language-Action（VLA） 模型加入一層修正策略，減少機械人在真實操控中因細小誤差累積而失手的情況。

核心做法是把一個已凍結的 base VLA 保留不變，再額外疊加一個輕量 residual policy。這個 residual policy 完全在模擬環境訓練，輸入不是原始影像，而是 object-centric state、proprioception，以及 base VLA action，藉此避開常見的 visual sim-to-real gap，令策略可直接 zero-shot 轉移到真實機械人。

這個方法處理的是 imitation learning 常見的脆弱性：示範資料未覆蓋到的狀態一旦出現，誤差會一路放大。與直接微調 VLA、或在真實世界再做 reinforcement learning 相比，這個方法的差異在於只學「修正量」，而且訓練放在模擬中完成，成本與風險都較低。

保留 frozen base VLA，不用重訓整個模型
residual policy 以物件中心狀態為主，減少依賴影像對齊
目標是 zero-shot sim-to-real enhancement
適合需要精準抓取、放置或接觸操作的機械人工作流

這類方法較適合關注 VLA、Robotic 與 sim-to-real transfer 的研究者和開發者。現有資料清楚交代方法方向與問題設定，但未提供完整安裝流程或操作步驟；評估部分可確認作者以真實機械人成功率改善作為重點，更多數值細節仍需參考原始論文。

項目主頁 · Paper

Categories: 微軟, Agentic, Image, AI productions, 多模態模型, 安全, 編程, 視覺模型, Robotic, VLA, 框架

多模態程式碼生成論文整理：視覺輸入如何改變寫程式

2026 年 6 月 26 日

Awesome-Multimodal-LLM-for-Code 是一份論文整理型資源庫（paper list / survey collection），專門蒐集「多模態大型語言模型（Multimodal LLM, MLLM）用於程式碼生成」相關的研究論文、基準測試與評估方法，核心任務是把「視覺輸入」與「程式碼輸出」串接起來，例如把 UI 截圖、圖表、SVG 向量圖、CAD 草圖轉成可執行的程式碼。

傳統的 text-to-code 研究主要處理純文字描述生成程式碼，但很多真實任務的意圖是透過圖片、影片或互動畫面來表達的，純文字範式無法處理版面配置、視覺語意與互動行為等約束。這個資源庫把研究切成清楚的子題，包括 Web/Mobile UI 程式碼生成、科學圖表程式碼生成、視覺豐富的程式設計題、SVG 生成、簡報生成、UML、CAD、海報、3D 點雲、遊戲程式碼，以及程式修復等，方便研究者按場景查找對應論文。

與一般 Awesome 列表相比，這份資源的差異在於聚焦於「視覺證據如何影響程式正確性」，並收錄了 Design2Code、ChartMimic、Chart2Code、StarVector、PPTAgent、ScienceAgentBench 等具代表性的基準測試與模型。從支援資料可以看到，附帶的 survey 論文進一步把領域分成 GUI、科學視覺化、結構化圖形與前沿任務四大類，並指出視覺相似度不足以評估正確性，還需要語意、互動與領域約束的證據。

對前端工程師、資料視覺化研究者、AI 程式碼助手開發者，以及做 benchmark 設計的人特別有用，能快速掌握 MLLM 在程式碼任務上的最新進展與評測方法。

重點摘要：

屬於論文整理資源庫，聚焦多模態程式碼生成
涵蓋 UI、圖表、SVG、CAD、簡報、3D 等十多個子題
收錄 Design2Code、ChartMimic、ScienceAgentBench 等基準
強調視覺相似度不足以評估程式正確性
原始資料未提供安裝或部署方式，僅供論文索引與閱讀

GitHub： https://github.com/xjywhu/Awesome-Multimodal-LLM-for-Code

Categories: 開源, 香港, 香港大學, 香港中文大學, 編程, 中國, 南京大學

Google AI Studio’s Interactions API

2026 年 6 月 26 日

Gemini Interactions API 是實驗性 API，可讓開發人員使用 Gemini 模型建構生成式 AI 應用程式。Gemini 是 Google 最強大的模型，打從設計之初就具有多模態的特質。可歸納內容，完美解讀、操作及結合語言、圖片、音訊、影片和程式碼等不同類型的資訊。您可以使用 Gemini API 處理各種用途，例如：跨文字和圖片進行推論、生成內容、對話式代理程式、摘要和分類系統等。

這是一個供開發者使用的 API，屬於 Google AI Studio 的 Interactions API。它的主要用途，是用一個統一介面去操作 Gemini models 與 agents，方便把模型回應、工具呼叫和代理人流程放在同一套工作流內處理。

和一般逐步拼接多個端點的做法相比，較值得留意的是它主打「統一」：同時面向模型和 agents，減少來回切換不同介面的負擔。這對要做多步驟互動、工具協調、或需要把 AI 行為包成穩定流程的團隊會更實用。

統一處理 Gemini models 與 agents
適合原型、整合與工作流測試
方便把模型回應與工具呼叫串接
較適合開發者與 agent 應用場景

項目主頁： blog.google

Categories: Google, Gemini, OpenAI, Agentic, API, 軟件, 工具, AI productions, 模型, 編程

HyperFrame 配合 Claude Code 製作 Vox 風格影片

2026 年 6 月 22 日

現有資料主要來自 YouTube 標題與簡短描述，資訊不算完整，但仍可看出內容圍繞 HyperFrame 與 Claude Code 兩個工具，示範如何做出接近 Vox 風格的解說影片。讀者可先把它理解為一個 AI 輔助影片製作項目：由工具協助處理腳本、畫面規劃或製作流程，而不只是單一步驟生成。

這類項目想處理的問題，很可能是把資料整理、敘事結構、畫面設計與影片產出連成一條工作流。相比只用單一影片生成模型，這種做法更接近內容製作流程本身，重點不只是「出片」，而是如何把想法變成有節奏、有資訊層次的短片。

從標題判斷，Claude Code 可能負責文字、結構或流程協調，HyperFrame 則可能用於畫面或影片製作環節。不過頁面未提供更詳細技術內容、模型名稱或量化結果，因此未能確認兩者各自負責的步驟，也不能判斷成品質素是否穩定。

可先留意幾個重點：
– 這是一個偏向工作流整合的影片製作項目
– 目標風格是資訊密度較高的 Vox 式解說內容
– 適合內容創作者、營銷製作與短片腳本規劃
– 現有頁面缺少性能數據、成本與時間比較

如果想進一步測試，較可行的方法是先觀看原片，記錄它如何拆分腳本、旁白、畫面節奏與素材安排，再用同類工具重建其中一小段。以目前資料來看，這項內容較適合作為工作流觀察，而不是完整教學或技術評測。

項目主頁： https://www.youtube.com/watch?v=XVsGK99E9FA

Categories: Video, 工具, Content Creator, AI productions, Vibe Coding, 教學, 編程, Anthropic

SR-REAL 把空間推理拆成兩條路

2026 年 6 月 21 日

現有 spatial VLM 往往用單一路線回答空間問題，不是純文字 chain-of-thought，就是直接靠感知結果輸出答案；作者認為這種固定範式難以同時處理語意推理與精確幾何判斷。SR-REAL 提出的做法，是把空間推理分成 Language-Only Reasoning（LOR）與 Detect-Then-Reason（DTR）兩條互補路徑，前者逐步文字推理，後者先找 3D 幾何線索，再做明確幾何推斷。

這個項目屬於框架加訓練流程實作，核心是強化 spatial vision-language models 在複雜空間問答中的判斷能力。它不是單純新增資料集，而是從 cold-start supervised fine-tuning 到 reinforcement learning（RL）都重新安排，並加入 region-to-3D 介面，令模型可把 region tokens 連到 3D 座標、中心點或 bounding boxes。

SR-REAL 重點集中在資料準備與訓練前處理。流程上會先用 SPAR、EmbodiedScan 等來源整理物件對應與 3D 座標，再由 expert.py 生成推理鏈，配合 qwen3.py 抽取物件名稱，最後組成 DTR 指令微調資料；若不想自行重建，也可直接下載作者已整理好的 Hugging Face 數據。這表示它較適合有 Python、資料處理及多模態訓練基礎的研究團隊，而不是即裝即用的終端工具。

和同類做法相比，SR-REAL 不假設所有空間問題都應該用同一種 reasoning path。作者的取向很清楚：語意關係適合 LOR，涉及明確位置、距離、中心點、框選區域的題目則交給 DTR；代價是整個資料構建與訓練流程更複雜，對 grounding 資料品質亦更敏感。

重點不在單一模型結構，而在 LOR + DTR 雙路徑推理設計
DTR 會先處理 region tokens 與 3D 幾何線索，再做空間判斷
訓練分為 cold-start supervised fine-tuning 與 reinforcement learning（RL）兩段
已提及 accuracy、format、detection rewards，顯示評測不只看答對與否，也看輸出格式及幾何對齊
相關模型與資料來源包括 spatial VLM、SR-3D、Qwen3、SPAR、EmbodiedScan、SpatialRGPT、Omni3D、CA1M、OmniNOCS

SR-REAL 在多個 spatial benchmarks 有明顯提升，並強調單一 RL-trained model 可同時支援兩條路徑，且不用 per-task tuning 也能跨資料集泛化。不過儲存庫片段未完整列出詳細分數與對照表，因此較穩妥的判斷是：這是一個研究味很重、方法論清晰的項目，適合關注 spatial reasoning、3D grounding、multimodal instruction tuning 的團隊拿來重現與延伸。

GitHub： https://github.com/jiyt17/SR-REAL

項目主頁： https://sr-real.github.io/

Categories: Qwen, 香港, 香港大學, Google, NVIDIA, DeepSeek, OpenAI, Agentic, 工具, 3D, Python, Python NLP, 多模態模型, 庫, 模型, 模型訓練, 編程, 框架

ENPIRE : NVIDIA 閉環系統訓練機械人自我改良

2026 年 6 月 21 日

ENPIRE 是一個用於真實世界機械人策略自我改良的框架，重點不是單一模型，而是把「重設場景、執行策略、檢查結果、再改進」串成可重複閉環。它針對的問題很明確：靈巧操作任務一直很依賴人手監督與大量調參，令機械人研究難以擴展。

系統由四個模組組成：Environment（EN）負責自動重設與驗證、Policy Improvement（PI）負責發動策略改良、Rollout（R）負責在單機或多機械人上測試、Evolution（E）則讓 coding agents 分析紀錄、查閱文獻、調整訓練基建與演算法程式。與常見只在模擬器或純數碼環境做 agent 優化的方法相比，ENPIRE 把回饋迴路直接放到真實機械人上。

列出的案例包括 PushT、Pin Insertion、Tie Zip-tie 與 GPU Insertion，可見它瞄準的是需要精準操作的任務。按頁面描述，frontier coding agents 在這套流程下，可把部分真實操作任務推高至 99% 成功率，但不同任務、機械人配置與訓練設定之間仍可能有差異，閱讀時宜把它視為特定條件下的結果。

若想理解這個項目，可先從它的閉環結構入手，再看 Policy Improvement 支援哪些路線，例如 heuristic learning、tool calling、behavior cloning、offline RL 與 online RL。頁面亦提到 robot fleet scaling、simulation evaluation、auto evaluation 與 auto reset，反映這個項目不只關心模型表現，也在處理如何把測試與迭代流程自動化。

核心價值：把真實機械人訓練流程標準化，減少人手介入
主要差異：不是只生成策略，而是連同驗證、重設、改良一起自動執行
適合讀者：機械人研究者、Agentic AI 開發者、關心自動化實驗流程的人
已提方法：heuristic learning、tool calling、behavior cloning、offline RL、online RL

這項目較適合放在機械人學習、自主代理與真實世界實驗自動化的脈絡下理解。若你關心 Computer-use agents 或 coding agents 能否走出螢幕、直接管理物理系統的迭代流程，ENPIRE 提供了一個相當具體的方向。

項目： https://research.nvidia.com/labs/gear/enpire/

Categories: 開源, NVIDIA, Agentic, Clone, Vibe Coding, 模型, 模型訓練, 編程, Robotic, 框架

SSync 用選擇式蒸餾改善影片物件分解

2026 年 6 月 21 日

現有的 video object-centric learning（VOCL）多數沿用 slot-based frameworks，通常建基於 reconstruction-driven encoder–decoder architectures：encoder 產生 attention maps，decoder 產生 object maps，再嘗試把兩者對齊。近年的 dense alignment strategy 會對所有 spatio-temporal patches 做 contrastive learning，但這種全對全對齊會把 encoder 的雜訊和 decoder 的模糊邊界一併放大，計算量亦會升到 quadratic complexity，影片一長就更難擴展。

SSync（Selective Synergistic Learning）屬於一個可插入現有流程的 PyTorch 學習模組，目標是改善影片中的物件分解質素。它不是強迫所有 patch 全面一致，而是只挑選較可信的訊號做 mutual-distillation：用 encoder 幫手修邊界，用 decoder 清理物件內部雜訊，方向相當明確。

這項目把「全部都對齊」改成 selective distillation，並透過 pseudo-labeling 把成本降到 linear complexity。作者亦加入 transitive pseudo-label merging，處理 slot redundancy，將時序上反覆重疊的 slots 合併，減少模型把同一物件拆成多份的偏差。

如果你本身有研究 Slot Attention、影片分解、無監督物件發現，這項工作相當值得細看；如果你只是想快速試概念，亦可直接留意作者提供的 PyTorch implementation、Hugging Face 權重和 project page。它屬於 plug-and-play module，較適合已有 VOCL 基礎模型的人接入比較，而不是給完全零基礎讀者當成獨立應用程式。

核心問題：dense alignment strategy 計算昂貴，亦會傳播 encoder 與 decoder 各自的錯誤
核心方法：Selective Synergistic Learning 只蒸餾可靠線索，分開處理 boundary refinement 與 interior denoising
結構補強：加入 transitive pseudo-label merging，減少 slot redundancy
論文聲稱：可提升 decomposition quality，並對 slot configurations 有較強 robustness
相關技術詞：VOCL、slot-based frameworks、Slot Attention、mutual-distillation、pseudo-labeling

整體來看，SSync 的價值不在於另起爐灶，而是在既有 slot-based video learning 範式上，直接指出 dense patch alignment 的兩個痛點：錯誤傳播與計算擴張。對研究型讀者而言，這比單純再堆模型容量更有意思；對工程導向團隊而言，它也提供了一個較容易插入現有項目的改良方向。

GitHub： https://github.com/wjun0830/SSync

項目：https://wjun0830.github.io/SSync/

Categories: 開源, Video, IDE, Python, 模型, 深度學習, 編程, 視覺模型, 框架

MultiLCB：即時追蹤程式模型表現

2026 年 6 月 21 日

MultiLCB（Multi Live Code Bench）是一個公開的編程模型評測項目，重點是用動態榜單和比較工具，觀察不同模型在多種程式語言上的表現。網站提供 Main Leaderboard、Model Comparison，以及按月份查看 pass@1 變化，適合想快速了解模型編碼能力的人。

這個項目處理的問題很明確：不少編程模型成績只停留在單次發布，難以看出時間變化、語言差異和推理設定的影響。MultiLCB 把資料整理成可篩選的介面，支援語言、難度、平台，以及是否使用 CoT（Chain-of-Thought）等條件，方便直接比較。

使用時，讀者可先在 Leaderboard 選擇日期範圍，再按 Python、JavaScript、TypeScript、Java、C++、C#、Go、Rust、Ruby、PHP、Kotlin、Scala 等語言篩選。若想深入看兩個或多個模型差距，可打開 Compare 頁面，用 pass@1 與平均分數交叉檢視，也可留意每月走勢圖。

支援 LCB、LCB-PRO、LCB-PRO-AGENTIC 多種基準
可按語言、難度、平台、CoT 條件篩選
以 pass@1 為核心指標，方便直觀比較
提供月份變化圖，較易看出模型進步或波動

這類項目特別適合模型研究者、AI 工程師、技術媒體，以及需要挑選 coding model 的團隊。從頁面可見，它偏向基準測試與橫向比較工具；至於數據來源、題目構成和完整評測方法，仍要配合站內 Code、Hf、Submit 或相關說明頁面再作確認。

項目： https://multi-lcb.github.io/

Categories: 開源, Agentic, 工具, Python, Python NLP, Vibe Coding, 模型, 編程

Kimi-K2.7-Code：面向編碼的開源模型

2026 年 6 月 18 日

Kimi-K2.7-Code 是 moonshotai 發佈在 Hugging Face 的開源模型，從頁面可見它與程式碼生成、訊息格式化及工具調用相關內容有密切關係。公開資訊顯示，這個項目已可透過部分推理服務直接調用，亦有一定下載量，反映社群關注度不低。

對一般開發者來說，這個項目最直接的用途，是用來處理編碼助理、對話模板、函式呼叫與多角色訊息編排等工作。頁面展示的內容包括 macro、message role、tool_calls 及 generation prompt 等結構，代表它並非只回答文字，也重視代理式互動流程中的輸入輸出格式。

如果你想試用，基本可從 Hugging Face 模型頁開始，查看可用的 Inference Providers，或在支援的平台以 API 方式接入。使用時要留意，當前頁面可見資料較多集中在模板與訊息渲染片段，對模型規模、基準測試與訓練細節的說明仍然有限，因此較適合先做功能驗證，再決定是否納入正式流程。

定位偏向編碼與結構化對話處理
支援 tool_calls、role 標記等代理式互動元素
已上架 Hugging Face，並有推理服務可選
公開頁面暫未見完整性能評測與訓練說明

這個項目較適合開發 AI 編碼助手、聊天工具、Agentic workflow，或想研究模型提示模板的人。若你重視開源、可自行部署，以及需要處理函式調用格式，Kimi-K2.7-Code 會是一個值得觀察的選擇；若要比較模型能力，則仍需配合更多公開測試結果。

項目： https://huggingface.co/moonshotai/Kimi-K2.7-Code

Categories: 開源, 模型, 編程

LoopCoder：只多跑一輪，成效反而更好

2026 年 6 月 18 日

Only Loop Once: gain–cost trade-off in Parallel Loop Transformers

LoopCoder-v2 是一個基於 Parallel Loop Transformers（PLT）的程式碼模型系列，目標是解決「推理步數愈多，成本與表現未必同步上升」的問題。傳統 Looped Transformers 會透過重複共享區塊去增加 latent computation，但每多一輪都會拉高延遲和 KV-cache 記憶體；PLT 則用 Cross-Loop Position Offsets（CLP）和 Shared-KV Gated Sliding-Window Attention（G-SWA）把成本壓低，讓迴圈數變成可以調整的設計參數。

這個項目直接拆解「多跑幾輪到底值不值得」。作者用 gain–cost 角度分析 loop count：額外一輪可以帶來表示更新，但 CLP 也會引入位置不匹配的成本；兩邊一對比，就能解釋為何 LoopCoder-v2 在很多情況下是兩輪最好，而不是愈多愈好。這種分析方式比單看分數更有參考價值，因為它把效果升降和內部機制連在一起。

從結果看，LoopCoder-v2 的 7B 版本在多個程式相關測試都有明顯改善，尤其是 SWE-bench Verified 由 43.0 升到 64.4，Multi-SWE 由 14.0 升到 31.0，Terminal-Bench 亦有提升。相反，三輪或四輪時分數明顯回落，表示這個項目不是單純靠「加更多計算」換表現，而是存在一個較清晰的最佳點。作者亦用 hidden-state dynamics、attention evolution 和 output distribution shift 去佐證第二輪帶來主要增益，之後的輪次多數只會增加冗餘。

如果你想找的是可直接跑的模型，這個項目提供了 Hugging Face 上的 7B 權重，能透過 Transformers 載入後做文本生成或程式碼任務測試。適合關注 code generation、code reasoning、agentic software engineering、tool-use 的人，也適合想研究 test-time compute scaling、模型推理效率，或想比較 loop count 對表現影響的讀者。

主要類型是模型研究項目，同時包含評測與推理分析
核心結論是：兩輪通常是最佳平衡點，三輪以上可能反而拖低表現
CLP 令平行迴圈可行，G-SWA 則把 KV-cache 成本維持在近乎固定水平
7B 版本在 SWE-bench Verified、Multi-SWE、Terminal-Bench、BFCL 等測試都有較完整結果
適合用來分析程式碼模型、代理式任務，以及測試階段算力分配

GitHub： https://github.com/CSJianYang/LoopCoder

Paper： https://arxiv.org/pdf/2606.18023

Categories: 開源, Agentic, 軟件, 工具, AI productions, Python, RAG, 模型, 編程, 框架

Page 3 of 9

« Previous 1 2 3 4 5 … 9 Next »