字節跳動 – InferNews

TableVerse 想補上機械臂數據缺口

2026 年 7 月 26 日

機械臂要學會喺凌亂桌面執放物件，卡位通常唔在控制器，而在訓練資料太乾淨、太想像化。TableVerse 屬於Dataset 數據集加上資料生成流程，重點不是再用文字幻想場景，而是用 Real2Sim 從網上真實圖片重建可放進模擬器的桌面配置，直接處理泛化操作最缺的場景真實感。

現有做法常見兩條路：text-to-layout hallucination，或者較簡化的 procedural generation。作者批評前者容易做出物理上唔合理的擺位，後者又捉唔到人類日常環境常見的密集雜物；因此 TableVerse 改成 deterministic reconstruction，從非結構化的 in-the-wild image data 還原具備 metric scales、authentic topologies 同 verified mechanical stability 的場景，取向明顯偏向可落地訓練，而唔係只追求合成速度。

項目現時最重要的成果是 TableVerse-100K，公開了 100,000 個 physically consistent 的桌面環境，並配對 interactive manipulation trajectories。網站資料顯示，它還接上自動化 task-conditioned trajectory generation，先由 MLLM 根據場景視角提出 object-to-target 配對，再生成 collision-free pick-and-place demonstrations，令數據不只得靜態場景，亦包含可直接餵給操作策略學習的示範。

以真實圖片重建桌面，而非只靠生成式佈局
提供 100K 場景與 pick-and-place 軌跡，規模夠大
強調物理一致性、機械穩定性與模擬可用性
適合做 generalizable manipulation 與桌面操作研究

部署角度上，這個 GitHub 儲存庫目前更接近論文與資料入口，主要連到 arXiv、HuggingFace dataset 同項目網站，未見完整訓練或評測程式公開。換句話說，研究團隊現階段較可能把它理解為高品質資料來源與方法參考，而不是即裝即跑的機械臂框架；對做 robotic manipulation、模擬訓練數據建構，或者研究 Real2Sim 流程的人，參考價值很高。

項目主頁 · GitHub · Paper

Categories: 開源, 字節跳動, Image, 多模態模型, Robotic, Dataset 數據集

RIPO 直指 LLM 強化學習探索崩塌

2026 年 7 月 26 日

訓練 LLM 做長鏈推理時，最麻煩的不只是算力，而是策略很容易愈學愈保守，最後卡在少數高機率答案附近。RIPO 屬於一個面向 LLM 強化學習的演算法研究項目，針對的正是 PPO-Clip 在後訓練階段常見的 exploration collapse，想解決罕見但關鍵動作愈來愈難被探索到的問題。

作者沒有沿用「再補幾個 heuristic」的路線，而是直接指出舊範式的核心錯位：PPO-Clip 以 Euclidean metric 量度 policy discrepancy，但 policy 本身更貼近一個 Riemannian manifold。呢個幾何不一致會令低機率區域更新過份保守、高機率區域又過份進取，最後令探索能力收縮；Riemannian Isometric Policy Optimization（RIPO）則改為追求等距的 policy update，嘗試同時守住 exploration 與 exploitation 的平衡。

論文描述中，RIPO 另一個重點是 bias-variance trade-off 較理想，令優化過程更穩定。成效方面，它在七個 competition-level benchmarks 上都優於既有 LLM RL algorithms，當中對 GRPO 在 AIME24 的提升最高可達 60%；這類結果相當吸引，但仍然要留意 benchmark 與訓練設置是否能完整轉移到你手上的模型與資料。

核心批評很明確：PPO-Clip 的幾何假設不適合 policy update
方法重心不是加獎勵技巧，而是重寫策略更新的度量方式
對數學推理、長時序決策這類要靠探索找到解法的訓練場景較有價值
成績亮眼，但更適合有能力重跑 benchmark 與訓練流程的研究團隊驗證

從提供的 GitHub 資訊看，儲存庫描述混入了 verl 這個 RL training library 的內容，因此閱讀與部署前要先分清：RIPO 是演算法與論文方向，verl 則較像承載 LLM RL 訓練流程的開源基建。較合理的理解方式，是把 RIPO 視為可整合進現有 LLM RL framework 的新策略更新方法；真正落地通常要配合既有訓練庫、GPU 叢集配置，以及像 GRPO、PPO 一類後訓練 dataflow 一起測試。

GitHub · Paper

Categories: 開源, 字節跳動, OpenAI, 庫, 模型訓練, Anthropic, 清華大學, 框架, Dataset 數據集

UniVR：視覺推理訓練變成可控工作流

2026 年 7 月 17 日

UniVR 係一個能理解我們視覺空間中的思考方式及其在統一視覺推理中的應用，它針對 Emu3.5 unified generative models 的訓練框架，處理的是視覺推理、長程規劃同結果判斷點樣一齊學。它唔係拿來直接做推理展示，而係俾你用自己的資料同獎勵訊號，去微調一個已經懂得處理圖像與文字的底座模型。

SFT（supervised fine-tuning）階段要提供統一格式的樣本：query image、textual instruction、visual reasoning trajectory；RL（reinforcement learning）階段則改成透過 HTTP reward server 送回分數。原始資料沒有提供完整安裝流程，所以目前可確定的只有要把自定義 PyTorch Dataset 接入 UniVR_SFT/train.py，以及把 reward function 換成自己的服務。

和一般只做單次微調的做法相比，UniVR 的取向更偏向「先教格式，再用獎勵修正推理」。它在 RL 端用 GRPO，並配合 HybridEngine 與 Emu3.5 的 vLLM patch，強調 rollout 效率；同時保留 LoRA 同 full-parameter training，適合資源與改動幅度唔同的團隊。

支援多節點 SFT，兼容 LoRA 同 full-parameter training
RL 端基於 verl，同 GRPO 搭配自訂 HybridEngine
Emu3.5 的 vLLM no-CFG parallel inference 可做到約 2 倍 throughput
獎勵設計分成 format reward、global reward，同 step-level 的視覺推理約束
相關模型包括 Emu3.5 同作為評分器的 Qwen3-VL-30B

較容易受惠的情境包括做視覺代理、機械臂/操作規劃、長程任務推理，或者想將現成視覺模型轉成自己工作流的團隊。它的價值在於把「資料格式、推理軌跡、獎勵判斷」串成同一條訓練路線，令視覺任務唔再只靠靜態標註去學。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, 字節跳動, Gemini, DeepSeek, OpenAI, Image, Python, 多模態模型, 模型訓練, Dataset 數據集

Self-in-Space 補上無人機空間理解盲點

2026 年 7 月 17 日

講無人機視覺理解，很多方法集中在環境辨識或任務完成，但較少正面處理飛行器本身的狀態感知。Self-in-Space屬於研究型基準測試、訓練數據集與模型組合項目，核心是把 UAV 的 spatial cognition 與 self-awareness 分開檢查，看看模型是否不只「見到空間」，亦知道自己在場景中如何移動。

作者明確批評現有 UAV-oriented MLLMs 普遍偏向 environment-centered、task-oriented 範式：重視周圍有什麼，較少處理自身運動如何影響理解。為此，他們提出 SIS-Bench、SIS-Motion-54K 與 SIS-Motion，重新把 aerial understanding 拆成 perception、memory、reasoning 三層，再同時覆蓋空間與自我兩條軸線，令問題定義比一般影片問答 benchmark 更貼近 embodied UAV 場景。

SIS-Bench 包含 1,646 段真實 UAV 影片與 4,856 組 QA，覆蓋 13 個任務；團隊用它測試 26 個 video MLLMs，包括 6 個 proprietary models 與 20 個 open-source models。結果指出兩個穩定現象：模型對 self 的建模弱過 space，而且能力會由 perception 走到 memory、再到 reasoning 時逐步下跌，這個診斷比單看整體分數更有參考價值。

結合 benchmark、training dataset 與 motion-aware model，不是單一模型發佈
直接針對 UAV embodied intelligence 的 self-awareness 缺口
評測設計有清楚分層，方便看出模型在哪一段開始失準
SIS-Motion 嘗試用 motion-aware representation 改善 aerial video understanding
已公開 SIS-Bench 與 SIS-Motion-54K，可在 Hugging Face 或 ModelScope 了解內容

這項目的受眾很清楚：做 UAV 視覺、aerial video understanding、embodied AI、video MLLMs 評測的人，都會較容易用得着。現階段它更像研究與比較基礎設施，而不是即裝即用產品；想部署測試，較合理做法是先從 SIS-Bench 驗證現有模型在 self-awareness 與 spatial reasoning 的表現，再看 SIS-Motion 是否能為下游 UAV navigation tasks 帶來可轉移的增益。相關模型與資源以 SIS-Motion、SIS-Bench、SIS-Motion-54K 為主，並且對照了多個 video MLLMs 的表現。

項目主頁 · GitHub · 模型

Categories: 開源, Qwen, 字節跳動, Gemini, Video, 多模態模型, 模型訓練, 清華大學, Dataset 數據集

SpectraReward：用 MLLM 反讀圖片做文生圖獎勵

2026 年 7 月 15 日

文生圖訓練最麻煩的一環，往往不是生成本身，而是怎樣穩定判斷圖片有冇跟足提示詞。SpectraReward 屬於影像生成 reinforcement learning 的獎勵方法，處理的正是這個問題：它不靠人工偏好標註，也不用再微調 reward model，而是借用預訓練 Multimodal Large Language Models（MLLMs）本身已有的圖文對齊能力，直接替生成結果打分。

核心做法很直觀：先讓 MLLM 看生成出來的圖片，再檢查它能否把原本的 prompt「讀返出嚟」。SpectraReward 用一次 image-conditioned、teacher-forced forward pass，計算 prompt 的平均 log-likelihood，數值越高，代表圖片越能還原文字意圖。相比常見做法要模型直接評分、回答拆解後的驗證問題，這個方法少了額外訓練步驟，也減少了設計評分流程的負擔。

項目亦提出 Self-SpectraReward，對 BAGEL 這類 unified multimodal models（UMMs）尤其有意思。做法是讓同一個模型的 understanding branch，為 generation branch 產生的樣本評分，形成 self-reward。這種安排的重點不在模型愈大愈好，而在 reward 與 policy 是否真正對齊；資料指出，這種內部對齊效果有時可追平，甚至超過更大型的外部 MLLMs。

不需要 preference labels，也不需要 reward-model fine-tuning
只用一次 MLLM forward pass，就可計出 training-free reward
把「圖片能否還原 prompt」變成可量化的獎勵訊號
Self-SpectraReward 適合 BAGEL 類 unified multimodal models（UMMs）

從結果描述來看，reward 提升時，複雜場景生成質素也同步改善，表示這個訊號不只理論上合理，亦能推動可見的畫面進步。對正在做 text-to-image generation、影像模型強化學習，或想減少外部獎勵模型依賴的讀者來說，SpectraReward 提供了一種更省步驟、但仍保留語義判斷能力的路線。文中提到的模型包括 MLLMs，以及 BAGEL 這類 unified multimodal models。

項目主頁 · GitHub

Categories: 香港, 香港大學, 字節跳動, Image, txt2img, 多模態模型, 影像模型, 模型訓練, 北京大學

Canvas360 把全景生成拉回可用水平

2026 年 7 月 10 日

最值得留意嘅地方，在於佢唔只想生成一張闊圖，而係想處理 360 度全景最常見嘅破綻：左右邊界接唔上、透視變形唔自然、補圖後空間結構散開。Canvas360 屬於影像生成框架，建基於 FLUX，處理嘅係 text-to-panorama image generation，同時延伸到 inpainting、outpainting、editing 同 style transfer 呢類全景工作流。

現有做法多數先把全景當成一般平面圖片生成，再靠後處理減少接縫；作者認為呢種範式忽略咗 panoramic projection 本身嘅幾何特性，所以容易喺邊界、深度關係同局部結構出現錯位。Canvas360 用 two-stage framework 重組呢件事：先做 geometry-aware pretraining，引入 parallel RGB-depth pretraining，再配合 continuous position encoding、circular latent padding 同 per-block feature synchronization，將 360 度連續性直接放入模型學習過程。

同類項目相比，Canvas360 嘅取向唔係單純追求更華麗嘅畫面，而係優先修正全景生成最影響可用性嘅一致性問題。項目亦補上 Canvas360Dataset，提供 1M paired panoramic samples，支援 style transfer、inpainting、outpainting 同 editing，反映作者唔止做單一模型改良，仲想連訓練資料結構一併補強。

核心定位係 FLUX-based framework，主打 text-to-panorama image generation 同全景補全
關鍵方法包括 geometry-aware pretraining、continuous position encoding、circular latent padding
已公開 inference code 同 training code，但 model weights 與 online demo 仍然未釋出
需要 base model black-forest-labs/FLUX.1-dev，並可配合自備 LoRA 跑生成或下游任務
相關比較對象包括 PanFusion、SMGD、PAR、WorldGen、HunyuanWorld、DiT360，以及 FLUX.1-Kontext-dev、FLUX.2-dev、Qwen-Image-Edit

測試同現階段較接近研究型項目而唔係即開即用服務。儲存庫已提供 inference.py 同 inference_downstream.py，代表你可以在本地環境配好 PyTorch、依賴套件、FLUX.1-dev 存取權同 LoRA 後，直接驗證文字生成全景，或者試全景補圖與延展；不過權重未公開，所以現時更適合研究團隊、全景影像工具開發者，或者想研究 360 度生成方法嘅人先行閱讀同跟進。現有介紹強調結果比多個舊方法更少接縫瑕疵、結構更清晰，但儲存庫內容未見完整量化指標表，判斷性能仍要等論文與權重進一步公開後先更穩陣。

項目主頁 · GitHub · Paper

Categories: 開源, 字節跳動, Stable Diffusion, Image, Python, 影像模型, 模型, 模型訓練, 視覺模型, 清華大學, 框架, Dataset 數據集

OpenCoF 用影片學會推理

2026 年 7 月 10 日

文字 Chain-of-Thought (CoT) 之外，OpenCoF 把推理搬到影片時間軸上，主打 Chain-of-Frame (CoF) reasoning：模型不是靠外部工具拆步驟，而是在連續生成的畫面裡理解因果、規則同狀態變化。這屬於一個研究型框架，核心想處理的問題，是現有影片生成模型多數只見過一般影片資料，未必學到穩定的時序推理能力。

作者對既有做法的批評很明確：以往影片模型通常用通用影片語料訓練，缺少專門針對 CoF reasoning 的監督，因此即使畫面能動起來，都未必真係「識推」。OpenCoF 於是補上兩層東西：先有 OpenCoF-17K 這個包含 17,312 段影片、覆蓋 11 類任務的資料集，再用它把 Wan2.2-I2V-A14B 經 LoRA 微調成 Wan-CoF，之後再加上 Visual Reasoning Tokens (vt) 與 Textual Reasoning Tokens (tt) 兩種設計。

OpenCoF 先用資料監督驗證影片推理能否被教出來，再用 token 設計補強中間推理狀態，而不是一開始就堆很多複雜推理機制。公開資訊顯示，Wan-CoF 單靠資料監督，已經在 MME-CoF、Gen-ViRe、VIPER、RULER-Bench 四個外部 benchmark 全面勝過基線；Wan-CoF vt 與 Wan-CoF tt 則再向前一步，但兩者偏重不同，vt 較擅長低階視覺線索，tt 較著重高階語意先驗。

OpenCoF-17K 由四條資料整理流程建成，兼顧規則型任務、程序生成場景與真實影片多樣性
Wan-CoF 以 Wan2.2-I2V-A14B 為底，靠 LoRA 微調驗證資料本身已可提升推理表現
Wan-CoF vt / Wan-CoF tt 分別從視覺 latent 與文字條件序列加入 reasoning tokens，走兩條互補路線
評測覆蓋 MME-CoF、Gen-ViRe、VIPER、RULER-Bench，結果指向同一件事：時序監督對影片推理有明顯幫助

OpenCoF 適合研究團隊、做視覺推理評測的人，或者關注 Video reasoning 與 Video generation 交界的開發者參考：儲存庫已公開論文與方法框架，但 code、dataset 同 model checkpoints 仍在內部審核，暫時未能直接下載測試；現時較合理的理解方式，是先把 OpenCoF 視為一個針對 CoF reasoning 的資料與訓練範式，等正式釋出後再判斷重現成本與落地價值。

項目主頁 · GitHub · Paper

Categories: 開源, 香港中文大學, 字節跳動, Video, 多模態模型, 視覺模型, 視頻模型, 蘋果, Dataset 數據集

MuseBench 用藝術理解考驗 MLLMs

2026 年 7 月 8 日

Repository image for musebench/musebench-code

見到畫面、聽到聲音，未必等於真係明白作品想點講。MuseBench 把焦點放到 artistic intent，專門測 multimodal large language models（MLLMs）能否由視聽證據推斷創作選擇背後的意思；它屬於 benchmark／數據集型項目，處理的是現有評測多數只停留在 perceptual recognition，未能反映藝術理解深度的問題。

現有做法常用一般視覺問答或影片理解題，模型只要辨認物件、情節或表面事件就有機會得分；作者認為這種 fixed paradigm 忽略 stylistic vocabulary、cultural priors 同 grounded audiovisual inference，所以改用 narrator-removed video clip，並配合可選 audio transcript，迫使模型直接由鏡頭、聲音、節奏與敘事線索作判斷。題目覆蓋 Cinematic Arts、Static Visual Arts、Stage Performing Arts 同 Game Arts，合共 4,016 條問答。

同類 benchmark 多數著重「睇到乜」，MuseBench 則更在意「點解要咁呈現」。它亦唔只用單一選擇題，仲有 single-select 同 multi-select 兩種格式，並加入 Chance-Adjusted Accuracy（CAA）處理選項數量不同帶來的偏差，令比較 28 個 MLLMs 時較公平。

涵蓋 4 個藝術領域、11 個細分類，題材比一般影片 QA 更闊
評測 28 個 MLLMs，包含 proprietary、open source 同 video-specific 路線
最佳模型準確率 48.29%，明顯低於 human expert 的 87.18%
已整合 VLMEvalKit，方便把新模型接入同一套流程測試

部署同測試理解上，這個 code repository 主要唔係提供訓練模型，而是把 MuseBench 接到 VLMEvalKit 的評測流程，較適合研究團隊、模型評估人員、做 video understanding 或多模態推理的項目直接比較新舊模型。已公開的結果提到 Claude-4.6-Opus、Qwen-3.5-Plus、Doubao-Seed、GPT-5.4、Gemini-3.1-Pro、Grok-4.1 等都測過，分數整體仍與專家有大段距離；換句話說，這個項目最有價值的地方，在於它清楚指出現時 MLLMs 在藝術判讀仍未算接近可靠。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, 香港, 香港大學, 字節跳動, Gemini, OpenAI, Video, Audio, 多模態模型, Anthropic, Dataset 數據集

EdgeBench 用 134 個長任務量度智能體成長

2026 年 7 月 8 日

跑一次就評分的基準，通常只能看出模型本身已經識乜；EdgeBench關注的是另一件事：當智能體放進接近真實工作的環境，連續做十幾個鐘、接收回饋再反覆修正，它究竟會唔會愈做愈好。這是一個研究 environment learning 的 benchmark，核心問題不是單次答對率，而是學習曲線能否反映長時間互動後的能力變化。

它把 134 個任務分成六大類，包括科學與機器學習、系統與軟件工程、組合最佳化、知識工作、形式數學同遊戲，而且每個任務最少運行 12 小時，部分延伸到 72 小時以上。這個設計接近真實工作流，因為智能體需要面對 build logs、test failures、objective values、simulator traces、實驗誤差等回饋，而唔係只靠一次生成結果交卷。

同常見 benchmark 相比，EdgeBench的差異在於它量度「隨經驗累積而改善」的能力。研究者指出，多個模型在 134 個任務上的整體表現，都可用 log-sigmoid function 擬合，R²約為 0.997 至 0.999，表示 environment interaction time 與表現提升之間有相當穩定的關係。這令它不只是一張排行榜，也是一個用來觀察 scaling laws of environment learning 的分析工具。

覆蓋 134 個真實世界長時任務，重點放在學習速度與上限
任務橫跨科學、編程、最佳化、知識工作、數學與遊戲
每項任務持續 12 小時以上，部分超過 72 小時
回饋訊號來自接近真實工作的執行環境，而非單次靜態題目
整體學習曲線可用 log-sigmoid function 高精度擬合

這套 benchmark 對做 Agentic 項目、長流程自動化、程式代理與研究型智能體的人最有參考價值，因為它直接呈現模型在長時間任務中的耐力、修正能力與邊做邊學的幅度。現有資料集中在 benchmark 設計、任務結構、資料集與分析結果，未提供具體安裝步驟或完整使用流程；能確定的是，這個項目由 ByteDance Seed 發表，並附有 Paper、GitHub 與 Dataset 入口。

項目主頁 · GitHub · Paper

Categories: 開源, 字節跳動, DeepSeek, Agentic, 軟件, 模型訓練, 編程, Anthropic, Dataset 數據集, 框架

PerceptionRubrics 點出多模態評測盲點

2026 年 7 月 3 日

PerceptionRubrics 是一個多模態評測框架兼資料集，主力檢查 Multimodal Large Language Models 是否真正看清圖片內容，而唔係只係在傳統 benchmark 拿到高分。它要解決的問題很直接：現有 caption 評測常用 holistic semantic matching 或平均分，容易把嚴重錯誤沖淡，但人類閱讀結果時，關鍵事實一錯，整體輸出已經未必可信。

作者把舊有範式拆開重做，改用 atomic auditing，把每張圖分解成可核實的細項，再分成 Must-Right 與 Easy-Wrong 兩條 rubric 流。Must-Right 針對必要事實，Easy-Wrong 針對模型常見的細節遺漏、幻覺或誤判；再配合 gated scoring，只要必要視覺事實出錯，就會被明顯扣分，而唔係被其他小分數平均掩蓋。

資料規模方面，項目提供 1,038 張 information-dense images，同超過 10,000 條 instance-specific rubrics，來源是用 Circular Peer-Review 建立的 Golden Captions，再蒸餾成評測規則。覆蓋範圍包括 natural scenes、OCR documents、GUIs、charts、STEM、logic puzzles 同 creative/cultural images，明顯偏向高資訊密度、容易出現感知失真的場景。

測試方式不算複雜：這個 GitHub 儲存庫主要提供 evaluation code 和 data，較適合研究團隊、模型開發者，或者需要比較多個 MLLMs 表現的人，把模型輸出的 captions 對照 rubric 計分。它不是部署給終端用家的應用程式，而是拿來驗證模型在圖像理解任務到底穩不穩；使用前亦要接受一點，這類更嚴格的評分會令模型成績比傳統 leaderboard 更難看，但診斷價值更高。

核心取向是由 holistic semantic matching 轉向 atomic auditing
Must-Right 與 Easy-Wrong 直接對應關鍵事實與常犯細錯
gated scoring 強調「關鍵錯一項就要反映出來」
資料集中在 GUIs、文件、圖表等高密度視覺任務
適合用來比較 20+ 主流 MLLMs 的感知可靠性，而唔只係比較平均分

項目指出模型經常能辨認零碎元素，卻未能同時滿足多個關鍵視覺約束，尤其在 GUIs、documents 同 structured charts 更明顯。README 與 supporting context 亦提到曾評測 20+ 主流 MLLMs，包括 GPT-5.5；不過這個儲存庫重點仍然是評測框架本身，而唔係推出新模型，所以較值得留意的是它怎樣暴露 perception brittleness，而不是單一排行榜名次。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, 字節跳動, Gemini, DeepSeek, OpenAI, 多模態模型, Dataset 數據集, 清華大學

Page 1 of 3

1 2 3 Next »