字節跳動 – Page 2

用 vision-language-action 把人類操作轉移到機械人的雙手

2026 年 6 月 30 日

人類操作數據廉價、豐富且多樣化，使其成為擴展機器人學習規範最有前景的資源之一。然而，將人類技能遷移到機器人仍然困難重重：以往的大多數工作都將人類視為另一種雙手6自由度（6DoF）的具身模型，這存在兩個問題：手部姿態估計存在噪聲，並且人類手指的接觸模式與並聯機械臂的接觸模式存在根本差異，導致手腕旋轉與機械臂操作在語義上不一致。我們認為，從人類資料中學習包含旋轉的動作訊號並非最優方案，因此提出了一種橋接動作表示：在初始頭部-攝影機座標系內的相對手腕平移，這是一個人類和機器人共享的動作空間。

如何把人類操作資料轉移到使用 parallel grippers 的雙手機械人，重點方法是用「relative wrist translation within the initial head-camera frame」作為 bridging action representation。

作者認為把人類直接當成另一種 bi-manual 6DoF embodiment 並不理想，因為手部姿態估計本身有噪聲，而且人手手指接觸模式與 parallel gripper 有本質差異。與其硬學包含旋轉的動作訊號，這項工作改為只保留更容易跨人類與機械人共享的平移資訊，減少 embodiment mismatch。

作者建立了一個 π0-like vision-language-action model，配合 interleaved action tokens 與 attention masking，處理不同 embodiment 可能缺少某些動作成分的問題。這種設計的意義，在於模型不需要假設人與機械人擁有完全相同的控制維度，較適合跨載體技能遷移。

以 wrist translation 取代完整 6DoF human actions，降低人手到夾爪的表示落差
採用 vision-language-action 架構，並加入 interleaved action tokens 與 attention masking
在 novel bi-manual manipulation tasks 上，較 noisy 6DoF human actions 有更有效的知識轉移
效果會隨 human data 數量增加而提升，說明方法具備一定擴展性

這項內容較接近方法論與表示學習分析，而不是部署指南。頁面沒有列出推論框架、硬體需求、v2 檔案更新、chat template 或 MTP draft speculation 等資訊；能確定的是，它針對 Robotic 技能轉移提出一種更貼近夾爪機械人控制需求的動作抽象，適合關注 imitation learning、cross-embodiment transfer 與雙手操作研究的人閱讀。

項目主頁 · Paper

Categories: 香港大學, 字節跳動, 多模態模型, 視覺模型, Robotic, Skill 技能

DanceOPD：多能力影像生成的場景蒸餾框架

2026 年 6 月 27 日

DanceOPD 是一個針對 flow-matching 模型設計的 on-policy 生成場景蒸餾框架，目標是讓單一影像生成模型同時具備文字生成影像（T2I）、局部編輯與全域編輯等多種能力。核心做法是將每個來源能力視為一個速度場（velocity field），然後在學生模型自己產生的 on-policy 狀態上查詢這個場景，再以簡單的速度 MSE 損失進行訓練。

這套方法最值得留意的差異在於 hard-routed 設計：每個樣本只被路由到一個被選中的能力場，並且只查詢一個低噪聲的語義側狀態（semantic query），避免了對多個來源場景做平均而模糊語義身份的問題。同一套框架也能吸收 operator-defined fields，例如 classifier-free guidance，讓引導機制自然融入訓練。

在評估方面，DanceOPD 報告了多項指標，包含 GEditBench-avg 在 T2I + Edit Composition 上達到 5.347、GenEval Overall 達到 0.849 同時保持 T2I 表現，以及 Local + Global Edit Composition 的 5.498、CFG 吸收診斷中 5.833 的最佳值。

這項工作適合關注多能力影像生成整合、蒸餾方法以及 flow-matching 模型研究的開發者與研究者。由於 Code 標示為「Soon」，目前尚未提供源碼或模型下載，因此暫無可對應的安裝或使用步驟可分享。

主要重點：

核心定位：flow-matching 模型的 on-policy 生成場景蒸餾框架
方法差異：hard routing 單一能力場景加單一低噪聲語義查詢，避免場景平均造成的語義模糊
支援能力：T2I、局部編輯、全域編輯，並能吸收 classifier-free guidance 等 operator-defined fields
評估數字：GenEval 0.849、GEditBench T2I+Edit 5.347、Local+Global 5.498
現有狀態：論文可在 arXiv 瀏覽，原始碼尚未公開

項目主頁： https://danceopd.github.io/

Paper： https://arxiv.org/pdf/2606.27377

Categories: 開源, 字節跳動, Image, Content Creator, txt2img, 影像模型, 模型, 教學, 模型訓練, 深度學習, 框架

UnityShots：多鏡頭影音生成的記憶驅動新方案

2026 年 6 月 26 日

UnityShots 是一個研究性質的多鏡頭影音生成框架，核心任務是解決現有方法在長序列多鏡頭影片中難以維持人物、場景與聲音一致性的問題。它基於已有的單鏡頭影音擴散模型 LTX-2.3（22B 參數）建構，從一段結構化提示詞直接生成 3 至 9 個鏡頭的連續 .mp4 影片，確保角色容貌、場景光影與配音語音在各鏡頭間保持連貫。

現有做法通常依賴三種路線：端到端訓練固定長度序列但難以擴展、以記憶庫逐鏡頭生成但容量隨鏡頭數線性膨脹，或用大型語言模型規劃器調度預訓練生成器而缺乏多鏡頭感知骨幹。UnityShots 的切入點是引入邊界感知門控（Boundary-Aware Gating）與雙槽記憶機制：影片流維持兩個固定大小記憶槽，長期記憶（LTM）錨定開場鏡頭，短期記憶（STM）保留前一鏡頭尾部，兩者在每次剪接時由門控網路更新；音訊流則在每個鏡頭注入參考說話者 token，避免滑動音訊庫的負擔。另一個辨識度高的設計是透過 AdaLN 學習離散剪接類型先驗（cut-type prior），讓使用者可在推論階段調整轉場強度。

以下為重點摘要：

類型：多鏡頭影音生成研究框架，附帶資料集與基準測試。
核心差異：用固定大小雙記憶槽取代線性增長的記憶庫，並加入參考語者 token 維持聲音一致性。
控制能力：剪接類型先驗成為推論時可調旋鈕，使用者可指定轉場強弱。
相關模型：以 LTX-2.3 22B 為基座，整合 AdaLN 門控機制。
資料集：釋出 UnityShotsBench，涵蓋六大文化區域、13 種語言的 200 段多鏡頭序列。

現有評估涵蓋 I2V、T2V、R2V 三種條件模式，UnityShots 在跨鏡頭一致性與音畫品質上與開源及閉源基準相當。對從事多鏡頭敘事、短影音自動化或數位人內容生成的團隊而言，這套框架提供了較完整的記憶與控制設計思路。原始資料庫明確指出，檢查點、訓練程式碼與代理系統尚未釋出，因此目前無法從儲存庫直接取得安裝指令或模型權重；讀者若有興趣部署，需等待官方後續發布。資料集本身可從 Hugging Face 的 KlingTeam/UnityShotsBench 下載，供研究者評測自家模型。授權為 CC BY-NC 4.0，僅限非商業學術用途。

GitHub： https://github.com/JIA-Lab-research/UnityShots

項目主頁： https://jackailab.github.io/Projects/UnityShots/

Paper： https://arxiv.org/pdf/2606.21661

Categories: 開源, 香港, 香港中文大學, 香港科技大學, 字節跳動, Video, 庫, 提示詞, 模型, 數字人, 視頻模型, 語音, LTX, 清華大學, 框架

PerceptionDLM：多區域圖像描述加速方案

2026 年 6 月 22 日

現時不少 Multimodal Large Language Models (MLLMs) 做區域描述時，仍然依賴 autoregressive (AR) 逐段生成：一張圖有幾多個 mask，就要逐個區域慢慢解讀。PerceptionDLM 提出的方向很明確，改用 Multimodal Diffusion Language Model，同一輪 denoising process 內同時輸出多個區域描述，目標是解決多區域感知在延遲上隨數量線性上升的問題。

這是一個偏向模型加基準測試的開源項目：核心是 PerceptionDLM 與 PerceptionDLM-Base，另加 ParaDLC-Bench、PerceptionDLM-Data 和 Bee / Honey 系列訓練資料配方。作者點名批評舊範式主要卡在 autoregressive region captioning，因此加入 efficient prompting 與 structured attention masking，讓平行生成不只停留在概念，而是落到 sequence level 同 token level。

從公開資料看，這個項目較適合以 Hugging Face 已釋出的模型、資料集與 evaluation suite 來理解和測試；想重現結果的人，亦可沿住訓練資料配方、Training 與 Evaluation 流程部署。對一般開發團隊而言，最有參考價值的不是安裝細節，而是它示範了 diffusion VLM 怎樣處理「多區域同時描述」這種以往較少由 DLM 承擔的任務。

單次 denoising pass 可同時描述多個 masked regions，官方稱在密集多區域情境可有最高 3.4× throughput speedup
PerceptionDLM-Base 據稱在 16 個 multimodal benchmarks 之中，15 個勝過 LLaDA-V
ParaDLC-Bench 不只看 caption quality，也把 inference efficiency 一併納入
已公開 code、model weights、training data recipe、evaluation suite，重現門檻比只放論文低

它較適合做視覺理解、圖像標註、自動資料整理，或者需要一次看多個區域的研究團隊。限制也很清楚：目前公開資訊主力強調 benchmark 與吞吐提升，對一般產品場景的記憶體需求、延遲分佈與部署成本仍要再看實測；相關模型則包括 PerceptionDLM、PerceptionDLM-Base，以及其 backbone LLaDA-8B-Instruct，對比對象則有 LLaDA-V。

GitHub： https://github.com/MSALab-PKU/PerceptionDLM

項目主頁： https://msalab-pku.github.io/projects/PerceptionDLM/index.html

項目： https://huggingface.co/collections/MSALab/perceptiondlm-model-zoo

Categories: 開源, 字節跳動, Stable Diffusion, 多模態模型, 提示詞, 模型, 模型訓練, 視覺模型, 北京大學, Dataset 數據集

JoyAI-VL-Interaction 把影像助手變主動

2026 年 6 月 17 日

現時多數視覺語言模型仍然沿用 turn-based 問答範式：用戶問一句，模型答一句；就算放進視像通話或直播介面，底層仍是被動回應。JoyAI-VL-Interaction 直接挑戰這個做法，改成持續觀看、按秒判斷要沉默、回應，還是把難題交給背景模型處理，目標是把 VLM 從「被問先答」推向即時互動。

這是一個多模態模型加可部署系統項目，想解決的不是普通問答，而是「畫面中的關鍵一刻不會等人發問」這個問題。技術報告提到它是 8B vision-first 模型，支援 real-time video-language interaction，並配合 time-aligned interaction data、training recipe 與完整系統，重點放在時間感、主動觸發與持續在線。

如果你想理解它是否適合自己，最容易的測試場景是把 webcam、直播畫面或監控串流接入，觀察它會否在有事件時主動開口，而不是每次都等指令。這種模式較適合直播助理、居家提醒、遠端看護、商務示範，甚至要一邊看影像一邊調用 API 或 agent 的流程。

核心改動是由問答式互動，轉向 watch-and-do 式互動
模型每秒自行決定沉默、回應或 delegation
系統可接駁 ASR、TTS、memory、API 與其他 agent
報告稱可長時間處理連續影片，延遲維持在 sub-second
人工評分比較中，對 Doubao 與 Gemini 的質量與時機掌握都有明顯優勢

創新位不只在模型本身，也在整個開放堆疊一起釋出：模型、數據、訓練方法與部署系統放在同一個項目脈絡，方便研究者與開發者沿原路線延伸。相關模型與組件包括背景大模型、API、agent，以及文中對比的 Doubao、Gemini；若完整開源內容如期提供，這個項目會對即時多模態互動研究有相當高參考價值。

GitHub： https://github.com/jd-opensource/JoyAI-VL-Interaction

項目：https://joyai-vl-video-future-academy-jd.github.io/JoyAI-VL-Interaction/

Categories: 開源, 字節跳動, Gemini, OpenAI, 文字轉語音, Agentic, API, Video, Image, 工具, AI productions, IDE, 多模態模型, 模型, 模型訓練, 視頻模型, 語音

ARM：把生圖與修圖收進同一模型

2026 年 6 月 11 日

ARM 是一個 AutoRegressive Large Multimodal Model（ARM）類型的多模態模型，把圖像轉成離散 visual tokens，再以同一套 next-token prediction 處理理解、text-to-image 和指令式編輯，目標是把三種能力收進單一流程。

它的核心新意，是用 shared visual token space 連接看圖、生成與修圖，再以純 autoregressive multimodal modeling 處理交錯的文字與圖像 tokens。對一般讀者來說，可理解成「把圖片也變成語言模型可續寫的內容」。

• 7B 規模，重點在統一表示
• reinforcement learning（RL）結合 preference optimization
• WISE overall 由 0.50 升至 0.56
• GEdit-Bench-EN overall 由 5.75 升至 6.68

現階段較適合先讀論文和 benchmark。儲存庫節錄未見完整安裝、推理或權重說明，因此目前看來更像研究項目，不一定適合立即部署。

如果你關注 Large Multimodal Models（LMMs）、image editing，或想比較 unified autoregressive models，這個項目有參考價值。可對照的相關模型路線，包括 unified autoregressive models 與主流 image generation systems；論文亦提到它在 GenEval、DPG、WISE 具競爭力。

GitHub： https://github.com/wdrink/ARM

Paper： https://arxiv.org/pdf/2606.11188

Categories: 開源, 字節跳動, 影像處理, 模型, 框架

Bernini：影片生成與編輯的新路線

2026 年 6 月 10 日

Bernini 是一個影片生成與編輯框架，核心是把 MLLM-based semantic planner 與 DiT-based renderer 組合起來，處理一般影片擴散模型常見的內容漂移、指令跟從不穩定，以及長片段規劃鬆散等問題。從定位看，它不是單純再堆大模型，而是先做語意規劃，再交由生成器落實畫面。

這個項目的關鍵想法，在於「Latent Semantic Planning」：先在潛在空間安排語意，再做 video diffusion。對非研究背景讀者來說，可以理解為先寫分鏡草稿，再逐格畫面化，這比直接由文字一步到位生成影片，更有機會保持故事連貫和編輯意圖一致。

如果想試，較合理的切入點是影片編輯任務，例如風格轉換、字幕或水印移除、局部修改，再觀察輸出有沒有跟足指令。倉庫列出的環境偏高階，建議準備 CUDA 12.4、Python 3.11.2，以及 torch==2.5.1+cu124、diffusers==0.35.2、accelerate==0.34.2、transformers==4.57.3；若有 H100、H800、H200 可配合 FlashAttention-3，其他 CUDA GPU 則退回 FlashAttention-2 或 PyTorch SDPA。

Bernini 在 video editing 的表現進入部分主流 closed-source commercial models 的第一梯隊，評分來自其自建 arena，以人工盲選、Bradley-Terry score 及 pairwise win-rate matrix 彙整。這類結果有參考價值，但暫時主要反映編輯場景；若你關心更複雜的人物生成，官方也提到 1.3B 的 Bernini-R 在簡單任務接近 14B 版本，面對複雜任務仍有差距。

Bernini: Latent Semantic Planning for Video Diffusion

Watch this video on YouTube

核心組成是 MLLM-based semantic planner + DiT-based renderer
已公開 Bernini-R 權重，包含 1.3B 版本
適合研究影片生成、影片編輯流程，或想比較規劃式生成方法的人
硬件門檻偏高，Multi-GPU sequence parallel 亦需要 Open-VeOmni
相關模型可先留意 Bernini-R-1.3B-Diffusers，以及文中提到的 14B 變體

整體來看，Bernini 最有價值的地方不是「再一個影片模型」，而是把規劃與渲染拆開處理，令可控性成為主要賣點。若你想找可直接在普通電腦輕鬆跑的項目，它未必合適；但如果你重視研究方向、編輯質素與系統設計，這個項目相當值得細看。

GitHub： https://github.com/bytedance/Bernini

Categories: 開源, 字節跳動, 影像模型, 影像處理, 模型, 視覺模型, 視頻模型, 語音, 框架

TaskMem：教多模態智能體學會選擇性記憶

2026 年 6 月 2 日

多模態智能體在持續觀察環境時，會接收海量且不斷累積的視覺與語言資訊。若把所有內容都存進長期記憶，既不實際也容易雜訊過多。Task-Focused Memorization for Multimodal Agents 這份研究，把焦點放在一個根本問題：智能體到底應該記住什麼？

來自 ByteDance Seed 與復旦大學的作者群提出名為 TaskMem（Task-focused Memorization Policy Learning） 的框架，把記憶生成視為一項可學習的策略。系統採用兩階段訓練：第一階段先學習怎樣記得準確，第二階段則在部署後，根據近期遇到的任務調整一個 adapter，使基礎多模態大型語言模型（MLLM）偏向記錄與任務相關的內容。整個過程以強化學習驅動，獎勵訊號來自真實任務的表現。

為了評估記憶品質，研究團隊將 VideoMME、EgoLife 與 EgoTempo 改造成串流基準，模擬智能體邊觀察邊回答的場景，且回答時只能依賴記憶，不能翻看原始影片。基於 Qwen3-VL-30B-A3B，TaskMem 在三個基準的 VQA 準確率分別提升 6.3%、7.0% 與 5.3%，並在多項指標上超越 Gemini-2.5-Pro、GPT-5.2 等大型模型。

這項工作對從事多模態智能體、機器人記錄系統或長期對話助手開發的研究者特別有參考價值，因為它把「該記什麼」變成可優化的決策，而非寫死規則。對於關注世界模型與持續學習（continual learning）的團隊，TaskMem 亦提供了一個結合任務回饋與記憶策略的可行路徑。

重點摘要：

核心問題：多模態智能體面對資訊洪流，需要學會選擇性記憶。
方法：以強化學習訓練記憶策略，分為基礎保真度與任務相關性兩階段。
評估方式：將三個影片基準改造成串流設定，僅以記憶回答問題。
成效：在 VideoMME、EgoLife、EgoTempo 上 VQA 準確率提升 5.3% 至 7.0%。
適用對象：研究多模態智能體、機器人記憶與持續學習的開發者與學者。

項目： https://taskmem.github.io/

Categories: 開源, 字節跳動, Agentic, OpenClaw, 框架

Lance：一個模型包辦圖像與影片

2026 年 5 月 20 日

Lance 是 ByteDance 推出的 3B 級多模態模型，重點不只是「識圖」，而是把圖片與影片的理解、生成、編輯放在同一套框架內處理。對一般讀者來說，最易明白的價值是：同一個專案可應付多種視覺工作，不用為每個任務分開找不同模型。

Lance 可處理的任務包括文字生成圖片、文字生成影片、圖片編輯、影片編輯，以及由圖片或影片輸出文字說明。環境方面需要 Python 3.10+、CUDA 12.4+，推理亦要至少 40GB VRAM 的 GPU，較適合有工作站或伺服器資源的團隊先做測試，再按任務修改預設參數與樣本配置。

它較有意思的地方，在於用 3B active parameters 去覆蓋多種視覺任務，並強調由零開始訓練，加上分階段的多任務訓練方法。這代表它的設計方向不是只追單一指標，而是希望不同任務之間互相帶動，令圖片與影片能力更集中在同一模型內。

支援的任務範圍廣：t2i、t2v、image edit、video edit、x2t image、x2t video
模型規模屬 3B，但官方稱在多項圖片與影片基準上表現不俗
重點是統一框架，減少多模型切換的複雜度
推理硬件門檻不低，較適合研究、內容工具開發及企業試驗

合適視覺 AI 研究、內容製作流程整合、需要同時處理圖像與短片的原型系統。相關模型方向可留意文字轉圖片、文字轉影片、影像編輯、影片編輯，以及視覺轉文字這幾類；Lance 的特點正是把這些能力盡量收攏到同一個模型體系之中。

GitHub： https://github.com/bytedance/Lance

Paper： https://arxiv.org/pdf/2605.18678

Categories: 開源, 字節跳動, 影像模型, 影像處理

AlphaGRPO：能自我修正的多模態生成

2026 年 5 月 17 日

AlphaGRPO 係一個用喺原生統一多模態模型嘅訓練框架，重點係令模型唔只係「生成」，而係會根據提示主動推理，並喺輸出有偏差時嘗試自行修正。網頁內容指出，佢主要面向文字生圖同相關編輯場景，目標係改善細節理解、構圖一致性，同埋對隱含要求嘅掌握。

呢個方法特別之處，在於將 GRPO 引入 AR-Diffusion 類型嘅統一模型，而且唔需要額外 cold-start 階段。另一個核心設計係 DVReward：先將複雜指令拆成多個可核實嘅細問題，再由開源多模態模型按語意對齊同畫面品質提供較穩定、可解釋嘅回饋，避免只靠單一分數太過籠統。

如果你想理解點樣使用，概念上可以當佢係一種訓練或強化現有多模態生成模型嘅方法，而唔係一般終端用家即開即用嘅 App。較適合研究人員、模型工程師，或者需要改善文字生圖、細粒度屬性控制、影像編輯泛化能力嘅團隊參考同實作。

支援推理型文字生圖，能更主動補足用家未明講嘅意圖
可做自我反思式修正，生成後再檢查並調整錯配內容
回饋機制較細緻，將要求拆解成可驗證項目再評估
在多個生成基準上有一致進步，亦可遷移到編輯任務
推論階段加入自我修正後，文中指最高可再提升 5.8%

就評估結果而言，頁面提到 AlphaGRPO 喺 GenEval、TIIF-Bench、DPG-Bench、WISE 等生成基準，以及 GEdit 編輯任務都有提升，而且編輯能力並非靠專門編輯訓練得來，反映泛化表現不俗。不過，具體效果仍應按模型底座、評測設定同實際資料而定。

訓練程式碼和模型權重目前正在進行內部審核，審核通過後將予以發布。

網址： https://huangrh99.github.io/AlphaGRPO/

Categories: 開源, 香港大學, 字節跳動, 影像模型, 影像處理, 框架

Page 2 of 3

« Previous 1 2 3 Next »