Lance：一個模型包辦圖像與影片

Lance 是 ByteDance 推出的 3B 級多模態模型，重點不只是「識圖」，而是把圖片與影片的理解、生成、編輯放在同一套框架內處理。對一般讀者來說，最易明白的價值是：同一個專案可應付多種視覺工作，不用為每個任務分開找不同模型。

Lance 可處理的任務包括文字生成圖片、文字生成影片、圖片編輯、影片編輯，以及由圖片或影片輸出文字說明。環境方面需要 Python 3.10+、CUDA 12.4+，推理亦要至少 40GB VRAM 的 GPU，較適合有工作站或伺服器資源的團隊先做測試，再按任務修改預設參數與樣本配置。

它較有意思的地方，在於用 3B active parameters 去覆蓋多種視覺任務，並強調由零開始訓練，加上分階段的多任務訓練方法。這代表它的設計方向不是只追單一指標，而是希望不同任務之間互相帶動，令圖片與影片能力更集中在同一模型內。

合適視覺 AI 研究、內容製作流程整合、需要同時處理圖像與短片的原型系統。相關模型方向可留意文字轉圖片、文字轉影片、影像編輯、影片編輯，以及視覺轉文字這幾類；Lance 的特點正是把這些能力盡量收攏到同一個模型體系之中。

GitHub： https://github.com/bytedance/Lance

Paper： https://arxiv.org/pdf/2605.18678