Lance:一個模型包辦圖像與影片

Lance logo

Lance 是 ByteDance 推出的 3B 級多模態模型,重點不只是「識圖」,而是把圖片與影片的理解、生成、編輯放在同一套框架內處理。對一般讀者來說,最易明白的價值是:同一個專案可應付多種視覺工作,不用為每個任務分開找不同模型。

Lance 可處理的任務包括文字生成圖片、文字生成影片、圖片編輯、影片編輯,以及由圖片或影片輸出文字說明。環境方面需要 Python 3.10+、CUDA 12.4+,推理亦要至少 40GB VRAM 的 GPU,較適合有工作站或伺服器資源的團隊先做測試,再按任務修改預設參數與樣本配置。

它較有意思的地方,在於用 3B active parameters 去覆蓋多種視覺任務,並強調由零開始訓練,加上分階段的多任務訓練方法。這代表它的設計方向不是只追單一指標,而是希望不同任務之間互相帶動,令圖片與影片能力更集中在同一模型內。

  • 支援的任務範圍廣:t2i、t2v、image edit、video edit、x2t image、x2t video
  • 模型規模屬 3B,但官方稱在多項圖片與影片基準上表現不俗
  • 重點是統一框架,減少多模型切換的複雜度
  • 推理硬件門檻不低,較適合研究、內容工具開發及企業試驗

合適視覺 AI 研究、內容製作流程整合、需要同時處理圖像與短片的原型系統。相關模型方向可留意文字轉圖片、文字轉影片、影像編輯、影片編輯,以及視覺轉文字這幾類;Lance 的特點正是把這些能力盡量收攏到同一個模型體系之中。

GitHub: https://github.com/bytedance/Lance

Paper: https://arxiv.org/pdf/2605.18678

Categories: 開源, 字節跳動, 影像模型, 影像處理