
LongCat-Video 是一個 13.6B 參數的影片生成項目,主打把文字生成影片、圖片生成影片,以及影片續寫放進同一套架構。對一般使用者來說,最易明白的價值是:不用為不同影片任務分開找不同模型,處理流程可以更集中。
它解決長影片生成常見的畫面走樣、色彩飄移,以及愈生成愈差的情況。項目特別提到自己原生預訓練了影片續寫能力,因此在長時間內容上較有優勢,目標是生成分鐘級影片時仍保持穩定。
先決定輸入方式:有文字概念就做 Text-to-Video,有單張圖片就做 Image-to-Video,要接續既有片段就用 Video-Continuation。提供相關模型與延伸版本,包括 LongCat-Video、LongCat-Video-Avatar 1.5,以及 Hugging Face 與 ModelScope 上提供的模型頁面。
它同時強調速度與畫質。項目表示透過時間與空間兩個方向的 coarse-to-fine 生成策略,再配合 Block Sparse Attention,可在數分鐘內產出 720p、30fps 影片;這類設計對高解析度生成尤其重要,因為影片模型最常見瓶頸就是算力與等待時間。
- 單一模型支援 Text-to-Video、Image-to-Video、Video-Continuation
- 強調長影片生成,主打減少色偏與畫質退化
- 以 coarse-to-fine 加速推理,兼顧效率與解析度
- 提到用多重獎勵的 GRPO 強化學習提升整體表現
這項目較適合關注開源影片生成、長片段內容、角色或場景延續的人,也適合想研究統一式影片模型設計的開發者。其表現可比肩領先開源模型與新近商業方案,但更細的分數與比較細節,仍需要配合技術報告一併閱讀會較穩妥。
Evaluation Results
Text-to-Video
The Text-to-Video MOS evaluation results on our internal benchmark.
| MOS score | Veo3 | PixVerse-V5 | Wan 2.2-T2V-A14B | LongCat-Video |
|---|---|---|---|---|
| Accessibility | Proprietary | Proprietary | Open Source | Open Source |
| Architecture | – | – | MoE | Dense |
| # Total Params | – | – | 28B | 13.6B |
| # Activated Params | – | – | 14B | 13.6B |
| Text-Alignment↑ | 3.99 | 3.81 | 3.70 | 3.76 |
| Visual Quality↑ | 3.23 | 3.13 | 3.26 | 3.25 |
| Motion Quality↑ | 3.86 | 3.81 | 3.78 | 3.74 |
| Overall Quality↑ | 3.48 | 3.36 | 3.35 | 3.38 |
Image-to-Video
The Image-to-Video MOS evaluation results on our internal benchmark.
| MOS score | Seedance 1.0 | Hailuo-02 | Wan 2.2-I2V-A14B | LongCat-Video |
|---|---|---|---|---|
| Accessibility | Proprietary | Proprietary | Open Source | Open Source |
| Architecture | – | – | MoE | Dense |
| # Total Params | – | – | 28B | 13.6B |
| # Activated Params | – | – | 14B | 13.6B |
| Image-Alignment↑ | 4.12 | 4.18 | 4.18 | 4.04 |
| Text-Alignment↑ | 3.70 | 3.85 | 3.33 | 3.49 |
| Visual Quality↑ | 3.22 | 3.18 | 3.23 | 3.27 |
| Motion Quality↑ | 3.77 | 3.80 | 3.79 | 3.59 |
| Overall Quality↑ | 3.35 | 3.27 | 3.26 | 3.17 |