一套開源、多代理的「全能型影片處理框架」UniVA,目的是將影片理解、分割、剪輯與生成等功能統合成自動化且可擴展的工作流程。
主要創新與架構
- Plan-and-Act 雙代理架構:系統分成「規劃代理」與「執行代理」。規劃代理會解析用戶意圖,分解成結構化的多步影片處理任務;執行代理則利用模組化的工具伺服器(MCP-based servers)來完成分析、生成、剪輯、追蹤等步驟。
- 分層記憶機制:建立了全球知識、任務上下文與用戶偏好三層記憶,確保長時段推理、上下文連續性及代理間溝通,有助於符合用戶風格或偏好的一致性影片製作。
- 端到端全能影片工作流:支援任何條件(文字、圖片、影片等)進行生成 → 多輪剪輯 → 物件分割 → 合成等自由流程,而非單一模型侷限的功能。
- 模組化擴展生態系:架構原生支援加入新工具與模型,方便根據需求進行功能擴充,提升系統柔性與持續性開發。


