MoCha 成角色替換

MoCha 是一個專注於視頻角色替換的開源框架，旨在只需要單一參考即可完成角色替換，且不依賴任何結構化指導（如骨骼、深度圖或逐幀分割）。傳統的重建式方法往往必須提供完整的逐幀遮罩與額外的結構資訊，面對遮擋、複雜姿態或多角色互動時容易產生視覺雜訊與時間不穩定，而 MoCha 的設計則把這些限制全部排除，取而代之的是把不同條件統一為單一的 token 流，並通過條件感知的 RoPE（Rotary Positional Embedding）結合多參考圖像，支撐可變長度的影片生成。