PrismAudio 是一個把視訊畫面轉成立體聲(stereo)音訊的 AI 模型框架,目標是在四個維度上同時優化:
- 語義合理性(Semantic)
- 音視同步性(Temporal synchrony)
- 音質美感(Aesthetic quality)
- 空間準確度(Spatial accuracy)
作者的關鍵點是:現有模型通常把這些目標混在一個損失函數裡,會造成「目標互相干擾」(objective entanglement),而 PrismAudio 用 分解式 Chain‑of‑Thought(CoT)推理+多維度強化學習(RL) 來避免這個問題。
