Meta 的 SAM Audio 是首個統一的多模態模型,能從複雜音頻或視頻中精準分離特定聲音。
SAM Audio 支持文字提示(如「狗叫聲」或「人聲」)、視覺選擇(如點擊視頻中樂手)或時間範圍提示,來隔離目標聲音並生成殘餘音頻。 它適用於音樂、語音和一般環境音,超越傳統單一工具。
模型基於 Flow-Matching Diffusion Transformer,在 DAC-VAE 潛在空間運作,提供小(500M 參數)、基(1B)和大(3B)版本。 它能同時生成目標與殘餘音軌,支援真實世界場景如去除背景噪音。