Meta 推出開源 SAM 音訊

Meta 的 SAM Audio 是首個統一的多模態模型，能從複雜音頻或視頻中精準分離特定聲音。

SAM Audio 支持文字提示（如「狗叫聲」或「人聲」）、視覺選擇（如點擊視頻中樂手）或時間範圍提示，來隔離目標聲音並生成殘餘音頻。它適用於音樂、語音和一般環境音，超越傳統單一工具。

模型基於 Flow-Matching Diffusion Transformer，在 DAC-VAE 潛在空間運作，提供小（500M 參數）、基（1B）和大（3B）版本。它能同時生成目標與殘餘音軌，支援真實世界場景如去除背景噪音。