NVSpeech 處理副語言聲音

NVSpeech 用於處理副語言聲音(paralinguistic vocalizations),包括非語言聲音(如笑聲、呼吸)和詞彙化插入語(如「uhm」、「oh」)。這些元素在自然對話中至關重要,能傳達情感、意圖和互動線索,但傳統自動語音辨識(ASR)和文字轉語音(TTS)系統往往忽略它們。

Categories: 香港中文大學, 開源, 聲效, Mac, Win, 模型, 語音

HPSv3 基於視覺語言模型

HPSv3(Human Preference Score v3)是一個由 Mizzen AI、香港中文大學 MMLab、倫敦國王學院、上海交通大學及上海人工智能實驗室等機構合作開發的項目,目標是建立一個全面的人類偏好評估系統,用於評估文本到圖像生成模型的表現。

HPSv3 旨在解決現有圖像生成模型評估中與人類感知對齊的問題,現有方法常受限於數據覆蓋範圍不足、特徵提取不佳及損失函數效率低下的問題

Screenshot

Categories: 香港中文大學, 香港

VisionThink 智慧高效視覺語言模型

VisionThink 利用強化學習自主學習減少視覺 token。與傳統的高效 VLM 方法相比,這方法在
微粒度基準測試(例如涉及 OCR 相關任務的基準測試)上取得了顯著的提升。

由香港中文大學,香港大學,科技大學大聯合開發

VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning
Categories: 香港大學, 香港中文大學, 香港科技大學, 視覺模型, 開源, 推理引擎, 深度學習, 模型

Amphion 多功能聲頻 LLM

香港中文大學(深圳)、上海人工智慧實驗室和深圳大數據研究院聯合開發。

(more…)
Categories: 香港中文大學, 軟件

[免費] AnimateDiff 動畫

AnimateDiff 是一個由上海人工智能實驗室、香港中文大學和美國史丹福大學聯合開發的項目。它提供了一個能夠以視覺方式呈現 GitHub 倉庫差異的工具。你可以使用 Stable Diffusion 或單獨運作此工具。

安裝和使用 AnimateDiff 的詳細教程可以在以下鏈接中找到:

此外,如果你更喜歡通過視頻來學習,你還可以在以下鏈接中找到中文的 YouTube 教學:

希望這些資源能幫助你了解和使用 AnimateDiff。

Categories: Stable Diffusion, 香港中文大學, 軟件

「中大創新」成立助初創企業發展

Categories: 香港中文大學, 新聞