NVSpeech 處理副語言聲音

NVSpeech 用於處理副語言聲音(paralinguistic vocalizations),包括非語言聲音(如笑聲、呼吸)和詞彙化插入語(如「uhm」、「oh」)。這些元素在自然對話中至關重要,能傳達情感、意圖和互動線索,但傳統自動語音辨識(ASR)和文字轉語音(TTS)系統往往忽略它們。

Categories: 開源, 香港中文大學, Mac, Win, 模型, 聲效, 語音

Matrix-3D:可探索的3D 世界

相較於最先進的 360 度影片生成方法,Matrix-3D 在全景影片的視覺品質與合理幾何結構上更優越。同時,在視覺品質與相機可控性上,也超越先前的相機控制影片生成方法。廣泛實驗證明其在全景影片生成與 3D 世界生成上的最先進效能。香港科技大學(廣州分校)有份參預!

Categories: 開源, 香港科技大學, 3D, Linux, Mac, Win, 模型, 視頻模型

HPSv3 基於視覺語言模型

HPSv3(Human Preference Score v3)是一個由 Mizzen AI、香港中文大學 MMLab、倫敦國王學院、上海交通大學及上海人工智能實驗室等機構合作開發的項目,目標是建立一個全面的人類偏好評估系統,用於評估文本到圖像生成模型的表現。

HPSv3 旨在解決現有圖像生成模型評估中與人類感知對齊的問題,現有方法常受限於數據覆蓋範圍不足、特徵提取不佳及損失函數效率低下的問題

Screenshot

Categories: 香港, 香港中文大學

VisionThink 智慧高效視覺語言模型

VisionThink 利用強化學習自主學習減少視覺 token。與傳統的高效 VLM 方法相比,這方法在
微粒度基準測試(例如涉及 OCR 相關任務的基準測試)上取得了顯著的提升。

由香港中文大學,香港大學,科技大學大聯合開發

VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning
Categories: 開源, 香港大學, 香港中文大學, 香港科技大學, 推理引擎, 模型, 深度學習, 視覺模型

MultiTalk 音訊驅動生成多人對話影片

由音訊驅動的人體動畫技術,以面部動作同步且畫面吸睛的能力,已經有很顯著的進步。然而,現有的方法大多專注於單人動畫,難以處理多路音訊輸入,也因此常發生音訊與人物無法正確配對的問題。

MultiTalk 為了克服這些挑戰,提出了一項新任務:多人對話影片生成,並引入了一個名為 MultiTalk 的新框架。這個框架專為解決多人生成過程中的難題而設計。具體來說,在處理音訊輸入時,我們研究了多種方案,並提出了一種**標籤旋轉位置嵌入(L-RoPE)**的方法,來解決音訊與人物配對不正確的問題。香港科技大學數學與數學研究中心及電子與電腦工程系有份參與。

Categories: 開源, 香港科技大學, 影像模型, 模型, 數字人, 聲效, 視頻模型

FlashVideo 高速生成高解像度影片

FlashVideo 由香港大學、香港科技大學及 ByteDance 聯合開發,你只需要準備一張或者幾張參考圖片,加上文字提示詞,就可以生成高解像度的影片。過程主要分為兩部份,第一部分是優先處理提示詞,同時以低解像度處理圖片,減少 DIT 的運算時間。第二部分會建立低解像度和高解像度之間的匹配。結果能夠以高速生成 1 0 8 0 P 的高清影片。[DiT] Diffusion Transformer | [NFE ] Number of Function Evaluations

Categories: 開源, 香港科技大學, 影像處理, 視頻模型


MagicQuill 智慧型互動圖像編輯系統 

又一國內手足大作 ! 香港科大有份幫手!開源並已經可以下載。

MagicQuill demo video
Categories: 香港科技大學, 影像處理, 模型

Amphion 多功能聲頻 LLM

香港中文大學(深圳)、上海人工智慧實驗室和深圳大數據研究院聯合開發。

(more…)
Categories: 香港中文大學, 軟件

[免費] AnimateDiff 動畫

AnimateDiff 是一個由上海人工智能實驗室、香港中文大學和美國史丹福大學聯合開發的項目。它提供了一個能夠以視覺方式呈現 GitHub 倉庫差異的工具。你可以使用 Stable Diffusion 或單獨運作此工具。

安裝和使用 AnimateDiff 的詳細教程可以在以下鏈接中找到:

此外,如果你更喜歡通過視頻來學習,你還可以在以下鏈接中找到中文的 YouTube 教學:

希望這些資源能幫助你了解和使用 AnimateDiff。

Categories: 香港中文大學, Stable Diffusion, 軟件

Page 8 of 9
1 6 7 8 9