CogVideo 文字 > 影片產生




SmolLM – 全開源模型 – 速度極快且功能強大

數據集包括 3000 萬份教科書、部落格文章及故事組成。



SenseVoice 具有音頻理解能力的音頻基礎模型

Mac M1 上實測,廣東話夾英文一齊都好準,不過出嘅係簡體中文!


Meta Chameleon – 多模態開源模型


Florence-2 (Microsoft)開源模型 – 影像識別

繼 Meta 推出多模態 open source 模型,Microsoft 也不甘後人,推出影像識別 Open source Florence-2 模型

儘管尺寸很小,但它所取得的結果與大許多倍的模型(如 Kosmos-2)相當。該模型的優勢不在於複雜的架構,而在於大規模的 FLD-5B 資料集,其中包含 1.26 億張影像和 54 億個綜合視覺註釋。


Llama中文社區,所有代碼更新適配Llama3


parler-tts: 高品質 TTS 模型的推理和訓練庫

Parler-TTS 的文本轉語音庫。Parler-TTS 是開源的,允許用戶生成各種風格的語音。文章詳細說明安裝及使用方法。 Parler-TTS 十分輕量,可以通過一行代碼安裝。此外,模型仍處於開發中,目標是將來使用更多的數據進行訓練。


Page 7 of 8
1 5 6 7 8