Gemini-Teacher 英語教師 Google Gemini AI 打造英語發音矯正提供即時語音辨識、AI 驅動的發音評估、語法修正和情境對話練習等功能,旨在幫助使用者提升英語口語能力。使用者需要取得Gemini 的 API Key 才能運行。
TRELLIS 3D 高品質三維模型 根據文字或圖片提示生成高品質的三維模型支援 Radiance Fields、3D Gaussians 和 mesh等多種格式。其核心是 Structured LATent, (SLAT 結構化潛在推理),採用為 SLAT 量身打造的校正流變換器(Rectified Flow Transformers)作為骨幹。專案提供了多達 20 億個參數的大規模預訓練模型,訓練資料包含 50 萬個不同類型的三維物件。TRELLIS 在效能上顯著超越現有方法,並展現出靈活的輸出格式選擇和局部三維編輯能力。文中包含模型架構、安裝步驟、預訓練模型、使用範例(包含最小化範例和網頁Demo)、授權資訊以及引用資訊等細節。 輸出的 3D 型以 Mixamo 加入 Rigging 教學 Best Free 3D Model Generator AI in 2025 - Free & Open Source 3D AI Models are Here!Watch this video on YouTube
MV-Adapter 多視角影像生成 MV-Adapter: Multi-view Consistent Image Generation Made EasyMV-Adapter 是一款多功能的即插即用適配器,可將現有的預先訓練的文本到圖像 (T2I) 擴散模型轉變為多視圖生成器。不同於以往需要完整微調的繁複方法,MV-Adapter 透過更新較少參數,有效降低計算成本並避免過擬合。 它利用創新的雙重自我注意力層和平行注意力架構,高效建模 3D 幾何知識,並整合了條件編碼器以處理不同輸入,例如文字、圖片或幾何資訊。實驗結果顯示,MV-Adapter 在不同基礎 T2I 模型和控制條件下,都能生成高保真、多視角一致的影像,展現其適應性和多功能性,為多視角影像生成設定了新的品質標準。
F5-TTS 文字轉語音仿真模型 示範範例: https://SWivid.github.io/F5-TTS GitHub – SWivid/F5-TTS: 100K 小時多語言資料集上進行訓練表現出高度自然和富有表現力的零樣本能力、無縫代碼切換能力和速度控制效率。 F5-TTS (Best ElevenLabs Alternative Yet!): Easy Step-by-Step Installation + DemoWatch this video on YouTube