Infer News

mistral.rs 高速推理引擎

高效能語言模型推論引擎

它以 Rust 編寫，支援多種模型、量化方法 (GGML, GPTQ, HQQ 等) 和加速器 (CUDA, Metal, CPU)，並提供便捷的 Python API 和 OpenAI 相容的 HTTP 伺服器。核心功能包括快速推論、多種量化技術以提升效能，以及對 LoRA、X-LoRA 等模型調整技術的支援。附詳細說明安裝、建置、模型取得和使用方法，並提供豐富的範例程式碼與效能基准測試結果。(支援 Mac M 系列)

MAC Image

Categories: 推理引擎, 開源

Gemini-Teacher 英語教師

Google Gemini AI 打造英語發音矯正

提供即時語音辨識、AI 驅動的發音評估、語法修正和情境對話練習等功能，旨在幫助使用者提升英語口語能力。使用者需要取得Gemini 的 API Key 才能運行。

MAC Image

Categories: API, 語音, 開源

SwiftEdit 高速 AI 修圖

快速文字引導影像編輯工具

以0.23秒內完成影像編輯，比現有方法快至少50倍。SwiftEdit 的關鍵在於其一步到位反轉框架，能一步重建影像，以及遮罩引導的編輯技術，藉由注意力重新調整機制來進行局部編輯，同時保留背景細節。其雙階段訓練策略和自動提取編輯區域的機制，並透過範例展示其在人臉編輯和基準測試中的有效性和效率。其目的在提供一個快速、使用者友善且高效的影像編輯工具。(暫未提供源碼)

Demo: SwiftEdit: Lightning Fast Text-guided Image Editing via One-step Diffusion

Watch this video on YouTube

Categories: 影像處理

MMAudio 自動配音效模型

高品質的自動音訊合成模型

其創新之處在於採用多模態聯合訓練方法，能同時利用影音和文字資料進行訓練。模型能根據影片和/或文字提示生成同步的音訊，並包含一個同步模組確保音訊與影片畫面一致。

詳細說明了模型架構、使用方法（包含命令列和圖形介面）、預訓練模型下載和安裝步驟，以及已知限制和未來發展方向，例如訓練和評估部分仍在進行中。整體而言，MMAudio專案旨在提供一個強大且易於使用的影片到音訊合成工具。

MMAudio extra 1

Watch this video on YouTube

MMAudio extra 3

Watch this video on YouTube

MMAudio extra 4

Watch this video on YouTube

Categories: Audio, 模型, 聲效

DiffSensei 客製化漫畫

結合擴散的圖像生成和多模態大型語言模型 (MLLM)

DiffSensei 效能超越現有模型，代表在漫畫生成領域的重大進展，實現了文本可調整的角色客製化，並公開程式碼、模型和數據集。

DiffSensei 使用遮罩交叉注意力來整合角色特徵，實現精確的版面控制，並透過 MLLM 調整角色特徵以符合面板的文字提示，從而靈活調整角色的表情、姿勢和動作。研究團隊也公開了一個大型數據集 MangaZero，包含大量漫畫頁面和標註面板，以支援此任務。實驗結果顯示。

Categories: 模型

Motion Prompting 可控影像模型

用於控制影片生成模型

利用點軌跡 (point trajectories) 作為提示，以極其靈活的方式編碼單點或大量點的運動，甚至包含物體運動、場景變化、遮擋和稀疏運動。研究者訓練一個以任意動作為條件的影片生成模型，並透過設計不同的動作提示來操控影片生成結果，例如控制物體運動、模擬物理現象、控制攝影機視角，甚至是動作轉移和影像編輯。網站分享了不同參數（如軌跡密度、文字提示）對結果的影響，並與其他相關方法進行比較。

Categories: 多模態模型, 影像處理, 新聞

TRELLIS 3D 高品質三維模型

根據文字或圖片提示生成高品質的三維模型

支援 Radiance Fields、3D Gaussians 和 mesh等多種格式。其核心是 Structured LATent, (SLAT 結構化潛在推理），採用為 SLAT 量身打造的校正流變換器（Rectified Flow Transformers）作為骨幹。專案提供了多達 20 億個參數的大規模預訓練模型，訓練資料包含 50 萬個不同類型的三維物件。TRELLIS 在效能上顯著超越現有方法，並展現出靈活的輸出格式選擇和局部三維編輯能力。文中包含模型架構、安裝步驟、預訓練模型、使用範例（包含最小化範例和網頁Demo）、授權資訊以及引用資訊等細節。

輸出的 3D 型以 Mixamo 加入 Rigging 教學

Best Free 3D Model Generator AI in 2025 - Free & Open Source 3D AI Models are Here!

Watch this video on YouTube

Categories: 3D, 模型, 開源

ComfyUI + Live Portrait 教學

短片說明如何在 ComfyUI 中使用「Live Portrait」，將靜態人像圖轉換成具有動態表情的動畫。教學涵蓋了安裝及設定自訂節點、建立工作流程、以及微調動畫以達到寫實或風格化效果等步驟，並詳細解釋如何調整臉部設定（眨眼、嘴部動作、俯仰角度等），以及如何使用預錄影片或手動設定來製作動畫。此外，也提供了影像及影片素材的選擇建議，以及處理解析度和裁切等常見問題的方法，目標是讓使用者能有效地將靜態圖片轉換成生動的動畫人像。最後，還以指令範例說明如何設定動作的播放時間與間隔。

ComfyUI Tutorial Series Ep 26: Live Portrait & Face Expressions

Watch this video on YouTube

Categories: ComfyUI, 教學

LayoutLM 文件理解和資訊提取

Hugging Face Transformers 框架中的 LayoutLM 模型

重點介紹了 LayoutLM 模型如何結合文字資料與文件版面資訊，從而更有效地理解文件結構並提取關鍵資訊，例如表格、發票或收據中的資訊。教學使用 FUNSD 資料集作為範例，並逐步演示了如何預處理資料、載入 LayoutLM 模型、進行預測以及將預測結果視覺化地顯示在文件的影像上，藉由命名實體辨識 (NER) 標記出文件中的關鍵資訊。文章的目標是讓讀者學會如何運用 LayoutLM 模型處理結構化文件，並提取有用的資訊。

Categories: 教學, 模型

Google Agentspace 企業整合平台

一個將生成式 AI 與企業數據整合平台。

它透過三個主要功能提升企業效率：首先，使用 NotebookLM 提供新型態的數據互動方式，例如語音摘要等，讓員工更容易理解複雜資訊；其次，它整合了 Google 的搜尋能力，建構企業內部的多模態搜尋代理程式，讓員工能快速且全面地找到所需資訊，無論數據結構為何或語言為何；最後，它能建立客製化的 AI 代理程式來自動化業務流程，藉此提升各部門的工作效率，例如行銷、財務和工程部門。文章並以多個客戶案例佐證 Agentspace 的效益，並強調其安全性與合規性。

Categories: 新聞

Page 32 of 65

« Previous 1 … 30 31 32 33 34 … 65 Next »