AI Agent A-Z 英語詳解

一場關於建構 AI 研究代理程式的研討會。主要目的在於介紹 AI 代理程式的基本概念,並讓參與者獲得端到端構建代理程式的實務經驗。講者首先解釋何謂 AI 代理程式,並將其與大型語言模型 (LLM) 互動的方法,例如簡單提示和檢索增強生成 (RAG),進行比較,強調 AI 代理程式在處理複雜任務和個性化回應方面的優勢。接著,講者深入探討了 AI 代理程式的幾個關鍵組成部分:規劃與推理 (包含 Chain of Thought 和 React 等設計模式)、記憶體 (短期和長期記憶體) 和工具。最後,研討會的實作部分引導參與者利用 Langchain 框架,結合 Fireworks 模型和 MongoDB,一步步建構一個可以提供研究協助的 AI 代理程式,其中涵蓋了工具的建立、代理程式的設計,以及記憶體的添加。

Build an AI Research Agent: Apoorva Joshi

mistral.rs 高速推理引擎

高效能語言模型推論引擎

它以 Rust 編寫,支援多種模型、量化方法 (GGML, GPTQ, HQQ 等) 和加速器 (CUDA, Metal, CPU),並提供 便捷的 Python API 和 OpenAI 相容的 HTTP 伺服器。 核心功能包括 快速推論、多種量化技術 以提升效能,以及對 LoRA、X-LoRA 等模型調整技術的支援。 附詳細說明安裝、建置、模型取得和使用方法,並提供豐富的範例程式碼與效能基准測試結果。(支援 Mac M 系列)

MAC ImageWIN Image


Gemini-Teacher 英語教師

MAC ImageWIN Image


SwiftEdit 高速 AI 修圖

Demo: SwiftEdit: Lightning Fast Text-guided Image Editing via One-step Diffusion

MMAudio 自動配音效模型


DiffSensei 客製化漫畫

結合擴散的圖像生成和多模態大型語言模型 (MLLM)

DiffSensei 效能超越現有模型,代表在漫畫生成領域的重大進展,實現了文本可調整的角色客製化,並公開程式碼、模型和數據集。

DiffSensei 使用遮罩交叉注意力來整合角色特徵,實現精確的版面控制,並透過 MLLM 調整角色特徵以符合面板的文字提示,從而靈活調整角色的表情、姿勢和動作。研究團隊也公開了一個大型數據集 MangaZero,包含大量漫畫頁面和標註面板,以支援此任務。實驗結果顯示。


Motion Prompting 可控影像模型


TRELLIS 3D 高品質三維模型

輸出的 3D 型以 Mixamo 加入 Rigging 教學

Best Free 3D Model Generator AI in 2025 - Free & Open Source 3D AI Models are Here!

ComfyUI + Live Portrait 教學

短片說明如何在 ComfyUI 中使用「Live Portrait」,將靜態人像圖轉換成具有動態表情的動畫。 教學涵蓋了安裝及設定自訂節點、建立工作流程、以及微調動畫以達到寫實或風格化效果等步驟,並詳細解釋如何調整臉部設定(眨眼、嘴部動作、俯仰角度等),以及如何使用預錄影片或手動設定來製作動畫。 此外,也提供了影像及影片素材的選擇建議,以及處理解析度和裁切等常見問題的方法,目標是讓使用者能有效地將靜態圖片轉換成生動的動畫人像。 最後,還以指令範例說明如何設定動作的播放時間與間隔。

ComfyUI Tutorial Series Ep 26: Live Portrait & Face Expressions


LayoutLM 文件理解和資訊提取


Page 16 of 49
1 14 15 16 17 18 49