從零開始構建一個 AI 代理

SwirlAI 電子報發表了一篇教學文章,旨在從零開始構建一個 AI 代理程式,無需任何框架。文章的核心在於說明如何讓 AI 代理程式使用工具 (Tools),並以一個貨幣轉換器為例,逐步演示整個過程。 作者首先定義了什麼是 AI 代理程式,並強調了系統提示 (system prompt) 的重要性,它包含了工具的定義和預期的輸出格式。文章亦詳細介紹了如何將 Python 函數包裝成工具,以及如何構造有效的系統提示,最後實現了一個能夠規劃並執行動作的 AI 代理程式類別,展示了如何讓 AI 代理程式根據用戶提問,自動選擇並使用工具完成任務。整個過程強調了基礎概念的理解,而非依賴現有框架。


ComfyUI 上使用 Hunyuan 影片模型

騰訊開源模型 Hunyuan (混元) 能生成高品質 AI 影片,具有出色的動作穩定性、場景切換和逼真的視覺效果。ComfyUI 官網介紹了如何免費使用「Hunyuan Video」模型首先必需安裝幾個主要檔案:

模型亦支援生成靜態圖片,只需將影片長度設定為 1 即可。最後亦提供了一個 JSON 格式的工作流程範例,方便使用者快速上手。



Explorer 生成式三維世界

Odyssey 公司開發的「Explorer」,一個能將圖片轉換成逼真三維世界的生成式世界模型,強調「故事至上」的理念,如同 Pixar 的成功經驗,科技應服務於故事和說故事的人。Explorer 利用高斯點雲 (gaussian splats) 技術建構細節豐富的場景,並能與現有 3D 創作軟體整合,實現手動編輯的功能。目前 Explorer 應用於電影、遊戲製作的虛擬製作流程中,未來目標是實現即時世界生成,並拓展更多應用,文中也提及與 Pixar 共同創辦人 Ed Catmull 的合作,突顯其在該領域的領先地位和遠大抱負。


Genesis 生成式物理引擎

Genesis 是一個強大的、通用物理引擎,旨在為機器人和更廣泛的應用程式(如具身 AI 和物理 AI)提供服務。它不僅是一個輕量級且超快速的模擬平台,擁有易於使用的 Python 介面和逼真的渲染系統,更是一個生成式數據引擎,能根據自然語言提示生成各種模態的數據,例如物理準確的影片、機器人策略、以及複雜的 3D 場景和角色動作。其核心是從零開始重建的物理引擎,結合多種物理求解器,並由上層的生成式代理框架進一步增強,實現數據生成的自動化。目前已公開發布物理引擎和模擬平台的原始碼,生成式框架將逐步推出。 Genesis 的目標是大幅提升模擬效率和數據生成能力,促進機器人學及相關領域的研究與發展。

MAC ImageWIN Image



Whisk – Google Deepmind 新整合

Google Labs 宣佈了幾個重要更新。除影片生成外,Whisk 最受矚目!

Google 推出了Veo 2 和 Imagen 3 的改良版本,分別在影片和圖片生成方面達到業界頂尖水準,並整合到 VideoFX 和 ImageFX 工具中。 此外,一個名為 Whisk 的新工具也正式亮相,它允許使用者以圖片作為提示,結合 Imagen 3 和 Gemini 的技術,創造出獨特的影像。 文章最後還介紹了這些工具的應用範圍以及未來發展計畫,例如在 YouTube Shorts 和 Vertex AI 上的整合。 整體而言,文章旨在展示Google在AI影像與影片生成技術上的最新進展,以及其對提升使用者創造力和拓展應用場景的努力。


Google Veo2 – 比 Sora 更高質!

Veo 2 是一款最先進的影片生成模型

Google DeepMind 的 Veo 2 能生成高品質、逼真的影片,解析度最高可達 4K,並具有精細的攝影機控制選項,能準確地模擬真實世界的物理現象和多種視覺風格。

Googles VEO 2 Just STUNNED The ENTIRE INDUSTRY! (Quantum Leap in AI Video)

Speculative Decoding 推理解碼技術

大幅提升大型語言模型 (LLM) 的推理速度

Cerebras 和 Groq 等公司利用此技術,在 Llama 模型上取得遠超傳統 GPU 的效能表現,速度提升達數倍。文章詳細解釋了如何取巧進行推理解碼的原理:使用較小的模型快速生成初步答案,再由較大的模型校驗其準確性,類似「助理先打草稿,老闆再審核」的流程。文章後半部提供了使用 Llama.cpp 實作推測解碼的步驟,並說明了其各個參數的意義,以及在實際應用中可能遇到的挑戰,例如偶爾出現的延遲問題,但整體而言,推測解碼能有效提升 LLM 的效能,尤其適用於需要大量運算的應用情境,例如結合思考鏈 (CoT) 的複雜任務。


Ollama3.2-vision 本地部處教學

影片示範使用 OLAMA 平台,離線運行 Llama 3.2 vision 模型。重點在於說明如何使用終端機或 Open Web UI 與圖片互動,以及運用 Python 和 JavaScript SDK 建立應用程式。影片涵蓋基本設定到進階應用程式開發,並提供詳細程式碼範例,協助 Llama 3.2 vision 模型進行圖像識別和描述等任務,展現消費級硬體上的強大能力。

Llama 3.2 Vision + Ollama: Chat with Images LOCALLY

MAC ImageWIN Image


Page 15 of 49
1 13 14 15 16 17 49