Infer News

Kiro v0.1.0 – Vibe Coder

透過 Kiro，我們徹底革新了開發者與 AI 代理商的合作方式。我們率先推出了規範驅動開發 (spec-driven development)，Kiro 將您的需求轉化為結構化的需求、設計和任務，然後由代理商執行。 Kiro 的代理鉤子 (agent hooks) 透過將任務委託給在背景執行的代理程式（例如更新文件、產生單元測試或最佳化程式碼以提高效能）來幫助您擴展工作。我們將 Kiro 視為真正的協作者，目標是讓 Kiro 幫助您交付強大的工程成果，同時助您成為更優秀的工程師。

Categories: 工具, 編程

MultiTalk 音訊驅動生成多人對話影片

由音訊驅動的人體動畫技術，以面部動作同步且畫面吸睛的能力，已經有很顯著的進步。然而，現有的方法大多專注於單人動畫，難以處理多路音訊輸入，也因此常發生音訊與人物無法正確配對的問題。

MultiTalk 為了克服這些挑戰，提出了一項新任務：多人對話影片生成，並引入了一個名為 MultiTalk 的新框架。這個框架專為解決多人生成過程中的難題而設計。具體來說，在處理音訊輸入時，我們研究了多種方案，並提出了一種**標籤旋轉位置嵌入（L-RoPE）**的方法，來解決音訊與人物配對不正確的問題。香港科技大學數學與數學研究中心及電子與電腦工程系有份參與。

Categories: 開源, 香港科技大學, 數字人, 視頻模型, 聲效, 影像模型, 模型

OmniAvatar 數字人完整解決方案

OmniAvatar 是一種創新的音訊驅動全身視訊生成模型，它透過提高唇形同步精度和自然動作來增強人體動畫。 OmniAvatar 引入了一種逐像素多層音訊嵌入策略，可更好地捕捉潛在空間中的音訊特徵，從而增強不同場景下的唇形同步效果。為了在有效融合音訊特徵的同時保留基礎模型的提示驅動控制能力，我們採用了基於 LoRA 的訓練方法。大量實驗表明，OmniAvatar 在臉部和半身視訊生成方面均超越現有模型，能夠提供基於文字的精準控制，用於創建播客、人機互動、動態場景和歌唱等各個領域的影片。

效果惊艳，速度感人！我把 OmniAvatar 部署下来了，生成20秒视频竟要4小时？

Watch this video on YouTube

Categories: 開源, 數字人, 模型

NVIDIA RTX AI 加速 FLUX.1 Kontext [dev]

NVIDIA 與 Black Forest Labs 合作，使用
NVIDIA TensorRT軟體開發套件和量化技術針對
 NVIDIA RTX GPU 優化 FLUX.1 Kontext [dev]，
從而以更低的 VRAM 要求提供更快的推理速度。

Categories: ComfyUI, 工具, 開源, 視頻模型, 推理引擎, 影像模型

用 Python 構建 RAG 的每個細節

使用Python构建RAG系统 —— 用代码还原 RAG系统的每个细节

Categories: 教學, RAG

MTVCrafter 數字人動畫

MTVCrafter 是專門用來製作高品質的數字人動畫。現有方法依賴二維渲染的姿態影像進行運動引導，這限制了其泛化能力並丟棄了重要的三維資訊。MTVCrafter 有兩個厲害的設計：第一個是 4DMoT（4D 運動標記器），能夠將三維動作轉成 4D 運動標記，比二維圖片更精準地捕捉時間和空間的細節！第二個是 MV-DiT（運動感知影片 DiT），用了一個特別的 4D 位置編碼技術，讓動畫在複雜的三維世界裡也能流暢又生動。實驗結果的 FID-VID 分數達到 6.98，比第二名強了 65%，不管是單人、多人、全身或半身的角色，還是各種風格和場景，它都能輕鬆搞定！

Categories: 開源, 數字人, 影像模型

Gemma 3n

Gemma 3n 是一款開源生成式 AI 模型，針對手機、筆記型電腦和平板電腦等日常設備進行了最佳化。包括逐層嵌入 (PLE) 參數快取和 MatFormer 模型架構，可靈活降低運算和記憶體需求。模型同時具備音訊輸入處理、文字和視覺資料處理等功能。

Gemma 3n 模型的參數在 E2B 模型的標準執行過程中，執行模型時會載入超過 50 億個參數。然而，使用參數跳過和 PLE 快取技術，該模型可以在有效記憶體負載略低於 20 億（19.1 億）個參數的情況下運行。Huggingface 下載

Announcing Gemma 3n Preview: Powerful, Efficient, Mobile-First AI

Watch this video on YouTube

Categories: 開源, 多模態模型

Gemini CLI：您的開源 AI 代理

Google 推出了 Gemini CLI，一個免費的開源項目。它允許開發者透過自然語言指令在 Terminal 使用 Google 的 Gemini 2.5 Pro 模型。它可以編寫程式碼，亦能夠處理內容的生成、或者解決問題、甚至深入研究和任務管理等的多種任務。這個工具的設計目標是提升開發者在終端機中的工作效率，令 AI 成為日常工作流程的一部分。

Categories: 工具, 開源, 編程

AlphaEvolve 無限智慧

– Google Deepmind A.I.

AlphaEvolve 無限智慧 - Google Deepmind A.I.

Watch this video on YouTube

Categories: 新聞

從零寫AI RAG 個人知識庫

影片中，作者使用了 Google 的 embedding 模型和 ChromaDB 向量資料庫來實現這個架構。

RAG 架構簡介 解釋了 RAG 的基本原理，即將長文章拆分成小片段，對每個片段進行 embedding，然後儲存到向量資料庫中，並在使用者提問時找出最相關的片段發送給大型語言模型。
文章分塊 示範如何將一篇關於「令狐沖轉生為史萊姆」的虛構文章進行分塊處理。他首先使用雙回車符作為切分依據，然後進一步優化，將以警號開頭的標題與後續的正文合併。
Embedding 與資料庫儲存 介紹如何使用 Google 的 embedding 模型對分塊後的文本進行 embedding，並將這些 embedding 及其原始文本儲存到 ChromaDB 向量資料庫中。作者特別提到 Google embedding 模型的「儲存」和「查詢」兩種模式。
查詢功能 說明如何透過查詢 embedding 模型並從 ChromaDB 中檢索出與使用者問題最相關的文本片段。
整合大型語言模型 最後，展示如何將查詢到的相關文本片段與使用者問題一起發送給大型語言模型（Gemini Flash 2.5），以生成更準確的回應。

影片強調動手實作的重要性，鼓勵觀眾親自寫一遍程式碼以加深理解。

从零写AI RAG 个人知识库

Watch this video on YouTube

Categories: Gemini, 開源, 教學, Embedding, RAG

Page 6 of 54

« Previous 1 … 4 5 6 7 8 … 54 Next »