Infer News

Qwen3-Coder: 超強 Coding 代理

Qwen3-Coder 是我們迄今為止最具代理性的程式碼模型。 Qwen3-Coder 提供多種規模，首先是其最強大的版本：Qwen3-Coder-480B-A35B-Instruct。這是一個擁有 480B 參數的混合專家模型，其中擁有 35B 個有效參數，原生支援 256K 個 token 的上下文長度，並透過外推方法支援 1M 個 token 的上下文長度，在編碼和代理任務中均創下了新的最高紀錄，與 Claude Sonnet 4 相當。

除此，Qwen 開源了一款用於代理程式編碼的命令列工具：Qwen Code。 Qwen Code 是從 Gemini Code 衍生而來，並經過了調整，添加了自訂提示符和函數呼叫協議，從而充分發揮 Qwen3-Coder 在代理程式編碼任務中的強大功能。

Categories: 模型, 編程, 開源

Knowledge Graph RAG 知識圖譜問答系統

Knowledge Graph RAG 是個現代、響應迅速，基於 Web 的知識圖譜 RAG 應用程序，可以回答有關您上傳的文檔的問題、可視化知識圖譜並管理專用的關鍵字。

Categories: 工具, 開源

VisionThink 智慧高效視覺語言模型

VisionThink 利用強化學習自主學習減少視覺 token。與傳統的高效 VLM 方法相比，這方法在
微粒度基準測試（例如涉及 OCR 相關任務的基準測試）上取得了顯著的提升。

由香港中文大學，香港大學，科技大學大聯合開發

VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning

Watch this video on YouTube

Categories: 香港大學, 香港中文大學, 香港科技大學, 推理引擎, 模型, 深度學習, 視覺模型, 開源

ART：特工強化訓練師

ART 是一個開源強化學習框架，它允許 LLM 從經驗中學習，從而提高代理的可靠性。 ART 提供了符合人體工學的框架，可將 GRPO 整合到任何 Python 應用程式中。

RULER（Relative Universal LLM-Elicited Rewards）透過使用 LLM-as-judge 自動評分代理軌跡，消除了手動設計獎勵函數的需要。只需在系統提示字元中定義您的任務，RULER 就會處理剩下的工作—— 無需標記資料、專家回饋或獎勵工程。

Categories: 模型訓練, 深度學習, 編程, 開源

Ollama-Web-UI-RAG 離線推理 AI Chatbot

Ollama-Web-UI-RAG 是一個功能豐富的現代化 Web 介面，用於與 Ollama 模型進行互動。這款企業級 Web UI 提供全面的聊天體驗，並具備先進的 RAG（檢索增強生成）功能、基於專案的向量資料庫儲存、強大的會話管理以及豐富的文件處理功能。

Categories: 工具, Ollama, 開源

VACE First Last + Kontext ComfyUI 教學

這個教程介紹如何使用 Flux Kontext 和 VACE 第一幀/最後一幀在 ComfyUI 中創建基於關鍵幀的高級動畫！Kontext 瞭解完整的圖像上下文，而 VACE 允許在起始幀和完全不同的最終姿勢或角色之間無縫移動。無論您是將一個人變形為另一個人，還是為角色的姿勢製作跨時間的動畫，這都是 AI 視頻生成的一個突破。

VACE First Last + Kontext: KeyFrame Animation When You Only Have One Frame! ComfyUI Tutorial & Demos

Watch this video on YouTube

Categories: ComfyUI, 影像模型, 數字人, 視頻模型, 開源

Kiro v0.1.0 – Vibe Coder

透過 Kiro，我們徹底革新了開發者與 AI 代理商的合作方式。我們率先推出了規範驅動開發 (spec-driven development)，Kiro 將您的需求轉化為結構化的需求、設計和任務，然後由代理商執行。 Kiro 的代理鉤子 (agent hooks) 透過將任務委託給在背景執行的代理程式（例如更新文件、產生單元測試或最佳化程式碼以提高效能）來幫助您擴展工作。我們將 Kiro 視為真正的協作者，目標是讓 Kiro 幫助您交付強大的工程成果，同時助您成為更優秀的工程師。

Categories: 工具, 編程

MultiTalk 音訊驅動生成多人對話影片

由音訊驅動的人體動畫技術，以面部動作同步且畫面吸睛的能力，已經有很顯著的進步。然而，現有的方法大多專注於單人動畫，難以處理多路音訊輸入，也因此常發生音訊與人物無法正確配對的問題。

MultiTalk 為了克服這些挑戰，提出了一項新任務：多人對話影片生成，並引入了一個名為 MultiTalk 的新框架。這個框架專為解決多人生成過程中的難題而設計。具體來說，在處理音訊輸入時，我們研究了多種方案，並提出了一種**標籤旋轉位置嵌入（L-RoPE）**的方法，來解決音訊與人物配對不正確的問題。香港科技大學數學與數學研究中心及電子與電腦工程系有份參與。

Categories: 香港科技大學, 影像模型, 數字人, 模型, 聲效, 視頻模型, 開源

OmniAvatar 數字人完整解決方案

OmniAvatar 是一種創新的音訊驅動全身視訊生成模型，它透過提高唇形同步精度和自然動作來增強人體動畫。 OmniAvatar 引入了一種逐像素多層音訊嵌入策略，可更好地捕捉潛在空間中的音訊特徵，從而增強不同場景下的唇形同步效果。為了在有效融合音訊特徵的同時保留基礎模型的提示驅動控制能力，我們採用了基於 LoRA 的訓練方法。大量實驗表明，OmniAvatar 在臉部和半身視訊生成方面均超越現有模型，能夠提供基於文字的精準控制，用於創建播客、人機互動、動態場景和歌唱等各個領域的影片。

效果惊艳，速度感人！我把 OmniAvatar 部署下来了，生成20秒视频竟要4小时？

Watch this video on YouTube

Categories: 數字人, 模型, 開源

NVIDIA RTX AI 加速 FLUX.1 Kontext [dev]

NVIDIA 與 Black Forest Labs 合作，使用
NVIDIA TensorRT軟體開發套件和量化技術針對
 NVIDIA RTX GPU 優化 FLUX.1 Kontext [dev]，
從而以更低的 VRAM 要求提供更快的推理速度。

Categories: ComfyUI, 工具, 影像模型, 推理引擎, 視頻模型, 開源

Page 18 of 66

« Previous 1 … 16 17 18 19 20 … 66 Next »