Infer News

MiniMax MCP server

MiniMax 模型上下文協定 (MCP) 伺服器，可與強大的文字轉語音和視訊/圖像生成 API 進行互動。此伺服器允許 MCP 用戶端（如 Claude Desktop 、 Cursor 、 Windsurf 、 OpenAI Agents 等）產生語音、複製聲音、產生視訊、產生影像等。

Categories: MCP, 開源

GitHub 官方 MCP 伺服器

GitHub MCP 伺服器是一個模型上下文協定 (MCP) 提供與 GitHub API 無縫整合的伺服器，為開發人員和工具提供自動化和互動功能。提供一鍵安裝。完成後，切換代理模式，伺服器將會自動啟動。

建立與 GitHub 生態系統互動的 AI 驅動工具和應用程式

Introducing the GitHub MCP Server: AI interaction protocol | GitHub Checkout

Watch this video on YouTube

Categories: MCP, 開源

FramePack 6Gb vRAM 出 60 秒影片

FramePack 是一種新的視頻擴散設計，用壓縮上下文令工作量不會隨著影片的長度而增加，只需一張圖片，就可以令你的 6GB vRAM 的電腦透過 13B 模型生成每秒 30 格影片的 60 秒影片。而用 RTX 4090 的話，最快速度為每格 1.5 秒。

作者 Lvmin Zhang

FramePack Run In Gradio & ComfyUI - Generate Long Length image2Video AI Video - Installation Guide

Watch this video on YouTube

Categories: ComfyUI, 影像模型, 影像處理, 視頻模型, 開源

Firebase Studio – 雲端 Vibe 編程

Google Firebase Studio 的目標是盡量簡化開發流程，就算你是剛剛開始學寫 App 也不用擔心。只要你有基本了解，Firebase Studio 可以透過 AI 助手 Gemini 幫你寫 Code、Debug 同埋改善效能。完成了之後，無論是全方位的應用程式，抑或 API、後台、前端同埋手機 App，佢都可以幫你自動整合發佈。測試期間，你可以擁有 3 個的免費工作空間。

Firebase Studio: 9 Must See Features (FREE to Use)

Watch this video on YouTube

Categories: Gemini, Agent, 線上服務, IDE

HiDream 文生圖模型

北京的 AI 初創公司 HiDream (智象未來)，剛剛推出了開源 170 億參數的文生圖模型，性能比 FLUX 更為出色。甚至已經在模型排行榜入面升上第二位。而由它生成出來的人物質感、結構、邏輯都非常之唔錯。甚至生成英文文字的準確性同排版能力亦相當之高。除了提供開源版本，亦提供了網上測試同商業版本。

Hi-Dream (the next Flux Killer?): ComfyUI Installation and Use (step-by-step) #ai #flux #hidream

Watch this video on YouTube

HiDream I1 - Now With Native ComfyUI Support!

Watch this video on YouTube

Categories: 影像模型, 模型, 開源

VSCode Agent + MCP

影片展示了 Visual Studio 的最新 AI 功能，重點介紹了新的 Agent 智能體代理模式，同時引入了模型上下文協議 MCP Model Context Protocol。影片亦示範了完整的應用程式開發，並通過不同的模式與 AI 進行交互：包括詢問，編輯。亦會根據項目要求自動進行修改。這些進步反映了 AI 技術在增強開發工作流程和提高效率方面的快速成長。

VS Code Agent Mode Just Changed Everything

Watch this video on YouTube

Categories: Agent, MCP

Llama 4 Scout 是一個擁有 170 億個活躍參數和 16 個 MOE 的混合專家模型。它被認為是目前同類型最優秀的多模態模型，比前幾代的 Llama 模型更強大。新模型可以用單張 NVIDIA H100 GPU 運作。佢擁有業介領先的 1000 萬 tokens 上下文窗口，並且在廣泛使用的基準測試表現都優勝過 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。它在預訓練和後訓練的過程都用了 256K 的上下文長度。

另一個模型 Maverick 同樣是一個擁有 170 億個活躍參數的模型，但它擁有 128 個 MOE 的混合專家模型。基準測試擊敗了 GPT-4o 和 Gemini 2.0 Flash，而在圖像方面亦表現相當出色，能夠將提示詞同埋相關的視覺概念對齊，將模型的回應鎖定到圖像中的特定區域。兩個模型都有獨特的活躍參數模式，能夠節省一半資源。令開發同應用的價格更低。