Win – InferNews

MiniMax Hub：本機優先的多模態創作工作站

2026 年 6 月 17 日

MiniMax Hub 是一個 Multimodal Creative Agent，定位像 AI 創作工作站，不只是聊天工具。它把 Copy Generation、Image Creation、Video Editing、Audio & Voiceover、Auto Packaging 與 Multi-format Export 整合在同一個流程，讓用家由想法到成片可在一處完成。

它支援 macOS 與 Windows 下載，輸入簡報、文字想法，或直接加入本機素材後，主代理會先理解創作目標，再做 Smart task decomposition，之後交由多個 agents 並行處理文案、視覺與音訊。用家仍可手動選模型，亦會在關鍵節點收到確認，避免流程完全黑箱。

這個項目在於把創作流程保存成可重用的 Skills。系統會隨工作過程累積你的做法與風格，之後可重複套用；如果需要，也可從 MiniMax Skills Market 啟用現成 Skills 或外掛。對經常製作短劇、電商內容、品牌 TVC 與廣告素材的團隊來說，這類流程重用能力相當實用。

本機優先設計，頁面明確指出 local files stay on your machine
單一畫布整合腳本、分鏡、影片、音樂與剪輯流程
支援資產管理與 batch generation，可一次產出多個版本
代理會自動分解任務，並在關鍵步驟要求人工確認
可把工作流程沉澱成 Skills，逐步累積個人或團隊方法

MiniMax Hub較著重工作流編排與創作協作，而不是單一模型能力展示。網站未列出具體性能分數或公開評測結果，因此較適合把它理解為面向內容製作的本地化 AI 工具平台。文中未提供明確模型清單，只提到會自動匹配最合適模型。

項目： https://hub.minimax.io/

Categories: Agentic, Video, Image, Audio, 軟件, AI productions, Mac, Win, 多模態模型, 模型, 視覺模型, 視頻模型, 語音, 音樂, Skill 技能

現時不少 action-conditioned video models 會把未來動作壓成 compact vectors，再經 learned conditioning modules 交給模型處理；作者認為這種做法要模型自行猜測細微空間後果，遇到 real manipulation 時，幾厘米差距已足以改變接觸、物件移動與任務成敗。iMaC 屬於世界模型與影片生成模型，核心是把 future joint actions 轉成 image-like controls，減少「動作有輸入，但空間關係表達不足」的問題。

這個項目的方法相當具體：先利用 robot URDF 與 forward kinematics，渲染 future robot-observation control videos，也就是 motion images；之後再加入 depth 作為輔助訊號，配合 3D pointclouds 建立 two-stream geometry controls，也就是 contact images。舊範式主要靠抽象向量條件化，iMaC 則把「未來機械臂會出現在哪裡、如何接近場景」直接變成可見控制，這是它最清晰的技術分野。

GitHub 儲存庫提供 training、preprocessing 與 inference code，覆蓋 RND-mix stage-one、stage-two，以及 WorldArena 三條流程。想試這個項目的人，會先由資料前處理、depth 與 3D condition 建立開始，再跑 validation inference 看生成影片是否跟動作一致；若本身做 robotic policy evaluation，還可以接到 WorldArena 或 online RND evaluation 場景。

把 actions 轉成 motion images 與 contact images，空間條件更明確
用 depth encoding 和 3D pointclouds 強化 robot-scene 幾何理解
加入 training-time rollout strategy，目標是支援更長時序生成並減少 exposure bias
儲存庫同時涵蓋訓練、前處理、推論，不只是論文展示模型
相關組件包括 Wan transformer variants、Diffusion inference pipelines、RobotWin 2.0、WorldArena

性能方面，論文指出它在八個長時序真實機械人操作任務中，world-model success estimates 與真實 policy performance 呈強正相關。這個結果的價值不在於取代真機測試，而是在正式落機前，先用生成式 world model 篩選 policy checkpoints；對研究 embodied evaluation、robotics 與世界模型的人來說，iMaC 屬於相當值得跟進的一個方向。

GitHub： https://github.com/imac-wm/iMac

Paper： https://arxiv.org/pdf/2606.09813

Categories: 開源, Stable Diffusion, Video, Image, 3D, AI productions, Mac, Vibe Coding, Win, 庫, 模型, 模型訓練, 編程, 視頻模型, Robotic, 世界模型, 清華大學

MBench 專看長影片世界模型記憶力

2026 年 6 月 16 日

現時不少長影片評測，仍偏向單幀畫質或短距離 prompt following；畫面一旦切走、角色離鏡，很多模型便容易在回到同一情境時「失憶」。MBench 這個benchmark正是針對這個盲點而設，聚焦 long-video world models 的 memory capability，檢查模型能否在時間拉長後維持一致的世界狀態。

作者把問題拆成三個互相獨立但又彼此關連的方向：Entity Consistency、Environment Consistency、Causal Consistency。這種設計比籠統地給一個總分更有分析價值，因為你能看清模型究竟是忘記角色外觀、搞亂場景空間，還是未能延續畫面外仍在發生的物理過程；同時它再分成 MBench-A 與 MBench-T，分別對應 action-conditioned world models 與 text-segment-conditioned 長影片續寫模型。

如果你本身有影片生成或世界模型項目，這個儲存庫的用途很明確：先準備模型輸出，再用 mbench 這套 contract-driven、plugin-based CLI 跑完整評測流程。儲存庫已提供 12 個官方 metric implementation，亦整合 VLM trigger judge，代表它不只是論文概念，而是一套可落地比較不同模型表現的評測工具鏈。

項目類型：這是一個 benchmark／評測工具鏈，用來量度長影片世界模型是否具備穩定記憶與時序一致性。
創新位置：不是只看畫面質素，而是把「長時間記住世界」正式定義成三條 capability axes。
適合場景：長影片生成、world model 研究、模型比較、內部驗證新版本退步與否。
可讀性高：MBench-A 與 MBench-T 將不同條件設定分開，較容易知道模型失分原因。

從評論角度看，MBench 的價值在於它批評了舊有固定範式：只獎勵 single-frame quality 或 short-horizon prompt following，卻未有檢驗跨鏡頭、跨時間的持續記憶。若你關心的模型包括各類 long-video world models、action-conditioned world models，以及 text continuation 類影片模型，這個項目很值得納入測試流程；不過目前提供的資料以 benchmark 與評測框架為主，是否能全面代表所有真實創作場景，仍要配合你自己的生成任務一併觀察。

GitHub： https://github.com/study-overflow/MBench

Paper： https://arxiv.org/pdf/2606.00793

Categories: 開源, Video, 工具, Win, 庫, 模型, 視頻模型, 世界模型, 清華大學, 框架

GitHub Copilot CLI 正式發佈

2025 年 9 月 28 日

GitHub Copilot 編碼代理的強大功能直接帶到您的終端。透過 GitHub Copilot CLI，您可以在本地與能夠理解您的程式碼和 GitHub 上下文的 AI 代理程式同步工作。

Categories: 開源, MCP, Linux, Mac, Vibe Coding, Win, 編程

Chrome MCP 伺服器

2025 年 9 月 28 日

Chrome MCP 伺服器是一款基於 Chrome 擴充功能的
模型上下文協定 (MCP) 伺服器，它將您的 Chrome 瀏覽器功能開放給 Claude 等 AI 助手，從而實現複雜的瀏覽器自動化、內容分析和語義搜尋。與傳統的瀏覽器自動化工具（例如 Playwright）不同，
Chrome MCP 伺服器直接使用您日常使用的 Chrome 瀏覽器，利用現有的使用者習慣、配置和登入狀態，讓各種大型模型或聊天機器人控制您的瀏覽器，真正成為您的日常助理。

ai 编程测试， chrome mcp server ，自动化必备，web 开发必备工具！

Watch this video on YouTube

Categories: 開源, MCP, Linux, Mac, Win, 編程

NVSpeech 處理副語言聲音

2025 年 8 月 13 日

NVSpeech 用於處理副語言聲音（paralinguistic vocalizations），包括非語言聲音（如笑聲、呼吸）和詞彙化插入語（如「uhm」、「oh」）。這些元素在自然對話中至關重要，能傳達情感、意圖和互動線索，但傳統自動語音辨識（ASR）和文字轉語音（TTS）系統往往忽略它們。

Categories: 開源, 香港中文大學, Mac, Win, 模型, 聲效, 語音

Matrix-3D：可探索的3D 世界

2025 年 8 月 13 日

相較於最先進的 360 度影片生成方法，Matrix-3D 在全景影片的視覺品質與合理幾何結構上更優越。同時，在視覺品質與相機可控性上，也超越先前的相機控制影片生成方法。廣泛實驗證明其在全景影片生成與 3D 世界生成上的最先進效能。香港科技大學(廣州分校)有份參預！

Categories: 開源, 香港科技大學, 3D, Linux, Mac, Win, 模型, 視頻模型