Gemini

Octafuse Gateway：幫 Agent 管好多模型入口

2026 年 7 月 31 日

Octafuse 團隊把重點放在 Agent 工作流，而唔係只做一個轉發請求的薄層。Octafuse Gateway 屬於可自託管開源 AI gateway，處理的是多供應商模型、圖像、語音轉寫同 Agent Tools 分散管理的問題，特別適合已經有多組 API Key、不同模型來源，甚至自建服務要一齊協調的團隊。

它最有價值的地方，在於把「接得通」進一步做成「管得住」。同類項目常見重點是模型代理與相容 API，Octafuse Gateway 另外加強了路由、故障轉移、預算、審計、三賬本計費，同埋公開能力目錄，令 Agent 可以透過統一入口發現同調用資源，而管理者亦可以追蹤成本與用量。

部署方向，支援 Cloudflare Workers + D1，以及 Docker 配合 Postgres / MySQL 自託管；Node.js 20+ 亦是明確要求。原始資料未展示完整安裝步驟，但有 operator 文件、Admin 管理界面、Playground 同 Simulator，反映它不是只給開發者讀 API 文件，亦有一套管理與聯調介面可用。

兼容 OpenAI Chat Completions、Anthropic Messages、Gemini、OpenAI Images 與 OpenAI Audio Transcriptions API
可集中管理 Provider API Key、RPM / TPM、並發、熔斷狀態與剩餘容量調度
內置 Provider 與模型導入模板，減少逐個端點手動維護
提供 /v1/tools/* 接入 Agent Tools，現有 web-search、web-fetch、web-deep-search
有 Playground、Simulator、審計與成本觀察能力，方便排查路由與計費設定

它強調的是可靠調度與營運控制，而非單一模型跑分。對需要向內部團隊、客戶或不同項目發放獨立 API Key 的環境，這種以資源治理為核心的取向，比單純聚合模型端點更完整，但相對也代表配置面會更廣，較適合已有多模型、多使用者或多成本中心需求的團隊。

GitHub

Categories: 開源, Gemini, OpenAI, Agentic, API, Anthropic, 框架

Gemini Robotics 2 想令機械人動作更完整

2026 年 7 月 31 日

CSJxggUnu5m5TfompiXP2z7YLThhUvDn2 kBueCZv6HCEWWefUt WLzM6wxnTV1sTGqBbvmXDnOTB12W18NDr2NgFVXvHKCiTtjfXpyzuOYPJZXlg=w1440

機械人最難處理的，往往不是單一步驟，而是由看見環境、理解指令，到整個身體協調完成動作的連續過程。Gemini Robotics 2 聚焦的正是這個落差，嘗試把 whole body intelligence 帶入機械人，讓系統不只會辨識和規劃，還能更自然地連動身體控制。

Google DeepMind 把它放在 Gemini Robotics 這條 physical AI 路線之下，定位清楚偏向機械人操作與互動。相比只處理螢幕、語言或單一機械臂任務的做法，這個方向更重視整體行為是否連貫，包括感知、推理、用工具與跟環境互動能否接上同一套能力。

對研究機械人、embodied AI 同 VLA 工作流的人來說，這類項目最有參考價值的地方，在於它瞄準真實場景中的協調問題，而不是只展示單點能力。文章提供的內容仍屬簡介層面，未見完整評測細節、量化指標或部署條件，所以現階段較適合當成技術方向觀察，而不是直接當作可落地規格。

把機械人的感知、推理與身體動作放到同一條能力鏈
核心關注點是 whole body intelligence，而不只是語言或視覺理解
屬於 Gemini Robotics 系列，延伸 Google DeepMind 的 physical AI 佈局
現有公開資訊偏介紹性，性能與限制仍有待更多技術資料補充

整體來看，Gemini Robotics 2 反映出機械人模型正在由「識唔識做判斷」走向「能唔能夠完整做完一個動作」。對需要長步驟操作、工具使用與環境互動的場景，這種整合式能力會比單一模組升級更值得留意。

項目主頁

Categories: Google, Gemini, NanoBanana, Agentic, Video, Audio, 安全, Robotic, 世界模型, Skill 技能, VLA

這套 Galahad 系統背後的關注點很直接：今天要提升語言模型，就要重訓練，每次都得重新生成答案，既貴又隨機。他們選擇反向操作——模型參數完全凍結，只在旁邊持續累積已驗證的解題記憶。同一個 12B 模型，對於已處理過的題目家族，直接命中記憶中的求解器，整數級精確一致，每次結果都完全相同，而且生成 token 數為零；對於新題目，則照常從零推理解答。系統聲稱在 180 個全新題目、橫跨九個題目家族上，讓四個來自不同供應商、架構各異的開源模型全部拿到 180/180，並且每次回答都不耗任何生成 token。

這個做法最值得留意的，是它對「記憶」一詞的重新定義。系統內部存的是可被獨立外部 oracle 自動驗證的執行式解題結果，不是用相似度檢索找出來的近似片段。作者在特別批評了業界慣用的近似向量相似度檢索：在一個 4,500 條已驗證答案的庫上，這種方法有 94.3% 機率選錯項目，而精確定址則零錯誤。換句話說，對於可驗證、可執行的知識，相似度近似檢索不是表現稍差，而是幾乎不可用，精確定位是必須的設計前提，不是可選偏好。

對於要部署閉環計算、形式化證明、程式碼執行這類可驗證任務的團隊，這套思路很有吸引力：記憶檢索耗時約 1.4 微秒，完整重用流程 6 至 23 毫秒，每次重用只耗 36 毫瓦時電力，相對於一次性求解兼驗證所需的 81.1 瓦時，節能差距明顯。模型本身不重新訓練，能力靠記憶累積，這對想控制運算開支、又需要可重現輸出的場景，例如 CI 中的程式生成或單元測試，是務實的取捨。

但限制也要看清楚：作者指出在公開基準的從零推理上，前沿模型依然遠勝任何 12B；Galahad 的強處是對「已被系統解決並驗證過」的題目家族做到零成本重用，不等於通用智能提升。負面控制也排除了另一種解釋——把記憶清空，系統一道也解不出來，這進一步確認能力確實來自記憶層，不是模型本身突然變聰明。對於想關注的是開源權重能否落地到工業管道的讀者，這份來自 Corbenic AI 的工業經驗報告值得留意，因為它把「訓練之外如何持續累積能力」這條路寫成了可量化的章節。

模型凍結，能力改由外部已驗證記憶承擔，180 題零 token 滿分
精確定址取代向量相似度檢索，在 4,500 條庫上錯誤率 94.3% 對 0%
重用耗時 6–23 毫秒、每次 36 毫瓦時，對比一次性求解 81.1 瓦時
開源模型架構無關：四個不同 dense 與 MoE 模型皆達 180/180
GitHub 目前僅放測試頁占位，引擎源碼尚未公開釋出

GitHub · Paper

Categories: 開源, Qwen, Gemini, DeepSeek, 框架, Dataset 數據集

Gemini Spark 登陸香港：AI 代你長時間跟進工作

2026 年 7 月 29 日

最易理解 Gemini Spark 的方式，是把它看成一個會在背景持續運作的 Agentic AI 助手：你先交代目標，它再慢慢把零散工序接起來，處理那些花時間、又不想不停重複提示的工作。Google 已在香港推出這項服務，定位很清楚，就是幫用家把日常行政與資料整理自動化。

它接上的重點，不是單次問答，而是整段工作流。Gemini Spark 運行於 Google 的雲端基礎設施，能原生連接 Workspace 工具，例如 Gmail 和 Docs，毋須另外設定，就可以整理混亂的電郵往來、彙整行業消息、從舊文件抽資料做後續安排，甚至進行網上資料搜集、比較選項與完成預訂。

Google 提到，系統以 tasks、custom skills 和 schedules 這類機制去安排工作，讓用家用自然語言交代規則、例行事項與時間觸發條件，毋須寫程式。另一個分別在於，它不會因為你闔上手提電腦或鎖上手機就停下來，背景流程仍可繼續運作，較適合需要長時間跟進的文書與研究工作。

支援背景持續執行，不用反覆重新提示
可原生連接 Gmail、Docs 等 Workspace 工具
能處理資訊整理、排程準備、網上研究與預訂類工作
高風險動作前會先要求明確同意

控制權仍然留在用家手上。Google 表示，Gemini Spark 會按照用家指示運作，用家可決定何時啟用，以及容許它接觸哪些應用程式；遇到交易或發送電郵等高風險操作，系統亦會先徵求明確授權。現時香港由 Google AI Ultra 訂閱用家率先使用，Google AI Pro 用家的開放時間會在未來數星期逐步擴展。

項目主頁

Categories: 香港, Google, Gemini, Agentic, 工具, 提示詞, 編程, 框架, Skill 技能

FilmOps 將電影語言拆成可分析標籤

2026 年 7 月 28 日

一段影片好不好，不一定只靠整體觀感判斷；鏡頭遠近、構圖、機位、色調同運鏡，往往先係影響觀感的核心。FilmOps 正正瞄準呢個缺口：它不是一般影片生成模型，而是一套開源 operator suite，用來把影片畫面映射成結構化的 cinematographic labels，處理的是電影語言難以被細緻分析與量化的問題。

現有影片 benchmark 多數集中在 general perceptual quality、text alignment 或 temporal smoothness，對專業 cinematographic language 仍然偏粗略；general-purpose MLLMs 又難以穩定辨認 film-specific attributes，而 aesthetic predictors 這類領域模型面對 cinematic content 亦有明顯 domain gap。FilmOps 的取向很清楚：不用單一大模型包辦所有判斷，而是把六個維度拆開，按任務特性分配不同 backbone，令 shot scale、composition、camera angle、color & tone、character layout 同 camera movement 可以分別處理。

它的價值在於更像一套分析管線，而不是只給你一個總分。項目覆蓋 55 個以上子類別，分類定義對齊 Film Art、ASC Manual、Cinematography: Theory and Practice，亦經過 practitioner 驗證；加上 modular architecture，可以獨立用單一 operator，或者走 unified pipeline。對要做影片生成評測、鏡頭標註、資料整理，甚至研究 FilmBench 呢類 cinematic benchmark 的團隊，這種拆解方式會比泛用多模態評分更有解釋力。

屬於開源工具／模型組合，重點是把影片拆成電影語言標籤，而不是直接生成影片
六個 operator 採用 task-specific backbone，包含 DINO ViT-B/14、BEiT Base、ResNet-18、InternVL3-14B
支援 live-action、3D animation、2D animation 同 stylized content，強調 cross-genre consistency
已交代基本部署條件，包括 Python、PyTorch、CUDA 與 ffmpeg，也提供 unified pipeline 與 checkpoints 準備方向

現有資料只明確指出它在所有維度都勝過 general-purpose MLLMs，但細節主要放在論文。配套的 FilmBench 亦用同一套 Cinematic Language 思路建立 benchmark，並聲稱 evaluator 在模型排名上與人工評分高度一致，說明 FilmOps 並非只為展示而做，而是服務整個影片評測流程。不過它始終偏向分析與標註基建，想直接拿來做完整產品，仍要自行處理 checkpoints 下載、推理資源，並接受部分 operator 對 CUDA 與較重模型的依賴。

GitHub · Paper

Categories: 開源, 阿里巴巴, Gemini, NVIDIA, 3D, AI productions, Python, 動畫, 多模態模型, 語音, Dataset 數據集

OpenWorker – Andrew Ng 開發桌面 AI 龍蝦

2026 年 7 月 26 日

對好多打工仔嚟講，最大嘅困擾唔係 AI 唔夠聰明，而係佢只識得「答問題」而唔識得「做完件事」。OpenWorker 嘅切入點正正喺呢度：佢定位係一個會跑喺你電腦上面嘅 AI 同事，可以幫你整理 calendar、寫 follow-up email、甚至自動出一份 customer brief，最後畀你一份可以直接開嚟用嘅文件，唔係一串對話。

OpenWorker 由 Andrew Ng（吳恩達）相關團隊推出，引擎建基於佢哋自己開發嘅 Python 開源庫 aisuite，呢個庫提供統一嘅 chat-completions API 以及支援工具調用（tool calling）、MCP 等功能。簡單講，OpenWorker 唔係從零寫起嘅 wrapper，而係將 aisuite 包成一個真正面向桌面用戶嘅應用，並且喺原本 aisuite 倉庫入面開發咗一段時間之後，先搬出嚟獨立成 repo。

目前支援 macOS（Apple Silicon）以及 Windows 10/11，用家可以貼上自己嘅 API key 去用 OpenAI、Anthropic、Google Gemini、DeepSeek、Kimi、Qwen、Mistral 等模型，亦可以經 Ollama 完全本地跑開源模型。所有嘢都喺本機行，只有用家授權嘅 model call 或者連接工具先會接觸到網絡。對於注重私隱或者公司政策唔畀數據出 cloud 嘅人，呢個係一個幾實際嘅選擇。

OPENWORKER: The Free AI Desktop Agent That Isn't Locked to One Model

Watch this video on YouTube

佢亦內建 25+ 個整合，包括 GitHub、Slack、Jira、Notion、Linear、HubSpot、Outlook、Gmail、Google Calendar 等，亦支援任何可以經 MCP（Model Context Protocol）接駁到嘅工具。最令筆者欣賞嘅係佢嘅審批機制：寫訊息、發送郵件、執行 shell 指令呢類「對外有影響」嘅動作，全部都要先經你確認先至會執行，唔會自己靜靜雞撳掣。

以下係幾個用家會比較關心嘅重點：

定位係桌面 AI 同事，目標係交到「成品」而唔止係聊天回覆，例如 HTML brief、Markdown 報告、排好嘅 calendar 更新等。
完全開源、MIT 授權，由 Andrew Ng 團隊開發，引擎建基於佢哋嘅 aisuite 開源庫。
模型自選，支援多間主流 cloud provider，亦可以經 Ollama 完全本地執行開源模型。
重視私隱，對話、token、API key 都儲喺本機 secret store，唔需要登入亦可以用。
MCP + 審批機制，所有對外動作（發訊息、執行指令）都會先問過你先做，減低「AI 自行撳掣」嘅風險。

如果你係一個人或者小型團隊，想搵一個可以幫你「跑手」而唔係淨係「傾偈」嘅 AI 工具，又唔想將公司敏感資料送去閉源服務，OpenWorker 算係一個值得試嘅選擇。佢而家仲喺 open beta，官方表示會自動更新、不斷執吓啲 bugs，畀用家提交 issue。適合想認真將 AI 融入日常工作流、對私隱同可控性有要求嘅人。

項目主頁 · GitHub

Categories: 開源, Qwen, Google, Gemini, DeepSeek, OpenAI, API, MCP, 工具, Mac, Ollama, Python, Anthropic, 蘋果, Kimi

ActiveVision 點出視覺推理真空帶

2026 年 7 月 26 日

ActiveVision — An Exam for Active Observers. Vision is a loop, not a glance.

不少視覺題目唔係靠一眼辨認，而係要沿住線追、逐區域數、一步步核對先答得到；ActiveVision 正正針對呢種落差而來。作為一個 benchmark，它集中測試 iterative visual reasoning，處理的是模型看得到畫面，但未必能持續整理觀察過程的問題。

現有多模態模型常見做法是對單張圖作一次性判讀，再配合 chain-of-thought 直接作答；作者認為這種 single-glance 範式，對需要反覆掃描、追蹤順序與維持中間狀態的題型特別吃力。ActiveVision 因此設計了 17 個任務，並用 deterministic program 生成場景，再以 photorealistic 方式重繪，令畫面自然之餘仍保留可驗證結構。

數字相當直接：人類表現為 96.1%，前沿模型在官方無工具評測下最高約 10.6%，差距接近 9 倍。網站亦列出 agent 版本的 tool-use ablation，像 Claude Code 與 Codex 接入工具後，分數明顯高過純 chain-of-thought，表示問題未必只是「看不懂圖」，而是缺少可逐步外化與操作的解題流程。

收錄 17 個任務，重點放在 distributed scanning 與 sequential traversal 一類逐步觀察題
官方評測涵蓋 Claude、GPT、Gemini，亦提供 agent ablation 腳本
數據集可經 Hugging Face 下載，評測程式以 Python 為主
同一靜態圖片也能迫使模型做多步推理，唔靠影片輸入撐起難度

整個 GitHub 項目比較像研究與評測基建，而唔係即用型產品：你需要先下載數據集、配置對應供應商 API，然後用 repo 內的 eval 腳本跑結果。對做多模態模型評測、Agentic 工作流、或者想驗證 Computer-use agents、CUAs 式外部工具協作價值的團隊，它提供了一個很尖銳的檢查點：模型是否真的會「觀察」，還是只會對影像作高階猜測。

項目主頁 · GitHub · Paper

Categories: 開源, Gemini, OpenAI, Agentic, API, Python, 多模態模型, Anthropic, Dataset 數據集

DocOps 直擊文件代理真功夫

2026 年 7 月 26 日

改 Excel、Word、PowerPoint 同 PDF，最難唔係生成一段合理回覆，而係交返一份可用、冇整爛結構的原生文件。DocOps屬於 benchmark 類型，針對 document-operation agents 而設，重點不是問答得分，而是檢查代理能否把文件改到指定狀態，同時保住公式、樣式、大綱、書籤與格式有效性。

現有評測常落在兩個範式：static document understanding 把文件當成唯讀材料做擷取或問答；workflow-oriented software evaluation 則把文件當成在應用程式之間流轉的附屬品。DocOps反過來把「文件本身」放回中心，用 Harbor 格式整理 210 個可執行任務，再用 deterministic artifact-level verifiers 直接驗最終檔案狀態，這種設計比只看可見文字更能捉到破壞性修改與狀態遺漏。

它的取向相當鮮明：不是追求聊天式流暢回覆，而是拆解 document manipulation 到 content、format、structure 三個維度，再按 L1 到 L4 拉開難度，涵蓋局部原子操作、同文件組合操作、單文件流程，到跨文件工作流程。對研究 agent 能否長步驟維持全局一致性的人來說，這個分層比單一總分更有診斷價值。

收錄 210 個 Harbor tasks，覆蓋四種常見文件格式
內建 deterministic verifiers，驗證原生檔案而非只看輸出文字
提供 DocumentTools、Terminus-2、Codex、Claude Code 等 execution harnesses
支援 skill-on / skill-off 評測，較易分辨工具能力與模型能力

這個 GitHub 項目已包 task、skills、harnesses 同 Docker base images，重點在重現 benchmark run，而不是單獨提供某個辦公自動化工具。現有結果亦說明門檻不低：例如 GPT-5.5 在不同 harness 的表現有明顯落差，Claude Sonnet 4.6、DeepSeek-V4-Pro 等模型亦未見接近滿分，反映文件操作代理距離穩定處理端到端工作仍有一段距離。對做 Agentic 評測、辦公自動化代理、或想比較 skill 與模型邊界的團隊而言，DocOps的參考價值很高。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, Gemini, DeepSeek, OpenAI, Agentic, 軟件, Robotic, Anthropic, Meta, Dataset 數據集, Skill 技能, 百度

NotebookLM 改名 Gemini Notebook

2026 年 7 月 18 日

做研究、整理文件同準備報告時，最麻煩往往唔係搵資料，而係點樣喺一堆來源之中保持脈絡清楚。Gemini Notebook 由 NotebookLM 更名而來，定位仍然係獨立使用的筆記與研究助手，但重點放在同 Google 服務有更深整合，並加入 secure cloud computer，令資料處理方式更貼近雲端工作流。

對一般用家而言，呢次更新最直接的改變唔係功能名稱，而係使用體驗更靠近 Gemini 系列產品。你可以把它理解成原本 NotebookLM 的延伸版本：保留原有獨立產品形態，同時更容易接上 Google 生態中的內容、帳戶與服務，適合需要長時間整理知識、追蹤文件脈絡的人。

由 NotebookLM 更名為 Gemini Notebook
產品仍然獨立存在，唔係單純併入另一個介面
與 Google 生態整合更深，協作路徑更順
加入 secure cloud computer，強調雲端處理與安全性

對常用 Google 工具做學習、研究、內容整理的人來講，呢個方向比單純改名更有意思，因為它指向的是更完整的一站式知識工作流程。

項目主頁

Categories: Google, Gemini, 安全

UniVR：視覺推理訓練變成可控工作流

2026 年 7 月 17 日

UniVR 係一個能理解我們視覺空間中的思考方式及其在統一視覺推理中的應用，它針對 Emu3.5 unified generative models 的訓練框架，處理的是視覺推理、長程規劃同結果判斷點樣一齊學。它唔係拿來直接做推理展示，而係俾你用自己的資料同獎勵訊號，去微調一個已經懂得處理圖像與文字的底座模型。

SFT（supervised fine-tuning）階段要提供統一格式的樣本：query image、textual instruction、visual reasoning trajectory；RL（reinforcement learning）階段則改成透過 HTTP reward server 送回分數。原始資料沒有提供完整安裝流程，所以目前可確定的只有要把自定義 PyTorch Dataset 接入 UniVR_SFT/train.py，以及把 reward function 換成自己的服務。

和一般只做單次微調的做法相比，UniVR 的取向更偏向「先教格式，再用獎勵修正推理」。它在 RL 端用 GRPO，並配合 HybridEngine 與 Emu3.5 的 vLLM patch，強調 rollout 效率；同時保留 LoRA 同 full-parameter training，適合資源與改動幅度唔同的團隊。

支援多節點 SFT，兼容 LoRA 同 full-parameter training
RL 端基於 verl，同 GRPO 搭配自訂 HybridEngine
Emu3.5 的 vLLM no-CFG parallel inference 可做到約 2 倍 throughput
獎勵設計分成 format reward、global reward，同 step-level 的視覺推理約束
相關模型包括 Emu3.5 同作為評分器的 Qwen3-VL-30B

較容易受惠的情境包括做視覺代理、機械臂/操作規劃、長程任務推理，或者想將現成視覺模型轉成自己工作流的團隊。它的價值在於把「資料格式、推理軌跡、獎勵判斷」串成同一條訓練路線，令視覺任務唔再只靠靜態標註去學。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, 字節跳動, Gemini, DeepSeek, OpenAI, Image, Python, 多模態模型, 模型訓練, Dataset 數據集

Page 1 of 7

1 2 3 … 7 Next »