OKF:令 AI 與人都看得懂的知識庫

Og image

Google Cloud 介紹的 Open Knowledge Format(OKF),核心目標不是再做一個新的知識平台,而是訂立一種開放格式,讓團隊把內部知識整理成 AI 系統與人都能共同使用的內容。文章指出,愈來愈多 foundation models 被用來建立 agentic systems,但模型能否給出可靠答案,往往取決於是否拿到正確而完整的背景資料,而這些資料在企業內通常散落於多個位置。

這個項目解決資料共享與知識整理長期碎片化的問題。例如資料表結構、指標定義、事故處理流程、API 停用通知,常分佈在 metadata catalog、wiki、共用硬碟、程式註解,甚至只是少數資深工程師的腦海中。當 AI agent 要回答業務或技術問題時,往往要從彼此不兼容的系統重新拼湊脈絡,令每個團隊都要重複處理同一類整合工作。

OKF 的做法相當務實。OKF v0.1 以 markdown 檔案目錄作為知識載體,配合 YAML frontmatter 存放少量可查詢欄位,例如 type、title、description、resource、tags 和 timestamp。這代表內容本身可以在一般編輯器閱讀、可放進 GitHub、可由搜尋工具索引,也可以像普通檔案一樣打包、放進 git repository 或掛載到不同檔案系統,不需要額外 runtime、SDK 或複雜壓縮機制。

Google's OKF - The New Way to Structure Your Knowledge for Agents

Google 把這個方向描述為把近年常見的「LLM-wiki pattern」正式化。若團隊本身已經在用 Obsidian、Notion、Hugo,或以 AGENTS.md、CLAUDE.md 這類慣例檔案協助 agent 工作,理解 OKF 會較容易,因為它保留了 markdown、frontmatter、交叉連結這些熟悉做法,再補上最少但重要的共通規則。重點在於不同來源建立的知識庫,之後有機會被不同 agent 或工具直接讀取,而不用逐次重做轉換。

  • 以開放格式整理知識,減少被單一供應商工具鎖定
  • 採用 markdown 加 YAML frontmatter,門檻較低,方便版本管理
  • 適合把資料定義、流程文件、系統脈絡交給 agent 與團隊共用
  • 重點不是新增服務,而是建立可攜、可互通的知識表示方式

這個項目特別適合已經開始建立 AI agent、資料團隊知識庫或內部文件流程的組織。對資料分析、資料平台、工程團隊來說,它的價值在於把原本零散且難搬移的內容,變成較容易維護和重用的知識資產。文章未提供量化性能數據或基準測試,因此現階段較適合把 OKF 看成一個標準化方向:先用簡單文件結構統一知識,再逐步改善 AI 系統取得脈絡的能力。

項目: https://cloud.google.com/blog/products/data-analytics/how-the-open-knowledge-format-can-improve-data-sharing/

Categories: Google, Agentic

[技術文章] DeepMind 談 AGI 走向 ASI

Hero image preview

Google DeepMind 這份《From AGI to ASI》不是教人立即部署某個工具,而是用研究報告形式討論:當 Artificial General Intelligence(AGI)達到人類水平後,人工智能會否再一路推進到 Artificial Superintelligence(ASI)。文中把 ASI 描述為在智能與認知能力上,超越大型人類組織的系統,並以 Universal AI 作為較理論化的參考終點。

這份內容主要解決的問題,是把「AGI 之後會發生甚麼」由抽象想像整理成可討論的技術路線。作者提出四條可能路徑:擴展 AGI、AI paradigm shifts、recursive improvement,以及由大規模 multi-agent collectives 湧現出 ASI,同時提醒每條路都可能受算力、協調、方法轉換或其他瓶頸影響。

對一般讀者來說,閱讀這份報告可先集中三部分:AGI 與 ASI 的定義、四條路徑的差異、以及作者列出的 open research questions。它較適合關心 AGI、AI 安全、科技政策與長期技術趨勢的人,而不是尋找即裝即用模型或開發教學的讀者。

  • 由 Google DeepMind 撰寫,主題是 AGI 到 ASI 的演進框架
  • 核心內容包括四條技術路徑與可能 bottlenecks
  • 強調數碼智能的優勢會隨 compute 增加而擴大
  • 不把社會改變視為單一步跳躍,而可能是一連串轉變

文章沒有提供基準分數或實驗排行榜式的性能比較,重點在概念整理與研究方向判斷。報告亦明確表示,由於不確定性很高,未來 AI 進展可能繼續加速,因此全球、跨學科的準備工作仍有大量項目需要推進。

Paper: https://arxiv.org/pdf/2606.12683

Categories: Google, 新聞, AGI


Magenta RealTime 2:即時生成音樂的開放模型

Repository image for magenta/magenta-realtime

Magenta RealTime 2(MRT2)是個即時音樂生成的 open-weights model,重點不只是一個模型,還連同 Python 推論庫 magenta-rt、C++ 推論引擎 magentart::core,以及可直接延伸成應用程式的示例一併提供。對想將生成式音樂放入創作工具、互動程式或聲音實驗的人來說,這個項目比單純放出模型更完整。

不少音樂生成模型可以離線產出內容,但要做到邊播邊生成、能配合演奏或介面互動,系統延遲、串流效率與硬件限制都會變成關鍵。MRT2 直接針對 real-time streaming 設計,並且把 Apple Silicon MacBook 的串流音訊生成列為核心場景,令開發者較容易把模型接入 DAW、獨立 app 或其他音樂工具。

Magenta RealTime 2 可按需要選擇 Python 或 C++ 路線:想試模型行為,可用 magenta-rt 配合 JAX 或 MLX;想做較高效率的音訊串流,則可留意 magentart::core;要接近成品流程,儲存庫內亦有 AUv3 plugin、standalone macOS app、note control 與 prompt space 探索工具。這種由底層推論到示例應用都齊備的安排,對建立原型特別有幫助。

  • 提供兩個模型:mrt2_small(230M)與 mrt2_base(2.4B)
  • mrt2_small 可在多款 Apple Silicon Mac 即時運行,Air 系列亦可支援
  • mrt2_base 音質定位較高,但即時串流需 Pro Max 級別晶片
  • Python 路線支援 JAX、MLX,亦提到可在 NVIDIA GPU 做 offline inference
  • 內附 AUv3、standalone app 與互動示例,方便延伸成創作工具

性能資訊在這個項目中算是寫得具體:即時串流明確依賴 Apple Silicon(M 系列),而且不同晶片對 mrt2_base 的支援有清楚區分。從已公開資料看,mrt2_small 較適合大部分開發與測試場景,mrt2_base 則偏向追求更高品質、且手上有較高階 Mac 的用家。若你正在做音樂科技項目、DAW 擴充、互動聲音裝置,或者想研究生成模型如何接入即時工作流,這個項目相當值得留意。

GitHub: https://github.com/magenta/magenta-realtime

Categories: 開源, Google, 音樂, 蘋果

LiteFrame 點樣令 AI 睇影片更多更快

Google DeepMind

而家不少影片大模型都可以答片段問題、做內容理解,但片一長,速度同成本就會急升。LiteFrame針對的正正唔係表面上的「睇少啲格」,而係指出每一格都交俾大型視覺編碼器處理,本身先係真正慢位。

這個專案提出一個較輕量的影片編碼骨幹,核心做法是用較大的教師模型,教一個更精簡的學生模型直接產生已壓縮、但仍保留時空資訊的表示。論文將這套訓練方式稱為 Compressed Token Distillation,另外亦配合 Language Model Adaptation,令後續語言模型更易接住使用這些視覺資訊。

對使用者而言,現階段較適合作為研究參考而非即裝即用工具,因為 README 已說明程式碼和權重尚未釋出。實際閱讀可以先由論文和項目頁入手,集中看它如何比較端到端延遲、可處理影格數,以及在多個影片理解基準上的準確度變化。

  • 重點不只是減少語言模型負擔,亦直接降低逐格視覺編碼成本
  • 主打長影片理解,在固定運算預算下處理更多 frames
  • 論文提到相對 InternVL3-8B,可降低端到端延遲並處理更多影格
  • 適合做影片問答、影片描述、時序推理相關研究參考
  • 文中脈絡亦關連到 Video LLM、MLLM、ViT、InternVL3-8B 等模型路線

整體來看,LiteFrame的價值在於把焦點由「事後刪 token」移前到「一開始就更有效率地抽特徵」。對關注長片分析、影片助手或多模態系統的人來說,這是一條幾實際的新方向,不過最終落地效果仍要等官方釋出程式碼與模型後,先可以更完整驗證。

GitHub: https://github.com/jjihwan/LiteFrame

Paper: https://arxiv.org/pdf/2605.17260

Categories: 開源, Google, 模型, 視覺模型

Google Cloud 推出企業級 AI 代理平台

Og image

Google Cloud 發表 Gemini Enterprise Agent Platform,定位為建置、擴展、治理與最佳化 AI 代理的企業平台。它可視為 Vertex AI 的延伸,將模型選擇、模型建置與代理建置能力整合,並補上代理整合、DevOps、協作編排與安全治理等企業所需環節。

實際使用上,技術團隊可在同一平台內建立代理,讓其連接多個企業系統,並透過 Gemini Enterprise app 提供給員工使用。這種做法有助於讓代理更貼近日常工作流程,同時維持 IT 部門對權限、治理與安全的控管。

這個專案的主要創新,在於把過去分散的模型開發、代理建構與營運管理集中到單一入口,降低跨系統導入代理的複雜度。文中也強調平台提供超過 200 個模型的存取能力,包含 Gemini 3.1 Pro、Gemini 3.1 Flash Image、Lyria 3 與 Gemma 4,讓企業能依任務需求選擇合適模型。

  • 整合 Vertex AI 既有能力與新的代理治理功能
  • 支援代理整合、DevOps、編排與安全控管
  • 可透過 Gemini Enterprise app 將代理交付給員工使用
  • 提供 Model Garden 存取超過 200 個模型

受惠工作預期包括企業內部工具開發、營運自動化、客服支援、知識工作協作與跨系統流程串接。就目前頁面內容來看,文章著重平台定位與能力整合,尚未提供具體效能數據或正式評測結果,因此較適合將其視為企業代理基礎設施與治理框架的產品發布,而非已完整公開基準測試的技術報告。

模型列表:Gemini 3.1 Pro、Gemini 3.1 Flash Image、Lyria 3、Gemma 4。

Categories: Google, Gemini, Agentic

PaperBanana 賦每個創意工作流程

PaperBanana 是一個開源的自動化學術圖表生成框架,由 Google Research 開發。這個工具專為 AI 研究人員設計,能夠自動生成符合出版標準的方法論圖表、代理架構和統計圖 。

PaperBanana 還擁有強大的潤色功能。您可以輸入手繪草圖或示意圖,系統會將它們精修成專業的向量圖。Google 聲稱兩星期後會提供開源實作版本,亦有第三方的版本可在 GitHub 下載使用。

Categories: 開源, Google, Gemini, Agentic

MedGemma 1.5 醫學影像更新

人工智慧在醫療保健領域的應用正以驚人的速度加速發展,其應用速度是整體經濟的兩倍。為了支持這項變革,Google去年透過其健康人工智慧開發者基金會(HAI-DEF) 計畫發布了 MedGemma 開源醫療生成式人工智慧模型集。 MedGemma 等 HAI-DEF 模型旨在為開發者提供評估和調整的起點,以適應其醫療應用場景,並且可以
透過 Vertex AI 在Google雲端 上輕鬆擴展。 MedGemma 的發布反應熱烈,下載量達數百萬次,並
在 Hugging Face 上發布了數百個社區構建的變體

Categories: 開源, Google, Medical醫學, 模型

TranslateGemma 開放式翻譯模型

Google 推出 TranslateGemma,這是一套基於 Gemma 3 構建的全新開放式翻譯模型,提供 4B、12B 和 27B 三種參數規模。它標誌著開放式翻譯領域向前邁出了重要一步,能夠幫助人們跨越 55 種語言進行交流,無論他們身處何地,使用何種設備。

TranslateGemma 含 55 種語言的 WMT24++ 資料集上測試了 TranslateGemma 模型,該資料集涵蓋了多種語言體系,包括高資源、中資源和低資源語言。與基準 Gemma 模型相比,TranslateGemma 在所有語言中均顯著降低了錯誤率,在提高翻譯品質的同時實現了更高的效率。

Categories: Google


Page 1 of 2
1 2