OpenHuman:把個人AI助手帶到桌面

The Tet

如果你對 AI 有興趣,但又唔想由指令列、插件同繁複設定開始,OpenHuman 這類桌面式助手會幾易入口。按項目說明,它偏向圖形介面操作,安裝後可用較短流程連接日常帳戶,幾下點擊就能開始使用,對一般用家算友善。

它真正想解決的,不是「答你一條問題」咁簡單,而是將分散喺 Gmail、Notion、GitHub、Slack、Calendar、Drive、Jira、Linear 等工具入面嘅資訊,整理成可持續使用嘅個人上下文。系統會自動抓取連接資料,並建立本機優先嘅記憶結構,令助手唔使每次都由零開始理解你做緊乜。

較有意思的地方,是它將記憶、工具同語音互動放埋一齊。資料會轉成較易處理的 Markdown 片段,存入 SQLite,亦可同步成相容 Obsidian 的筆記庫;同時又內建網頁搜尋、抓取、檔案操作、git、測試,以及語音輸入輸出,甚至提到可加入 Google Meet。模型方面,項目表示會按任務路由到不同類型模型,亦可選用本機 Ollama;相關能力涉及推理型、快速型、視覺型模型,語音輸出則提到 ElevenLabs。

The Karpathy-Style Super Intelligence Layer for your AI Agents (OpenHuman)

重點可以咁睇:
– 以桌面介面為先,較少依賴技術設定
– 可連接 118+ 第三方服務,減少資料分散
– 本機記憶庫加 Obsidian 相容筆記,方便追蹤與整理
– 內建工具鏈較完整,唔使逐個插件補功能
– 透過 TokenJuice 壓縮內容,官方稱可降低成本與延遲

如果你係內容工作者、獨立開發者、創業團隊,或者本身已經有一堆雲端工具要管理,OpenHuman 的方向會幾吸引。不過它仍屬早期測試階段,實際穩定性、授權連接體驗同記憶準確度,較適合抱住嘗鮮加觀望心態去試。

網址: https://github.com/tinyhumansai/openhuman

Categories: 開源, Agent

Awesome-WAM:看懂機械人點樣先諗後做

Temporal evolution and taxonomy of representative works on World Action Models (WAMs).

如果你對機械人或 AI 有興趣,但又唔想一開始就埋頭讀大量論文,Awesome-WAM 其實幾好入手。它本身唔係一個直接拿來部署的機械人程式,而係一個系統化整理庫,集中介紹 World Action Models 這個新方向,並附有每篇論文的重點摘要,方便讀者由概念開始慢慢建立理解。

這個主題想解決的核心問題,其實幾直觀:不少模型能夠由影像或文字直接產生動作,但未必真係「理解」下一步世界會點變。WAM 的做法,是將環境變化預測同動作生成放埋一齊考慮,令機械人唔只係反應快,亦更似先模擬後行動。

這個儲存庫最有價值的地方,在於它唔單止列論文,而係嘗試用統一框架整理整個領域,例如分開 Cascaded 與 Joint 兩類路線,亦有提到訓練資料來源、評估方式,以及與 Vision-Language-Action 發展之間的關係。對初學者來講,這種分類比單看論文名更易掌握全貌。

  • 提供系統化總覽,適合先建立概念再深入讀文獻
  • 有每篇文章的簡短導讀,節省篩選時間
  • 涵蓋相關模型與方向,如 RT-2、OpenVLA、π0,以及庫內收錄的 DREMA、RoboScape、Ctrl-World
  • 重視架構分類、數據來源與評估方法,唔只係單純清單

如果你想上手,最實際做法係先看它對 WAM 的整體定義,再沿分類去揀有興趣的論文摘要閱讀。研究人員、學生、做機械人產品規劃的人都會受用;即使你未必會親自訓練模型,這個整理庫都能幫你較快分清哪些方法偏向預測世界、哪些更強調動作生成控制。

整體來說,Awesome-WAM 比較似一張持續更新的地圖,而唔係單一工具。對想跟進 embodied AI、VLA 與 world model 交叉發展的人,它的價值在於幫你用較低成本看清研究脈絡,同時保留足夠細節,方便之後再深入追文。

網址: https://github.com/OpenMOSS/Awesome-WAM

網址: https://openmoss.github.io/Awesome-WAM/

Categories: 開源, 世界模型

AlphaGRPO:能自我修正的多模態生成

Og image

AlphaGRPO 係一個用喺原生統一多模態模型嘅訓練框架,重點係令模型唔只係「生成」,而係會根據提示主動推理,並喺輸出有偏差時嘗試自行修正。網頁內容指出,佢主要面向文字生圖同相關編輯場景,目標係改善細節理解、構圖一致性,同埋對隱含要求嘅掌握。

呢個方法特別之處,在於將 GRPO 引入 AR-Diffusion 類型嘅統一模型,而且唔需要額外 cold-start 階段。另一個核心設計係 DVReward:先將複雜指令拆成多個可核實嘅細問題,再由開源多模態模型按語意對齊同畫面品質提供較穩定、可解釋嘅回饋,避免只靠單一分數太過籠統。

如果你想理解點樣使用,概念上可以當佢係一種訓練或強化現有多模態生成模型嘅方法,而唔係一般終端用家即開即用嘅 App。較適合研究人員、模型工程師,或者需要改善文字生圖、細粒度屬性控制、影像編輯泛化能力嘅團隊參考同實作。

  • 支援推理型文字生圖,能更主動補足用家未明講嘅意圖
  • 可做自我反思式修正,生成後再檢查並調整錯配內容
  • 回饋機制較細緻,將要求拆解成可驗證項目再評估
  • 在多個生成基準上有一致進步,亦可遷移到編輯任務
  • 推論階段加入自我修正後,文中指最高可再提升 5.8%

就評估結果而言,頁面提到 AlphaGRPO 喺 GenEval、TIIF-Bench、DPG-Bench、WISE 等生成基準,以及 GEdit 編輯任務都有提升,而且編輯能力並非靠專門編輯訓練得來,反映泛化表現不俗。不過,具體效果仍應按模型底座、評測設定同實際資料而定。

訓練程式碼和模型權重目前正在進行內部審核,審核通過後將予以發布。

網址: https://huangrh99.github.io/AlphaGRPO/

Categories: 開源, 香港大學, 字節跳動, 影像模型, 影像處理, 框架

FATE點樣幫AI代理由失敗中學安全

FATE framework

而家愈來愈多 AI 唔止係聊天,仲會幫你用工具、分步完成任務。不過真正危險嘅地方,往往唔係最後一句回覆,而係中途做過啲乜。FATE 針對嘅正正係呢一類問題:當代理模型喺操作流程中出錯,系統會將失敗過程抽出,再用作之後嘅改進材料。

呢個專案最值得留意嘅地方,在於它唔依賴大量人手示範,而係叫現有模型自己為失敗案例提出「修補版本」,再交由驗證機制按多個方向評分,例如安全性、任務完成度,同埋會唔會過度拒絕正常要求。之後再用篩選後嘅資料微調模型,並配合 PFPO 去平衡安全與實用性。

如果你想理解點樣上手,較合理嘅方式係先由論文、專案頁面同結果表開始睇,因為目前公開內容主要集中喺方法與評測表現。它唔係一般即裝即用嘅應用程式,更適合當作研究框架,畀有做代理系統、安全評估或模型訓練嘅人參考。

  • 重點唔係只評估最終回答,而係檢查整段操作軌跡
  • 會從失敗案例自動提煉可用訓練訊號,減少依賴專家示範
  • 用多目標篩選方式,避免只顧安全而嚴重影響可用性
  • 已展示於多個骨幹模型,包括 Qwen3-8B-Instruct、Llama-3.1-8B-Instruct、Ministral-3-8B-Instruct、Gemma-3-12B-it、Phi-4-reasoning

由結果睇,FATE 喺 AgentDojo 同 AgentHarm 上,對多款模型都帶來更低風險指標,同時保留較好任務表現。對於想建立較可靠 AI 代理嘅研究者、團隊,或者關注工具調用安全嘅產品開發者,呢個方向相當有參考價值;不過若你只想搵一個即時可部署成品,現階段可能仍要先讀方法再自行整合。

網址: https://github.com/YinBo0927/FATE

網址: https://arxiv.org/pdf/2605.11882

Categories: 開源, Agent, 框架

ODE點樣訓練識睇圖又識搜尋的AI代理

main full

如果你對「會自己搵資料的 AI」有興趣,ODE 係一個幾值得留意的研究型專案。它唔係單純訓練模型直接輸出答案,而係讓代理按步驟去搜尋網頁、找圖片、查看學術結果,甚至對圖片放大、旋轉或翻轉,再整理證據作判斷。

對初學者來講,可以先將它理解為一個「工具操作訓練場」。專案目前已提供訓練程式、評估環境同公開工具整合,重點係同一套流程可同時用於測試與強化學習;不過自動化資料演化部分現時似乎仍在逐步補完。

它想解決的核心問題,是傳統靜態訓練資料未必足夠教到代理點樣靈活使用工具。ODE 的做法,是先用監督式訓練教基本動作格式,再用強化學習讓代理在真實互動中調整策略,之後分析操作軌跡,找出行為缺口,再回頭改善下一輪訓練資料。

比較特別的是,它把中途見過的圖片保存成可重用參照,之後可以再裁切、檢視或做視覺搜尋,唔使每次由零開始。這種設計對需要圖文交叉查證的任務尤其重要,亦比只靠文字搜尋的代理更貼近真實使用情境。

  • 支援多種工具流程:網頁搜尋、圖片搜尋、學術搜尋、瀏覽頁面、視覺搜尋與本地圖片操作
  • 著重保留中間圖像證據,方便後續步驟重用
  • 訓練方式結合 SFTRL,並用操作紀錄反推資料改進方向
  • 已展示在 Qwen3-VL-8BQwen3-VL-30B 這類視覺語言模型上的提升

如果你本身做 AI 代理、檢索增強系統,或者關心模型如何可靠地「邊找邊想」,這個專案會有參考價值。對一般讀者而言,它亦提供了一個清楚例子:未來較實用的 AI,未必只係更大模型,而係更懂得在圖像與文字之間有條理地找證據。

網址: https://github.com/JoeYing1019/ODE

網址: https://on-policy-data-evolution.github.io/

Categories: 開源, 香港科技大學, Agent, 框架

OmniDoc-TokenBench:文件圖片重建試金石

OmniDoc-TokenBench

如果你有留意 AI 圖像模型,會知道一般圖片評分未必能反映「文字有冇走樣」。OmniDoc-TokenBench 的重點,正正是針對文件類圖片做評測,尤其適合檢查 VAE 重建之後,頁面上的字仲讀唔讀得清。

它提供約 3,000 張樣本,涵蓋書本、投影片、試卷、學術論文、雜誌、財務報告、報紙與筆記等類型,並且同時有中英文內容。相比只看普通畫質分數,這個基準多加了 OCR 相關比對,較貼近真實使用情境,因為文件圖片最重要的往往不是「靚」,而是「字準」。

上手方式大致算直接:先下載資料集,再用它附帶的評測工具,將你的重建圖片與原圖比較。工具會輸出整體結果,也可看到逐張圖片的 OCR 與字串距離表現;不過部分指標首次執行時需要額外下載模型權重,而 OCR 預設亦偏向 CPU,做大批量測試時可能要留意速度。

值得留意的是,它不是單靠 PSNR、SSIM 這類傳統指標,而是加入 LPIPS、FID,以及以 OCR 為基礎的 NED。對文件任務來說,NED 特別實用,因為它更能反映文字內容有冇被改錯;這亦是它相對一般影像基準較有針對性的地方。

  • 適合評估文字密集的文件圖片重建效果
  • 資料涵蓋九類文件,中英文都有
  • 支援 PSNR、SSIM、LPIPS、FID、NED 等多種量度方式
  • 可輸出整體分數,也可查看逐張圖片結果
  • 文中提到相關模型背景來自 Qwen-Image-VAE-2.0,並比較不同壓縮設定與其他 VAE 表現

如果你是做文件數碼化、OCR 前處理、壓縮重建,或者正測試圖像自編碼模型,這個專案幾有參考價值。對一般讀者而言,可以將它理解成一把專為「文件圖片文字保真」而設的尺,幫你分清模型究竟只是畫面順眼,還是真的保住內容。

網址: https://github.com/alibaba/OmniDoc-TokenBench

Categories: 開源, 視覺模型, 框架

awesome-deepseek-agent:接通 DeepSeek 代理清單

Repository image for deepseek-ai/awesome-deepseek-agent

如果你想用 DeepSeek,但又唔想逐個工具自己摸索設定,這個儲存庫的價值就很直接:它把多個常見 AI 代理與編碼助手的接入方法整理成一份清單。重點不是提供新功能,而是幫你少走彎路,較快完成第一次啟用。

上手方式相當清晰,一般先準備好 DeepSeek 平台的 API key,再按你正在使用的工具去看對應指引。README 顯示每份教學都圍繞安裝、設定與首次運行,對初學者來說,比起翻官方文件更容易找到入口。

它解決的主要問題,是不同工具各有不同的接法,初次整合時容易混亂。這個專案把 Claude Code、GitHub Copilot、GitHub Copilot CLI、Codex、OpenCode、AstrBot、OpenClaw、Hermes、Crush、Pi、nanobot 等放在同一處,讓你可以按自己習慣的工作環境選擇,而不是先被工具差異拖慢。

較有意思的地方,在於它不是只面向單一類型軟件。你會見到終端機編碼助手、VS Code 內建助手、聊天平台代理,甚至可擴充技能或 MCP 的工具都被納入,反映 DeepSeek 模型可用的場景比單純寫程式更闊;文中亦提到可快速開始使用 DeepSeek-V4-ProDeepSeek-V4-Flash

  • 適合想試用 DeepSeek、但未決定用哪個前端工具的人
  • 對開發者、技術團隊,以及要部署聊天代理的用家都實用
  • 整理了多個相關工具與模型入口,方便橫向比較
  • 核心價值在於教學彙整,不是重新發明代理框架

整體來看,這是一個偏「索引型」的實用資源,特別適合想在幾分鐘內完成第一步的人。若你已經知道自己會用哪個客戶端,它能充當快捷門;如果你仍在比較工具,它亦提供了一個不錯的起點,但更深入能力仍要回到各工具本身的文件確認。

網址: https://github.com/deepseek-ai/awesome-deepseek-agent

Categories: 開源, DeepSeek, , 中國

FrontierSmith:用合成題目研究AI解題

FrontierSmith Logo

FrontierSmith 不是一般給人即裝即玩的應用,而是一個用來研究「怎樣產生全新演算法題目」的實驗型專案。儲存庫公開了訓練程式、評估程式,以及論文實驗用的 10 條合成題目,較適合對 AI、程式競賽題目或評測流程有興趣的讀者。

如果你想由淺入深理解它,最容易的方式是先看那 10 個題目資料夾:每題都附有題目敘述、測資產生器、答案檔、評分檢查器和設定檔。即使未必會親自訓練模型,單是觀察這套結構,已經能明白一條題目怎樣被整理成可測試、可重現的形式。

它真正處理的問題,是減少人手設計複雜題目的成本,並為模型建立較一致的測試環境。特別之處在於,它不只放出題目文字,而是連同驗證、評分與資料準備流程一併公開,令研究者較容易重做論文中的部分結果;不過官方亦明確保留了 orchestrator 與由大型語言模型驅動的測試/checker 生成部分,所以目前看到的並非完整生產線。

  • 提供 10 條合成演算法題目,對應 Frontier-CS 主儲存庫中的 306 至 315 號題目
  • 內含訓練、評估、資料準備腳本,重點在研究流程而非一般終端產品
  • 每題都有 statement、gen、checker、testdata,方便理解評測設計
  • 使用 Python 3.11+,並見到 Docker、VERL、ALE-Bench 等相關組件
  • 適合做論文重現、題目評測研究,以及觀察模型解題表現

至於適合甚麼人,我會說最受用的是研究人員、機器學習工程師、競賽題目設計者,以及想了解 LLM 如何面對演算法題的人。如果你只是想找一個完整的自動出題工具,現階段可能會覺得資訊仍有缺口;但如果你的目標是研究方法、資料結構與評估框架,FrontierSmith 的公開部分已相當值得細看。

從相關技術脈絡來看,這個專案明顯圍繞大型語言模型與程式/推理能力評測而建,儲存庫中可見的相關名稱包括 VERLALE-BenchHarbor adapter,以及主儲存庫 Frontier-CS。至於實際採用哪些語言模型,公開內容未有完整列明,因此閱讀時應把它視為一個偏研究基建的開放樣本,而不是完整商用方案。

網址: https://github.com/FrontierCS/FrontierSmith

Categories: 開源, 框架

PyRAG:多跳推理RAG值唔值得留意

Repository image for GasolSun36/PyRAG

PyRAG看起來是一個以 Python 為主的 RAG 實驗專案,重點不是搜一次資料就作答,而是把檢索、推理、再檢索拆成可執行流程。對一般讀者來說,可把它理解成較重視「答案點樣得出來」的問答系統。

實際使用時,通常會先接入文件庫、知識庫或程式碼內容,再讓系統按問題逐步找線索,最後整理成答案。遇到要前後串連資訊的問題,例如先查概念、再補細節、最後整合結論,這類多跳流程會比普通 RAG 更合適。

  • 做什麼:把檢索增強生成變成多步查找與推理
  • 主要創新:中間步驟可追蹤,較易查證與除錯
  • 適合場景:複雜問答、研究助理、文件或程式碼知識庫
  • 相關模型:概念上可配合 GPT、Llama、Mistral 等生成模型,以及 BGE、E5 類嵌入模型;實際支援要看設定

我覺得它最吸引的地方,是不像一般聊天機械人那樣直接「估答案」,而是更像逐步查證。對想減少模型亂作、又要向同事交代答案來源的人,這方向特別有價值。

不過,從公開描述看,PyRAG較像研究型工具,實際兼容名單與部署成熟度仍要自行核對。若你只想快速搭一個簡單問答系統,傳統 RAG 可能更省事;若你重視可追溯性,它就值得留意。

網址: https://github.com/GasolSun36/PyRAG

Categories: 開源, 香港科技大學, RAG, 框架

Page 1 of 77
1 2 3 77