Dataset 數據集 Archives

TAP：先學動作，再學指令的 VLA 路線

2026 年 7 月 3 日

TAP(Task-Agnostic-Pretrain) 是一個 Vision-Language-Action（VLA）模型訓練框架，屬於研究原型兼訓練方法。它要處理的核心問題，是 VLA 長期依賴大量 expert demonstrations，導致機械操作能力難以用較低成本擴展。

現有做法多數直接把「how to move」與「what to do」一齊學，通常需要 observation、instruction、action 這類完整示範資料；作者認為這種固定範式混淆了 physical competence 與 semantic alignment 兩個目標，結果是語言標註被過度用喺本來可以自我監督學習的動作能力上。Task-Agnostic Pretraining（TAP）因此改成兩階段：先用無標註互動資料透過 self-supervised Inverse Dynamics 學 transferable motor priors，再用少量 expert demonstrations 做 task-specific alignment。

這種取向同標準 behavior cloning、以大量網路或專家軌跡堆出來的 VLA 路線唔同。TAP 的取捨很明確：它未必追求一次過把語義和動作全學齊，而是先把可遷移的「點樣郁」拆出來，換來更低標註成本，同時提高對背景、視角變化的穩定度；代價是整個方法仍然要靠第二階段示範去把語言指令對齊到具體任務。

項目已經交代了測試方式：這不是即裝即用應用程式，而是要跟住論文設定，載入 HuggingFace 提供的模型，重現兩階段訓練，再用 SIMPLER benchmark 與真實 WidowX-250s 場景驗證。數字上，TAP-20k 在 SIMPLER 的 Avg-All 為 33.32%，高過 Standard BC 的 23.15%；真實環境中只用 200 個 expert demos，面對 background texture shift 仍有 45% success，viewpoint variation 亦有 20%，而部分 baseline 會跌到 0%。

用 self-supervised Inverse Dynamics 先學動作先驗，減少對語言標註依賴
以約 30 小時 autonomous play 加少量 expert demonstrations，對比 1M+ expert trajectories 路線更慳資料
在 SIMPLER benchmark 勝過 Standard BC，接近或超過部分現有 VLA 模型
對 visual distractors、background texture shift、viewpoint variation 的抗干擾能力較強
相關模型包括 RT-1-X、OpenVLA、Nora、Octo，以及 README 提到的 TAP-20k

項目較適合做 Embodied AI、robot learning、VLA 訓練流程研究的團隊參考，尤其係想用學術規模算力驗證新訓練路線的人。它現階段更像一套值得跟進的方法論，而唔係面向一般用戶的完成品工具。

項目主頁 · GitHub · Paper

Categories: 開源, Clone, 多模態模型, 模型, 教學, 模型訓練, 視覺模型, Robotic, Dataset 數據集, VLA

RDM：一步生成影像的新取向

2026 年 7 月 3 日

iRDM post-trains four-step FLUX.2 [klein] into a one-step generator at matched quality; GenEval and PickScore climb past

RDM 是一個一步式影像生成研究項目，也是面向 one-step visual generation 的訓練方法。它要解決的問題很直接：把原本需要多次採樣的生成流程，壓縮成一次 network evaluation，仍然盡量保住影像質素。

現有做法通常會依賴 online teacher、adversary，或者追蹤 trajectory 來蒸餾多步生成器；作者認為這類範式訓練成本高、流程複雜，亦容易被單一訊號牽著走。RDM 改用 Representation Distribution Matching，把生成圖與真實圖在多個 frozen pretrained encoders 之下的特徵分佈對齊，核心比較方式是 squared MMD with a Gaussian kernel，同時配合 Nyström attraction、within-batch repulsion，以及 joint image-text law。

這個取向和同類方法的差異，在於它不靠 online teacher、no adversary、no trajectory，訓練邏輯更像直接校準「生成分佈是否接近真實分佈」。作者亦刻意不用單一 encoder，而是用一組 frozen encoders（10 train + 4 held out），再用 proportional Lagrangian controller 平衡各個表示空間，這個設計明顯是想減少模型只迎合某一種評分器的問題。

README 已交代基本理解方式：安裝後可用 ImageNet-256 影像樹做訓練與驗證，也可沿 FLUX text-to-image 路線配合 COCO、GenEval、Pick-a-Pic 做評測；另有 Hugging Face demo 與 checkpoints，可直接看輸出效果。部署上它較像研究型訓練框架，不是即開即用的終端應用，較適合有 GPU 資源、想重現論文結果或做後訓練實驗的團隊。

性能數字有辨識度。RDM 報稱達到 one-step ImageNet state of the art，SW_r14 為 1.30；在 FLUX.2 [klein] 的 post-training 路線中，one-step 模型於 GenEval 達到 0.826，高於 four-step teacher 的 0.794，PickScore 亦升到 22.76，高過 teacher 的 22.58。相關模型與組件包括 FLUX.2 [klein]、open_clip、DreamSim，以及多個 frozen pretrained encoders；整體更適合關注模型訓練、生成效率與影像評測方法的研究或產品項目。

項目類型：研究型訓練方法／框架，重點在一步式影像生成
核心差異：不用 online teacher、adversary、trajectory，改做分佈匹配
測試方式：可用 ImageNet-256、COCO、GenEval、Pick-a-Pic 驗證結果
主要取捨：流程更乾淨，但仍需要資料準備、GPU 資源與完整評測環境
受益情境：想把多步生成器壓成單步模型的研究團隊與影像生成項目

項目主頁 · GitHub · 模型

Categories: 開源, Stable Diffusion, Image, txt2img, 影像模型, 模型訓練, 框架, Dataset 數據集

discrete_diffusion_RRG：離散擴散模型點樣寫胸肺 X 光報告

2026 年 7 月 3 日

Repository image for mxvp/discrete_diffusion_RRG

這是一個醫學影像語言模型微調與評測項目，核心是把 image-conditioned discrete-diffusion language model 與 autoregressive baseline 放在同一家族骨幹下直接比較。它主要處理 chest X-ray VQA 與放射報告補全，目標不是單純生成文字，而是讓模型根據 X 光影像回答問題，或在已知部分句子的情況下補寫其餘內容。

項目的設計重點在於控制變因：DiffusionGemma 與 Gemma-4-26B 使用相近的 backbone family、vision tower、資料與 LoRA 配方，令比較更集中於生成方式本身。diffusion 路線把報告當成可逐步去噪的 decoder canvas，autoregressive 則沿用 next-token 順序生成；前者的優勢是可以做 any-order infill，用雙向脈絡補空位，後者則較接近現時多數 VLM 的常見做法。

部署與測試門檻不算低。模型權重透過 Hugging Face IDs 載入，設定檔要接駁本地 JSON 資料索引；倉庫也提供 synthetic: {n: 16} 這種小型 smoke test，適合先確認流程有沒有跑通。硬件要求比較明確，diffusion backbone 需要支援 bf16 的 GPU，而且記憶體大約要 80 GB，這已經把它定位成研究團隊或具備高階 GPU 環境的醫療 AI 項目。

效能表現有幾個值得留意的點。支援內容提到 Discrete Diffusion Language Models 在醫療 VQA 上可追平，甚至略勝同系 autoregression，解碼速度亦可達 3.5 至 4.4 倍；不過目前較完整的準確度重心仍放在 VQA，而報告生成部分主要展示互動式 infill 能力，未算是完整臨床報告生成系統。語義評分還可接 LLM judge，但這部分需要額外 API 金鑰，也表示結果解讀仍有一定研究性質。

類型上，它較接近研究原型加評測程式碼，不是即裝即用的臨床軟件。
主要資料來源包括 VQA-RAD、SLAKE、VQA-Med 與 MIMIC-CXR。
相關模型包括 DiffusionGemma-26B、Gemma-4-26B，並以 LoRA 方式微調。
any-order infill 是最有辨識度的能力，適合先固定部分報告內容，再由模型補全其餘位置。
適合需要比較生成範式、研究 radiology report drafting，或想驗證 discrete diffusion 在醫療場景表現的團隊。

項目主頁 · GitHub · 模型

Categories: 開源, Google, Gemini, API, Image, Medical醫學, 視覺模型, Dataset 數據集

AnyGroundBench 點出影片定位模型盲點

2026 年 7 月 3 日

Repository image for rinost081/AnyGroundBench

AnyGroundBench 是一個影片 grounding benchmark，也是面向專業領域的資料集與評測基準。它主要用來測試 Vision-Language Models（VLMs）在 animal、industry、sports、surgery、public security 幾類場景中，能否把文字描述準確對應到影片中的時間、位置，以及時空同時發生的事件。

現有做法多數停留在 general、daily-life benchmark 的 zero-shot 測試，重點是看模型有沒有通用理解力；作者認為這種範式無法反映專門場景，因為稀有視覺概念、複雜動作關係與領域術語，通常不會在通用資料裡被充分學到。AnyGroundBench 因而把評測重心轉去 domain adaptation，並加入 dedicated training subsets，令測試不再只問模型「有沒有見過」，而是進一步量度它「能不能適應新領域」。

這個項目的差異，在於它把 temporal、spatial、spatio-temporal annotations 用統一方式整理，並混合 newly captured videos 與 existing datasets。資料來源涵蓋 mouse、american_football、Animal-Kingdom、MECCANO、EgoSurgery 等，覆蓋面比單一領域 benchmark 廣，亦更接近研究團隊、產業分析、醫療影像研究與安全監測場景會遇到的資料分佈。

項目提供 Hugging Face dataset、project page：這不是即插即用應用程式，而是供研究與模型比較的 benchmark。部署重點不是介面安裝，而是按 domain 讀取整理後的資料，然後以 STVG、TVG、SVG 三類任務跑推理與評分；指標分別用 vIoU@0.3、tIoU@0.3、sIoU@0.3。

類型屬於 benchmark / 資料集，目的是測量 VLMs 的 specialized-domain video grounding 能力
舊範式以 zero-shot general benchmark 為主，新設計改為檢查 domain adaptation 與 In-Context Learning（ICL）是否真的有效
評測涵蓋 temporal、spatial、spatio-temporal 三層，較容易看出模型究竟是看錯時間、找錯位置，還是兩邊都失準
已評測 15 個 state-of-the-art VLMs，結果指出現有模型在 specialized domains 的 zero-shot 與 ICL 表現都不穩定

建議模型包括 GPT-4o、GPT-5.1、Gemini-2.5-Flash 等 proprietary VLMs；現有結果顯示，加入 2-shot ICL 雖然在部分 domain 有改善，但整體仍未解決 specialized-domain spatio-temporal reasoning 的缺口。對研究 VLM evaluation、video grounding、視覺模型遷移能力的團隊來說，這個項目最有價值的地方，是它把「通用測試看似可用」與「專業場景仍然失手」之間的差距量化出來。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, Gemini, NVIDIA, OpenAI, Video, 多模態模型, 安全, 模型訓練, 視覺模型, Dataset 數據集

PAW：把英文編譯成本地函數

2026 年 7 月 3 日

Repository image for programasweights/programasweights-python

PAW(programasweights-python)是一個 Python 工具兼研究原型，屬於把「自然語言」規格編譯成小型神經函數的項目。它要解決的是一類很難用正則表達式或硬編碼規則寫穩定的工作，例如修復壞掉的 JSON、模糊搜尋、分類、抽取欄位，以及把文字意圖對應到正確操作。

現有做法通常有兩條路：一條是手寫規則，遇到錯字、格式飄移同邊界情況就容易失準；另一條是把每次輸入都送去 LLM API，換來較高彈性，但會帶來網絡依賴、成本同重現性問題。Program-as-Weights（PAW）提出的做法，是先用一個 compiler 把英文描述編譯成可重用的神經程式，之後每次呼叫都在本機執行，定位由「每次都問模型」改成「先造好工具再反覆用」。

安裝路線相當直接：Python 端可透過套件取得預編譯函數，亦可自行 compile；瀏覽器端則有 @programasweights/web，但只限用 paw-4b-gpt2 這條較細的 runtime。部署取捨也寫得清楚，paw-4b-qwen3-0.6b 準確度較高，程式體積約 22 MB，本地推理約 0.05 至 0.5 秒；paw-4b-gpt2 準確度較低，但程式只有約 5 MB，支援 WebAssembly，較適合前端或輕量分發。

項目的技術定位：作者把這類問題稱為 fuzzy-function programming，並釋出 FuzzyBench 這個 10M examples 數據集，用 4B compiler 為 frozen interpreter 產生 parameter-efficient adapters。文中指出，0.6B Qwen3 interpreter 執行 PAW 程式時，效果可接近直接 prompting Qwen3-32B，同時把推理記憶體壓到約五十分之一，並在 MacBook M3 達到 30 tokens/s；這些數字有助理解它不是單純包裝模型，而是在成本、可重用性與離線能力之間重新分配。

核心價值：把一次性的自然語言需求，轉成可重複呼叫的本地函數
適合情境：日誌分流、格式修復、文字分類、資料抽取、意圖路由
主要取捨：比直接調用大型 API 更可控、可離線，但編譯器與 runtime 選型會影響準確度與體積
相關模型：paw-4b-qwen3-0.6b、paw-4b-gpt2，論文亦以 Qwen3-32B 作對照
受益團隊：重視本地執行、穩定輸出、低成本重複推理的開發團隊會較易受惠

這個項目最適合放在「規則太脆弱、API 又太重」的中間地帶。它未必取代通用 LLM，但對一批固定任務而言，先編譯、後離線執行的方式更像真正可落地的工程工具。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, API, Python, 編程, Dataset 數據集

AgenticDataBench：數據代理基準點樣睇

2026 年 7 月 3 日

AgenticDataBench 是一個用來評測 data agents 的 benchmark，而唔係直接幫人做分析的模型或應用。它要解決的是：LLM-based data agents 能否穩定完成 data science workflow，並且用可比較、可重現的方式量度表現。

現有做法多數只用零散任務、單一資料集，或者只看最終答案，較難知道代理究竟卡在哪個步驟。這個項目改用 344 個任務、15 個領域，再配合細緻的 skill labels 同 ground-truth，將問題拆成可重用的 data science skills，例如缺失值處理一類操作模式，令評測唔只得總分，仲可以見到技能層面的強弱。

部署同理解方式都幾直接：資料集可由 HuggingFace 下載後放入 testbed/datasets/，任務、gold 標註同結果目錄已經分開，另外保留咗 98 個 private test tasks 維持 leaderboard 的可信度。README 亦提到需要設定 API keys，反映它主要係一個開放測試台，方便用不同 agent harness 跑同一批任務，而唔係單機即開即用的終端工具。

同類 benchmark 相比，它的取向唔係追求最少題目下的快速排行，而係強調真實性、技能覆蓋率同冗餘控制。項目一方面收錄真實 B2B fintech use cases，另一方面用 skill-aligned hierarchical clustering 同系統化生成流程補足缺少真實任務的領域，這種做法的代價是建置與維護較重，但換來更完整的比較基線。

覆蓋 15 個領域，包含真實 B2B fintech 任務
提供 tasks、ground-truth、skills 同 results 結構化內容
支援比較不同 agent harness，如 Smolagents、DA-Agent、Claude Code、CodeX
已列出 Qwen3.5-397B-A17B、Kimi-K2.5、Claude Sonnet 4.6 的初步實驗

這個項目最適合做 data agent 研發、模型選型同內部驗證的團隊，也適合研究人員用來檢查代理在哪類 data skills 失分。性能資訊目前以 leaderboard 結果為主，重點不只是 accuracy，仲包括 skill-level insight；相關模型至少包括 Qwen3.5-397B-A17B、Kimi-K2.5 同 Claude Sonnet 4.6。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, Agentic, API, Anthropic, 清華大學, Dataset 數據集, Skill 技能

Graph-GRPO：教模型先畫知識圖再作答

2026 年 7 月 3 日

Repository image for lamm-mit/graph-preflexor-grpo

這是一個用來訓練語言模型的推理項目，核心屬於模型訓練流程兼研究原型。它要解決的問題，是模型回答問題時往往只輸出文字結論，推理結構難以檢查；Graph-GRPO 先要求模型把概念、關係與規律整理成 knowledge graph，再整合成答案。

現有做法多數依賴 chain-of-thought 或一般文字式 reasoning，把中間思路寫成自然語言。作者認為這種範式雖然靈活，但節點、因果、約束與抽象規律不易固定表示，因此提出 graph-native 的訓練方式：先用 ORPO（Odds Ratio Preference Optimization）或 SFT（Supervised Fine-Tuning）學格式，再用 Graph-GRPO 做強化學習，直接獎勵正確性、格式完整度與 graph utility。

項目的設計相當明確：節點類型限制為 entity、attribute、process、event、outcome、law、claim，關係亦只保留 12 種 verbs，並用 Pydantic 做結構化解析與 schema validation。這種取向的好處是輸出較易驗證，甚至能自動修補無效 graph；代價是表達自由度較低，未必適合非常開放、需要細膩語氣或鬆散聯想的回應。

部署與理解方式也算清楚，整個流程分成資料生成、run_orpo_graph 或 SFT 訓練，再進入 run_grpo_graph 強化階段，並以 LoRA 疊加在基礎模型上。README 亦提到可透過 OpenAI-compatible endpoint 驅動 ideation engine，把多輪生成的 graph_json 累積成可擴展知識圖，用於創意探索、問題延伸與比較不同前沿模型的表現。

適合想研究可追蹤推理、結構化回答與可驗證中間步驟的團隊
已釋出相關模型，基礎模型包括 Qwen-8B 與 Llama-3.2-3B-Instruct
獎勵設計公開列出 correctness、format、graph utility 三部分權重
亮點不在單純答得快，而在於把 reasoning 過程轉成可檢查的 graph object

在目前提供的內容中的性能不算完整，較明確的是訓練路徑、輸出結構與後續 ideation 用途，而 supporting context 另提到這條路線也延伸到 scientific hypothesis generation。整體來看，這個項目較適合研究型開發者、做 Agentic workflow 的團隊，以及想把 LLM 回答過程由黑盒文字轉成結構化證據鏈的人使用。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, OpenAI, Agentic, API, KnowledgeGraph, LLaMa, 模型訓練, Anthropic, Meta, Dataset 數據集

PerceptionRubrics 點出多模態評測盲點

2026 年 7 月 3 日

PerceptionRubrics 是一個多模態評測框架兼資料集，主力檢查 Multimodal Large Language Models 是否真正看清圖片內容，而唔係只係在傳統 benchmark 拿到高分。它要解決的問題很直接：現有 caption 評測常用 holistic semantic matching 或平均分，容易把嚴重錯誤沖淡，但人類閱讀結果時，關鍵事實一錯，整體輸出已經未必可信。

作者把舊有範式拆開重做，改用 atomic auditing，把每張圖分解成可核實的細項，再分成 Must-Right 與 Easy-Wrong 兩條 rubric 流。Must-Right 針對必要事實，Easy-Wrong 針對模型常見的細節遺漏、幻覺或誤判；再配合 gated scoring，只要必要視覺事實出錯，就會被明顯扣分，而唔係被其他小分數平均掩蓋。

資料規模方面，項目提供 1,038 張 information-dense images，同超過 10,000 條 instance-specific rubrics，來源是用 Circular Peer-Review 建立的 Golden Captions，再蒸餾成評測規則。覆蓋範圍包括 natural scenes、OCR documents、GUIs、charts、STEM、logic puzzles 同 creative/cultural images，明顯偏向高資訊密度、容易出現感知失真的場景。

測試方式不算複雜：這個 GitHub 儲存庫主要提供 evaluation code 和 data，較適合研究團隊、模型開發者，或者需要比較多個 MLLMs 表現的人，把模型輸出的 captions 對照 rubric 計分。它不是部署給終端用家的應用程式，而是拿來驗證模型在圖像理解任務到底穩不穩；使用前亦要接受一點，這類更嚴格的評分會令模型成績比傳統 leaderboard 更難看，但診斷價值更高。

核心取向是由 holistic semantic matching 轉向 atomic auditing
Must-Right 與 Easy-Wrong 直接對應關鍵事實與常犯細錯
gated scoring 強調「關鍵錯一項就要反映出來」
資料集中在 GUIs、文件、圖表等高密度視覺任務
適合用來比較 20+ 主流 MLLMs 的感知可靠性，而唔只係比較平均分

項目指出模型經常能辨認零碎元素，卻未能同時滿足多個關鍵視覺約束，尤其在 GUIs、documents 同 structured charts 更明顯。README 與 supporting context 亦提到曾評測 20+ 主流 MLLMs，包括 GPT-5.5；不過這個儲存庫重點仍然是評測框架本身，而唔係推出新模型，所以較值得留意的是它怎樣暴露 perception brittleness，而不是單一排行榜名次。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, 字節跳動, Gemini, DeepSeek, OpenAI, 多模態模型, 清華大學, Dataset 數據集

ABot-M0 用 600 萬軌跡訓練機械人操作

2026 年 7 月 3 日

這是一個面向機械人操作的 Vision-Language-Action（VLA）foundation model，名為 ABot-M0。它主要用來讓機械人根據視覺與指令完成操作任務，並處理資料分散、動作表示不一致，以及控制模型訓練效率偏低的問題。

ABot-M0 的基礎來自 UniACT-dataset。這個資料集整合 6 個公開資料來源，包含 OXE、OXE-AugE 與 AgiBot-Beta，合共超過 600 萬條 trajectories、9,500 小時以上互動資料，並覆蓋 20 多種機械人形態；資料亦經過清理、標準化與統一，將動作轉成 end-effector 座標系中的 delta actions，旋轉則採用較穩定的 rotation vector 表示。

它和常見 diffusion 式控制方法的主要差異，在於採用 Action Manifold Learning（AML）。一般 diffusion model 多數學習預測 noise，ABot-M0 則直接做 Direct Action Prediction（a-prediction），輸出乾淨的動作序列；這種做法把學習重點由「擬合噪聲」轉成「投影到可行動作流形」，理論上更有效率，也更有助提升解碼速度與 policy stability。

另一個實用方向是模組化 3D perception。ABot-M0 支援 plug-and-play 模組去加強 3D 空間理解，對涉及精準位置、姿態與複雜操作步驟的任務會更有幫助；同時，它亦用「pad-to-dual」策略統一 single-arm 與 dual-arm 任務，令同一模型可覆蓋更廣的操作場景。

整合超過 600 萬條 trajectories，資料規模相當大
以 UniACT-dataset 統一不同來源與不同機械人表示方式
採用 Action Manifold Learning（AML），直接預測動作而非噪聲
支援 plug-and-play 3D perception 模組，提升複雜任務精度
適合關注 robotic manipulation、VLA 與通用機械人控制的讀者

現有資料重點放在方法設計與資料規模，具體基準分數與完整比較結果在這份內容中未完全展開。即使如此，ABot-M0 已清楚展示一條很具代表性的路線：先用大規模統一資料打底，再用更貼近可行動作結構的學習方式，提升機械人操作模型的泛化與穩定性。

項目主頁

Categories: 開源, 3D, 多模態模型, 模型, 視覺模型, Robotic, Dataset 數據集, VLA

Hermes MoA 協作提升答案質素

2026 年 7 月 2 日

這是 Hermes MoA（Mixture of Agents，混合代理）架構。它的主要用途是讓多個 Large Language Models 同時回答同一條問題，再由一個聚合者整合各自較強的部分，輸出單一答案。

MoA 的重點不在於訓練一個新模型，而是把多個現有模型疊成一個協作流程。文件指出它依靠多樣性、互補性與聚合三個機制運作：不同模型會走出不同推理路徑，彼此可以補足盲點，最後再由較強的模型統整結果。這種做法和只用單一模型相比，目標是提升複雜任務的回答質素。

在 Hermes Agent 內，這個項目提供三種落地方式：shell 腳本、delegate_task 與 Kanban。Shell 版本最直接，做法是先把多個 proposer 的回覆收集起來，再交給 aggregator 讀取並重寫成最終答案，較適合快速驗證流程；另外兩種方式則較適合需要更穩定管理的工作流。

文件亦清楚交代取捨。MoA 的成本大約是 N+1 倍，延遲通常接近最慢 proposer 再加 aggregator 的時間，所以不適合簡單問答；但對需要比較、整合、推理的任務會更有價值。頁面同時提到在 AlpacaEval 2.0 可帶來約 65% lift，而 proposer 數量以 3 至 5 個作為較理想的平衡點。

核心流程是平行提議者 + 單一聚合者
主要價值在於結合不同模型的長處
Hermes Agent 支援 shell、delegate_task、Kanban 三種實作
成本與延遲明顯上升，較適合複雜任務
示例有 anthropic/claude-sonnet-4、openai/gpt-4o、google/gemini-2.5-pro、deepseek/deepseek-chat

適合想在現有 LLM 工作流上疊加協作機制的人閱讀，尤其是需要提升答案穩定性、綜合能力或多角度分析的場景。它不是單一模型的介紹，而是一種可直接套用在 Hermes Agent 的編排方法。

項目主頁

Categories: Google, Agentic, Anthropic, Dataset 數據集, DeepSeek, Gemini, OpenAI, 框架

Page 1 of 6

1 2 3 … 6 Next »