Meta – InferNews

HumanCLAW 直指 VLM 身體感缺口

2026 年 8 月 1 日

畫面睇得明，不等於身體識得郁得啱。HumanCLAW 把 Vision-Language Models（VLMs）放進一個閉環人形行動測試環境，集中量度模型每個瞬間應該做哪個動作，而不是把失敗全數歸咎於低層馬達控制。它屬於評測框架兼基準測試項目，處理的是 VLM 在具身場景中的行動決策能力，到底有沒有足夠「身體感」去完成找路、移動與互動。

呢個設計最值得留意的地方，是它把 action decision-making 與 low-level motor execution 分開。每 0.5 秒，凍結的 VLM 只需要根據第一身視角、指令、技能列表與歷史內容，提出一個 atomic whole-body skill；後面的 verifier、motion generator 同 half-physics simulator 再負責驗證、安全過濾與連續動作執行，令接觸、碰撞、重力等物理後果仍然保留下來，但平衡失誤與動作追蹤誤差會被盡量排除。

HumanCLAW-Bench 則在這個框架之上提供 1,218 個長時程 find–navigate–interact episodes，覆蓋 41 個室內場景。數字相當直接：九個最先進 VLM 全部未能解決這套基準，最佳成績只有 16.8% success rate，反映問題不在單次辨識，而在模型持續追蹤自身位置、判斷是否到達目標，以及理解自己有沒有撞上環境。

把高層決策同低層動作分離，較易睇清 VLM 真正弱點
保留真實物理後果，唔會因為純符號化環境而高估能力
HumanCLAW-Bench 著重長時程、第一身視角、連續互動任務
目前公開資訊顯示程式碼與 benchmark 仍在準備釋出

對研究 embodied AI、Computer-use agents 延伸方向、VLM 評測方法的人來說，呢個項目有參考價值，尤其適合用來檢查模型是否具備 closed-loop spatial action intelligence，而不只是識描述畫面。現階段較大的限制也很清楚：GitHub 儲存庫尚未正式放出 harness、motion generator weights、half-physics simulation environment 與完整評測內容，暫時主要仍是透過 project page、paper 同 leaderboard 理解方法與結果。

項目主頁 · GitHub

Categories: 開源, Agentic, 多模態模型, 視覺模型, Meta, Skill 技能, Dataset 數據集

DocOps 直擊文件代理真功夫

2026 年 7 月 26 日

改 Excel、Word、PowerPoint 同 PDF，最難唔係生成一段合理回覆，而係交返一份可用、冇整爛結構的原生文件。DocOps屬於 benchmark 類型，針對 document-operation agents 而設，重點不是問答得分，而是檢查代理能否把文件改到指定狀態，同時保住公式、樣式、大綱、書籤與格式有效性。

現有評測常落在兩個範式：static document understanding 把文件當成唯讀材料做擷取或問答；workflow-oriented software evaluation 則把文件當成在應用程式之間流轉的附屬品。DocOps反過來把「文件本身」放回中心，用 Harbor 格式整理 210 個可執行任務，再用 deterministic artifact-level verifiers 直接驗最終檔案狀態，這種設計比只看可見文字更能捉到破壞性修改與狀態遺漏。

它的取向相當鮮明：不是追求聊天式流暢回覆，而是拆解 document manipulation 到 content、format、structure 三個維度，再按 L1 到 L4 拉開難度，涵蓋局部原子操作、同文件組合操作、單文件流程，到跨文件工作流程。對研究 agent 能否長步驟維持全局一致性的人來說，這個分層比單一總分更有診斷價值。

收錄 210 個 Harbor tasks，覆蓋四種常見文件格式
內建 deterministic verifiers，驗證原生檔案而非只看輸出文字
提供 DocumentTools、Terminus-2、Codex、Claude Code 等 execution harnesses
支援 skill-on / skill-off 評測，較易分辨工具能力與模型能力

這個 GitHub 項目已包 task、skills、harnesses 同 Docker base images，重點在重現 benchmark run，而不是單獨提供某個辦公自動化工具。現有結果亦說明門檻不低：例如 GPT-5.5 在不同 harness 的表現有明顯落差，Claude Sonnet 4.6、DeepSeek-V4-Pro 等模型亦未見接近滿分，反映文件操作代理距離穩定處理端到端工作仍有一段距離。對做 Agentic 評測、辦公自動化代理、或想比較 skill 與模型邊界的團隊而言，DocOps的參考價值很高。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, Gemini, DeepSeek, OpenAI, Agentic, 軟件, Robotic, Anthropic, Meta, Dataset 數據集, Skill 技能, 百度

awesome-Self-Improving-Agents：拆解自我改進 Agent 地圖

2026 年 7 月 17 日

當大家都在談 Agent 會否愈跑愈聰明，真正麻煩的往往不是資料太少，而是做法太散、名詞太多、更新位置又不一樣。awesome-Self-Improving-Agents 把這件事整理成一個論文地圖型資源庫，核心不是教你直接部署系統，而是幫你分清楚 self-improving agentic systems 究竟在改進模型本身，還是在改進 prompt、memory、tools 與 control logic 這些外圍 scaffolds。

現有討論常把各類自我改進方法混在一起看，作者則用一條很實際的分界重組內容：一邊是 Foundation Model Improvement，另一邊是 Scaffolding Improvement。這個切法的好處，是你很快知道某篇工作追求的是更持久但較重的參數更新，還是較快、較平、亦較容易回退的代理層更新，閱讀時不會把 LoRA、工具路由、記憶結構調整當成同一類問題。

它不是可即裝即跑的軟件工具，更像研究與產品規劃都用得著的索引庫。你可以直接從 GitHub README、survey hub 同 arXiv 論文交叉閱讀；要測試這個項目的價值，最直接的方法是按 taxonomy 揀一條路，例如 Intrinsic Generative Demonstrations、Intrinsic Evaluative Feedback，或者 memory、tool refinement、full scaffolding，看看它能否幫你更快找到代表性工作與相近分支。

把 self-improvement 分成 Foundation Model Improvement 與 Scaffolding Improvement 兩大路線
收錄 239 篇 papers，當中 73 篇屬 FM improvement，166 篇屬 scaffolding improvement
細分到 Intrinsic Generative Demonstrations、Intrinsic Evaluative Feedback、dynamic tool routing、autonomous tool creation 等機制
適合研究員、Agent 產品團隊、技術寫作者整理文獻脈絡與比較方法取向

相關模型與系統脈絡圍繞 Foundation-Model-Based Agents 展開，但這個項目本身不提供單一模型權重或 benchmark 分數，也不是 OSWorld 那類直接跑任務的評測框架。它的價值在於建立閱讀順序與判斷框架；想找可落地的 agent 改進方向，這份 curated map 比單篇 survey 更接近工作清單。

項目主頁 · GitHub · Paper

Categories: 開源, Agentic, 多模態模型, 模型, Meta, Dataset 數據集

PhyMRI-SR：MRI 超解像唔只靠放大

2026 年 7 月 10 日

Repository image for weilihua0205/PhyMRI-SR

做 MRI 超解像時，問題往往唔係「放大得夠唔夠」，而係高解析度同 SNR 會互相拉扯。PhyMRI-SR 把這個矛盾放到核心處理；它屬於一個醫學影像超解像模型／研究項目，目標不是盲目追求最高輸入解析度，而是找出更有結構資訊的重建位置。

現有做法多數把低解析度 MRI 當成一般影像放大；作者認為這種 fixed paradigm 忽略 MRI acquisition physics，亦未必對應最有資訊量的輸入條件。PhyMRI-SR 因而改用 physics-aware Gaussian splatting，把組織先驗、MR signal equations 同 continuous-scale super-resolution 合併，嘗試沿住 resolution-SNR spectrum 找到更合理的平衡點。

它不是直接生成高解像圖，而是先經 segmentation-guided primitive allocation 分配 Gaussian primitives，再由 prior-aware representation 預測位置偏移與協方差，之後用 physics-constrained signal modeling 根據 tissue properties（例如 alpha、R2）計算訊號強度，最後經 differentiable splatting 合成影像。另加 meta-learning-based adaptation，用來縮窄 synthetic training 與真實 low-field MRI 之間的 domain gap。

與一般影像式 SR 比較，重點放在物理一致性，唔係純粹視覺銳化
支援 arbitrary-resolution 輸入，同 continuous-scale MRI super-resolution 取向一致
結構上結合 segmentation、Gaussian representation 同 MR signal equations
結果顯示最佳表現未必出現在最高輸入解析度，回應作者的核心假設

項目列出 simulated 與 real multi-resolution MRI datasets 的比較：模擬資料在 x0.7 時錄得 PSNR 28.10 dB、SSIM 0.9234、HFEN 0.3051、DISTS 0.1148；真實資料在 x0.76 時取得最低 HFEN 0.4570，其他指標亦有競爭力。這類結果較適合醫學影像研究、MRI 重建與超解像團隊參考；部署與測試細節仍需回到 GitHub 程式碼確認，但整體定位已很清楚：它不是通用修圖工具，而是面向 MRI 成像規律的專門方法。

項目主頁 · GitHub · Paper

Categories: 開源, Medical醫學, 影像處理, 模型訓練, Meta, 中國, Dataset 數據集

Graph-GRPO：教模型先畫知識圖再作答

2026 年 7 月 3 日

Repository image for lamm-mit/graph-preflexor-grpo

這是一個用來訓練語言模型的推理項目，核心屬於模型訓練流程兼研究原型。它要解決的問題，是模型回答問題時往往只輸出文字結論，推理結構難以檢查；Graph-GRPO 先要求模型把概念、關係與規律整理成 knowledge graph，再整合成答案。

現有做法多數依賴 chain-of-thought 或一般文字式 reasoning，把中間思路寫成自然語言。作者認為這種範式雖然靈活，但節點、因果、約束與抽象規律不易固定表示，因此提出 graph-native 的訓練方式：先用 ORPO（Odds Ratio Preference Optimization）或 SFT（Supervised Fine-Tuning）學格式，再用 Graph-GRPO 做強化學習，直接獎勵正確性、格式完整度與 graph utility。

項目的設計相當明確：節點類型限制為 entity、attribute、process、event、outcome、law、claim，關係亦只保留 12 種 verbs，並用 Pydantic 做結構化解析與 schema validation。這種取向的好處是輸出較易驗證，甚至能自動修補無效 graph；代價是表達自由度較低，未必適合非常開放、需要細膩語氣或鬆散聯想的回應。

部署與理解方式也算清楚，整個流程分成資料生成、run_orpo_graph 或 SFT 訓練，再進入 run_grpo_graph 強化階段，並以 LoRA 疊加在基礎模型上。README 亦提到可透過 OpenAI-compatible endpoint 驅動 ideation engine，把多輪生成的 graph_json 累積成可擴展知識圖，用於創意探索、問題延伸與比較不同前沿模型的表現。

適合想研究可追蹤推理、結構化回答與可驗證中間步驟的團隊
已釋出相關模型，基礎模型包括 Qwen-8B 與 Llama-3.2-3B-Instruct
獎勵設計公開列出 correctness、format、graph utility 三部分權重
亮點不在單純答得快，而在於把 reasoning 過程轉成可檢查的 graph object

在目前提供的內容中的性能不算完整，較明確的是訓練路徑、輸出結構與後續 ideation 用途，而 supporting context 另提到這條路線也延伸到 scientific hypothesis generation。整體來看，這個項目較適合研究型開發者、做 Agentic workflow 的團隊，以及想把 LLM 回答過程由黑盒文字轉成結構化證據鏈的人使用。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, OpenAI, Agentic, API, KnowledgeGraph, LLaMa, 模型訓練, Anthropic, Meta, Dataset 數據集

DREAM：用語言模型反向教檢索

2026 年 6 月 26 日

DREAM 是一個稠密檢索嵌入訓練方法／研究原型，核心是把 autoregressive language model 的預測訊號拿來訓練 dense retriever。它要解決的問題很明確：傳統 dense retrieval 多數依賴 contrastive objectives，需要正負文件配對與標註，但這類資料昂貴，hard negatives 也不穩定。

現有做法通常是替 query 配 positive documents 與 sampled negatives，再拉近或拉遠 embedding 距離；作者認為這種範式過度依賴人工或額外挖掘流程，未必真正反映哪些文件能幫助模型完成生成。DREAM 的做法是把 query-document 相似度送入指定的 Query-Focused Retrieval Heads（QRHeads），讓 frozen LLM 在預測 target 時，直接用 next-token prediction loss 回傳訊號，告訴 retriever 哪些文件真的有用。

這個取向最值得留意的地方，在於它不是單純改 loss，而是把檢索分數接進 attention heads，令生成模型的預測難度成為監督來源。代價也很明顯：流程比一般 embedding fine-tuning 更複雜，要先做 QRHead detection，再跑 DREAM adapter 訓練；儲存庫亦未附完整 training data、checkpoints 與 evaluation outputs，較接近研究復現路線，而不是即裝即用工具。

安裝與理解方式算清晰，儲存庫分成 qrhead_repo/、dream_routing/ 與 data/sample/ 三部分：前者負責找出 QRHeads，後者負責訓練 adapter，樣本資料則用 JSONL 提供 query、docs、target 結構。部署重點不是直接上線服務，而是先準備自己的 Hugging Face dataset 或本地 JSONL，依序完成 head 檢測與訓練；推論部分則主要依賴 Hugging Face 上已釋出的 adapters。

已提供預訓練模型：DREAM-0.5B、DREAM-1B、DREAM-3B
對應底座模型：Qwen2.5-0.5B、Llama-3.2-1B、Llama-3.2-3B
評測指向 BEIR 與 RTEB，論文稱在不同模型尺寸上都優於既有 baselines
適合研究檢索訓練、RAG、embedding 設計與 LLM-retriever 協同優化的團隊

受益最大的一類人，不是只想下載 embedding 即用的使用者，而是要研究 retriever 如何配合生成模型工作的團隊。對做 RAG、知識檢索、代理式搜尋的人來說，DREAM 提供了一條不同於 contrastive training 的路；對資源有限的小團隊而言，訓練鏈較長、重現門檻較高，較適合作為方法參考或實驗基線，而非現成產品元件。

GitHub： https://github.com/yixuantt/DREAM

Model： https://huggingface.co/collections/yixuantt/dream

Categories: 開源, Qwen, 香港, 香港科技大學, 工具, Embedding, LLaMa, Python, RAG, 庫, 模型, 模型訓練, Meta, Dataset 數據集

Unlimited-OCR：長文件 OCR 新取向

2026 年 6 月 25 日

Unlimited-OCR 是一個 OCR 視覺文字辨識模型項目，也可視為一個針對長文件解析而改造的研究原型。它主要用來把圖片或 PDF 內的大量文字與版面內容一次過轉成可輸出的解析結果，重點是處理多頁文件時盡量減少記憶體負擔。

現有 end-to-end OCR 做法以 DeepSeek-OCR 為代表，會用 large language model（LLM）作 decoder，優點是能借助語言先驗提升辨識效果，但輸出一長，KV cache 會一路累積，令顯存需求上升、生成愈來愈慢。Unlimited-OCR 的做法是保留高壓縮 encoder，再把 decoder 的 attention 層改成 Reference Sliding Window Attention（R-SWA），讓每個 token 持續關注 reference tokens 與有限長度的前文，目標是把 KV cache 維持在常數規模。

這個取向最值得留意的地方，不是單純追求單頁最高精度，而是把「one-shot long-horizon parsing」放在核心位置。跟一般 full attention 比，它犧牲的是傳統全域注意力形式，換來多頁文件在 32K 長度下仍可做單次 forward pass；跟 vanilla SWA 比，它又保留 visual tokens 作為穩定參照，避免狀態傳遞後愈來愈模糊。

部署路線相當明確：項目提供 Hugging Face Transformers 推理方式，測試環境寫明需 NVIDIA GPU，並以 Python 3.12.3、CUDA 12.9 為基礎；單張圖片可在 gundam 與 base 兩種設定中選擇，多頁與 PDF 則使用 base 配置。想先了解效果，也可直接看 Hugging Face Spaces demo 或 ModelScope 版本，再決定是否自行落地。

類型定位：OCR 模型／研究原型，解決長文件、多頁解析時記憶體與速度惡化問題
核心差異：以 Reference Sliding Window Attention（R-SWA）取代 decoder 全部 attention layers
適合情境：長 PDF、批量文件數碼化、需要版面解析與長輸出的團隊
相關模型：DeepSeek-OCR、Unlimited-OCR；文中亦提到 R-SWA 可延伸到 ASR、translation
限制判斷：目前公開資訊主力放在推理與方法設計，具體評測數字仍要回看 arXiv 論文原文才適合作更細比較

對需要處理保單、報表、掃描檔、書籍或多頁行政文件的團隊，這個項目的吸引力會比一般單頁 OCR 更高。若你的工作重點是短文字截圖、手機快拍辨識，Unlimited-OCR 的優勢未必完全發揮，但對長輸出穩定性與部署在 GPU 環境的可行性，它展示了一條很清楚的改良路線。

GitHub： https://github.com/baidu/Unlimited-OCR

Paper： https://arxiv.org/pdf/2606.23050

Categories: 開源, NVIDIA, DeepSeek, Image, Python, Python NLP, 模型, 視覺模型, Meta, 百度

SproutRAG：長文 RAG 檢索的新取向

2026 年 6 月 23 日

現時不少 RAG（Retrieval-Augmented Generation）做法，通常在「細粒度 chunk 準確但零碎」與「大段內容連貫但嘈雜」之間取捨；有些方法靠 LLM-guided chunking、single-level context expansion，或 hierarchical summarization 去補救，但代價是要額外 LLM 呼叫、只支援單一層級擴展，或者在摘要過程流失資訊。SproutRAG 提出的方向，是用 attention-guided hierarchical RAG framework，把句子逐步組成語意連貫的多層結構，再做 multi-granularity retrieval。

這是一個 RAG 工具／框架，重點不是單獨一個模型，而是把索引、檢索、reranking、答案生成與評測串成完整流程，處理長文件問答中「證據要夠準又要保留上下文」的問題。它用 YAML 或 JSON config 驅動 CLI，每一步各有設定，輸出統一是 JSON，對接下游工具和保留可重現紀錄都幾方便。

部署和測試思路算清楚：先準備 JSONL 文件，之後分開建立 index、執行 retrieve、再 answer；若要研究效果，還可 train 和 evaluate。附加套件分別對應 PyYAML、ROUGE-L、METEOR、BERTScore 及 spaCy，反映這個項目除了生成，也很著重檢索與答案品質的量化比較。

和常見 flat retrieval 相比，SproutRAG 較值得留意的是 hierarchical attention-based indexing 加上 hierarchical beam search：它不是只撈單一粒度片段，而是沿樹狀結構找不同大小的候選證據。論文資料指出，它在四個 benchmark 的 information efficiency（IE）平均比最強 baseline 高 6.1%，但目前公開說明未見太多資源消耗與大型部署細節，訓練部分亦提到 MS MARCO 只先載入 v2.1 train split 的首 30k 筆樣本，代表現階段較適合研究、評測與流程驗證。

適合需要處理長文件的 RAG 項目，例如法律、科研、知識庫問答
配置檔主導流程，方便版本控制、重現實驗與比較不同設定
支援 optional reranking 與生成評測，不只是單做檢索
相關模型包括 sentence-transformers/all-MiniLM-L6-v2，底層依賴 PyTorch 2.x 與 Transformers 4.51+
若你想比較多粒度證據檢索與傳統 chunk-based RAG 的差異，這個項目很有研究價值

GitHub： https://github.com/AmirAbaskohi/SproutRAG

Paper： https://arxiv.org/pdf/2606.18381

Categories: 開源, 工具, Python, Python NLP, RAG, 庫, Meta, 框架

StylisticBias 拆解 MLLMs 視覺偏見

2026 年 6 月 23 日

不少 Multimodal Large Language Models（MLLMs）偏見研究，通常拿不同人物或群組互相比較；問題是外貌差異與身份差異會纏在一起，最後很難判斷模型究竟是受年齡、衣著、身形影響，還是只是換了另一個人。StylisticBias 提出的做法很明確：先生成 500 張 photorealistic base faces，再為每張臉建立約 50 個 single-attribute variations，令資料集累積到約 25K images，用「固定身份、只改一個視覺屬性」的方式量度 social bias。

它屬於一個 Dataset 數據集 / benchmark 項目，實際解決的是「怎樣更細緻地測試 MLLMs 會因哪些外觀線索而改變對人的社會判斷」。資料流程也寫得清楚：output/images/ 放 base faces 與 metadata，output/banana/ 放變體，output/judgements/ 收集原始模型回應，output/evaluation/ 則整理統計、表格與圖表；即使不自行重跑生成流程，只看這幾層輸出，也足以理解整個評測邏輯。

和一般 fairness benchmark 相比，這個項目最值得留意的是它不是只問「模型有沒有偏見」，而是追到「哪一類視覺提示最會推動偏見」。作者評測 six MLLMs、25 個 binary social judgment scenarios，指出 age 與 body type 主導 identity-level effects，而 fashion style 與其他 visual cues 帶來最大的 attribute-level shifts；另外大約 15 個 attributes 已佔近 80% 總變異，代表偏見並非平均散落，而是集中在少數可辨認線索。

固定同一張臉，只改一個屬性，較易分開 appearance effects 與 identity differences
規模約 25K images，適合做較細粒度的 bias analysis
結果顯示 age、body type、fashion style 是高敏感因素
judgement 對 appearance 語意較貼近的場景最敏感，尤其 socioeconomic 與 style-related 判斷

這項目最適合評估多模態產品風險的團隊、研究 AI fairness 的學者，以及要比較不同 vision-language model 行為的人。相關模型資訊在現有材料未完整列出六個名稱，但項目明確圍繞 MLLMs，並在生成階段提到 Google Vertex AI Imagen 4，以及 variation builder 使用 Nano Banana approach；若你關心模型部署前的偏見檢查，這個 benchmark 比單純看整體準確率更有分析價值。

GitHub： https://github.com/timo-cavelius/StylisticBias

項目主頁： https://huggingface.co/datasets/shaghayegh/stylistic-bias-dataset

Paper： https://arxiv.org/pdf/2606.20527

Categories: 開源, Google, Gemini, NanoBanana, Image, 多模態模型, 安全, 視覺模型, Meta, Dataset 數據集, 框架

visually_grounded_thinking：讓 VLM 推理同時指向圖片證據

2026 年 6 月 21 日

現時不少 Vision-Language Models（VLMs）做視覺推理時，通常只輸出文字思路，證據其實來自圖片哪一部分，模型未必講得清。作者認為這種 text-only reasoning trace 難驗證、亦難監督，所以提出 visually grounded thinking：在推理文字中插入 <obj>...</obj>，直接標示 point 或 box 座標，將語句同圖片區域綁在一起。

這不是單純加標籤的格式改動，而是一套訓練與評測流程。項目先用 open-source counting 與 spatial reasoning datasets 合成帶視覺依據的思路，再用 SAM3-based grounding agent 產生 mask supervision，之後分別用 SFT 與 GRPO 訓練；RL 階段再靠 grounding-aware reward，以 box IoU 或 point F1 檢查模型指向的物件是否對應正確證據。

同類做法多數關注答案啱唔啱，這個項目連中間引用的圖像證據都計分，取向明顯較重視可驗證性。不過代價亦很清楚：資料製作、物件對齊、reward routing 都更複雜，訓練門檻比只做文字 reasoning 高，較適合已經有 VLM 訓練流程的研究團隊。

在 counting benchmarks 與 spatial reasoning benchmarks，加上 visually grounded thinking 的 Gemma3-4B-IT 普遍優於原版模型與 non-grounded thinking baseline；在部分空間推理任務，4B 版本甚至可追上或超過 Gemma3-27B-IT。作者亦指出 point grounding 較適合 counting，而 box grounding 在 spatial tasks 配合 grounding rewards 效果更突出。

類型上，它屬於 VLM 訓練框架加研究代碼，重點是改善視覺推理過程缺乏可核對證據的問題。
儲存庫已分開 data_synthesis_pipeline、agent、rl_reward、sft_dataset、VLMEvalKit 與 scripts，結構算清晰，理解流程會比直接改模型權重更重要。
部署思路偏研究用途，較可能需要 Docker 環境、SFT/RL 訓練配置，以及自備算力，而不是即裝即用的終端工具。
相關模型與元件包括 Gemma3-4B-IT、Gemma3-27B-IT、SAM3、GRPO、SFT、VLMEvalKit。
適合關注可解釋視覺推理、VQA、counting、spatial reasoning，或者想把中間推理變成可監督訊號的團隊。

GitHub： https://github.com/Jun-Kai-Zhang/visually_grounded_thinking

Paper： https://arxiv.org/pdf/2606.16122

Categories: 開源, Gemini, Agentic, Image, 工具, 多模態模型, 庫, 模型, 模型訓練, 視覺模型, Meta, Dataset 數據集, 框架

Page 1 of 2

1 2 Next »