模型 – Page 17 – InferNews

OCC-RAG ：1.7B 小模型也能忠實回答問題

2026 年 6 月 3 日

在大型語言模型動輒數百億參數的時代，OCC-RAG（Optimal Cognitive Core for RAG）反其道而行，主打體型輕巧但專注於「忠實、有引用的問答」。這個項目針對的場景很明確：模型拿到一組來源文件後，必須根據內容作答、附上引用編號，若資料不足以回答就老實回應「Not enough information」。

OCC-RAG 雖然還在開發初期，但它的研究方向和概念具有高度價值。

這個項目解決了檢索增強生成（RAG）系統中常見的「幻覺」與「編造來源」問題。OCC-RAG 在 Qwen3 基礎模型上以超過三百萬筆合成多上下文、多跳問答資料進行中期訓練，模型會先輸出結構化推理流程（query analysis → source analysis → reasoning → status → answer），再給出最終答案，每一步都可追溯。

技術報告顯示，OCC-RAG-0.6B 與 OCC-RAG-1.7B 在 HotpotQA、MuSiQue、TAT-QA 等多跳推理基準上，可與體型大 2 至 6 倍的通用模型打成平手甚至更佳；在 ConFiQA 忠實度指標上，於所有受測規模（最高至 32B）中都取得最佳成績。特別的是，它不需要昂貴的「思考模式」推論就能提供類似 chain-of-thought 的透明度，對硬體資源有限的團隊相當友善。

現時 Hugging Face 上已開源 OCC-RAG-0.6B 與 OCC-RAG-1.7B 兩個版本，適合需要嚴格引用規範的企業搜尋、客服問答、研究助理等應用。

重點摘要：

忠實作答：只根據提供的上下文回答，ConFiQA 忠實度在所有受測規模中領先。
校準式拒答：資料不足時自動輸出 Not enough information，避免胡亂推測。
可追溯推理：每個答案附帶結構化推理鏈，並以編號標明引用來源。
輕量高效：0.6B 與 1.7B 兩款小模型，不需思考模式即可達到高透明度。
基於 Qwen3：以 Qwen3-0.6B-Base 與 Qwen3-1.7B-Base 為基礎中期訓練而成。

GitHub： https://github.com/optimal-cognitive-core/OCC-RAG

Paper： https://arxiv.org/pdf/2606.00683

Categories: 開源, 模型

PaddleOCR 把圖片和 PDF 變成 LLM 吃得到的結構化資料

2026 年 6 月 3 日

處理 PDF 和圖片一直是企業導入 LLM 應用時最頭痛的關卡，傳統 OCR 工具只會吐出零散文字，遇到表格、公式或多語言混排就頻頻出錯。PaddleOCR 由百度 PaddlePaddle 團隊開源，目標是把雜亂的掃描檔和圖片整理成 LLM 友善的 JSON 或 Markdown，後續無論餵給 RAG 檢索還是 Agent 流程都更順暢。

這個項目以兩個核心模型撐起整套能力。PaddleOCR-VL-1.6 是一款 0.9B 參數的視覺語言模型，專注文件解析，在 OmniDocBench v1.6 取得 96.33% 分數，對古文、罕見字、印章及圖表也有顯著強化。PP-StructureV3 則補足了另一條路線，提供表格儲存格、文字等更細粒度的座標資訊，方便需要版面重建的場景。最新版 PP-OCRv5 支援 100 多種語言，準確度較前代提升約 13%，同時保持輕量部署特性，可在 CPU、GPU、NPU 等不同硬體運行。

目前的 LLM-RAG 開源生態中，Dify、RAGFlow、Cherry Studio 等知名項目都採用 PaddleOCR 作為文件解析層，社群也累積超過 6,000 個依賴它的下游項目。對需要批次處理合約、研究論文、政府公文或多語文件的人來說，這套工具兼具商用級準確度與邊緣裝置可用的效率，動手前只要準備好 Python 3.8 至 3.12 環境即可開始試跑。

重點摘要

PaddleOCR-VL-1.6 (0.9B) 在 OmniDocBench v1.6 達到 96.33%，輕量卻具競爭力。
PP-StructureV3 補足細粒度座標，適合需要表格與版面重建的應用。
PP-OCRv5 支援逾 100 種語言，準確度較前代提升約 13%，硬體需求低。
已被 Dify、RAGFlow、Cherry Studio 等 LLM 應用項目整合採用。
GitHub 逾 7 萬顆星、6,000 多個依賴項目，社群驗證度高。

GitHub： https://github.com/PaddlePaddle/PaddleOCR

Paper： https://arxiv.org/pdf/2606.03264

Categories: 開源, 模型, 視覺模型, 中國, 百度, Dataset 數據集

JetBrains 推出 Mellum 2：專為即時推論而生的輕量語言模型

2026 年 6 月 2 日

Mellum 2 是 JetBrains 推出的一系列輕量級語言模型，設計目標是讓 AI 推論過程更快、更省資源。相較於一般大型語言模型龐雜的體積，Mellum 走的是精簡路線，能在保持表現的同時，大幅降低回應時間，這對於需要即時互動的應用來說相當關鍵。

Mellum 2 是開放權重的 120 億參數混合專家 (MoE) 語言模型，每個詞元有 25 億個活躍參數。

這項目主要解決一個核心問題：如何在不犧牲太多準確度的前提下，讓語言模型的回應速度快到可以整合進日常工具中。例如 IDE（Integrated Development Environment，整合式開發環境）內的自動補全、程式碼提示等功能，往往需要模型在幾十毫秒內就給出結果，傳統大型模型很難做到這一點。

Mellum 2 的主要創新在於針對低延遲推論（ultra-low-latency inference）進行了架構與訓練流程的最佳化，讓模型在邊緣裝置或本地端環境也能順暢運行。JetBrains 將其定位為「real-world AI workloads」，意思是它不是只為研究而生的模型，而是真正要部署到生產環境的工具。

這套模型最適合的場景包括：需要即時回應的開發工具、需要本地端 AI 能力的企業應用，以及對成本敏感的批次處理任務。開發者可以透過 JetBrains 提供的資源將 Mellum 整合到自己的系統中，而無需依賴雲端的大型模型服務。

以下是 Mellum 2 的重點摘要：

輕量架構：模型體積小，適合在本地端或資源有限的環境運行。
低延遲推論：針對即時回應需求設計，回應速度遠快於一般大型語言模型。
生產導向：專為實際部署與整合而打造，非純研究用途。
JetBrains 背書：由 IDE 領域知名團隊推出，與開發者工具生態有良好銜接。

整體而言，Mellum 2 代表了語言模型走向「小而快」的趨勢，讓更多場景能以合理成本享受到 AI 帶來的便利。

項目： https://www.jetbrains.com/mellum/

Categories: 開源, 模型

GGT-100K：用十萬對真實影像拓寬圖像修復的泛化邊界

2026 年 6 月 2 日

過去訓練圖像修復模型時，開發者往往受限於合成數據與真實場景之間的差距；模型在實驗室數據集表現亮眼，遇到街拍、手機夜拍等真實退化影像就大打折扣。GGT-100K 正是為了解決這個落差而生，由香港理工大學 OPPO 研究院共同推出，主打從 MFM（Multimodal Foundation Models）直接生成十萬對 LQ-HQ 配對資料，覆蓋更貼近日常的真實退化類型。

這個項目的核心想法是「讓高品質影像本身充當 Ground Truth（GT）」，再利用 MFM 推演對應的低品質版本，省去繁瑣的人工蒐集與標註。GGT-100K 並附帶 baseline 訓練程式碼與 checkpoint，研究者只需在自有的修復模型上加掛 LoRA 或重新微調，就能測試跨域泛化效果；對工程團隊而言，等於取得一條快速驗證真實世界表現的捷徑。

GGT-100K 重點摘要

提供十萬對從 MFM 生成的 LQ-HQ 影像配對，涵蓋多元真實退化情境。
內建 baseline 訓練與推論程式碼，支援主流修復模型微調。
透過 Generative GT 策略，免除傳統人工蒐集配對的高昂成本。
數據集可從 Hugging Face 或百度雲下載，附完整 Construction Process 說明。
實驗結果顯示，模型在跨域真實退化測試中的泛化能力有明顯提升。

至於性能表現，作者在多個 SOTA（State-of-the-Art）MFM 上進行了修復評估，結果顯示加入 GGT-100K 訓練後，模型對未見過的真實退化樣本有更佳的適應力；具體的數值比較已收錄在 Experimental Results 區段與論文 arXiv 2605.31039 之中。如果你是從事影像修復、攝影 App 開發，或是想評估自家模型在真實世界表現的團隊，這份開源資源值得花時間一試。

GitHub： https://github.com/PolyU-VCLab/GGT-100K

項目： https://polyu-vclab.github.io/GGT-100K/

Categories: 開源, 香港理工大學, 影像處理, 模型, 模型訓練, 視覺模型, Dataset 數據集

用 PEEK 幫影片挑重點影格：省時又精準

2026 年 6 月 1 日

處理長影片時，視覺語言模型 (VLM) 一次只能看幾幀畫面，於是「要挑哪幾幀」就成了影片標題生成的瓶頸。PEEK 這個開源項目正是為了解決這個問題：它是一個 query-free 的影格挑選器，專為低預算 (low-budget) 影片標題任務而設計。

PEEK 的運作分為兩階段。第一階段由凍結的 SigLIP2 SO400M patch14 384 雙編碼器擔任教師模型，利用真實標題與每一幀計算餘弦相似度，並做最小最大正規化 (min-max normalization)，產生幀級相關性分數。第二階段是一個 2 層 Transformer 學生模型，接收凍結的 MobileCLIP2-S0 幀嵌入，以 ListMLE 排序損失 (listwise ranking loss) 學習重現教師的排序。推論時學生模型只需看畫面，無需任何標題或文字編碼器介入。

選幀策略採用「分組取最大」(stratified argmax)：將影片均分成 k 個時間區段，每段挑出分數最高的幀，以兼顧時間分佈。當 k=1 時則退化為全影片取最大。

實驗結果顯示，單一在 ActivityNet 訓練的 PEEK 權重在多個影片標題 VLM 上，於一幀與兩幀設定的 CIDEr 分數均優於均勻取樣，且預算越緊、省下的時間越多。論文亦報告 PEEK 在標題生成流程中僅增加 5.2% 時間，相比 CSTA 的 65.4% 與 MaxInfo 的 211.9% 更為輕量。

適合需要快速處理大量影片的研發團隊、影片摘要系統開發者，以及想為現有 VLM 加上智能取樣的研究者。倉庫已提供教師分數生成、蒸餾訓練、單段影片推論 CLI 與 Python API，並於 Hugging Face 釋出 ActivityNet 訓練的 base 權重。

重點摘要

問題：VLM 處理影片時，如何在極少影格預算下挑出最有資訊量的畫面。
方法：以 SigLIP2 為教師產生排序標籤，再以 MobileCLIP2 + 2 層 Transformer 學生模型做知識蒸餾 (knowledge distillation)。
推論：無需文字查詢，僅靠視覺證據；採用 stratified argmax 兼顧時間覆蓋。
效率：額外開銷僅約 5.2%，遠低於 CSTA 與 MaxInfo 等自適應方法。
資源：開源訓練與推論代碼，並提供 Hugging Face 預訓練權重。

GitHub： https://github.com/momentslab/peek

項目： https://www.killian-steunou.com/peek/

Categories: 開源, 影像處理, 模型, 模型訓練, 視覺模型, 框架

MVCHead：少資源做高擬真 3D 頭像

2026 年 5 月 30 日

MVCHead 是一個聚焦 3D Gaussian head avatars 生成的研究項目，目標很清晰：不依賴 multi-view 資料、3D 掃描，甚至不需要中間視角生成，也能做出高擬真、multi-view consistent 的頭像。對非技術讀者來說，它想處理的問題就是：以往做這類 3D 人頭資產，通常要大量拍攝設備和昂貴流程，這個項目則希望用較少資源完成。

目前公開內容以論文與項目頁為主，程式碼、weights 及 FaceGS-10K dataset 仍標示為即將推出。現階段較適合先閱讀方法設計、觀察展示圖片與論文結果，了解它是否符合 AR/VR、telepresence、digital humans 或遊戲角色資產製作需求，再決定之後是否跟進測試。

它的核心做法，是用 single-shot state space model 直接在 3D 表徵裡約束 multi-view consistency，而不是先補中間視角。當中包含 Hierarchical State Space（HiSS）block、Hierarchical Bi-directional State Scan（HiBiSS），以及 SE(3) Multi-view Critic；前兩者負責由粗到細調整 3D Gaussians，後者則檢查不同自我渲染畫面是否像來自同一個 3D 結構。

只需 randomly sampled 2D images，毋須 multi-view data 或 3D supervision
生成重點放在 wrinkles、hair wisps、lip contours、eyes、accessories 等細節
論文表示在 perceptual quality 屬 state-of-the-art
texture 與 geometric consistency 超越既有方法，shape consistency 則維持可比水平
另提出 FaceGS-10K，作為大規模 3D Gaussian head assets 資料集

這個項目特別適合研究 3D 頭像生成、虛擬人、低資源內容製作流程的人留意。若你期待的是可立即部署的生產工具，現時資訊仍偏研究導向；但若你關心 3D head models 怎樣擺脫多視角拍攝依賴，MVCHead 展示的方向相當具前瞻性。

GitHub： https://github.com/humansensinglab/MVCHead

項目： https://humansensinglab.github.io/MVCHead/

Categories: 開源, 模型, 視覺模型, 世界模型

ViGeo：一個模型處理影片幾何重建

2026 年 5 月 30 日

ViGeo 是一個用來估算場景幾何的項目，輸入可以是影片片段，也可以是單張影像。它會輸出 depth、3D points、normals、confidence，處理連續影格時亦可估算 camera poses，重點是盡量保持時間上的一致性，減少前後幀結果跳動。

使用這個項目時，先按手頭資料選擇模式：完整影片可用 offline，串流畫面可用 online，長影片則可分段用 chunk 處理。這種安排對做影片重建、機械人感知、AR、導航或後期視覺分析的人較實用，因為不需要為不同輸入形式換另一套模型。

它想解決的核心問題，是影片幾何估計常見的兩難：不是短片效果好但難以串流，就是能即時推理但長時間一致性不足。ViGeo 以同一個 feed-forward foundation model 統一 full-sequence reconstruction、streaming inference 與 long-video inference，論文指出關鍵在 dynamic chunking attention，讓模型可因應測試情境切換時間關注方式，而不用重新訓練。

另一個重要部分是 VideoLDCM，完整名稱是 VideoLDCM，負責 depth completion。它在這項工作中用作 data-refinement model，把稀疏或帶雜訊的深度觀測整理成較乾淨的 dense depth supervision，對訓練幾何模型有幫助，也解釋了為何這個項目不只看單幀品質，還強調跨影格穩定性。

同時支援 offline、online、chunk 三種推理流程
可由影片或單張影像估算 depth、3D points、normals 等結果
以 dynamic chunking attention 兼顧串流與長影片處理
結合 VideoLDCM 改善深度監督資料品質
論文聲稱在多項 video geometry 任務達到 state-of-the-art

Model	Download	Description
ViGeo	LINK	用於深度、點、法線、姿態和置信度的主要視覺幾何模型
VideoLDCM	LINK	用於稀疏深度濾波、泊松補全和深度細化的資料細化模型

性能方面，論文描述它在 online、offline、long-video depth estimation、surface normal estimation、video point map estimation 都有很強表現，並以 public datasets 訓練。不過目前公開 checkpoint 亦已註明存在已知 loss implementation 問題，可能在 camera poses 視覺化與遠距區域出現輕微瑕疵，因此較適合先用來理解能力範圍，再決定是否放入要求很高的生產流程。

GitHub： https://github.com/aigc3d/ViGeo

項目： https://pkqbajng.github.io/ViGeo/

Categories: 開源, 阿里巴巴, 模型, 視覺模型, 世界模型

minWM：由影片生成走向 World Model

2026 年 5 月 30 日

minWM 的定位很清楚：它不是再提供一個新模型，而是把建立 video world model 的整條流程拆開，讓人由 bidirectional T2V（Text-to-Video）或 TI2V（Text-and-Image-to-Video）基礎模型，一步步轉成 action-conditioned video world model。對剛接觸這個領域的人來說，這種完整路線比只放權重或單段程式碼更有幫助。

這項目重點不是「裝完即用」，而是按它提供的資料處理、訓練、蒸餾與推理流程逐段走。項目公開了 data → training → inference 的全流程，並提供 example data、runnable scripts、Claude Skills 與新手知識整理，方便你先跟一次標準流程，再按自己需要改 backbone、資料分佈或控制方式。

它要解決的問題，在於高質影片生成模型未必等同可互動的 world model。要做到低延遲、可因果 rollout、可回應鏡頭軌跡等操作，背後需要 camera control、autoregressive training、few-step distillation 及 streaming inference 等整套機制；minWM 正是把這些環節模組化，並用 Causal Forcing、Causal Forcing++、Teacher Forcing 與 asymmetric DMD 串連起來。

支援 4-step DMD inference，並提到 multi-GPU sequence parallelism
可用 pose strings 或 JSON 檔控制 camera trajectory
提供 debug-world-model，整理 loss NaN、jitter、camera drift 等常見失敗模式
提供 integrate-new-backbone，示範怎樣接入新的 video DiT
參考 backbone 包括 Wan2.1-T2V-1.3B、HY1.5-TI2V-8B，亦提到 HY Action2V、HY TI2V、Wan Action2V

項目的新意在於它同時處理「怎樣訓練」與「怎樣改造」。除了支援不同 backbone 與 condition injection 方式，也把團隊累積的排錯經驗與 Claude 協作流程寫進項目，令研究者或工程人員不只看到結果，還能理解常見錯誤從哪裡出現。

它的目標是 real-time interactive video world models，並附有對 camera trajectory quality、controllability training steps、minimal batch-size requirements 的實驗分析。不過公開資訊較偏向框架與流程，若你想比較單一模型跑分，這個項目更適合當作建立、重現及擴展 World Model 的工作底座。

GitHub： https://github.com/shengshu-ai/minWM

Categories: 開源, 香港科技大學, Agentic, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 視頻模型, 世界模型, 框架

Qwen-VLA 用單一模型打通機械人任務

2026 年 5 月 30 日

Qwen-VLA 是一個把視覺、語言與動作整合起來的項目，目標是用同一套模型處理機械人操作、導航，以及軌跡預測。過往很多 embodied intelligence 系統都只針對單一任務或單一機械人設計，結果是能力分散，換場景、換任務或換機體後便難以沿用。

這個項目以 Qwen3.5 Vision-Language Model 為基礎，再加入 DiT-based action decoder，令模型不只看圖和理解文字，還能產生連續動作與軌跡。研究團隊亦加入 embodiment-aware prompt conditioning，用機械人專屬文字描述去標示當前機體與控制方式，讓同一模型可支援多種 robot embodiments。

核心概念是把不同類型資料一同訓練，包括 robotics manipulation trajectories、human egocentric demonstrations、synthetic simulation data、vision-and-language navigation data，以及 auxiliary vision-language data。對開發者來說，這代表項目不是只做問答或只做控制，而是把 manipulation、navigation 與 trajectory prediction 放進同一個 action-and-trajectory prediction 框架。

重點可先看以下幾項：
– 用單一 Vision-Language-Action Model 處理多類 embodied 任務
– 同時支援文字回應、動作生成與軌跡生成
– 透過 embodiment-aware prompt conditioning 適配不同機械人平台
– 強調 out-of-distribution generalization，涵蓋光線、背景、物件配置與機體變化
– 適合研究通用機械人控制、跨任務遷移與多平台部署的人員

論文列出 Qwen-VLA-Instruct 在多個基準上有不錯表現，包括 LIBERO 97.9%、Simpler-WidowX 73.7%、RoboTwin-Easy/Hard 86.1/87.2%、R2R 的 69.0% OSR、RxR 的 59.6% SR；在真實世界 ALOHA 實驗亦錄得 76.9% average OOD success，在 DOMINO dynamic manipulation 有 26.6% zero-shot success rate。若你關注的是一個可橫跨任務、環境與 robot embodiments 的通用型項目，展示了統一式 Vision-Language-Action Modeling 的清晰方向。

Paper： https://arxiv.org/pdf/2605.30280

Categories: 阿里巴巴, Agentic, 模型, 世界模型, 中國

AgentDoG：輕量級 AI agent 安全護欄

2026 年 5 月 30 日

AgentDoG 1.5 是一個針對 AI agent 安全與對齊的項目，重點不只是事後評分，而是把風險診斷、訓練同線上護欄串連起來。它面對的是長流程規劃、工具調用，以及跨環境互動帶來的新風險，特別貼近 OpenClaw、Codex 這類 agent 場景。

使用這個項目時，可先到 Hugging Face 或 ModelScope 找出以 AgentDoG- 開頭的 checkpoints，再按自己要做的是安全分類、訓練還是線上監察去配合相應模型。對一般團隊來說，最容易理解的用途是把它當成部署前的安全檢查器，或部署中的即時守門員。

這個項目的核心進展，在於它用更新過的 agent safety taxonomy 配合 ATBench family，把安全問題拆成更細緻的風險類型，再用大約 1k 訓練樣本建立輕量版本。公開資料亦提到它提供 0.8B、2B、4B、8B 等型號，並支援 agentic SFT 與 RL 訓練流程，令成本和擴展性較易控制。

支援 AgentDoG-0.8B、AgentDoG-2B、AgentDoG-4B、AgentDoG-8B 等版本
針對 ATBench-Pro、AT-Codex、AT-Claw 等基準作安全診斷
標準 8-core 機器可支援超過 10,000 個並行 agentic environments
可作 training-free online guardrail，用於即時安全監察與介入

資料顯示，AgentDoG 1.5 在多個基準上可接近，甚至部分情況超過 GPT-5.4、Gemini-3-Flash、Qwen3.5-397B、Qwen3-235B、Qwen3-Guard 等模型；其中 AgentDoG-4B 與 AgentDoG-4B-U 的結果較突出。不過不同數據集差異明顯，較穩妥的看法是：它在 agent 安全這個窄而深的任務上很有競爭力。

這個項目較適合正在做 AI agent、工具調用工作流、企業自動化，或需要把安全檢查放進部署流程的團隊。若你關心的不是聊天效果，而是 agent 會否在複雜環境中做錯事、越權或造成真實風險，AgentDoG 的定位就相當清晰。

GitHub： https://github.com/AI45Lab/AgentDoG

Categories: 開源, Agentic, 安全, 模型, 編程, 中國, 上海人工智慧實驗室

Page 17 of 29

« Previous 1 … 15 16 17 18 19 … 29 Next »