百度 – InferNews

Unlimited-OCR：長文件 OCR 新取向

2026 年 6 月 25 日

Unlimited-OCR 是一個 OCR 視覺文字辨識模型項目，也可視為一個針對長文件解析而改造的研究原型。它主要用來把圖片或 PDF 內的大量文字與版面內容一次過轉成可輸出的解析結果，重點是處理多頁文件時盡量減少記憶體負擔。

現有 end-to-end OCR 做法以 DeepSeek-OCR 為代表，會用 large language model（LLM）作 decoder，優點是能借助語言先驗提升辨識效果，但輸出一長，KV cache 會一路累積，令顯存需求上升、生成愈來愈慢。Unlimited-OCR 的做法是保留高壓縮 encoder，再把 decoder 的 attention 層改成 Reference Sliding Window Attention（R-SWA），讓每個 token 持續關注 reference tokens 與有限長度的前文，目標是把 KV cache 維持在常數規模。

這個取向最值得留意的地方，不是單純追求單頁最高精度，而是把「one-shot long-horizon parsing」放在核心位置。跟一般 full attention 比，它犧牲的是傳統全域注意力形式，換來多頁文件在 32K 長度下仍可做單次 forward pass；跟 vanilla SWA 比，它又保留 visual tokens 作為穩定參照，避免狀態傳遞後愈來愈模糊。

部署路線相當明確：項目提供 Hugging Face Transformers 推理方式，測試環境寫明需 NVIDIA GPU，並以 Python 3.12.3、CUDA 12.9 為基礎；單張圖片可在 gundam 與 base 兩種設定中選擇，多頁與 PDF 則使用 base 配置。想先了解效果，也可直接看 Hugging Face Spaces demo 或 ModelScope 版本，再決定是否自行落地。

類型定位：OCR 模型／研究原型，解決長文件、多頁解析時記憶體與速度惡化問題
核心差異：以 Reference Sliding Window Attention（R-SWA）取代 decoder 全部 attention layers
適合情境：長 PDF、批量文件數碼化、需要版面解析與長輸出的團隊
相關模型：DeepSeek-OCR、Unlimited-OCR；文中亦提到 R-SWA 可延伸到 ASR、translation
限制判斷：目前公開資訊主力放在推理與方法設計，具體評測數字仍要回看 arXiv 論文原文才適合作更細比較

對需要處理保單、報表、掃描檔、書籍或多頁行政文件的團隊，這個項目的吸引力會比一般單頁 OCR 更高。若你的工作重點是短文字截圖、手機快拍辨識，Unlimited-OCR 的優勢未必完全發揮，但對長輸出穩定性與部署在 GPU 環境的可行性，它展示了一條很清楚的改良路線。

GitHub： https://github.com/baidu/Unlimited-OCR

Paper： https://arxiv.org/pdf/2606.23050

Categories: 開源, NVIDIA, DeepSeek, Image, Python, Python NLP, 模型, 視覺模型, Meta, 百度

Memento：把長片段角色一致性補回來

2026 年 6 月 17 日

Memento 是一個影片生成框架，重點解決長篇、多鏡頭故事影片中角色外觀容易前後不一致的問題。傳統做法多半只顧下一段鏡頭看起來合理，Memento 則把「能否從記憶重建角色」當成身份是否被保留的檢查方式。

它的做法是把全局故事描述、每個 shot 的文字提示，連同歷史記憶一起送入生成流程，逐鏡頭自回歸地產生影片。使用時可準備對應格式的 JSON 故事腳本，再配合提供的權重與基礎模型做推理；項目也支援訓練與輸出完整影片。

GitHub： https://github.com/ernie-research/Memento

項目： https://ernie-research.github.io/Memento/

Categories: 開源, Agentic, Video, 庫, 模型, 模型訓練, 視頻模型, 百度, 框架

AHA-WAM：讓機械人決策一致的世界動作模型

2026 年 6 月 10 日

機械人學習操作技能時，往往要把「預測未來畫面」和「即時輸出動作」綁在同一個節奏上，導致規劃與控制互相拉扯。上海交通大學、百度智能雲及上海人工智能實驗室等團隊提出的 AHA-WAM（Asynchronous Horizon-Adaptive World-Action Modeling）項目，就是要把兩者拆開來處理。

核心架構：雙分支異步運作

AHA-WAM 採用兩個 Diffusion Transformer（DiT）分支：低頻的 video DiT 負責長程的視覺世界規劃，並利用滾動式 K/V 記憶體儲存可重用的上下文；高頻的 action DiT 則接收本體感覺訊號，向 video DiT 查詢所需上下文後，即時產生短時閉環動作區塊。兩者各司其職，避免互相拖累。

兩項關鍵訓練與推論機制

Horizon-Adaptive Offset Training（水平自適應偏移訓練）：讓執行器在規劃器與執行器出現相位差時仍能穩定運作。
Observation-Guided Video-Context Routing（觀察引導的視覺上下文路由）：根據最新觀察調整快取的規劃上下文，無需重新運行 video DiT 即可對齊當下狀態。

實測表現亮眼

在 RoboTwin 2.0 模擬環境的 50 項雙臂任務中，AHA-WAM 達到 92.80% 平均成功率，且無需任何機械人數據預訓練；在四項原始設定的真實雙手任務中則取得 78.33% 成功率。控制頻率方面，閉環頻率達 24.17Hz；經 ODE 蒸餾的輕量版 AHA-WAM-Flash 更可達 56.95Hz，相比 Fast-WAM 提升約 10.82 倍。

AHA-WAM 適合研究世界模型、機械人操控策略，以及追求高頻閉環控制的開發團隊；其異步架構亦為離線規劃與即時控制分離的設計思路提供新參考。

項目： https://serene-sivy.github.io/aha-wam/

Categories: 開源, 香港大學, 模型, 視頻模型, 世界模型, 百度, 上海人工智慧實驗室

PaddleOCR 把圖片和 PDF 變成 LLM 吃得到的結構化資料

2026 年 6 月 3 日

處理 PDF 和圖片一直是企業導入 LLM 應用時最頭痛的關卡，傳統 OCR 工具只會吐出零散文字，遇到表格、公式或多語言混排就頻頻出錯。PaddleOCR 由百度 PaddlePaddle 團隊開源，目標是把雜亂的掃描檔和圖片整理成 LLM 友善的 JSON 或 Markdown，後續無論餵給 RAG 檢索還是 Agent 流程都更順暢。

這個項目以兩個核心模型撐起整套能力。PaddleOCR-VL-1.6 是一款 0.9B 參數的視覺語言模型，專注文件解析，在 OmniDocBench v1.6 取得 96.33% 分數，對古文、罕見字、印章及圖表也有顯著強化。PP-StructureV3 則補足了另一條路線，提供表格儲存格、文字等更細粒度的座標資訊，方便需要版面重建的場景。最新版 PP-OCRv5 支援 100 多種語言，準確度較前代提升約 13%，同時保持輕量部署特性，可在 CPU、GPU、NPU 等不同硬體運行。

目前的 LLM-RAG 開源生態中，Dify、RAGFlow、Cherry Studio 等知名項目都採用 PaddleOCR 作為文件解析層，社群也累積超過 6,000 個依賴它的下游項目。對需要批次處理合約、研究論文、政府公文或多語文件的人來說，這套工具兼具商用級準確度與邊緣裝置可用的效率，動手前只要準備好 Python 3.8 至 3.12 環境即可開始試跑。

重點摘要

PaddleOCR-VL-1.6 (0.9B) 在 OmniDocBench v1.6 達到 96.33%，輕量卻具競爭力。
PP-StructureV3 補足細粒度座標，適合需要表格與版面重建的應用。
PP-OCRv5 支援逾 100 種語言，準確度較前代提升約 13%，硬體需求低。
已被 Dify、RAGFlow、Cherry Studio 等 LLM 應用項目整合採用。
GitHub 逾 7 萬顆星、6,000 多個依賴項目，社群驗證度高。

GitHub： https://github.com/PaddlePaddle/PaddleOCR

Paper： https://arxiv.org/pdf/2606.03264

Categories: 開源, 模型, 視覺模型, 中國, Dataset 數據集, 百度