MiniCPM-V 4.5 視覺與語言結合

MiniCPM-V 的核心亮點在於其驚人的效率與效能平衡。儘管模型尺寸輕巧，例如 MiniCPM-V 2.0 僅有 2.4B 參數，而更新的 MiniCPM-V 2.4 則為 2.8B 參數，它們卻能展現出足以媲美甚至超越許多大型模型的實力，例如 LLaVA-1.5 7B/13B 或 Qwen-VL。這種「小而強大」的特性，使得 MiniCPM-V 在部署上更具彈性，降低了運算資源的需求，為更廣泛的應用場景開啟了大門。

MiniCPM-V 系列在多項關鍵能力上表現出色，尤其在 OCR（光學字元辨識）、物體偵測與視覺推理方面。它不僅能夠精準地從複雜圖像中提取文字資訊，還能有效地識別圖像中的物件，並進一步進行高層次的語義理解與推理。例如，MiniCPM-V 2.0 支援高達 640×640 像素的圖像解析度，而 MiniCPM-V 2.4 更將其提升至 768×768 像素，確保了在細節處理上的卓越表現。這意味著無論是文件處理、街景分析，還是需要深度圖像理解的應用，MiniCPM-V 都能提供可靠的解決方案。此外，該模型還支援多語言能力，進一步擴展了其全球應用的潛力。

MiniCPM-V 4.5: High-Refresh Rate Video Understanding MLLM

Watch this video on YouTube

更令人振奮的是，OpenBMB 已將 MiniCPM-V 開源，並且提供了友善的商用授權，這無疑將極大地推動多模態 AI 技術的普及與創新。這種開放策略不僅鼓勵了社群參與模型的改進與應用開發，也為企業和開發者提供了一個強大而可靠的工具，用於構建下一代的人機互動體驗。無論是智慧助手、內容創作工具，還是增強現實應用，MiniCPM-V 都能作為一個高效且靈活的視覺語言理解引擎。

MiniCPM-V是一系列高效的端到端多模態 LLM（MLLM），可接受圖像、視訊和文字作為輸入，並提供高品質的文字輸出。 MiniCPM -o也接受音訊作為輸入，並以端到端的方式提供高品質的語音輸出。自 2024 年 2 月以來，我們已發布了該模型的 7 個版本，旨在實現強大的效能和高效的部署。目前，該系列中最值得關注的模型包括：

MiniCPM-V 4.5：🔥🔥 MiniCPM-V 系列中最新、功能最強大的模型。該模型擁有總計 8B 參數，在視覺-語言能力方面超越 GPT-4o-latest、Gemini-2.0 Pro 和 Qwen2.5-VL 的 72B，成為開源社群中表現最高的裝置端多模態模型。此版本帶來了包括高效的高 FPS 和長視訊理解（視訊 token 壓縮率高達 96 倍）、可控的混合快速/深度思維、強大的手寫 OCR 以及複雜表格/文件解析等新功能。此外，它還進一步提升了 MiniCPM-V 的可信任行為、多語言支援和端側可部署性等熱門特性。
MiniCPM-o 2.6：⭐️⭐️⭐️ MiniCPM-o 系列中性能最強的模型。這款端到端模型擁有總計 8B 參數，在視覺、語音和多模態直播方面均達到了與 GPT-4o-202405 相當的性能，是開源社區中功能最豐富、性能最強的模型之一。新增的語音模式，MiniCPM-o 2.6支援雙語即時語音對話，語音可配置，同時也支援情緒/語速/風格控制、端對端語音克隆、角色扮演等趣味功能。得益於優越的 token 密度，MiniCPM-o 2.6 首次能夠在iPad 等端側設備上支援多模態直播。

總而言之，MiniCPM-V 系列模型代表了多模態人工智慧發展的一個重要里程碑。它成功地結合了輕量級設計、卓越性能與廣泛的應用潛力，證明了強大的人工智慧不必依賴於龐大的模型體積。透過其在 OCR、偵測和推理方面的卓越能力，以及其開源和商用友好的特性，MiniCPM-V 正逐步引領我們進入一個更智慧、更直觀的人機互動時代。