VisionThink 利用強化學習自主學習減少視覺 token。與傳統的高效 VLM 方法相比,這方法在
微粒度基準測試(例如涉及 OCR 相關任務的基準測試)上取得了顯著的提升。
由香港中文大學,香港大學,科技大學大聯合開發

VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning
VisionThink 利用強化學習自主學習減少視覺 token。與傳統的高效 VLM 方法相比,這方法在
微粒度基準測試(例如涉及 OCR 相關任務的基準測試)上取得了顯著的提升。
由香港中文大學,香港大學,科技大學大聯合開發