visually_grounded_thinking：讓 VLM 推理同時指向圖片證據

現時不少 Vision-Language Models（VLMs）做視覺推理時，通常只輸出文字思路，證據其實來自圖片哪一部分，模型未必講得清。作者認為這種 text-only reasoning trace 難驗證、亦難監督，所以提出 visually grounded thinking：在推理文字中插入 <obj>...</obj>，直接標示 point 或 box 座標，將語句同圖片區域綁在一起。

這不是單純加標籤的格式改動，而是一套訓練與評測流程。項目先用 open-source counting 與 spatial reasoning datasets 合成帶視覺依據的思路，再用 SAM3-based grounding agent 產生 mask supervision，之後分別用 SFT 與 GRPO 訓練；RL 階段再靠 grounding-aware reward，以 box IoU 或 point F1 檢查模型指向的物件是否對應正確證據。

同類做法多數關注答案啱唔啱，這個項目連中間引用的圖像證據都計分，取向明顯較重視可驗證性。不過代價亦很清楚：資料製作、物件對齊、reward routing 都更複雜，訓練門檻比只做文字 reasoning 高，較適合已經有 VLM 訓練流程的研究團隊。

在 counting benchmarks 與 spatial reasoning benchmarks，加上 visually grounded thinking 的 Gemma3-4B-IT 普遍優於原版模型與 non-grounded thinking baseline；在部分空間推理任務，4B 版本甚至可追上或超過 Gemma3-27B-IT。作者亦指出 point grounding 較適合 counting，而 box grounding 在 spatial tasks 配合 grounding rewards 效果更突出。

類型上，它屬於 VLM 訓練框架加研究代碼，重點是改善視覺推理過程缺乏可核對證據的問題。
儲存庫已分開 data_synthesis_pipeline、agent、rl_reward、sft_dataset、VLMEvalKit 與 scripts，結構算清晰，理解流程會比直接改模型權重更重要。
部署思路偏研究用途，較可能需要 Docker 環境、SFT/RL 訓練配置，以及自備算力，而不是即裝即用的終端工具。
相關模型與元件包括 Gemma3-4B-IT、Gemma3-27B-IT、SAM3、GRPO、SFT、VLMEvalKit。
適合關注可解釋視覺推理、VQA、counting、spatial reasoning，或者想把中間推理變成可監督訊號的團隊。

GitHub： https://github.com/Jun-Kai-Zhang/visually_grounded_thinking

Paper： https://arxiv.org/pdf/2606.16122