ARM：把生圖與修圖收進同一模型

ARM 是一個 AutoRegressive Large Multimodal Model（ARM）類型的多模態模型，把圖像轉成離散 visual tokens，再以同一套 next-token prediction 處理理解、text-to-image 和指令式編輯，目標是把三種能力收進單一流程。

它的核心新意，是用 shared visual token space 連接看圖、生成與修圖，再以純 autoregressive multimodal modeling 處理交錯的文字與圖像 tokens。對一般讀者來說，可理解成「把圖片也變成語言模型可續寫的內容」。

• 7B 規模，重點在統一表示
• reinforcement learning（RL）結合 preference optimization
• WISE overall 由 0.50 升至 0.56
• GEdit-Bench-EN overall 由 5.75 升至 6.68

現階段較適合先讀論文和 benchmark。儲存庫節錄未見完整安裝、推理或權重說明，因此目前看來更像研究項目，不一定適合立即部署。

如果你關注 Large Multimodal Models（LMMs）、image editing，或想比較 unified autoregressive models，這個項目有參考價值。可對照的相關模型路線，包括 unified autoregressive models 與主流 image generation systems；論文亦提到它在 GenEval、DPG、WISE 具競爭力。

GitHub： https://github.com/wdrink/ARM

Paper： https://arxiv.org/pdf/2606.11188