ViQ 想把影像變成更懂語意的離散碼

ViQ 是一個視覺量化表示研究框架，也是把影像轉成離散 codes 的模型方法。它要解決的問題，是讓圖片像文字 token 一樣可交給多模態大模型處理，同時盡量不要在量化過程丟失太多語意與畫面細節。

現有做法常見兩條路：一類偏重重建，還原畫面能力較好，但語意資訊不足；另一類依賴 contrastive vision-language learning 的連續特徵，語意較強，卻不容易直接變成高品質離散表示。ViQ 的切入點是先做 Text-Aligned Pre-training，再做量化學習，把「先對齊語言語意、後逐步離散化」拆成清楚兩段。

它的核心設計有幾個辨識度很高的部件：以 pretrained language model 監督視覺編碼器、用 resized positional embedding 與 native patchify 支援 any-resolution input、再用 Proximal Representation Learning 配合 L∞-norm 約束，把特徵逐步推近量化錨點，最後交給 position-aware、head-wise FSQ（Finite Scalar Quantization）處理。論文亦提到基座可接 SigLIP2 vision tower、Qwen2.5 backbone，並透過 LoRA 等輕量組件訓練量化部分，而不是全面微調整個系統。

支援任意解析度輸入，不用被固定尺寸綁死
目標不是只重建圖片，而是兼顧語意理解與細節
多模態訓練可直接吃離散視覺 codes，論文稱效率可提升約 20% 至 70%
已公開訓練與推論程式，並提供 HuggingFace 權重

從部署與測試角度看，這個 GitHub 儲存庫較適合當研究實作與模型驗證項目來理解：可先用已公開權重跑 inference，觀察影像如何被編成離散 codes，再進一步重現單階段訓練示例，之後才嘗試論文中的兩階段 recipe。較受惠的會是做 MLLM、視覺 tokenization、影像重建或訓練加速的團隊；限制則是概念與訓練流程都不算輕，重點較偏研究價值，未必是即裝即用的通用工具。

GitHub： https://github.com/yuxumin/ViQ

Paper： https://arxiv.org/pdf/2606.27313