
現有 Vision-Language Models(VLMs)多數按「被動答題」範式訓練:人類或外部模型先提供問題,模型再學習回答。論文認為這種 fixed inputs 做法受制於靜態資料分佈,Visual Question Generation(VQG)亦容易卡在標註成本高、題目深度不足這兩個瓶頸,所以 SeeQ 提出 Self-Evolving Visual Questioner,用同一個 VLM 同時做 proposer 與 filter,自動從未標註圖片生產更難、更貼近畫面內容的問題。
這個項目屬於框架兼研究型工具,重點不是再做一個普通題庫,而是建立完整流水線:先生成 seed questions,再反覆改寫,提升 visual search、context 與 spatial reasoning 要求,之後再由模型自行過濾。作者同時加入 exploration diversity 控制,目標是避免訓練一路收窄,最後只剩單一風格題目。
如果你想試,較合理的做法是先準備圖片對應的 JSON 輸入,再分開看 generation 與 evaluation 兩部分輸出。倉庫內沒有附模型權重、數據集與快取,評測亦會用到 image-capable OpenAI evaluator 與 Qwen embedding models,所以較適合已經有 VLM 環境、想驗證自動出題流程的研究者或多模態團隊。
- 以未標註圖片開始,自動生成、改寫、過濾視覺問題
- 保留 Agentic evaluation,從 visual search、evidence coverage、context、spatial reasoning 評分
- 另用 Qwen embedding models 檢查整體多樣性,不只看單題質素
- 強調 zero external supervision,不依賴人工標註或 GPT-4V 這類外部 teacher models
創新點在於它不單止用 VLM 產生問題,還把「提問能力」當成可自我增強的訓練訊號,並且把 questioner 與 answerer 兩種模式一起考慮。按論文說法,這套方法在多個 backbone VLMs 上都能提升問題質素,亦把自動出題的難度邊界推高;同樣預算下,比直接用靜態來源資料訓練更有效,而模型的 answerer 能力亦未有明顯犧牲。
相關模型與元件方面,倉庫內容顯示生成流程可配合 Qwen2.5 3B 類型設定,評測會用 OpenAI 的可看圖評估器,以及 Qwen embedding models。若你關心多模態訓練、合成數據、或想建立能自己發問再自我改良的 Agentic workflow,SeeQ 的方法論比單純看分數更有參考價值。









