多模態程式碼生成論文整理：視覺輸入如何改變寫程式

Awesome-Multimodal-LLM-for-Code 是一份論文整理型資源庫（paper list / survey collection），專門蒐集「多模態大型語言模型（Multimodal LLM, MLLM）用於程式碼生成」相關的研究論文、基準測試與評估方法，核心任務是把「視覺輸入」與「程式碼輸出」串接起來，例如把 UI 截圖、圖表、SVG 向量圖、CAD 草圖轉成可執行的程式碼。

傳統的 text-to-code 研究主要處理純文字描述生成程式碼，但很多真實任務的意圖是透過圖片、影片或互動畫面來表達的，純文字範式無法處理版面配置、視覺語意與互動行為等約束。這個資源庫把研究切成清楚的子題，包括 Web/Mobile UI 程式碼生成、科學圖表程式碼生成、視覺豐富的程式設計題、SVG 生成、簡報生成、UML、CAD、海報、3D 點雲、遊戲程式碼，以及程式修復等，方便研究者按場景查找對應論文。

與一般 Awesome 列表相比，這份資源的差異在於聚焦於「視覺證據如何影響程式正確性」，並收錄了 Design2Code、ChartMimic、Chart2Code、StarVector、PPTAgent、ScienceAgentBench 等具代表性的基準測試與模型。從支援資料可以看到，附帶的 survey 論文進一步把領域分成 GUI、科學視覺化、結構化圖形與前沿任務四大類，並指出視覺相似度不足以評估正確性，還需要語意、互動與領域約束的證據。

對前端工程師、資料視覺化研究者、AI 程式碼助手開發者，以及做 benchmark 設計的人特別有用，能快速掌握 MLLM 在程式碼任務上的最新進展與評測方法。

重點摘要：

屬於論文整理資源庫，聚焦多模態程式碼生成
涵蓋 UI、圖表、SVG、CAD、簡報、3D 等十多個子題
收錄 Design2Code、ChartMimic、ScienceAgentBench 等基準
強調視覺相似度不足以評估程式正確性
原始資料未提供安裝或部署方式，僅供論文索引與閱讀

GitHub： https://github.com/xjywhu/Awesome-Multimodal-LLM-for-Code