
Awesome-Multimodal-LLM-for-Code 是一份論文整理型資源庫(paper list / survey collection),專門蒐集「多模態大型語言模型(Multimodal LLM, MLLM)用於程式碼生成」相關的研究論文、基準測試與評估方法,核心任務是把「視覺輸入」與「程式碼輸出」串接起來,例如把 UI 截圖、圖表、SVG 向量圖、CAD 草圖轉成可執行的程式碼。
傳統的 text-to-code 研究主要處理純文字描述生成程式碼,但很多真實任務的意圖是透過圖片、影片或互動畫面來表達的,純文字範式無法處理版面配置、視覺語意與互動行為等約束。這個資源庫把研究切成清楚的子題,包括 Web/Mobile UI 程式碼生成、科學圖表程式碼生成、視覺豐富的程式設計題、SVG 生成、簡報生成、UML、CAD、海報、3D 點雲、遊戲程式碼,以及程式修復等,方便研究者按場景查找對應論文。
與一般 Awesome 列表相比,這份資源的差異在於聚焦於「視覺證據如何影響程式正確性」,並收錄了 Design2Code、ChartMimic、Chart2Code、StarVector、PPTAgent、ScienceAgentBench 等具代表性的基準測試與模型。從支援資料可以看到,附帶的 survey 論文進一步把領域分成 GUI、科學視覺化、結構化圖形與前沿任務四大類,並指出視覺相似度不足以評估正確性,還需要語意、互動與領域約束的證據。
對前端工程師、資料視覺化研究者、AI 程式碼助手開發者,以及做 benchmark 設計的人特別有用,能快速掌握 MLLM 在程式碼任務上的最新進展與評測方法。
重點摘要:
- 屬於論文整理資源庫,聚焦多模態程式碼生成
- 涵蓋 UI、圖表、SVG、CAD、簡報、3D 等十多個子題
- 收錄 Design2Code、ChartMimic、ScienceAgentBench 等基準
- 強調視覺相似度不足以評估程式正確性
- 原始資料未提供安裝或部署方式,僅供論文索引與閱讀
GitHub: https://github.com/xjywhu/Awesome-Multimodal-LLM-for-Code