多模態程式碼生成論文整理:視覺輸入如何改變寫程式

mllm code logo

Awesome-Multimodal-LLM-for-Code 是一份論文整理型資源庫(paper list / survey collection),專門蒐集「多模態大型語言模型(Multimodal LLM, MLLM)用於程式碼生成」相關的研究論文、基準測試與評估方法,核心任務是把「視覺輸入」與「程式碼輸出」串接起來,例如把 UI 截圖、圖表、SVG 向量圖、CAD 草圖轉成可執行的程式碼。

傳統的 text-to-code 研究主要處理純文字描述生成程式碼,但很多真實任務的意圖是透過圖片、影片或互動畫面來表達的,純文字範式無法處理版面配置、視覺語意與互動行為等約束。這個資源庫把研究切成清楚的子題,包括 Web/Mobile UI 程式碼生成、科學圖表程式碼生成、視覺豐富的程式設計題、SVG 生成、簡報生成、UML、CAD、海報、3D 點雲、遊戲程式碼,以及程式修復等,方便研究者按場景查找對應論文。

與一般 Awesome 列表相比,這份資源的差異在於聚焦於「視覺證據如何影響程式正確性」,並收錄了 Design2Code、ChartMimic、Chart2Code、StarVector、PPTAgent、ScienceAgentBench 等具代表性的基準測試與模型。從支援資料可以看到,附帶的 survey 論文進一步把領域分成 GUI、科學視覺化、結構化圖形與前沿任務四大類,並指出視覺相似度不足以評估正確性,還需要語意、互動與領域約束的證據。

前端工程師、資料視覺化研究者、AI 程式碼助手開發者,以及做 benchmark 設計的人特別有用,能快速掌握 MLLM 在程式碼任務上的最新進展與評測方法。

重點摘要:

  • 屬於論文整理資源庫,聚焦多模態程式碼生成
  • 涵蓋 UI、圖表、SVG、CAD、簡報、3D 等十多個子題
  • 收錄 Design2Code、ChartMimic、ScienceAgentBench 等基準
  • 強調視覺相似度不足以評估程式正確性
  • 原始資料未提供安裝或部署方式,僅供論文索引與閱讀

GitHub: https://github.com/xjywhu/Awesome-Multimodal-LLM-for-Code

Categories: 開源, 香港, 香港大學, 香港中文大學, 編程, 中國, 南京大學

Relit-LiVE:令影片重新打燈更自然

Nanjing University

Relit-LiVE 是一個用來幫影片「重新打燈」的研究型專案。簡單講,就是把原本影片中的人物或場景,在不改動內容主體下,換成另一種光線效果,並盡量保持整段影片前後一致,不會一時光、一時暗。

這個專案較特別的地方,是它不依賴預先知道鏡頭姿態,並且會一同生成重打燈影片與環境光影片。這種做法有助提升物理一致性,令反光、陰影等細節看起來更合理,對比只逐格處理的方式,更重視時間上的穩定。

實際使用上,它目前較適合有 NVIDIA GPU 的使用者,官方亦建議至少 24GB VRAM,代表一般人未必適合在普通手提電腦直接試。現階段已提供推論程式與模型權重,但訓練流程、完整 inverse-forward pipeline,以及 Gradio 介面似乎仍未完全公開。

如果你是做影像研究、生成式影片實驗,或者想測試影片後期中的光照控制,這類工具會幾有參考價值。它未必是即開即用的消費級產品,但對需要高質感光影變化、又想減少畫面閃爍的人來說,方向相當清晰。

  • 主要用途是把現有影片重新套用新的光照效果
  • 重點創新是聯合生成環境光影片,提升連貫性與真實感
  • 已公開推論代碼與 checkpoints,適合先做效果驗證
  • 硬件要求偏高,較適合研究者或進階創作者
  • 相關模型資訊可見權重路徑提到的 Wan2.1-T2V-1.3B,亦有 Hugging Face 模型發佈頁可供參考

整體來看,Relit-LiVE 最吸引之處不只是「換光」,而是嘗試令影片中的光影變化更像真實世界。若你關心影片生成中的物理合理性、時間穩定性,以及反射和陰影表現,這個專案值得加入觀察名單。

Source: https://github.com/zhuxing0/Relit-LiVE

Categories: 開源, 影像處理, 模型, 視覺模型, 視頻模型, 中國, 清華大學, 南京大學