南京大學 Archives

2026 年 6 月 26 日

Awesome-Multimodal-LLM-for-Code 是一份論文整理型資源庫（paper list / survey collection），專門蒐集「多模態大型語言模型（Multimodal LLM, MLLM）用於程式碼生成」相關的研究論文、基準測試與評估方法，核心任務是把「視覺輸入」與「程式碼輸出」串接起來，例如把 UI 截圖、圖表、SVG 向量圖、CAD 草圖轉成可執行的程式碼。

傳統的 text-to-code 研究主要處理純文字描述生成程式碼，但很多真實任務的意圖是透過圖片、影片或互動畫面來表達的，純文字範式無法處理版面配置、視覺語意與互動行為等約束。這個資源庫把研究切成清楚的子題，包括 Web/Mobile UI 程式碼生成、科學圖表程式碼生成、視覺豐富的程式設計題、SVG 生成、簡報生成、UML、CAD、海報、3D 點雲、遊戲程式碼，以及程式修復等，方便研究者按場景查找對應論文。

與一般 Awesome 列表相比，這份資源的差異在於聚焦於「視覺證據如何影響程式正確性」，並收錄了 Design2Code、ChartMimic、Chart2Code、StarVector、PPTAgent、ScienceAgentBench 等具代表性的基準測試與模型。從支援資料可以看到，附帶的 survey 論文進一步把領域分成 GUI、科學視覺化、結構化圖形與前沿任務四大類，並指出視覺相似度不足以評估正確性，還需要語意、互動與領域約束的證據。

對前端工程師、資料視覺化研究者、AI 程式碼助手開發者，以及做 benchmark 設計的人特別有用，能快速掌握 MLLM 在程式碼任務上的最新進展與評測方法。

重點摘要：

屬於論文整理資源庫，聚焦多模態程式碼生成
涵蓋 UI、圖表、SVG、CAD、簡報、3D 等十多個子題
收錄 Design2Code、ChartMimic、ScienceAgentBench 等基準
強調視覺相似度不足以評估程式正確性
原始資料未提供安裝或部署方式，僅供論文索引與閱讀

GitHub： https://github.com/xjywhu/Awesome-Multimodal-LLM-for-Code

Relit-LiVE：令影片重新打燈更自然

2026 年 5 月 14 日

Relit-LiVE 是一個用來幫影片「重新打燈」的研究型專案。簡單講，就是把原本影片中的人物或場景，在不改動內容主體下，換成另一種光線效果，並盡量保持整段影片前後一致，不會一時光、一時暗。

這個專案較特別的地方，是它不依賴預先知道鏡頭姿態，並且會一同生成重打燈影片與環境光影片。這種做法有助提升物理一致性，令反光、陰影等細節看起來更合理，對比只逐格處理的方式，更重視時間上的穩定。

實際使用上，它目前較適合有 NVIDIA GPU 的使用者，官方亦建議至少 24GB VRAM，代表一般人未必適合在普通手提電腦直接試。現階段已提供推論程式與模型權重，但訓練流程、完整 inverse-forward pipeline，以及 Gradio 介面似乎仍未完全公開。

如果你是做影像研究、生成式影片實驗，或者想測試影片後期中的光照控制，這類工具會幾有參考價值。它未必是即開即用的消費級產品，但對需要高質感光影變化、又想減少畫面閃爍的人來說，方向相當清晰。

主要用途是把現有影片重新套用新的光照效果
重點創新是聯合生成環境光影片，提升連貫性與真實感
已公開推論代碼與 checkpoints，適合先做效果驗證
硬件要求偏高，較適合研究者或進階創作者
相關模型資訊可見權重路徑提到的 Wan2.1-T2V-1.3B，亦有 Hugging Face 模型發佈頁可供參考

整體來看，Relit-LiVE 最吸引之處不只是「換光」，而是嘗試令影片中的光影變化更像真實世界。若你關心影片生成中的物理合理性、時間穩定性，以及反射和陰影表現，這個專案值得加入觀察名單。

Source: https://github.com/zhuxing0/Relit-LiVE