ShutterMuse：拍照當下即時引導構圖與姿勢的多模態模型

ShutterMuse 是一個統一的多模態大型語言模型（MLLM），專門用於拍照瞬間的攝影引導，解決「按下快門前該怎麼構圖、被攝者該擺什麼姿勢」這個長期被忽略的問題。傳統做法多以「事後美學裁剪」為主，只評估模型能否從既有照片中挑出最佳裁切區域，卻沒有涵蓋拍攝當下的構圖決策，更完全不處理被攝者的姿勢推薦；通用型 MLLM 雖然能給出構圖建議，卻難以精準定位需要調整的區域，而專門的美學裁剪模型雖然定位能力強，卻只能處理裁切這一項任務，兩者皆無法提供結構化、可即時執行的姿勢指引。ShutterMuse 透過同時輸出「保留／微調／重拍」三類構圖決策，搭配 COCO-17 關鍵點與可見度資訊的姿勢骨架，把拍攝引導整合成單一模型。

CaptureGuide-Bench 與 CaptureGuide-Dataset 是這個項目的兩大支柱：前者涵蓋構圖決策／微調與姿勢推薦兩類互補任務，後者包含約 13 萬筆樣本，附帶文字推理與結構化視覺標註，供監督式微調與強化學習微調使用。從評測結果來看，ShutterMuse 在攝影師端引導的 IoU 達到 74.30、BDE 降至 0.054、MLLM-Score 為 0.64，皆優於 Gemini-3.0-Pro、GPT-5.5 與 Venus 等對照組；在被攝者端姿勢推薦方面，平均分數與互動性指標亦具競爭力，且推論時間與 token 消耗明顯低於 Nano-Banana-Pro 與 GPT-Image-2。

這個項目由復旦大學與 StepFun 共同開發，模型權重、評測腳本與範例已於 Hugging Face 與 GitHub 同步釋出。原始資料提供了模型下載連結與項目頁面的示範影片，部署細節需參考項目頁面或模型卡片的後續說明。

重點摘要

統一處理構圖決策（保留／微調／重拍）與姿勢推薦兩類拍攝引導任務
隨附 CaptureGuide-Dataset（13 萬樣本）與 CaptureGuide-Bench 兩項資源
在 CaptureGuide-Bench 多項指標上超越 Gemini-3.0-Pro、GPT-5.5 與 Venus
姿勢推薦推論成本低於 Nano-Banana-Pro 與 GPT-Image-2
適合攝影教學、智慧相機助理、AR 拍攝引導等需要即時回饋的場景

對攝影 App 開發者、相機廠商研究團隊，或任何想把「構圖教練」與「姿勢教練」整合進拍攝流程的產品而言，ShutterMuse 提供了一個可直接微調與評測的起點；至於一般使用者，則可先透過 Hugging Face 上的模型權重與項目頁面示範影片了解其能力，再依官方後續釋出的腳本進行本地部署。

GitHub： https://github.com/lijayuTnT/ShutterMuse

項目主頁： https://lijayutnt.github.io/ShutterMuse/

模型： https://huggingface.co/ShutterMuse/ShutterMuse