
MM-OCEAN 是一個用來評估多模態大語言模型的基準項目,核心不是單看模型能否判斷一個人的人格傾向,而是檢查它有沒有根據影片中的可觀察行為去推理。它聚焦 Big Five 五大人格維度,並指出一個很值得關注的現象:不少模型即使評分答對,背後也未必有可靠證據支持。
這個項目解決的問題很清楚。以往不少評估只看最後分數,但人格判斷牽涉表情、語氣、動作和互動線索,單靠結果很難知道模型是「看懂了」,還是只是碰巧猜中。MM-OCEAN 進一步把評估拆成評分、文字解釋和線索對應三層,令研究者可以分辨模型是理解不足、胡亂補充,還是無法把線索整合成合理結論。
資料規模方面,項目包含 1,104 段 15 秒影片、約 13,500 條經人工核實的細粒度行為觀察、5,520 份有證據支持的人格分析,以及 5,320 題多項選擇題。倉庫亦提供評分腳本和提示模板,研究者可以依照既定流程,把自己的模型輸出放入同一套框架比較;相關評測涵蓋 27 個多模態模型,屬於頗完整的橫向觀察。
最有新意的地方,是它不把「答對」視為終點,而是加入幾種失誤指標去量化問題,例如答對但沒有線索依據、線索對了但推理不通,或找到線索卻得出錯誤結論。論文摘要提到,整體有 51% 的正確評分並非建立在檢索到的線索之上,而更嚴格的整體通過表現最高亦只有約 33.5%,這說明現時模型距離可靠的人格推理仍有明顯差距。
- 重點不是只計分數,而是同時檢查理由與證據是否一致
- 提供三層評估流程,較易看出模型錯在觀察、推理還是整合
- 涵蓋 27 個多模態模型,方便做基準比較
- 適合研究多模態理解、AI 安全、公平性與人機互動的團隊
- 可留意的相關模型類型,包括閉源與開源多模態大模型,但倉庫摘要未逐一列出名稱
對研究團隊、評測設計者,甚至關心 AI 是否會憑表面印象下判斷的人來說,MM-OCEAN 都很有參考價值。它不是一般可直接拿來日常應用的小工具,而是偏向研究與驗證用途;但正因如此,它把問題講得夠具體,亦讓人更清楚看到今天多模態模型在人格理解上仍有甚麼盲點。