MM-OCEAN：拆解 AI 人格判斷盲點

MM-OCEAN 是一個用來評估多模態大語言模型的基準項目，核心不是單看模型能否判斷一個人的人格傾向，而是檢查它有沒有根據影片中的可觀察行為去推理。它聚焦 Big Five 五大人格維度，並指出一個很值得關注的現象：不少模型即使評分答對，背後也未必有可靠證據支持。

這個項目解決的問題很清楚。以往不少評估只看最後分數，但人格判斷牽涉表情、語氣、動作和互動線索，單靠結果很難知道模型是「看懂了」，還是只是碰巧猜中。MM-OCEAN 進一步把評估拆成評分、文字解釋和線索對應三層，令研究者可以分辨模型是理解不足、胡亂補充，還是無法把線索整合成合理結論。

資料規模方面，項目包含 1,104 段 15 秒影片、約 13,500 條經人工核實的細粒度行為觀察、5,520 份有證據支持的人格分析，以及 5,320 題多項選擇題。倉庫亦提供評分腳本和提示模板，研究者可以依照既定流程，把自己的模型輸出放入同一套框架比較；相關評測涵蓋 27 個多模態模型，屬於頗完整的橫向觀察。

最有新意的地方，是它不把「答對」視為終點，而是加入幾種失誤指標去量化問題，例如答對但沒有線索依據、線索對了但推理不通，或找到線索卻得出錯誤結論。論文摘要提到，整體有 51% 的正確評分並非建立在檢索到的線索之上，而更嚴格的整體通過表現最高亦只有約 33.5%，這說明現時模型距離可靠的人格推理仍有明顯差距。

重點不是只計分數，而是同時檢查理由與證據是否一致
提供三層評估流程，較易看出模型錯在觀察、推理還是整合
涵蓋 27 個多模態模型，方便做基準比較
適合研究多模態理解、AI 安全、公平性與人機互動的團隊
可留意的相關模型類型，包括閉源與開源多模態大模型，但倉庫摘要未逐一列出名稱

對研究團隊、評測設計者，甚至關心 AI 是否會憑表面印象下判斷的人來說，MM-OCEAN 都很有參考價值。它不是一般可直接拿來日常應用的小工具，而是偏向研究與驗證用途；但正因如此，它把問題講得夠具體，亦讓人更清楚看到今天多模態模型在人格理解上仍有甚麼盲點。

GitHub： https://github.com/kkkcx/MM-OCEAN

Paper： https://arxiv.org/pdf/2605.22109