HumanNet：百萬小時影片庫，點樣幫AI更識人類動作

HumanNet 是一個以「人類活動」為核心的大型影片資料庫，目標是幫研究團隊訓練模型，更準確理解動作、互動同身體運動。它收集接近百萬小時影片，重點不只是片量大，還包括第一身與第三身視角的配對，以及動作相關標註。

實際使用上，這個專案較適合做 AI 研究、資料集分析，或者作為影片理解模型的預訓練基礎，而不是一般用家即裝即用的應用程式。現階段公開資訊顯示，完整語料、整理流程同驗證程式碼仍在陸續釋出，較像研究預覽版本。

它最值得留意的創新，是把資料整理流程本身當成核心設計，包括以人為中心的篩選、視角分類、去重、品質控制同私隱審查。相比單純堆影片數量，HumanNet 更著重資料是否適合訓練模型理解細緻動作，這點對機械人學習同具身智能尤其重要。

根據項目提供的結果，在受控的 vision-language-action 後訓練設定下，用 HumanNet 內約 1,000 小時第一身影片作初始化，效果可追近甚至略勝較少量真實機械人資料，亦明顯縮窄與超大型機械人資料基線的差距。這代表當機械人實拍數據昂貴又難收集時，人類第一身影片可能是更可擴展的替代方案。

做什麼：提供大規模人類活動影片，用於動作理解、影片學習與具身 AI 預訓練。
點樣用：適合研究人員用來訓練、初始化或評估影片與動作模型。
主要特色：兼有第一身與第三身視角，並附說明文字、動作、手部與身體訊號。
最適合場景：機械人學習、活動辨識、從影片學習操作行為。
要注意：目前看來仍屬研究預覽，部分資料與流程尚未完全公開。

Source: https://github.com/DAGroup-PKU/HumanNet