在動態場景中精確追蹤物體,一直是電腦視覺領域的一大挑戰。傳統的單目追蹤器常受限於深度模糊和遮擋問題,而現有的多攝影機解決方案又往往需要多達20多個攝影機,並進行繁瑣的逐序列優化。然而,一項由ETH Zürich等機構開發的創新技術——MVTracker,正以其獨特的方法,為多視角3D點追蹤領域帶來革命性的突破。
引領多視角3D追蹤進入數據驅動新時代
MVTracker 是首個數據驅動的多視角3D點追蹤器,專為在動態場景中追蹤任意點而設計。它的核心優勢在於,僅需使用少量實用的攝影機(例如四個),即可實現穩健且精確的線上追蹤,顯著超越了現有技術的限制。
這項技術的關鍵在於其前饋模型(feed-forward model),能夠直接預測3D對應關係。相較於過去需要大量攝影機和耗時優化的方法,MVTracker 提供了一個更高效、更實用的解決方案。
工作原理:融合、關聯與精煉
MVTracker 的運作機制精妙且高效。首先,它將來自多個視角的特徵融合到一個統一的3D特徵點雲中。 接著,它利用 k-最近鄰(kNN)相關性來捕捉跨視角的時空關係。 最令人矚目的是,MVTracker 運用基於 Transformer 的更新機制,迭代地精煉點軌跡。這使得它即使在物體被遮擋的情況下,也能可靠地估計長距離的3D對應關係,並且能夠適應不同的攝影機設置,而無需進行逐序列的優化。
要實現這一切,MVTracker 需要已知攝影機姿態,以及基於傳感器或估計的多視角深度資訊。在這些條件下,它能夠將多視角特徵融合成一個統一的點雲,進而實現穩定的追蹤。
**卓越的性能與廣泛的應用前景**
MVTracker 在嚴格的測試中展現了令人印象深刻的性能。它在5千個合成的多視角 Kubric 序列上進行訓練,並在兩個真實世界的基準測試——Panoptic Studio 和 DexYCB 上進行評估,分別達到了3.1厘米和2.0厘米的中位軌跡誤差。 此外,該方法對各種攝影機設置(1到8個視角)、不同視角和24到150幀的影片長度都具有良好的泛化能力。
MVTracker 的發布,連同其訓練和評估數據集,旨在為多視角3D追蹤研究設立一個新標準,並為實際應用提供一個實用的工具。 這項技術未來有望在機器人導航、擴增實境(AR)、虛擬實境(VR)以及動作捕捉等多個領域發揮巨大作用。
挑戰與展望:追求更完美的4D重建
儘管 MVTracker 取得了顯著成就,但其性能仍然高度依賴於場景的規範化處理。 目前的主要瓶頸在於4D重建:如何在稀疏視角設置下,獲得精確、時間一致且即時可用的深度圖。 如果深度和攝影機校準必須同時估計,重建中的誤差會迅速導致追蹤變得不可靠。
因此,未來的研究將可能聚焦於共同解決深度估計和追蹤問題,以實現相互改進,或者開發大規模的4D重建和追蹤基礎模型,充分利用數據和計算能力。 MVTracker 為這個令人興奮的研究方向奠定了堅實的基礎,並激勵著學術界和工業界共同探索更智能、更精確的3D點追蹤技術。