NVidia Motive 影片動態框架

Motive 是個專門針對「動作/時間動態」的標記框架,用梯度 + motion 加權 mask,微調 clip 對生成影片 motion 的影響量化,拿來做 dataset curation,顯著提升 T2V 模型的時間一致性與物理合理性。據我們所知,這是第一個在影片生成模型中對運動而非視覺外觀進行歸因,並將其用於微調資料整理的框架。

這視覺模型能幫影片找出「哪個參考影片,真正決定它的動作怎麼動」,然後用這些資訊來挑更好的訓練素材,讓生成影片的動作更順、更合理。​

Categories: 開源, NVIDIA

PlenopticDreamer – NVidia 解決影片一致性

PlenopticDreamer 主要解決「鏡頭控制生成影片」的不一致問題。這是一個能讓 AI「像無人機一樣繞著物體飛」生成影片的技術。它可以應用在自駕車的模擬環境、機器人的視覺訓練,以及好萊塢等級的虛擬拍攝。

1.  Robotics(機器人):

    *   情境模擬: 機器人需要理解物體在不同角度下的樣貌。這個技術可以根據單一攝影機的畫面,生成該物體在其他視角的影像,幫助機器人進行視覺導航或物體抓取的訓練。

    *   模擬數據生成: 為機器視覺系統生成更多樣化的訓練數據。

2.  Self-Driving(自駕車):

    *   場景理解: 自駕車通常有多個鏡頭。這個技術可以補足盲區,或者將一個鏡頭的畫面轉換成其他鏡頭的視角,幫助車輛更全面地感知周圍環境。

    *   未來幀預測: 預測道路上物體在下一秒鐘會出現在哪個位置(從不同角度)。

3.  影視製作與 AR/VR:

    *   新視角補全: 如果拍攝時漏掉了某個角度,可以利用這個技術「憑空生成」該角度的連續影片。

    *   重定向(Re-direction): 可以將拍好的影片,根據新的鏡頭軌跡重新渲染(Re-rendering),讓同一段故事可以從不同角度重新看一遍。

Categories: 開源, 香港中文大學, NVIDIA, 影像模型, 影像處理, 視覺模型, 視頻模型

三圖看清 TPU Vs NVIDIA

  • Google 把 TPU 和光學交換 (OCS)、資料中心網路一起設計,TPU Pod / AI Hypercomputer 可以提供極高的叢集帶寬與低延遲通訊,對大模型分布式訓練與推論特別有利。​​
  • 這種「晶片+網路+機架一體設計」降低了多機同步開銷,使得在數千顆 TPU 上做 data / model parallel 相對簡化,對超大規模模型(Gemini 級別)非常關鍵。
Categories: Google, NVIDIA

Page 3 of 3
1 2 3