CoV 提升視覺語言的空間推理能力

CoV (Chain-of-View Prompting for Spatial Reasoning) 可以用於各種需要在複雜三維環境中進行精確空間理解的場景。例如 VR 和 AR,CoV 可以幫助系統更好地理解和響應用戶在虛擬環境中的查詢,提供更自然、更沉浸式的體驗。在自動駕駛領域,CoV 可以增強車輛對周圍環境的理解能力,提高其在複雜道路條件下的導航和決策能力。

CoV 提出一種創新方法,專門針對在三維環境中的具身問答(Embodied Question Answering, EQA)問題。傳統的視覺語言模型(Vision-Language Models, VLMs)受限於固定的輸入視角,這使得它們在推理過程中無法動態地獲取與問題相關的上下文信息,進而限制了複雜空間推理的能力。CoV 通過引入一種免訓練、僅在測試階段運行的框架來解決這一問題,該框架能夠讓 VLMs 變成主動的視角推理器。

Categories: Qwen, 視覺模型, 開源

VideoAuto-R1 一次思考,兩次回答視頻推理

VideoAuto-R1 採用了一種「當需要時才推理」的策略。這種策略在訓練階段遵循「一次思考,兩次回答」的範式,即模型首先生成一個初步答案,然後進行推理,最後輸出一個經過審核的答案。這兩個答案都通過可驗的獎勵進行監督。在推理階段,模型使用初步答案的置信度分數來決定是否繼續進行推理過程。Meta 在 VideoAuto-R1 專案中扮演研究合作與工程貢獻角色。

Screenshot

1. 視頻問答系統:VideoAuto-R1 可以應用於各種視頻問答任務,提高系統在理解和回答視頻內容方面的準確性,同時降低計算成本。

2. 教育與培訓:在線教育平台可 leverage 這種技術來提供更智能的學習助手,幫助學生理解複雜的視頻內容,並根據需要提供針對性的解釋。

3. 互動式媒體:增強視頻內容的互動性,例如通過自動推理來回答用戶關於視頻內容的問題。

4. 智能監控:在安全監控系統中,VideoAuto-R1 可以用來分析和解釋監控視頻中的活動,從而提高安全性和監控效率。

5. 自動化客戶服務:在客服領域,該技術可以幫助自動化回答客戶關於產品或服務視頻的問題,提供更個性化的客戶體驗。

6. 內容創作與編輯:視頻創作者可以利用這種技術來自動化地生成視頻描述和解釋,從而簡化內容創作和編輯過程。

7. 多模態學習和研究:VideoAuto-R1 作為一種多模態理解技術,可以促進自然語言處理和電腦視覺領域的研究。

Screenshot
Categories: Qwen, 視覺模型, 開源

Qwen3-VL-Embedding-2B

「Qwen3-VL-Embedding-2B」是 Qwen 家族中最新的多模態信息檢索和交叉模態理解模型。可在同一向量空間做相似度計算,方便做「跨模態檢索」與「圖文混合檢索」。

Embedding 維度可控:預設最高 2048 維,但支援使用者自訂輸出維度 64–2048,可依儲存成本與下游模型需求調整(例如 256/512 維用於向量 DB)。

模型規模與 context length:2B 參數,context 長度 32k,適合放在邊緣或低資源伺服器上,同時能處理長文檔、多 frame 影片描述等輸入。

模型Gemini Multimodal EmbeddingsQwen3-VL-Embedding (2B/8B)
模態支援文字、圖片、video(含 audio 軌道,1 FPS + 音頻特徵)文字、圖片、截圖、video(多 frame),混合任意組合
語言多語(英文主導)30+ 語言,強中文/多語對齊
維度固定 1408可自訂 64–4096(預設 2048)
ContextVideo 上限 1-3 小時32K tokens(長影片多 frame)
開源否(API)是(HF/GitHub,Apache 2.0)
成本$0.0001/1000 chars(text),更高 video/image免費本地,GPU 硬體成本
整合Vertex AI / Gemini API,易 scaleTransformers/vLLM,量化友好
  • 1. 圖像和文本檢索系統:可以用於基於文本描述搜索相關圖像,或者基於圖像內容搜索相關文本描述。
  • 2. 視頻推薦平台:將視頻和文本描述映射到共享表示空間,以提高視頻推薦的準確性。
  • 3. 多模態內容管理:對於包含圖像、文本和視頻的大型數據集,可以進行有效的內容聚類和組織。
  • 4. 社交媒體分析:分析和理解跨文本和圖像的用戶生成內容。
  • 5. 教育和培訓:藉助於視覺問答和多模態學習材料,提供個性化的學習體驗。
Categories: 阿里巴巴, Qwen, Embedding, 多模態模型, 視覺模型, 開源

PlenopticDreamer – NVidia 解決影片一致性

PlenopticDreamer 主要解決「鏡頭控制生成影片」的不一致問題。這是一個能讓 AI「像無人機一樣繞著物體飛」生成影片的技術。它可以應用在自駕車的模擬環境、機器人的視覺訓練,以及好萊塢等級的虛擬拍攝。

1.  Robotics(機器人):

    *   情境模擬: 機器人需要理解物體在不同角度下的樣貌。這個技術可以根據單一攝影機的畫面,生成該物體在其他視角的影像,幫助機器人進行視覺導航或物體抓取的訓練。

    *   模擬數據生成: 為機器視覺系統生成更多樣化的訓練數據。

2.  Self-Driving(自駕車):

    *   場景理解: 自駕車通常有多個鏡頭。這個技術可以補足盲區,或者將一個鏡頭的畫面轉換成其他鏡頭的視角,幫助車輛更全面地感知周圍環境。

    *   未來幀預測: 預測道路上物體在下一秒鐘會出現在哪個位置(從不同角度)。

3.  影視製作與 AR/VR:

    *   新視角補全: 如果拍攝時漏掉了某個角度,可以利用這個技術「憑空生成」該角度的連續影片。

    *   重定向(Re-direction): 可以將拍好的影片,根據新的鏡頭軌跡重新渲染(Re-rendering),讓同一段故事可以從不同角度重新看一遍。

Categories: 香港中文大學, NVIDIA, 影像模型, 影像處理, 視覺模型, 視頻模型, 開源

RoboVIP 訓練機器人的模擬數據生成

RoboVIP 解決機器人領域中,真實世界訓練數據不足且難以大量取得的痛點。RoboVIP 是一個機器人數據生成工具,它讓研究者能用更聰明、更可控的方式製造模擬數據,進而訓練出更強大、更不容易出錯的機器人。

RoboVIP 引入了「視覺身份提示 (Visual Identity Prompting)」,你可以直接給 AI 一張「參考圖」(例如一張特定碗的照片),AI 就能精準地在影片中生成或替換成那個碗,讓生成的畫面更真實、更符合需求。

研究證明,用 RoboVIP 處理過的數據去訓練機器人(像是 Pi0 或 Octo 這類模型),不只在模擬環境中表現更好,在真實世界的機器人操作上,成功率也顯著提升,尤其是在處理混亂、複雜的場景時。

Categories: 開源, Robotic

LTX-2 影音片生成模型


LTX-2 是 Lightricks 開發的 DiT 基礎音訊影片生成模型,整合影片與音訊的同步生成功能,具備一次推論即可產出同步音訊與影片的能力。模型採用 190 億參數,另外提供 fp8、nvfp4 等壓縮量化版本,以及 190 億參數的蒸餾版本與 LoRA 微調版。所有模型都以 safetensors 格式提供,代碼與模型權重均在 Hugging Face 上公開,使用 ltx-2-community-license-agreement 授權,屬於開源模型。可直接於本地使用 PyTorch 或 Diffusers 套件呼叫,亦支援 ComfyUI 整合,適合多階段上采樣流程。

The First Open Source Audio-Video Model — LTX-2
New #1 open-source AI video generator is here! Fast + 4K + audio + low vram
Categories: 聲效, 視頻模型, 開源

MiniMax-M2.1 專為程式碼生成的 SOTA 大型語言模型

MiniMax-M2.1 是 MiniMax 團隊專為程式碼生成、工具呼叫、指令追蹤與長跨度規劃打造的 SOTA 大型語言模型,已全量釋出並以 Modified‑MIT 授權開源。模型重點在於提升多語言程式開發的穩定性與效率,讓開發者可以直接拿來建構自動化的軟體開發流水線或多步驟辦公室工作流程。

在各類公開基準測試中,MiniMax-M2.1 在 SWE‑bench Verified、Multi‑SWE‑bench、VIBE(全端應用開發)等指標上,顯著超越前代 M2,並與 Claude Sonnet 4.5、Claude Opus 4.5 相較不相上下,甚至在 VIBE‑Web、VIBE‑Android 等子指標上取得更佳分數,顯示出完整的全端開發能力。

模型支援多種主流推理引擎,包括 SGLang、vLLM、Transformers 以及其他推理服務,並提供 fp8/int8 量化以減少算力需求。實務上,建議使用四張 A100 80 GB 或相當算力的 GPU 來跑原始模型,若需要更輕量化可選擇量化版本。

Categories: 模型, 編程, 開源

Gen3R 影片資訊直接生成 3D 

Gen3R 是一個將基礎重建模型與視訊擴散模型結合的框架,目標是從單張或多張圖片生成包含 RGB 影片與幾何資訊的 3D 場景。如果你對於用影片資訊直接生成 3D 幾何感興趣,這是目前最接近「一鍵產出完整場景」的方案之一。

核心流程是:先把 VGGT 重建模型的 token 包成幾個幾何潛在變數,再用一個 adapter 把這些潛在值推向影片擴散模型的外觀潛在;兩種潛在同時生成,互相對齊後就能一次產出 RGB 影片 plus 完整的 3D 幾何資訊(相機姿態、深度圖、全局點雲)。

實驗顯示在單張或多張圖像條件下都能得到最佳的 3D 場景生成結果,而且透過擴散先驗提升了重建的穩定性。整體上是把重建跟生成模型「緊密」捆綁在一起,而不是分開處理。  

Gen3R: 3D Scene Generation Meets Feed-Forward Reconstruction
Categories: 字節跳動, 3D, 影像模型, 影像處理, 開源


GaMO 稀疏視角 3D 重建

GaMO:Geometry-aware Multi-view Diffusion Outpainting for Sparse-View 3D Reconstruction,是一套專門為「稀疏視角 3D 重建」設計的全新框架,主打關鍵字就是:幾何感知、多視角、Diffusion 外擴(outpainting)、零訓練、超省時間。傳統方法通常會在新相機位上生成人工視角,來補足原始影像的不足,但這樣很容易在多視角之間出現幾何不一致、邊界破碎、甚至幽靈般的重影,同時計算成本也相當驚人。 GaMO 反其道而行,直接「從原本的相機視角往外長」,也就是針對每張輸入影像做視野擴張,保留原始內容不動,只在周邊補齊缺失區域,天然就比較容易維持幾何一致性。

技術上,GaMO 利用多視圖條件化的 diffusion 模型,再配合幾何感知去噪策略,先透過粗略 3D 重建拿到幾何先驗,再在影像層面做多視圖 outpainting,最後用這些擴張後的影像做精緻 3D 重建。 這樣的設計有幾個亮點:第一,完全不需要針對特定場景再訓練(zero-shot inference),直接使用現成的多視圖 diffusion 模型即可;第二,在 Replica、ScanNet++ 等資料集上,GaMO 在 PSNR、SSIM、LPIPS 等指標上刷新了現有 SOTA,同時比其它 diffusion 式方法快上約 25 倍,整個流程控制在 10 分鐘內完成。 對需要做室內掃描、VR/AR 場景建模、機器人導航環境重建的團隊來說,GaMO 提供了一種更務實、計算友善,又兼顧幾何品質的新選項。

Categories: 影像模型, 影像處理, 視覺模型, 開源

Page 1 of 15
1 2 3 15