Infer News

VideoAuto-R1 一次思考，兩次回答視頻推理

VideoAuto-R1 採用了一種「當需要時才推理」的策略。這種策略在訓練階段遵循「一次思考，兩次回答」的範式，即模型首先生成一個初步答案，然後進行推理，最後輸出一個經過審核的答案。這兩個答案都通過可驗的獎勵進行監督。在推理階段，模型使用初步答案的置信度分數來決定是否繼續進行推理過程。Meta 在 VideoAuto-R1 專案中扮演研究合作與工程貢獻角色。

1. 視頻問答系統：VideoAuto-R1 可以應用於各種視頻問答任務，提高系統在理解和回答視頻內容方面的準確性，同時降低計算成本。

2. 教育與培訓：在線教育平台可 leverage 這種技術來提供更智能的學習助手，幫助學生理解複雜的視頻內容，並根據需要提供針對性的解釋。

3. 互動式媒體：增強視頻內容的互動性，例如通過自動推理來回答用戶關於視頻內容的問題。

4. 智能監控：在安全監控系統中，VideoAuto-R1 可以用來分析和解釋監控視頻中的活動，從而提高安全性和監控效率。

5. 自動化客戶服務：在客服領域，該技術可以幫助自動化回答客戶關於產品或服務視頻的問題，提供更個性化的客戶體驗。

6. 內容創作與編輯：視頻創作者可以利用這種技術來自動化地生成視頻描述和解釋，從而簡化內容創作和編輯過程。

7. 多模態學習和研究：VideoAuto-R1 作為一種多模態理解技術，可以促進自然語言處理和電腦視覺領域的研究。

Categories: Qwen, 視覺模型, 開源

Qwen3-VL-Embedding-2B

「Qwen3-VL-Embedding-2B」是 Qwen 家族中最新的多模態信息檢索和交叉模態理解模型。可在同一向量空間做相似度計算，方便做「跨模態檢索」與「圖文混合檢索」。

Embedding 維度可控：預設最高 2048 維，但支援使用者自訂輸出維度 64–2048，可依儲存成本與下游模型需求調整（例如 256/512 維用於向量 DB）。

模型規模與 context length：2B 參數，context 長度 32k，適合放在邊緣或低資源伺服器上，同時能處理長文檔、多 frame 影片描述等輸入。

模型	Gemini Multimodal Embeddings	Qwen3-VL-Embedding (2B/8B)
模態支援	文字、圖片、video（含 audio 軌道，1 FPS + 音頻特徵）	文字、圖片、截圖、video（多 frame），混合任意組合
語言	多語（英文主導）	30+ 語言，強中文/多語對齊
維度	固定 1408	可自訂 64–4096（預設 2048）
Context	Video 上限 1-3 小時	32K tokens（長影片多 frame）
開源	否（API）	是（HF/GitHub，Apache 2.0）
成本	$0.0001/1000 chars（text），更高 video/image	免費本地，GPU 硬體成本
整合	Vertex AI / Gemini API，易 scale	Transformers/vLLM，量化友好

1. 圖像和文本檢索系統：可以用於基於文本描述搜索相關圖像，或者基於圖像內容搜索相關文本描述。
2. 視頻推薦平台：將視頻和文本描述映射到共享表示空間，以提高視頻推薦的準確性。
3. 多模態內容管理：對於包含圖像、文本和視頻的大型數據集，可以進行有效的內容聚類和組織。
4. 社交媒體分析：分析和理解跨文本和圖像的用戶生成內容。
5. 教育和培訓：藉助於視覺問答和多模態學習材料，提供個性化的學習體驗。

Categories: 阿里巴巴, Qwen, Embedding, 多模態模型, 視覺模型, 開源

PlenopticDreamer – NVidia 解決影片一致性

PlenopticDreamer 主要解決「鏡頭控制生成影片」的不一致問題。這是一個能讓 AI「像無人機一樣繞著物體飛」生成影片的技術。它可以應用在自駕車的模擬環境、機器人的視覺訓練，以及好萊塢等級的虛擬拍攝。

1. Robotics（機器人）：

* 情境模擬：機器人需要理解物體在不同角度下的樣貌。這個技術可以根據單一攝影機的畫面，生成該物體在其他視角的影像，幫助機器人進行視覺導航或物體抓取的訓練。

* 模擬數據生成：為機器視覺系統生成更多樣化的訓練數據。

2. Self-Driving（自駕車）：

* 場景理解：自駕車通常有多個鏡頭。這個技術可以補足盲區，或者將一個鏡頭的畫面轉換成其他鏡頭的視角，幫助車輛更全面地感知周圍環境。

* 未來幀預測：預測道路上物體在下一秒鐘會出現在哪個位置（從不同角度）。

3. 影視製作與 AR/VR：

* 新視角補全：如果拍攝時漏掉了某個角度，可以利用這個技術「憑空生成」該角度的連續影片。

* 重定向（Re-direction）：可以將拍好的影片，根據新的鏡頭軌跡重新渲染（Re-rendering），讓同一段故事可以從不同角度重新看一遍。

Categories: 香港中文大學, NVIDIA, 影像模型, 影像處理, 視覺模型, 視頻模型, 開源

RoboVIP 訓練機器人的模擬數據生成

RoboVIP 解決機器人領域中，真實世界訓練數據不足且難以大量取得的痛點。RoboVIP 是一個機器人數據生成工具，它讓研究者能用更聰明、更可控的方式製造模擬數據，進而訓練出更強大、更不容易出錯的機器人。

RoboVIP 引入了「視覺身份提示 (Visual Identity Prompting)」，你可以直接給 AI 一張「參考圖」（例如一張特定碗的照片），AI 就能精準地在影片中生成或替換成那個碗，讓生成的畫面更真實、更符合需求。

研究證明，用 RoboVIP 處理過的數據去訓練機器人（像是 Pi0 或 Octo 這類模型），不只在模擬環境中表現更好，在真實世界的機器人操作上，成功率也顯著提升，尤其是在處理混亂、複雜的場景時。

Categories: 開源, Robotic

VerseCrafter 精準控制鏡頭

VerseCrafter 是一套以 4D 幾何控制驅動的影片擴散模型，目標在單張參考圖上同時掌控相機運動與多目標的三維軌跡，讓生成的影片在視角變化與物體遷移間保持高度一致。讓使用者能夠像操控遊戲或電影一樣，精確控制鏡頭和物體的運動，從而生成逼真的動態影片。

一般的 AI 影片模型通常難以同時掌控鏡頭移動和多個物體的動作，VerseCrafter 透過一種全新的表示法解決這個問題：1. 動態世界模擬：它不只是畫出一連串的畫面，而是先在一個隱藏的 3D 空間中建立場景的基礎結構（例如背景點雲），然後加上時間軸，變成 4D。2. 精準控制：鏡頭：你可以指定鏡頭要怎麼飛行（例如從左邊飛到右邊，或是繞著物體旋轉）。你甚至可以指定畫面中的物體要如何移動、旋轉。

Categories: 香港大學, 騰訊, 影像處理, 視頻模型

LTX-2 是 Lightricks 開發的 DiT 基礎音訊影片生成模型，整合影片與音訊的同步生成功能，具備一次推論即可產出同步音訊與影片的能力。模型採用 190 億參數，另外提供 fp8、nvfp4 等壓縮量化版本，以及 190 億參數的蒸餾版本與 LoRA 微調版。所有模型都以 safetensors 格式提供，代碼與模型權重均在 Hugging Face 上公開，使用 ltx-2-community-license-agreement 授權，屬於開源模型。可直接於本地使用 PyTorch 或 Diffusers 套件呼叫，亦支援 ComfyUI 整合，適合多階段上采樣流程。

The First Open Source Audio-Video Model — LTX-2

Watch this video on YouTube

New #1 open-source AI video generator is here! Fast + 4K + audio + low vram

Watch this video on YouTube

ComfyUI LTX-2 video

Categories: 聲效, 視頻模型, 開源

MiniMax-M2.1 專為程式碼生成的 SOTA 大型語言模型

MiniMax-M2.1 是 MiniMax 團隊專為程式碼生成、工具呼叫、指令追蹤與長跨度規劃打造的 SOTA 大型語言模型，已全量釋出並以 Modified‑MIT 授權開源。模型重點在於提升多語言程式開發的穩定性與效率，讓開發者可以直接拿來建構自動化的軟體開發流水線或多步驟辦公室工作流程。

在各類公開基準測試中，MiniMax-M2.1 在 SWE‑bench Verified、Multi‑SWE‑bench、VIBE（全端應用開發）等指標上，顯著超越前代 M2，並與 Claude Sonnet 4.5、Claude Opus 4.5 相較不相上下，甚至在 VIBE‑Web、VIBE‑Android 等子指標上取得更佳分數，顯示出完整的全端開發能力。

模型支援多種主流推理引擎，包括 SGLang、vLLM、Transformers 以及其他推理服務，並提供 fp8/int8 量化以減少算力需求。實務上，建議使用四張 A100 80 GB 或相當算力的 GPU 來跑原始模型，若需要更輕量化可選擇量化版本。

Categories: 模型, 編程, 開源

ThinkRL‑Edit 視覺推理與影像合成框架

由 ByteDance (字節跳動)提出 ThinkRL‑Edit: Thinking in Reinforcement Learning for Reasoning‑Centric Image Editing「推理導向」圖像編輯，指現有的 RL‑based 編輯方案受限於三個問題：探索空間只在去噪隨機性、獎勵函數的加權不夠公平、以及 VLM 判斷獎勵可能不穩定。作者提出的 ThinkRL‑Edit 框架將視覺推理與影像合成分開，並利用 Chain‑of‑Thought 產生多層次的推理樣本，包含策劃與自省兩個階段，讓模型在實際產生圖像前先評估多種語意假設的可行性。這樣的設計讓探索不再受到去噪過程的束縛，並透過無偏的獎勵策略提升圖像編輯的精確度與一致性。

Categories: 字節跳動, 影像處理

Gen3R 影片資訊直接生成 3D

Gen3R 是一個將基礎重建模型與視訊擴散模型結合的框架，目標是從單張或多張圖片生成包含 RGB 影片與幾何資訊的 3D 場景。如果你對於用影片資訊直接生成 3D 幾何感興趣，這是目前最接近「一鍵產出完整場景」的方案之一。

核心流程是：先把 VGGT 重建模型的 token 包成幾個幾何潛在變數，再用一個 adapter 把這些潛在值推向影片擴散模型的外觀潛在；兩種潛在同時生成，互相對齊後就能一次產出 RGB 影片 plus 完整的 3D 幾何資訊（相機姿態、深度圖、全局點雲）。

實驗顯示在單張或多張圖像條件下都能得到最佳的 3D 場景生成結果，而且透過擴散先驗提升了重建的穩定性。整體上是把重建跟生成模型「緊密」捆綁在一起，而不是分開處理。

Gen3R: 3D Scene Generation Meets Feed-Forward Reconstruction

Watch this video on YouTube

Categories: 字節跳動, 3D, 影像模型, 影像處理, 開源

CHORD 框架作為人類或機器人操作介面

CHORD 是一套通用的生成式流程，能直接從普通的 2D 影片畫面中抽取隱含的拉格朗日運動資訊，進而合成各式各樣的 4D 動態場景。這套方法不依賴任何類別專屬的先驗或結構標註，也不需要龐大的標註資料集，只要把影片送入分配式蒸餾流程，就能把 2D 影像裡的運動資訊轉換成 3D 物體的時間軸運動軌跡。如此得到的資訊既適用於單一物體，也能支援多物體之間的互動，讓模型在不限定物件類別的情況下，自動產生多層次、複雜的動態場景。

實驗顯示 CHORD 能快速生成從玩具積木、運動部件到機器人操作等不同情境的 4D 效果，且在視覺品質和多樣性上相較於既有的規則導向或大規模資料訓練方法更具優勢。同時，這套框架也能直接提供給人類或機器人操作介面，協助後續的實體模擬與控制。整體而言，CHORD 以低成本、無需大量標註的方式，讓生成式 AI 能更廣泛地應用於真實世界的 4D 動態創作上。

Categories: Robotic

Page 5 of 65

« Previous 1 … 3 4 5 6 7 … 65 Next »