InferNews - Page 34 of 96

NVidia Motive 影片動態框架

2026 年 1 月 15 日

Motive 是個專門針對「動作/時間動態」的標記框架，用梯度 + motion 加權 mask，微調 clip 對生成影片 motion 的影響量化，拿來做 dataset curation，顯著提升 T2V 模型的時間一致性與物理合理性。據我們所知，這是第一個在影片生成模型中對運動而非視覺外觀進行歸因，並將其用於微調資料整理的框架。

這視覺模型能幫影片找出「哪個參考影片，真正決定它的動作怎麼動」，然後用這些資訊來挑更好的訓練素材，讓生成影片的動作更順、更合理。

Categories: 開源, NVIDIA

Apple 與 Google 化敵為友，宣布達成為期多年的 AI 合作

2026 年 1 月 13 日

Apple 和 Google 達成一項為期多年的合作。未來一代的 Apple Foundation Models（蘋果自家基礎模型）將建立在 Google 的 Gemini 模型與雲端技術之上。

這些模型將用來支援未來的 Apple Intelligence 功能，包括今年會上線的更個人化版 Siri。

Categories: Google, Gemini, 新聞, 蘋果

AI 已經深度進入影視產業

2026 年 1 月 13 日

Will AI Replace Filmmakers?

Watch this video on YouTube

AI 已經深度進入影視產業，包括腳本輔助、分鏡、配樂、剪接、去噪、Roto、魔術遮罩、背景生成、群眾演員替代、配音克隆與去老化特效等。

導演主張未來是「AI 和創作者」的混合模式，而不是二選一：AI 強化視覺與流程，人類負責情感、品味與敘事判斷。

真正的風險在於資方把 AI 當成「捷徑」來節省人力成本，壓縮藝術與勞動，而不是把它當作創作工具。

(more…)

Categories: 新聞

AlphaEvolve 無限智慧 – Google Deepmind

2026 年 1 月 12 日

AlphaEvolve 無限智慧 – 讓 AI 自己做科學研究與演算法設計的系統 – Google Deepmind A.I.

AlphaEvolve 無限智慧 - 讓 AI 自己做科學研究與演算法設計的系統 - Google Deepmind A.I.

Watch this video on YouTube

Categories: Google, 教學

NexaSDK 全模型支持，全硬件兼容

2026 年 1 月 12 日

NexaSDK 是一個高性能的本地推理框架，可以在 NPU、GPU 和 CPU 上運行最新的多模態 AI 模型，支持 Android、Windows、Linux、macOS 和 iOS 設備。它只需幾行代碼，就能在設備上搭建最智能、最快的 AI 應用。NexaSDK 支持最新的模型，比如 Qwen3-VL、DeepSeek-OCR、Gemma3n 等，且比其他框架提前幾周或幾個月支持。。

使用 NexaSDK 建立真正的裝置端 AI 應用，將有獲得獎勵。（詳情)

另外，NexaSDK 還提供了一個簡單易用的命令列介面（CLI），讓使用者可以快速測試不同的模型。例如，你可以用一行指令就開始與 Qwen3 模型聊天，或者進行多模態任務，比如拖曳圖片到 CLI 裡進行處理。

Categories: 開源, 庫, 編程

VINO 多模態模型對齊提示生成圖像與影片

2026 年 1 月 11 日

VINO 是個統一的視覺生成工具，能同時處理圖像和影片的創作與編輯，無需針對每種任務去找不同的模型。它的核心架構是把視覺語言模型和多模態擴散轉換器（MMDiT）結合起來，讓文字、參考圖片或影片都能以同一套條件流動的方式被傳遞給擴散過程。

這裡的「可學習查詢 token」扮演的角色是把使用者的簡短指令轉化成模型能理解的細節向量，並在訓練時一起調整，讓指令更精確、模型更穩定。另一個關鍵在於把參考影像或影片所產生的特徵與它在 latent 空間的對應向量用同樣的開始與結束標記包起來，這樣模型就能在語意層面和潛在層面都把同一個參考資源針對地辨識出來，減少身份混淆或屬性遺漏的問題。

Categories: 開源, 影像模型, 影像處理, 視覺模型, 視頻模型

InfiniDepth 解析二維深度圖

2026 年 1 月 11 日

InfiniDepth 把傳統的深度圖想成一個可以在任何二維座標上即時查詢的隱式場（Implicit Field），而不是固定在像素格子裡。這樣的表示方式讓模型不再受到訓練解析度的限制，能夠直接輸出任意高解析度的深度圖，同時保留更細緻的幾何細節。

Categories: 開源, 影像處理, 視覺模型

NeoVerse 4D 世界模型

2026 年 1 月 11 日

NeoVerse 是一種強大的 4D 世界模型，專門設計來處理現實環境中的單眼視頻，從而實現多種應用。這個模型的核心優勢在於它能夠進行無姿態限制的前饋 4D 重建，這意味著它可以從普通的單眼視頻中直接生成高質量的 4D 場景，而不需要複雜的多視角數據或預處理步驟。

Categories: 開源, 影像模型, 影像處理, 視覺模型, 視頻模型, 世界模型

DreamID-V 開源換臉

2026 年 1 月 11 日

DreamID-V 是一個專門為高保真度臉部交換設計的技術，它旨在縮短圖像到視頻之間的差距。這技術在處理各種挑戰性場景時表現出色，包括頭髮遮擋、複雜光照、多樣化的種族和顯著的臉型變化。DreamID-V 的應用範圍廣泛，可以應用於娛樂、廣告和電影製作等領域，考慮到了實際應用中的多種需求和挑戰。提供更加逼真的臉部交換效果。

對於使用者來說，DreamID-V 提供了單 GPU 和多 GPU 推理的選項，並且有詳細的安裝和使用指南。使用者需要準備好相應的模型文件和依賴庫，然後根據提供的腳本進行操作。此外，DreamID-V 還支持不同的模型版本，例如 DreamID-V-Wan-1.3B-DWPose，這進一步提升了姿態檢測的穩定性和魯棒性。

Categories: 開源, 字節跳動, 數字人, 視頻模型

詳細 Qwen3+RAGFlow 本地部署

2026 年 1 月 11 日

Categories: 開源, Qwen, RAG, 教學, 編程

Page 34 of 96

« Previous 1 … 32 33 34 35 36 … 96 Next »