Infer News

Ministral 3 小模型家族

Ministral 3 是 Mistral AI 推出的模型系列，這是一系列參數高效的小型語言模型，專為計算和記憶體受限的應用而設計，提供三種模型規模：3B、8B 和 14B 參數。對於每種模型規模，我們都發布了三個變體：用於通用用途的預訓練基礎模型、指令微調模型以及用於解決複雜問題的推理模型。此外，我們還介紹了透過級聯蒸餾（Cascade Distillation）來產生 Ministral 3 模型的方法，這是一種迭代剪枝和持續訓練的蒸餾技術。每個模型都具備影像(OCR)理解功能，所有內容均遵循 Apache 2.0 授權。

Categories: 模型, 開源

NVidia Motive 影片動態框架

Motive 是個專門針對「動作/時間動態」的標記框架，用梯度 + motion 加權 mask，微調 clip 對生成影片 motion 的影響量化，拿來做 dataset curation，顯著提升 T2V 模型的時間一致性與物理合理性。據我們所知，這是第一個在影片生成模型中對運動而非視覺外觀進行歸因，並將其用於微調資料整理的框架。

這視覺模型能幫影片找出「哪個參考影片，真正決定它的動作怎麼動」，然後用這些資訊來挑更好的訓練素材，讓生成影片的動作更順、更合理。

Categories: NVIDIA, 開源

Apple 與 Google 化敵為友，宣布達成為期多年的 AI 合作

Apple 和 Google 達成一項為期多年的合作。未來一代的 Apple Foundation Models（蘋果自家基礎模型）將建立在 Google 的 Gemini 模型與雲端技術之上。

這些模型將用來支援未來的 Apple Intelligence 功能，包括今年會上線的更個人化版 Siri。

Categories: Google, Gemini, 新聞, 蘋果

AI 已經深度進入影視產業

Will AI Replace Filmmakers?

Watch this video on YouTube

AI 已經深度進入影視產業，包括腳本輔助、分鏡、配樂、剪接、去噪、Roto、魔術遮罩、背景生成、群眾演員替代、配音克隆與去老化特效等。

導演主張未來是「AI 和創作者」的混合模式，而不是二選一：AI 強化視覺與流程，人類負責情感、品味與敘事判斷。

真正的風險在於資方把 AI 當成「捷徑」來節省人力成本，壓縮藝術與勞動，而不是把它當作創作工具。

(more…)

Categories: 新聞

AlphaEvolve 無限智慧 – Google Deepmind

AlphaEvolve 無限智慧 – 讓 AI 自己做科學研究與演算法設計的系統 – Google Deepmind A.I.

AlphaEvolve 無限智慧 - Google Deepmind A.I.

Watch this video on YouTube

Categories: Google, 教學

NexaSDK 全模型支持，全硬件兼容

NexaSDK 是一個高性能的本地推理框架，可以在 NPU、GPU 和 CPU 上運行最新的多模態 AI 模型，支持 Android、Windows、Linux、macOS 和 iOS 設備。它只需幾行代碼，就能在設備上搭建最智能、最快的 AI 應用。NexaSDK 支持最新的模型，比如 Qwen3-VL、DeepSeek-OCR、Gemma3n 等，且比其他框架提前幾周或幾個月支持。。

使用 NexaSDK 建立真正的裝置端 AI 應用，將有獲得獎勵。（詳情)

另外，NexaSDK 還提供了一個簡單易用的命令列介面（CLI），讓使用者可以快速測試不同的模型。例如，你可以用一行指令就開始與 Qwen3 模型聊天，或者進行多模態任務，比如拖曳圖片到 CLI 裡進行處理。

Categories: 庫, 編程, 開源

VINO 多模態模型對齊提示生成圖像與影片

VINO 是個統一的視覺生成工具，能同時處理圖像和影片的創作與編輯，無需針對每種任務去找不同的模型。它的核心架構是把視覺語言模型和多模態擴散轉換器（MMDiT）結合起來，讓文字、參考圖片或影片都能以同一套條件流動的方式被傳遞給擴散過程。

這裡的「可學習查詢 token」扮演的角色是把使用者的簡短指令轉化成模型能理解的細節向量，並在訓練時一起調整，讓指令更精確、模型更穩定。另一個關鍵在於把參考影像或影片所產生的特徵與它在 latent 空間的對應向量用同樣的開始與結束標記包起來，這樣模型就能在語意層面和潛在層面都把同一個參考資源針對地辨識出來，減少身份混淆或屬性遺漏的問題。

Categories: 影像模型, 影像處理, 視覺模型, 視頻模型, 開源

Categories: 字節跳動, 數字人, 視頻模型, 開源

Page 4 of 66

« Previous 1 2 3 4 5 6 … 66 Next »