Ministral 3 小模型家族

Ministral 3 是 Mistral AI 推出的模型系列,這是一系列參數高效的小型語言模型,專為計算和記憶體受限的應用而設計,提供三種模型規模:3B、8B 和 14B 參數。對於每種模型規模,我們都發布了三個變體:用於通用用途的預訓練基礎模型、指令微調模型以及用於解決複雜問題的推理模型。此外,我們還介紹了透過級聯蒸餾(Cascade Distillation)來產生 Ministral 3 模型的方法,這是一種迭代剪枝和持續訓練的蒸餾技術。每個模型都具備影像(OCR)理解功能,所有內容均遵循 Apache 2.0 授權。

Categories: 模型, 開源

NVidia Motive 影片動態框架

Motive 是個專門針對「動作/時間動態」的標記框架,用梯度 + motion 加權 mask,微調 clip 對生成影片 motion 的影響量化,拿來做 dataset curation,顯著提升 T2V 模型的時間一致性與物理合理性。據我們所知,這是第一個在影片生成模型中對運動而非視覺外觀進行歸因,並將其用於微調資料整理的框架。

這視覺模型能幫影片找出「哪個參考影片,真正決定它的動作怎麼動」,然後用這些資訊來挑更好的訓練素材,讓生成影片的動作更順、更合理。​

Categories: NVIDIA, 開源


AI 已經深度進入影視產業

Will AI Replace Filmmakers?

AI 已經深度進入影視產業,包括腳本輔助、分鏡、配樂、剪接、去噪、Roto、魔術遮罩、背景生成、群眾演員替代、配音克隆與去老化特效等。​​

導演主張未來是「AI 和創作者」的混合模式,而不是二選一:AI 強化視覺與流程,人類負責情感、品味與敘事判斷。​​

真正的風險在於資方把 AI 當成「捷徑」來節省人力成本,壓縮藝術與勞動,而不是把它當作創作工具。

(more…)
Categories: 新聞


NexaSDK 全模型支持,全硬件兼容

NexaSDK 是一個高性能的本地推理框架,可以在 NPU、GPU 和 CPU 上運行最新的多模態 AI 模型,支持 Android、Windows、Linux、macOS 和 iOS 設備。它只需幾行代碼,就能在設備上搭建最智能、最快的 AI 應用。NexaSDK 支持最新的模型,比如 Qwen3-VL、DeepSeek-OCR、Gemma3n 等,且比其他框架提前幾周或幾個月支持。。

使用 NexaSDK 建立真正的裝置端 AI 應用,將有獲得獎勵。(詳情)

另外,NexaSDK 還提供了一個簡單易用的命令列介面(CLI),讓使用者可以快速測試不同的模型。例如,你可以用一行指令就開始與 Qwen3 模型聊天,或者進行多模態任務,比如拖曳圖片到 CLI 裡進行處理。

Categories: , 編程, 開源

VINO 多模態模型對齊提示生成圖像與影片

VINO 是個統一的視覺生成工具,能同時處理圖像和影片的創作與編輯,無需針對每種任務去找不同的模型。它的核心架構是把視覺語言模型和多模態擴散轉換器(MMDiT)結合起來,讓文字、參考圖片或影片都能以同一套條件流動的方式被傳遞給擴散過程。

這裡的「可學習查詢 token」扮演的角色是把使用者的簡短指令轉化成模型能理解的細節向量,並在訓練時一起調整,讓指令更精確、模型更穩定。另一個關鍵在於把參考影像或影片所產生的特徵與它在 latent 空間的對應向量用同樣的開始與結束標記包起來,這樣模型就能在語意層面和潛在層面都把同一個參考資源針對地辨識出來,減少身份混淆或屬性遺漏的問題。

Categories: 影像模型, 影像處理, 視覺模型, 視頻模型, 開源

InfiniDepth 解析二維深度圖

InfiniDepth 把傳統的深度圖想成一個可以在任何二維座標上即時查詢的隱式場(Implicit Field),而不是固定在像素格子裡。這樣的表示方式讓模型不再受到訓練解析度的限制,能夠直接輸出任意高解析度的深度圖,同時保留更細緻的幾何細節。  

Categories: 影像處理, 視覺模型, 開源


DreamID-V 開源換臉

DreamID-V 是一個專門為高保真度臉部交換設計的技術,它旨在縮短圖像到視頻之間的差距。這技術在處理各種挑戰性場景時表現出色,包括頭髮遮擋、複雜光照、多樣化的種族和顯著的臉型變化。DreamID-V 的應用範圍廣泛,可以應用於娛樂、廣告和電影製作等領域,考慮到了實際應用中的多種需求和挑戰。提供更加逼真的臉部交換效果。

對於使用者來說,DreamID-V 提供了單 GPU 和多 GPU 推理的選項,並且有詳細的安裝和使用指南。使用者需要準備好相應的模型文件和依賴庫,然後根據提供的腳本進行操作。此外,DreamID-V 還支持不同的模型版本,例如 DreamID-V-Wan-1.3B-DWPose,這進一步提升了姿態檢測的穩定性和魯棒性。

Categories: 字節跳動, 數字人, 視頻模型, 開源

Page 4 of 66
1 2 3 4 5 6 66