Infer News – A.I. 應用

MAI-UI：圖形介面代理。

MAI-UI 是一系列涵蓋各種規模的基礎GUI代理，包括2B、8B、32B和235B-A22B等變體。我們指出了實際部署面臨的四大挑戰：缺乏原生代理-使用者互動、僅依賴UI操作的限制、缺乏實用的部署架構以及在動態環境中的脆弱性。

MAI-UI 採用統一的方法論來解決這些問題：一個自演化的資料管道，用於擴展導航資料以包含使用者互動和 MCP 工具呼叫；一個原生設備-雲端協作系統，用於根據任務狀態路由執行；以及一個具有高級優化的線上強化學習框架，用於擴展平行環境和上下文長度。

Categories: 開源, 阿里巴巴, 編程

WorldWarp 非同步視訊擴散影像模型

為了建立幾何基礎，WorldWarp 維護了一個透過高斯擴散（3DGS）建構的線上三維幾何緩存。透過將歷史內容明確地扭曲到新的視圖中，該快取充當結構支架，確保每個新幀都遵循先前的幾何形狀。然而，靜態扭曲不可避免地會因遮蔽而留下空洞和偽影。

WorldWarp 使用專為「填充和修正」目標設計的時空擴散（ST-Diff）模型來解決這個問題。

WorldWarp 的核心創新在於空間變化的噪音調度：空白區域接收完整的噪音以觸發生成，而扭曲區域接收部分噪音以實現精細化。透過在每個步驟動態更新 3D 緩存，WorldWarp 能夠保持視訊片段之間的一致性。因此，它透過確保 3D 邏輯引導結構，而擴散邏輯完善紋理，從而實現了最先進的保真度。

Categories: 香港理工大學, 開源, 影像模型, 影像處理

Spatia 可更新空間的影片生成

Spatia，一個感知空間記憶的視頻生成框架，它將三維場景點雲顯式地保存為持久的空間記憶。 Spatia 基於此空間記憶迭代生成影片片段，並透過視覺 SLAM 不斷更新它。這種動態-靜態解耦設計增強了整個生成過程中的空間一致性，同時保持了模型生成逼真動態實體的能力。此外，Spatia 支援顯式相機控制和三維感知互動式編輯等應用，為可擴展的、記憶驅動的視訊生成提供了一個基於幾何基礎的框架。

Categories: 香港科技大學, 視頻模型

Meta 推出開源 SAM 音訊

Meta 的 SAM Audio 是首個統一的多模態模型，能從複雜音頻或視頻中精準分離特定聲音。

SAM Audio 支持文字提示（如「狗叫聲」或「人聲」）、視覺選擇（如點擊視頻中樂手）或時間範圍提示，來隔離目標聲音並生成殘餘音頻。它適用於音樂、語音和一般環境音，超越傳統單一工具。

模型基於 Flow-Matching Diffusion Transformer，在 DAC-VAE 潛在空間運作，提供小（500M 參數）、基（1B）和大（3B）版本。它能同時生成目標與殘餘音軌，支援真實世界場景如去除背景噪音。

Categories: 開源, 聲效, Python

DreaMontage – 一鏡到底

DreaMontage 是一個由 ByteDance 開發的開源 AI 影片生成框架，專注於「任意幀引導的一鏡到底」（one-shot）長影片合成，能從多個圖片或短片片段自動產生連貫、流暢的敘事影片。

Categories: 字節跳動, 視頻模型, 影像模型, 影像處理

SemanticGen 加入語意生成影片

SemanticGen 首先在高層語義空間中生成視頻，然後在 VAE 潛在空間中細化細節。SemanticGen 的核心觀點是，鑑於影片中固有的大量冗餘訊息，視訊生成應首先在緊湊的語義空間中進行全局規劃，然後再添加高頻細節——而不是直接對大量的底層視訊標記進行建模。

Categories: 香港中文大學, 影像處理

InfCam 攝影機 outpaint 控制

InfCam，一個無需深度資訊、攝影機控制的視訊生成框架，能夠實現高姿態保真度。該框架整合了兩個關鍵組件：

架構包含同次引導自注意力層（homography-guided self-attention），輸入源視頻、目標及變換潛在表示與相機嵌入，確保時間對齊與旋轉感知推理。變換模塊處理旋轉後添加平移嵌入，將重投影簡化為相對於無限遠平面的視差估計，提升軌跡忠實度。

透過增強 MultiCamVideo 數據集生成 AugMCV，引入多樣初始姿態與焦距軌跡，解決現有 SynCamVideo 等數據集偏差。

實驗結果表明，在 AugMCV 與 WebVid 數據集上，InfCam 在相同/不同內參情境下，於姿態準確度與視覺保真度皆優於基準，尤其在真實世界數據泛化表現突出。

Categories: 開源, 視頻模型, 視覺模型, 影像模型, 影像處理

RePlan 圖像編輯框架

RePlan 是一個基於指令的圖像編輯框架，專門解決指令-視覺複雜度（IV-Complexity）挑戰，透過視覺語言規劃器與擴散編輯器結合實現精準區域編輯。

框架採用「規劃-執行」策略：VLM 規劃器透過逐步推理分解複雜指令，生成邊界框與區域提示；編輯器使用無訓練注意力區域注入機制，支援單次多區域並行編輯，避免迭代 inpainting。

Categories: 香港中文大學, 開源, 香港科技大學, 騰訊, 影像模型, 影像處理, Python, 新聞

PersonaLive 安裝教學 (12G VRAM)

影片將一步步帶你上手 PersonaLive，教你如何使用 AI 即時角色變換，在直播或影片中實現即時變身效果，全流程免費。

用 AI 即時變身女神｜免費

用 AI 即時變身女神｜免費

Watch this video on YouTube

Categories: 開源, 數字人, 影像模型, 影像處理, Python

Qwen Image Edit 2511 教學

在本機用 ComfyUI 跑 Qwen Image Edit 2511，包含 BF16、FP8 和 GGUF 量化版本，以及 Lightning 4‑step LoRA 的完整實戰示範。

Qwen Image Edit 2511–Local Image Editing in ComfyUI | Multi-Reference Style Transfer & GGUF Workflow

Qwen Image Edit 2511–Local Image Editing in ComfyUI | Multi-Reference Style Transfer & GGUF Workflow

Watch this video on YouTube

Categories: ComfyUI, 開源, 阿里巴巴, 影像模型, 影像處理

Page 1 of 60

1 2 3 … 60 Next »