MAI-UI 是一系列涵蓋各種規模的基礎GUI代理,包括2B、8B、32B和235B-A22B等變體。我們指出了實際部署面臨的四大挑戰:缺乏原生代理-使用者互動、僅依賴UI操作的限制、缺乏實用的部署架構以及在動態環境中的脆弱性。
MAI-UI 採用統一的方法論來解決這些問題:一個自演化的資料管道,用於擴展導航資料以包含使用者互動和 MCP 工具呼叫;一個原生設備-雲端協作系統,用於根據任務狀態路由執行;以及一個具有高級優化的線上強化學習框架,用於擴展平行環境和上下文長度。

為了建立幾何基礎,WorldWarp 維護了一個透過高斯擴散(3DGS)建構的線上三維幾何緩存。透過將歷史內容明確地扭曲到新的視圖中,該快取充當結構支架,確保每個新幀都遵循先前的幾何形狀。然而,靜態扭曲不可避免地會因遮蔽而留下空洞和偽影。
WorldWarp 使用專為「填充和修正」目標設計的時空擴散(ST-Diff)模型來解決這個問題。
WorldWarp 的核心創新在於空間變化的噪音調度:空白區域接收完整的噪音以觸發生成,而扭曲區域接收部分噪音以實現精細化。透過在每個步驟動態更新 3D 緩存,WorldWarp 能夠保持視訊片段之間的一致性。因此,它透過確保 3D 邏輯引導結構,而擴散邏輯完善紋理,從而實現了最先進的保真度。

DreaMontage 是一個由 ByteDance 開發的開源 AI 影片生成框架,專注於「任意幀引導的一鏡到底」(one-shot)長影片合成,能從多個圖片或短片片段自動產生連貫、流暢的敘事影片。
SemanticGen 首先在高層語義空間中生成視頻,然後在 VAE 潛在空間中細化細節。SemanticGen 的核心觀點是,鑑於影片中固有的大量冗餘訊息,視訊生成應首先在緊湊的語義空間中進行全局規劃,然後再添加高頻細節——而不是直接對大量的底層視訊標記進行建模。
InfCam,一個無需深度資訊、攝影機控制的視訊生成框架,能夠實現高姿態保真度。該框架整合了兩個關鍵組件:
架構包含同次引導自注意力層(homography-guided self-attention),輸入源視頻、目標及變換潛在表示與相機嵌入,確保時間對齊與旋轉感知推理。 變換模塊處理旋轉後添加平移嵌入,將重投影簡化為相對於無限遠平面的視差估計,提升軌跡忠實度。
透過增強 MultiCamVideo 數據集生成 AugMCV,引入多樣初始姿態與焦距軌跡,解決現有 SynCamVideo 等數據集偏差。
實驗結果表明,在 AugMCV 與 WebVid 數據集上,InfCam 在相同/不同內參情境下,於姿態準確度與視覺保真度皆優於基準,尤其在真實世界數據泛化表現突出。
RePlan 是一個基於指令的圖像編輯框架,專門解決指令-視覺複雜度(IV-Complexity)挑戰,透過視覺語言規劃器與擴散編輯器結合實現精準區域編輯。

框架採用「規劃-執行」策略:VLM 規劃器透過逐步推理分解複雜指令,生成邊界框與區域提示;編輯器使用無訓練注意力區域注入機制,支援單次多區域並行編輯,避免迭代 inpainting。

影片將一步步帶你上手 PersonaLive,教你如何使用 AI 即時角色變換,在直播或影片中實現即時變身效果,全流程免費。
在本機用 ComfyUI 跑 Qwen Image Edit 2511,包含 BF16、FP8 和 GGUF 量化版本,以及 Lightning 4‑step LoRA 的完整實戰示範。