Animate Anyone 2 替換角色影片框架

阿里巴巴推出影片框架 Animate Anyone 2。這是一種新的角色圖像影片框架,能夠解決目前無法在影片中的角色與環境之間建立合理關聯。Animate Anyone 2 由輸入的影片中提取環境訊息,通過一種與形狀無關的遮罩策略來更好地描述角色與環境之間的關係,從而提高物件互動的真實性,最終能夠產生高品質的替換角色影片。

Categories: 影像處理


ACE++ 圖像生成與編輯任務

ACE++ 基於指令的擴散框架,只要輸入一張圖像即可生成與角色一致的新圖像,專門用來處理各種圖像生成和編輯任務。靈感來自 FLUX.1-Fill-dev 的輸入格式,以雙階段訓練方法來減少對圖像擴散模型進行微調所需的工作量。這框架提供了全面的模型集,涵蓋了完整微調和輕量級微調,在生成圖像品質和遵循提示能力方面展現了卓越的性能,可以廣泛應用於人像一致性、靈活指令描述和局部編輯等不同情境。

Categories: ComfyUI, 影像處理, 模型

總結近期在人工智慧影片技術上的突破

這是近期較完整的影片,總結了近期在人工智慧影片技術上的突破,這些技術正快速改變著影片製作的流程。影片亦展望了未來 AI 和 3D 影片的融合創作,能夠在一個統一的場景圖中,以更高的抽象層次協調和導演式的指揮創作,實現更輕量化、更高效的影片製作流程。

AI Video Is Already Unrecognizable (And It's Only March)
Categories: 影像處理, 新聞

DeepSeek-VL2-small 視覺模型

DeepSeek-VL2-small 是 DeepSeek-VL2 的小型版本,混合專家 (MoE) 視覺語言模型,旨在提升 DeepSeek-VL 的視覺效能。此模型在視覺問答、光學字元辨識和文件理解等多種任務上展現了卓越的能力。DeepSeek-VL2-small 擁有 28 億(2.8b)個參數,在效能上可與現有的其它開源模型競爭,甚至超越它們。模型的程式碼採用 MIT 許可證,模型本身的使用則受到 DeepSeek 模型許可證的約束,允許商業用途。

Categories: 開源, 影像處理, DeepSeek

TokenVerse – Google 最新圖像處理

TokenVerse 提出一種基於預訓練文字轉圖像擴散模型的多概念個人化方法。它利用模型中的調製空間 (modulation space),從單張圖片中解開複雜的視覺元素和屬性,並能無縫地組合來自多張圖片的概念。不同於現有方法在概念類型或廣度上的限制,TokenVerse 能處理多張圖片的多種概念,包含物件、配件、材質、姿勢和光線等。核心方法是透過優化,為每個文字嵌入 (text embedding) 學習一個獨特的調製向量調整 (modulation vector adjustment),這些向量代表個人化的方向,可用於產生結合所需概念的新圖像。最後,論文展示了 TokenVerse 在具有挑戰性的個人化情境中的有效性,並突顯其優勢。

Categories: 開源, 影像處理, 模型

DreamCatalyst 三維編輯架構

DreamCatalyst 是一個新穎的三維編輯架構,它改進了現有基於分數蒸餾採樣(SDS) 的方法,解決了訓練時間長和結果品質低的問題。DreamCatalyst 的關鍵在於將 SDS 視為三維編輯的擴散逆向過程,而不像現有方法那樣單純地蒸餾分數函數,使得更好地與擴散模型的採樣動態相協調。結果,DreamCatalyst 大幅縮短了訓練時間,並提升編輯品質,在速度和品質上都超越現有最先進的神經輻射場(NeRF) 和三維高斯散點(3DGS) 編輯方法,展現其快速且高品質的三維編輯能力。

Categories: 開源, 3D, 影像處理, 模型

DiffuEraser 刪除影片的多餘物件

DiffuEraser 是個基於穩定擴散模型的開源影片修復模型。利用先驗資訊作為初始化,減少雜訊和幻覺,並藉由擴展時間以及利用影片擴散模型的時間平滑特性,提升長序列推論中的時間一致性。 DiffuEraser 透過結合鄰近影格資訊修復遮罩區域,展現比現有技術更佳的內容完整性和時間一致性,即使在處理複雜場景和長影片時也能產生細節豐富、結構完整且時間一致的結果,且無需文字提示。 其核心在於提升影片修復的生成能力與時間一致性。

Categories: 視頻模型, 開源, 影像處理, 模型

VideoLLaMA3 影片理解模型

一個以視覺為中心的多模態基礎模型,用於圖像和影片理解。其核心設計理念是優先利用高品質的圖像文字數據,而非大規模的影片文字數據進行訓練。模型採用四階段訓練流程:視覺對齊、視覺語言預訓練、多任務微調以及影片中心微調。此外,VideoLLaMA3 的架構設計能根據影像大小動態調整視覺 token 數量,並在影片處理中減少冗餘的視覺 token,以提升效率和準確性。最終,VideoLLaMA3 在圖像和影片理解基準測試中取得了令人信服的成果。(HuggingFace)

Categories: 開源, 推理引擎, 影像處理, 多模態模型, 模型

SVFR 高清人臉修復及著色

一個名為「SVFR」的統一框架,用於優化影片中的人臉修復。 它結合了超分辨率 (BFR)、著色和修復等多種任務,並透過可學習的任務嵌入和統一潛在正則化 (ULR),提升不同任務間的特徵共享學習,最終實現更佳的影片人臉修復效果。 此外,該框架還利用人臉先驗學習和自我參考細化策略來確保時間一致性和提高修復品質,代表了影片人臉修復領域的最新進展。

ComfyUI SVFR - Video Restore and Colorize Old Videos with AI (Tutorial Guide)
Categories: 影像處理

Page 3 of 6
1 2 3 4 5 6