ProEdit:開源圖片及影片編輯

ProEdit 透過 KV-mix 在注意力層融合源/目標特徵,及 Latents-Shift 擾動潛在空間,實現高保真編輯。 支援 FLUX、HunyuanVideo 等模型,同時亦整合 Qwen3-8B 解析自然語言指令。

ProEdit 解決傳統反轉編輯過度依賴源圖的問題,能準確變換主體屬性如姿態、數量、顏色,同時保持背景一致。 適用於圖像替換(如老虎變貓、襯衫變毛衣)與影片動態編輯(如紅車變黑車、鹿變牛)。適合 AI 內容創作者、影片後製,plug-and-play 相容 RF-Solver 等工具,在多項基準測試達 SOTA 效能。

ProEdit: Inversion-based Editing From Prompts Done Right

Categories: 香港大學, 香港中文大學, 視頻模型, 影像模型, 影像處理

DeepCode AI 驅動的開發平台

DeepCode 是個 AI 驅動的開發平台,可自動執行程式碼產生和實作任務。我們的多代理系統能夠處理將需求轉化為功能齊全、結構良好的程式碼的複雜性,讓您專注於創新,而不是實現細節。

DeepCode 透過為常見的開發任務提供可靠的自動化來解決這些工作流程效率低下的問題,從而簡化從概念到程式碼的開發工作流程。
https://github.com/HKUDS/DeepCode

DeepCode: This FREE Agentic AI Coder is INSANE!
Categories: 香港大學, 開源, 編程, Vibe Coding

ROSE2025 移除影片中任何物件

ROSE2025,全名為「可靠且開放集事件修補(Remove Objects with Side Effects)」。旨在推動電腦視覺領域,為處理複雜、動態的視覺數據缺失問題提供更穩健、更智能的解決方案。在不斷演進的電腦視覺領域,事件修補(Event Inpainting)正成為一項引人注目的新興研究方向。

ROSE2025 涵蓋了多個關鍵研究主題,包括但不限於:基於生成式模型的事件修補方法、深度學習在事件資料恢復的應用、新穎的損失函數與評估指標、開源數據集與基準的創建、以及與機器人、自動駕駛、監控等實際應用場景的結合。

Categories: 香港大學, 開源, 視頻模型, 視覺模型, 影像模型, 影像處理

VisionThink 智慧高效視覺語言模型

VisionThink 利用強化學習自主學習減少視覺 token。與傳統的高效 VLM 方法相比,這方法在
微粒度基準測試(例如涉及 OCR 相關任務的基準測試)上取得了顯著的提升。

由香港中文大學,香港大學,科技大學大聯合開發

VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning
Categories: 香港大學, 香港中文大學, 香港科技大學, 開源, 視覺模型, 推理引擎, 深度學習, 模型