香港中文大學

FORGE：製造場景的細粒度多模態評估

2026 年 4 月 14 日

FORGE 標誌 — AI4Manufacturing/FORGE 在 GitHub 上

FORGE 提出了一個全面的評估框架，專門針對視覺語言模型（VLMs）在工業製造異常檢測中的應用。這個工具對於希望評估和改進 VLMs 在實際製造場景中表現的研究人員、工程師和 AI 專業人士特別有價值。該框架涵蓋了三個核心任務和基礎消融研究，提供了一種多維度的方法來理解 VLMs 在檢測異常（如錯誤模型、額外零件和缺失組件）方面的能力和限制。

在深入研究 FORGE 時，用戶應首先專注於理解三個主要任務：錯誤模型檢測、異常分類和額外/錯誤零件檢測。這些任務旨在模擬製造環境中面對的實際挑戰，使用照片和渲染圖像。基礎消融研究進一步探討了空間基礎和跨圖像零件匹配，提供了對 VLMs 空間推理能力的洞察。

在實踐中，FORGE 通過利用多種評估設置（包括零樣本、少樣本和上下文學習（ICL））來運作。用戶可以通過 YAML 文件配置這些設置，這些文件控制所有評估參數，如模型名稱、溫度和最大令牌數。這種靈活性使研究人員能夠根據自己的特定需求和假設量身定製評估過程。該框架支持多種後端，如 OpenRouter、OpenAI、Anthropic 和 Google，使用戶能夠實驗不同的 VLMs 並觀察其性能變化。

最能從 FORGE 中受益的是那些參與製造業 AI 解決方案開發和部署的人士。通過提供標準化的基準，FORGE 幫助這些專業人士識別各種 VLMs 的優缺點，促進在模型選擇和整合方面的明智決策。此外，詳細的輸出文件，包括緊湊結果、帶有原始 API 訊息的完整結果和執行日誌，為分析和報告提供了寶貴的數據。

然而，也有一些權衡需要考慮。框架的複雜性可能對新手構成學習曲線，需要對 VLMs 和異常檢測原理有紮實的理解。此外，運行廣泛評估所需的計算資源可能相當龐大，特別是在處理大型數據集和多種評估設置時。用戶還應當小心數據集中的潛在偏見和評估任務的限制，這些可能無法完全捕捉到實際製造異常的所有方面。

為了充分利用 FORGE，用戶應從探索存儲庫中提供的示例 YAML 配置文件開始。這些文件作為設置和運行評估的實踐指南。熟悉不同任務及其特定要求也是有益的，因為這些知識有助於設計有效的評估策略。此外，利用基礎消融研究可以提供對 VLMs 空間推理能力的更深洞察，這對於涉及零件匹配和空間基礎的任務至關重要。

FORGE 是一個強大的工具，用於評估視覺語言模型在製造異常檢測中的應用。它提供了一種結構化的評估模型性能的方法，涵蓋各種任務和設置，使希望在工業環境中增強 AI 應用的研究人員和工程師受益。儘管存在複雜性和資源需求，但框架的靈活性和全面的輸出使其成為推進製造業 AI 領域的寶貴資產。

City University of Hong Kong | HKUST (Guangzhou) | CUHK (Shenzhen)

Source: https://github.com/AI4Manufacturing/FORGE

Categories: 開源, 香港中文大學, 香港科技大學, 庫, 視覺模型, 香港城市大學

Gen-Searcher 準確同貼近現實圖片

2026 年 4 月 6 日

Gen-Searcher 係全球首個專為圖像生成設計嘅多模態深度研究代理，佢會先上網搜尋資料、瀏覽證據同埋搵視覺參考，先至開始繪圖。呢個模型透過專門嘅訓練數據同強化學習，令生成嘅圖片更準確同貼近現實。佢喺多個測試基準上表現出色，仲可以輕鬆轉移應用到唔同嘅圖像生成模型上。所有代碼、模型同數據都已經完全開源，方便開發者直接使用。影像產生使用
Qwen/Qwen-Image-Edit-2509 和 FastAPI 進行服務。(MMLab, CUHK)

Categories: 開源, 香港中文大學, 庫, 影像模型, 中國

Utonia – Point Cloud 的單一編碼器

2026 年 3 月 27 日

Utonia 是一個統一的自監督點雲 Transformer 編碼器，目標是「一個編碼器適用於所有點雲域」，也就是在不同感測器與場景（遙感、戶外 LiDAR、室內 RGB‑D、物件級 CAD 模型、單目視頻轉 3D 點雲等）上共享同一個 backbone，讓預訓練特徵能跨域遷移。

Utonia 在大量異構點雲資料上 jointly 預訓練一個單一的 Point Transformer V3 編碼器，不依賴 domain‑specific 的頭或模組，只用一個 shared representation space。

跨域資料混合：
研究中混合了遙感（衛星/航拍）、自駕車用 LiDAR、室內 RGB‑D 掃描、CAD 物件模型、以及從 RGB 影片 lift 上來的點雲，一起放入 masked autoencoding 式的自監督訓練流程。

Categories: 開源, 香港中文大學, 影像模型, 影像處理

PlenopticDreamer – NVidia 解決影片一致性

2026 年 1 月 9 日

PlenopticDreamer 主要解決「鏡頭控制生成影片」的不一致問題。這是一個能讓 AI「像無人機一樣繞著物體飛」生成影片的技術。它可以應用在自駕車的模擬環境、機器人的視覺訓練，以及好萊塢等級的虛擬拍攝。

1. Robotics（機器人）：

* 情境模擬：機器人需要理解物體在不同角度下的樣貌。這個技術可以根據單一攝影機的畫面，生成該物體在其他視角的影像，幫助機器人進行視覺導航或物體抓取的訓練。

* 模擬數據生成：為機器視覺系統生成更多樣化的訓練數據。

2. Self-Driving（自駕車）：

* 場景理解：自駕車通常有多個鏡頭。這個技術可以補足盲區，或者將一個鏡頭的畫面轉換成其他鏡頭的視角，幫助車輛更全面地感知周圍環境。

* 未來幀預測：預測道路上物體在下一秒鐘會出現在哪個位置（從不同角度）。

3. 影視製作與 AR/VR：

* 新視角補全：如果拍攝時漏掉了某個角度，可以利用這個技術「憑空生成」該角度的連續影片。

* 重定向（Re-direction）：可以將拍好的影片，根據新的鏡頭軌跡重新渲染（Re-rendering），讓同一段故事可以從不同角度重新看一遍。

Categories: 開源, 香港中文大學, NVIDIA, 影像模型, 影像處理, 視覺模型, 視頻模型

ProEdit：開源圖片及影片編輯

2026 年 1 月 4 日

ProEdit 透過 KV-mix 在注意力層融合源/目標特徵，及 Latents-Shift 擾動潛在空間，實現高保真編輯。支援 FLUX、HunyuanVideo 等模型，同時亦整合 Qwen3-8B 解析自然語言指令。

ProEdit 解決傳統反轉編輯過度依賴源圖的問題，能準確變換主體屬性如姿態、數量、顏色，同時保持背景一致。適用於圖像替換（如老虎變貓、襯衫變毛衣）與影片動態編輯（如紅車變黑車、鹿變牛）。適合 AI 內容創作者、影片後製，plug-and-play 相容 RF-Solver 等工具，在多項基準測試達 SOTA 效能。

ProEdit: Inversion-based Editing From Prompts Done Right

Watch this video on YouTube

Categories: 香港大學, 香港中文大學, 影像模型, 影像處理, 視頻模型

SemanticGen 加入語意生成影片

2025 年 12 月 28 日

SemanticGen 首先在高層語義空間中生成視頻，然後在 VAE 潛在空間中細化細節。SemanticGen 的核心觀點是，鑑於影片中固有的大量冗餘訊息，視訊生成應首先在緊湊的語義空間中進行全局規劃，然後再添加高頻細節——而不是直接對大量的底層視訊標記進行建模。

Categories: 香港中文大學, 影像處理

RePlan 圖像編輯框架

2025 年 12 月 27 日

RePlan 是一個基於指令的圖像編輯框架，專門解決指令-視覺複雜度（IV-Complexity）挑戰，透過視覺語言規劃器與擴散編輯器結合實現精準區域編輯。

框架採用「規劃-執行」策略：VLM 規劃器透過逐步推理分解複雜指令，生成邊界框與區域提示；編輯器使用無訓練注意力區域注入機制，支援單次多區域並行編輯，避免迭代 inpainting。

Categories: 開源, 香港中文大學, 香港科技大學, 騰訊, Python, 影像模型, 影像處理, 新聞

Light-X 修正相片/影片光渲染及視角

2025 年 12 月 14 日

Light-X 是個視訊生成框架，它能夠從視訊中實現可控渲染，並同時控制視角和光照。

Light-X 提出一種解耦設計，將幾何形狀和光照信號解耦：幾何形狀和運動通過沿用戶定義的相機軌跡投影的動態點雲來捕獲，而光照線索則由始終投影到相同幾何形狀的重新光照幀提供。這些明確的、細粒度的線索能夠有效地解耦，並指導高品質的光照。

為了解決缺乏配對的多視角和多光照視頻的問題，Light-X 引入了Light-Syn，這是一種基於退化和逆映射的流程，它利用自然場景下的單目視頻素材合成訓練對。此策略產生了一個涵蓋靜態、動態和 AI 生成場景的資料集，確保了訓練的穩健性。大量實驗表明，Light-X 在聯合相機光照控制方面優於基線方法，並且在文字和背景兩種條件下均優於以往的視訊重光照方法。

httpv://www.youtube.com/watch?v=ui9Lg2H–0c

Categories: 開源, 香港中文大學, 影像處理

MoC 突破時空限制：AI 長影片生成

2025 年 8 月 29 日

AI 不僅能創造出栩栩如生的圖片，還能生成數分鐘、甚至更長，且故事連貫、情節流暢的影片。這曾是生成式AI領域一個巨大的挑戰。然而，一項名為「上下文混合」(Mixture of Contexts, MoC) 的創新技術，正逐步將這個夢想變為現實。這項由 Shengqu Cai 等研究人員提出的最新進展，為長影片生成帶來了革命性的解決方案，有效克服了現有模型在處理「長期上下文記憶」上的瓶頸。

生成長影片的核心挑戰，在於模型必須能夠在漫長的時間序列中，保持並檢索關鍵事件，同時避免資訊崩潰或內容漂移。現有的擴散變換器（diffusion transformers）雖然在短影片生成方面表現出色，但其自注意力（self-attention）機制的二次方成本，使得處理長序列時，記憶體和計算資源的消耗變得難以承受，導致效率低下且難以優化。這意味著，隨著影片時長的增加，AI模型可能會「忘記」影片開頭的人物身份、動作或場景設定，導致影片內容的連貫性、一致性大大降低。

(more…)

Categories: 開源, 香港中文大學, 字節跳動, 影像模型

ToonComposer：簡化動畫製作

2025 年 8 月 17 日

傳統的卡通/動漫製作耗時耗力，需要技藝精湛的藝術家進行關鍵影格、中間畫和上色。 ToonComposer 利用生成式 AI 簡化了這個流程，將數小時的中間畫和上色手動工作簡化為一個無縫銜接的流程。

ToonComposer: Streamlining Cartoon Production with Generative Post-Keyframing

Watch this video on YouTube

Categories: 香港中文大學, 動畫, 影像模型, 影像處理, 視頻模型

Page 4 of 5

« Previous 1 2 3 4 5 Next »