香港中文大學

AnyRecon：使用視頻擴散模型進行任意視角3D重建

OpenImagingLab/AnyRecon 在 GitHub 上

AnyRecon利用視頻擴散模型從輸入視頻中重建任意的3D視圖。這個創新的工具對於希望探索視覺敘事新維度的內容創作者和研究人員特別有用。

在開始使用AnyRecon時，最初應專注於理解其核心功能——將連續幀轉換為空間上一致的3D重建。該過程涉及將視頻數據通過預訓練模型，該模型輸出詳細的3D模型。此工作流程需要仔細準備輸入視頻並精確配置模型參數。

研究人員和藝術家最能受益於AnyRecon的功能。它使他們能夠從現有的視頻內容生成沉浸式的3D環境，為虛擬現實應用和互動媒體打開了可能性。然而，用戶應該意識到該工具需要強大的大型語言模型（LLM）才能達到最佳性能。

主要收穫包括：
* AnyRecon使用視頻擴散模型進行3D重建。
* 適合內容創作和研究目的。
* 需要堅固的LLM以獲得最佳效果。

了解AnyRecon的底層機制有助於用戶有效地量身定製他們的項目。通過嘗試不同的視頻輸入和調整設置，創作者可以解鎖獨特的視覺體驗。

Source: https://github.com/OpenImagingLab/AnyRecon

Categories: 香港大學, 香港中文大學, 影像處理, 模型, 開源

OmniShow 全方位人體物件互動影片生成模型

OmniShow 標誌 — Correr-Zhou/OmniShow 在 GitHub 上

OmniShow 提出了一種突破性的人體物件互動影片生成（HOIVG）解決方案，提供了一個統一的框架，整合了文字、參考圖像、音訊和姿態條件。這個多功能模型特別吸引電腦視覺和多媒體處理領域的研究人員和開發人員，他們希望推動影片合成技術的邊界。對於考慮使用此工具的人，首先應該關注其核心功能以及如何應用於各種任務，例如音訊驅動的化身、物件交換和影片混音。

該模型的有效性在於其能夠無縫處理多種類型的輸入數據。在實踐中，OmniShow 使用 統一通道條件 來整合參考圖像和姿態，使用由參考重建損失監督的偽幀增強影片令牌。這確保生成的影片與輸入數據保持語義一致性。此外，閘控局部上下文注意力 在對齊音訊特徵與影片幀方面發揮了重要作用，確保精確同步。分離然後聯合訓練 策略允許高效使用多樣化的數據集，最初在單個任務上訓練專業模型，然後將它們合併以實現全面的多模式能力。

從 OmniShow 中受益最大的研究人員和開發人員是那些從事需要高保真影片生成和複雜多模式輸入的專案的人。該模型在單一框架內支援 R2V（參考到影片）、RA2V（參考+音訊到影片）、RP2V（參考+姿態到影片）和 RAP2V（參考+音訊+姿態到影片）等任務的靈活性，使其成為無價的工具。它啟用廣泛的應用，從創建對音訊輸入做出反應的逼真化身，到生成準確反映指定姿態和物件的影片。

然而，需要考慮權衡。OmniShow 架構的複雜性可能對那些新接觸先進影片生成模型的人構成挑戰。使用者應當準備好面對陡峭的學習曲線和由於模型的全面性可能導致的較長訓練時間。此外，對多種模式的高品質輸入數據的要求可能很嚴苛，因為劣質輸入可能會導致不滿意的輸出。

為了充分利用 OmniShow，使用者應從探索 HOIVG-Bench 開始，這是一個專門的基準測試，提供在各種多模式條件下對 HOIVG 的系統評估。該基準測試包括 135 個精心挑選的樣本，配有詳細的文字說明、參考圖像、音訊和姿態序列，提供了一個全面的數據集，用於測試和驗證模型的性能。通過檢查這些樣本，使用者可以了解 OmniShow 如何處理不同類型的輸入數據，並識別潛在改進的領域。

OmniShow 是任何參與先進影片生成任務的人的強大工具。其將多種模式統一到單一連貫框架中的能力使其與其他模型區別開來。儘管它提供了顯著的好處，使用者應當注意與其複雜性和數據需求相關的挑戰。通過仔細考慮這些因素並專注於模型的核心優勢，研究人員和開發人員可以釋放其全部潛力，並推動人體物件互動影片生成領域的創新。

Source: https://github.com/Correr-Zhou/OmniShow

Categories: 香港大學, 香港中文大學, 騰訊, 視頻模型, 開源

FORGE：製造場景的細粒度多模態評估

FORGE 標誌 — AI4Manufacturing/FORGE 在 GitHub 上

FORGE 提出了一個全面的評估框架，專門針對視覺語言模型（VLMs）在工業製造異常檢測中的應用。這個工具對於希望評估和改進 VLMs 在實際製造場景中表現的研究人員、工程師和 AI 專業人士特別有價值。該框架涵蓋了三個核心任務和基礎消融研究，提供了一種多維度的方法來理解 VLMs 在檢測異常（如錯誤模型、額外零件和缺失組件）方面的能力和限制。

在深入研究 FORGE 時，用戶應首先專注於理解三個主要任務：錯誤模型檢測、異常分類和額外/錯誤零件檢測。這些任務旨在模擬製造環境中面對的實際挑戰，使用照片和渲染圖像。基礎消融研究進一步探討了空間基礎和跨圖像零件匹配，提供了對 VLMs 空間推理能力的洞察。

在實踐中，FORGE 通過利用多種評估設置（包括零樣本、少樣本和上下文學習（ICL））來運作。用戶可以通過 YAML 文件配置這些設置，這些文件控制所有評估參數，如模型名稱、溫度和最大令牌數。這種靈活性使研究人員能夠根據自己的特定需求和假設量身定製評估過程。該框架支持多種後端，如 OpenRouter、OpenAI、Anthropic 和 Google，使用戶能夠實驗不同的 VLMs 並觀察其性能變化。

最能從 FORGE 中受益的是那些參與製造業 AI 解決方案開發和部署的人士。通過提供標準化的基準，FORGE 幫助這些專業人士識別各種 VLMs 的優缺點，促進在模型選擇和整合方面的明智決策。此外，詳細的輸出文件，包括緊湊結果、帶有原始 API 訊息的完整結果和執行日誌，為分析和報告提供了寶貴的數據。

然而，也有一些權衡需要考慮。框架的複雜性可能對新手構成學習曲線，需要對 VLMs 和異常檢測原理有紮實的理解。此外，運行廣泛評估所需的計算資源可能相當龐大，特別是在處理大型數據集和多種評估設置時。用戶還應當小心數據集中的潛在偏見和評估任務的限制，這些可能無法完全捕捉到實際製造異常的所有方面。

為了充分利用 FORGE，用戶應從探索存儲庫中提供的示例 YAML 配置文件開始。這些文件作為設置和運行評估的實踐指南。熟悉不同任務及其特定要求也是有益的，因為這些知識有助於設計有效的評估策略。此外，利用基礎消融研究可以提供對 VLMs 空間推理能力的更深洞察，這對於涉及零件匹配和空間基礎的任務至關重要。

FORGE 是一個強大的工具，用於評估視覺語言模型在製造異常檢測中的應用。它提供了一種結構化的評估模型性能的方法，涵蓋各種任務和設置，使希望在工業環境中增強 AI 應用的研究人員和工程師受益。儘管存在複雜性和資源需求，但框架的靈活性和全面的輸出使其成為推進製造業 AI 領域的寶貴資產。

City University of Hong Kong | HKUST (Guangzhou) | CUHK (Shenzhen)

Source: https://github.com/AI4Manufacturing/FORGE

Categories: 香港中文大學, 香港科技大學, 庫, 視覺模型, 開源, 香港城市大學

Gen-Searcher 準確同貼近現實圖片

Gen-Searcher 係全球首個專為圖像生成設計嘅多模態深度研究代理，佢會先上網搜尋資料、瀏覽證據同埋搵視覺參考，先至開始繪圖。呢個模型透過專門嘅訓練數據同強化學習，令生成嘅圖片更準確同貼近現實。佢喺多個測試基準上表現出色，仲可以輕鬆轉移應用到唔同嘅圖像生成模型上。所有代碼、模型同數據都已經完全開源，方便開發者直接使用。影像產生使用
Qwen/Qwen-Image-Edit-2509 和 FastAPI 進行服務。(MMLab, CUHK)

Categories: 香港中文大學, 庫, 影像模型, 開源, 中國

Utonia – Point Cloud 的單一編碼器

Utonia 是一個統一的自監督點雲 Transformer 編碼器，目標是「一個編碼器適用於所有點雲域」，也就是在不同感測器與場景（遙感、戶外 LiDAR、室內 RGB‑D、物件級 CAD 模型、單目視頻轉 3D 點雲等）上共享同一個 backbone，讓預訓練特徵能跨域遷移。

Utonia 在大量異構點雲資料上 jointly 預訓練一個單一的 Point Transformer V3 編碼器，不依賴 domain‑specific 的頭或模組，只用一個 shared representation space。

跨域資料混合：
研究中混合了遙感（衛星/航拍）、自駕車用 LiDAR、室內 RGB‑D 掃描、CAD 物件模型、以及從 RGB 影片 lift 上來的點雲，一起放入 masked autoencoding 式的自監督訓練流程。

Categories: 香港中文大學, 影像模型, 影像處理, 開源

PlenopticDreamer – NVidia 解決影片一致性

PlenopticDreamer 主要解決「鏡頭控制生成影片」的不一致問題。這是一個能讓 AI「像無人機一樣繞著物體飛」生成影片的技術。它可以應用在自駕車的模擬環境、機器人的視覺訓練，以及好萊塢等級的虛擬拍攝。

1. Robotics（機器人）：

* 情境模擬：機器人需要理解物體在不同角度下的樣貌。這個技術可以根據單一攝影機的畫面，生成該物體在其他視角的影像，幫助機器人進行視覺導航或物體抓取的訓練。

* 模擬數據生成：為機器視覺系統生成更多樣化的訓練數據。

2. Self-Driving（自駕車）：

* 場景理解：自駕車通常有多個鏡頭。這個技術可以補足盲區，或者將一個鏡頭的畫面轉換成其他鏡頭的視角，幫助車輛更全面地感知周圍環境。

* 未來幀預測：預測道路上物體在下一秒鐘會出現在哪個位置（從不同角度）。

3. 影視製作與 AR/VR：

* 新視角補全：如果拍攝時漏掉了某個角度，可以利用這個技術「憑空生成」該角度的連續影片。

* 重定向（Re-direction）：可以將拍好的影片，根據新的鏡頭軌跡重新渲染（Re-rendering），讓同一段故事可以從不同角度重新看一遍。

Categories: 香港中文大學, NVIDIA, 影像模型, 影像處理, 視覺模型, 視頻模型, 開源

ProEdit：開源圖片及影片編輯

ProEdit 透過 KV-mix 在注意力層融合源/目標特徵，及 Latents-Shift 擾動潛在空間，實現高保真編輯。支援 FLUX、HunyuanVideo 等模型，同時亦整合 Qwen3-8B 解析自然語言指令。

ProEdit 解決傳統反轉編輯過度依賴源圖的問題，能準確變換主體屬性如姿態、數量、顏色，同時保持背景一致。適用於圖像替換（如老虎變貓、襯衫變毛衣）與影片動態編輯（如紅車變黑車、鹿變牛）。適合 AI 內容創作者、影片後製，plug-and-play 相容 RF-Solver 等工具，在多項基準測試達 SOTA 效能。

ProEdit: Inversion-based Editing From Prompts Done Right

Watch this video on YouTube

Categories: 香港大學, 香港中文大學, 影像模型, 影像處理, 視頻模型

SemanticGen 加入語意生成影片

SemanticGen 首先在高層語義空間中生成視頻，然後在 VAE 潛在空間中細化細節。SemanticGen 的核心觀點是，鑑於影片中固有的大量冗餘訊息，視訊生成應首先在緊湊的語義空間中進行全局規劃，然後再添加高頻細節——而不是直接對大量的底層視訊標記進行建模。

Categories: 香港中文大學, 影像處理

RePlan 圖像編輯框架

RePlan 是一個基於指令的圖像編輯框架，專門解決指令-視覺複雜度（IV-Complexity）挑戰，透過視覺語言規劃器與擴散編輯器結合實現精準區域編輯。

框架採用「規劃-執行」策略：VLM 規劃器透過逐步推理分解複雜指令，生成邊界框與區域提示；編輯器使用無訓練注意力區域注入機制，支援單次多區域並行編輯，避免迭代 inpainting。

Categories: 香港中文大學, 香港科技大學, 騰訊, Python, 影像模型, 影像處理, 新聞, 開源

Light-X 修正相片/影片光渲染及視角

Light-X 是個視訊生成框架，它能夠從視訊中實現可控渲染，並同時控制視角和光照。

Light-X 提出一種解耦設計，將幾何形狀和光照信號解耦：幾何形狀和運動通過沿用戶定義的相機軌跡投影的動態點雲來捕獲，而光照線索則由始終投影到相同幾何形狀的重新光照幀提供。這些明確的、細粒度的線索能夠有效地解耦，並指導高品質的光照。

為了解決缺乏配對的多視角和多光照視頻的問題，Light-X 引入了Light-Syn，這是一種基於退化和逆映射的流程，它利用自然場景下的單目視頻素材合成訓練對。此策略產生了一個涵蓋靜態、動態和 AI 生成場景的資料集，確保了訓練的穩健性。大量實驗表明，Light-X 在聯合相機光照控制方面優於基線方法，並且在文字和背景兩種條件下均優於以往的視訊重光照方法。

httpv://www.youtube.com/watch?v=ui9Lg2H–0c

Categories: 香港中文大學, 影像處理, 開源

Page 1 of 2

1 2 Next »