香港科技大學

FORGE：製造場景的細粒度多模態評估

FORGE 標誌 — AI4Manufacturing/FORGE 在 GitHub 上

FORGE 提出了一個全面的評估框架，專門針對視覺語言模型（VLMs）在工業製造異常檢測中的應用。這個工具對於希望評估和改進 VLMs 在實際製造場景中表現的研究人員、工程師和 AI 專業人士特別有價值。該框架涵蓋了三個核心任務和基礎消融研究，提供了一種多維度的方法來理解 VLMs 在檢測異常（如錯誤模型、額外零件和缺失組件）方面的能力和限制。

在深入研究 FORGE 時，用戶應首先專注於理解三個主要任務：錯誤模型檢測、異常分類和額外/錯誤零件檢測。這些任務旨在模擬製造環境中面對的實際挑戰，使用照片和渲染圖像。基礎消融研究進一步探討了空間基礎和跨圖像零件匹配，提供了對 VLMs 空間推理能力的洞察。

在實踐中，FORGE 通過利用多種評估設置（包括零樣本、少樣本和上下文學習（ICL））來運作。用戶可以通過 YAML 文件配置這些設置，這些文件控制所有評估參數，如模型名稱、溫度和最大令牌數。這種靈活性使研究人員能夠根據自己的特定需求和假設量身定製評估過程。該框架支持多種後端，如 OpenRouter、OpenAI、Anthropic 和 Google，使用戶能夠實驗不同的 VLMs 並觀察其性能變化。

最能從 FORGE 中受益的是那些參與製造業 AI 解決方案開發和部署的人士。通過提供標準化的基準，FORGE 幫助這些專業人士識別各種 VLMs 的優缺點，促進在模型選擇和整合方面的明智決策。此外，詳細的輸出文件，包括緊湊結果、帶有原始 API 訊息的完整結果和執行日誌，為分析和報告提供了寶貴的數據。

然而，也有一些權衡需要考慮。框架的複雜性可能對新手構成學習曲線，需要對 VLMs 和異常檢測原理有紮實的理解。此外，運行廣泛評估所需的計算資源可能相當龐大，特別是在處理大型數據集和多種評估設置時。用戶還應當小心數據集中的潛在偏見和評估任務的限制，這些可能無法完全捕捉到實際製造異常的所有方面。

為了充分利用 FORGE，用戶應從探索存儲庫中提供的示例 YAML 配置文件開始。這些文件作為設置和運行評估的實踐指南。熟悉不同任務及其特定要求也是有益的，因為這些知識有助於設計有效的評估策略。此外，利用基礎消融研究可以提供對 VLMs 空間推理能力的更深洞察，這對於涉及零件匹配和空間基礎的任務至關重要。

FORGE 是一個強大的工具，用於評估視覺語言模型在製造異常檢測中的應用。它提供了一種結構化的評估模型性能的方法，涵蓋各種任務和設置，使希望在工業環境中增強 AI 應用的研究人員和工程師受益。儘管存在複雜性和資源需求，但框架的靈活性和全面的輸出使其成為推進製造業 AI 領域的寶貴資產。

City University of Hong Kong | HKUST (Guangzhou) | CUHK (Shenzhen)

Source: https://github.com/AI4Manufacturing/FORGE

Categories: 香港中文大學, 香港科技大學, 庫, 視覺模型, 開源, 香港城市大學

Spatia 可更新空間的影片生成

Spatia，一個感知空間記憶的視頻生成框架，它將三維場景點雲顯式地保存為持久的空間記憶。 Spatia 基於此空間記憶迭代生成影片片段，並透過視覺 SLAM 不斷更新它。這種動態-靜態解耦設計增強了整個生成過程中的空間一致性，同時保持了模型生成逼真動態實體的能力。此外，Spatia 支援顯式相機控制和三維感知互動式編輯等應用，為可擴展的、記憶驅動的視訊生成提供了一個基於幾何基礎的框架。

Categories: 香港科技大學, 視頻模型

RePlan 圖像編輯框架

RePlan 是一個基於指令的圖像編輯框架，專門解決指令-視覺複雜度（IV-Complexity）挑戰，透過視覺語言規劃器與擴散編輯器結合實現精準區域編輯。

框架採用「規劃-執行」策略：VLM 規劃器透過逐步推理分解複雜指令，生成邊界框與區域提示；編輯器使用無訓練注意力區域注入機制，支援單次多區域並行編輯，避免迭代 inpainting。

Categories: 香港中文大學, 香港科技大學, 騰訊, Python, 影像模型, 影像處理, 新聞, 開源

AnyTalker 多人對話唇形同步影片

AnyTalker，一個基於音訊的多人對話的開源視訊生成框架。它採用靈活的多流結構，既能擴展身份規模，又能確保身份之間的無縫互動。

Categories: 香港科技大學, 影像處理, 數字人, 開源

UniVerse-1 同步生成有聲影片

UniVerse-1 是個類似 Veo-3 的模型，可根據參考圖像和文字提示同時產生同步音訊和視訊。

統一音視頻合成：具有同時生成音訊和視訊的強大功能。它能夠解析輸入提示，產生完美同步的視聽輸出。
語音音訊產生：此模型可直接根據文字提示產生流暢的語音，展現了其內建的文字轉語音 (TTS) 功能。至關重要的是，它能夠根據生成的特定字元調整語音音色。
樂器演奏聲音生成：此模型在創造樂器聲音方面也非常熟練。此外，它還提供了「邊彈邊唱」的功能，可以同時產生人聲和樂器音軌。
環境聲音生成：此模型可以產生環境聲音，產生與視訊視覺環境相符的背景音訊。
第一個開源的基於 Dit 的音訊視訊聯合方法：我們是第一個開源基於 DiT、類似 Veo-3 的聯合視聽生成模型。

Categories: 香港科技大學, 多模態模型, 視頻模型, 開源

Matrix-3D：可探索的3D 世界

相較於最先進的 360 度影片生成方法，Matrix-3D 在全景影片的視覺品質與合理幾何結構上更優越。同時，在視覺品質與相機可控性上，也超越先前的相機控制影片生成方法。廣泛實驗證明其在全景影片生成與 3D 世界生成上的最先進效能。香港科技大學(廣州分校)有份參預！

Categories: 香港科技大學, 3D, Linux, Mac, Win, 模型, 視頻模型, 開源

VisionThink 智慧高效視覺語言模型

VisionThink 利用強化學習自主學習減少視覺 token。與傳統的高效 VLM 方法相比，這方法在
微粒度基準測試（例如涉及 OCR 相關任務的基準測試）上取得了顯著的提升。

由香港中文大學，香港大學，科技大學大聯合開發

VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning

Watch this video on YouTube

Categories: 香港大學, 香港中文大學, 香港科技大學, 推理引擎, 模型, 深度學習, 視覺模型, 開源

MultiTalk 音訊驅動生成多人對話影片

由音訊驅動的人體動畫技術，以面部動作同步且畫面吸睛的能力，已經有很顯著的進步。然而，現有的方法大多專注於單人動畫，難以處理多路音訊輸入，也因此常發生音訊與人物無法正確配對的問題。

MultiTalk 為了克服這些挑戰，提出了一項新任務：多人對話影片生成，並引入了一個名為 MultiTalk 的新框架。這個框架專為解決多人生成過程中的難題而設計。具體來說，在處理音訊輸入時，我們研究了多種方案，並提出了一種**標籤旋轉位置嵌入（L-RoPE）**的方法，來解決音訊與人物配對不正確的問題。香港科技大學數學與數學研究中心及電子與電腦工程系有份參與。

Categories: 香港科技大學, 影像模型, 數字人, 模型, 聲效, 視頻模型, 開源

FlashVideo 高速生成高解像度影片

FlashVideo 由香港大學、香港科技大學及 ByteDance 聯合開發，你只需要準備一張或者幾張參考圖片，加上文字提示詞，就可以生成高解像度的影片。過程主要分為兩部份，第一部分是優先處理提示詞，同時以低解像度處理圖片，減少 DIT 的運算時間。第二部分會建立低解像度和高解像度之間的匹配。結果能夠以高速生成 1 0 8 0 P 的高清影片。[DiT] Diffusion Transformer | [NFE ] Number of Function Evaluations