Flow-OPD:讓文生圖多工對齊更穩的關鍵一步

Teaser

Flow-OPD 是一個針對 Flow Matching 文生圖模型的後訓練框架,核心目標不是單純追高某一項分數,而是把 OCR、組合理解、問答與人類偏好等不同能力整合進同一個學生模型。從公開資訊來看,它建立在 SD-3.5-Medium 上,並以兩階段流程處理「先培養專長、再統一能力」這個多任務對齊難題。

實際使用上,這個專案目前較適合研究者或進階生成模型開發者參考其方法與權重,而不是一般使用者直接拿來當完整訓練工具鏈。README 顯示模型權重已釋出,但完整訓練程式仍在進行中,因此比較合理的使用方式,是先檢視論文與模型成果,再評估是否將其蒸餾思路移植到自己的 Flow Matching 訓練流程。

它最值得注意的創新,在於把原本稀疏的標量獎勵,改成由多個教師模型提供的軌跡級稠密向量場監督。配合 on-policy 的 SDE 採樣,學生模型能在自身生成軌跡上接受更細緻的指導;再加上 MAR 正則化,則是用來降低純 RL 對齊常見的美感退化問題,這點對文生圖品質維持特別重要。

從結果看,Flow-OPD 的價值在於它不只比 vanilla GRPO 更強,還試圖解決多任務訓練常見的「翹翹板效應」。公開數據顯示,該方法在 GenEval、OCR、DeQA 與 PickScore 上都有提升,平均表現優於基線,且在 OCR、DeQA 上甚至出現超越個別教師的現象;不過這些結論仍應以論文設定與基準環境為前提理解。

  • 定位明確:專注於 Flow Matching 文生圖模型的多任務後訓練與對齊。
  • 方法新意:以多教師稠密監督取代單一標量獎勵,降低任務間梯度干擾。
  • 實務亮點:MAR 用來守住美感品質,避免只追指標造成生成退化。
  • 適用場景:適合需要同時兼顧文字生成、構圖理解與偏好對齊的通用型文生圖系統。
  • 使用前提:目前較偏研究型專案,若要重現訓練流程,可能仍需等待完整訓練程式公開。

Model download: https://huggingface.co/CostaliyA/Flow-OPD

Source: https://github.com/CostaliyA/Flow-OPD

Categories: 開源, 香港中文大學, 影像模型, 影像處理, 模型

MACE-Dance:把音樂變成舞蹈影片

Repository image for AMAP-ML/MACE-Dance

MACE-Dance 是一個面向音樂驅動舞蹈影片生成的研究型專案,核心目標是讓系統根據音樂內容,產生具有舞蹈動作與角色外觀一致性的影片。從名稱與簡介來看,它特別強調 motion 與 appearance 的分工建模,而不是把整個生成流程視為單一路徑處理。

這個專案最值得注意的地方,在於所謂 Motion-Appearance Cascaded Experts 的設計思路。簡單說,它像是把「先決定怎麼跳」與「再決定畫面怎麼呈現」拆成串接的專家模組,這種做法理論上有助於減少動作節奏與人物外觀彼此牽制的問題,也更貼近舞蹈影片生成常見的兩大難點。

實際使用上,這類儲存庫通常更適合已有生成式影音或人體動作研究背景的開發者與研究者。若你想評估模型表現,重點應放在輸入音樂後的動作對拍程度、角色連續性,以及生成影片是否維持合理的視覺一致性;若要延伸研究,則可觀察其模組拆分是否方便替換不同的音樂表徵或影像生成元件。

  • 聚焦音樂到舞蹈影片的多模態生成任務
  • 以動作與外觀分階段處理作為主要方法亮點
  • 適合分析節奏對齊、角色一致性與影片連續性
  • 較偏研究用途,不像一般即裝即用的消費型工具

就應用場景而言,它最適合用在舞蹈生成研究、虛擬人表演合成、音樂視覺化內容製作,以及多模態生成模型的比較實驗。若你正在找的是可快速產出商業級短影音的完整產品,這個專案目前看來更像方法驗證與學術探索平台;但若你的目標是理解音樂驅動角色影片生成的前沿方向,它具備相當明確的研究切入點。

Source: https://github.com/AMAP-ML/MACE-Dance

Categories: 開源, 影像模型, 影像處理, 模型, 視頻模型


HERMESV2:把3D理解與未來預測合而為一的自駕世界模型

HERMES++ overview

HERMES++是一個面向自動駕駛的統一世界模型,核心目標不是只做未來場景生成,而是同時處理3D場景理解未來幾何預測。這點很關鍵,因為多數方法通常偏重其中一端,導致語意理解與物理演化之間仍有落差。

實際使用上,它比較適合拿來當研究型框架:先把多視角輸入整理成BEV表示,再讓模型在共享表示上同時回答當前場景理解任務,並推估未來幾何變化。若團隊正在做自駕感知、模擬預測或世界模型整合,這種設計能減少分散建模的成本。

這個專案最有意思的創新,在於把適合語意推理的資訊與幾何演化需求接起來。它透過BEV token承接多視角空間資訊,再加入LLM-enhanced world queriesCurrent-to-Future LinkJoint Geometric Optimization,讓目前場景語意能更自然地影響未來結構生成。

重點摘要如下:
– 以單一框架同時支援3D理解與未來點雲/幾何預測
– 使用BEV表示壓縮多視角輸入,保留較一致的空間結構
– 透過語言推理增強的world queries傳遞語意與世界知識
– 用幾何顯式與隱式約束提升未來場景結構一致性

若從應用場景來看,HERMES++最適合用在需要「理解現在、推演未來」的自駕研究,例如未來場景模擬、感知與預測聯合建模,或作為下游規劃系統的前端世界表徵。README與專案頁面顯示它在多個基準上有不錯表現,但若要評估實務部署價值,仍建議進一步確認推論成本、資料需求與特定任務設定。

如需特定模型,專案內容明確提到會結合大型語言模型(LLMs)進行語意知識轉移;不過實際採用的基礎模型細節,從目前提供資訊中不宜過度推定。整體而言,這不是入門型套件,而是一個相當有研究含量、試圖打通理解與生成邊界的自駕世界模型方案。

Source: https://github.com/H-EmbodVis/HERMESV2

Categories: 開源, 香港大學, 影像處理, 世界模型

X2SAM把影像與影片分割整合成單一模型

HuggingFace

X2SAM 是一個統一式分割多模態大型語言模型,目標是把影像中的「任意分割」能力延伸到影片。它結合 LLM、Vision Encoder、Mask Encoder、Mask Decoder 與 Mask Memory,讓模型不只理解畫面內容,還能依照對話指令或視覺提示產生像素級遮罩。

實際使用上,X2SAM 可同時接受對話式文字指令視覺提示,適合需要指定目標、追蹤物件或互動修正結果的情境。官方描述指出,它支援 generic、open-vocabulary、referring、reasoning、grounded conversation generation、interactive 與 visual grounded segmentation,代表使用者可用較自然的方式提出分割需求,而不必侷限於單一輸入形式。

這個專案的主要創新,在於用單一介面整合影像與影片分割,並以 Mask Memory 儲存受引導的視覺特徵,改善影片中跨時間的遮罩一致性。此外,作者也提出 V-VGD(Video Visual Grounded) 分割基準,用來評估模型是否能根據互動式視覺提示,在影片中分割並追蹤物件。

  • 統一支援影像與影片分割,而非只專注單一媒體
  • 同時支援文字指令與視覺提示輸入
  • 透過 Mask Memory 強化影片遮罩的時序一致性
  • 提出 V-VGD 基準補足影片視覺定位分割評估
  • 採用異質影像與影片資料的聯合訓練策略

從工作應用來看,這類系統可望受惠於影片內容理解、互動式標註、智慧剪輯、視覺助理與多模態人機互動等任務。性能方面,原文表示 X2SAM 在影片分割上達到強勁表現,對影像分割基準仍具競爭力,並保留一般影像與影片聊天能力;不過此頁面未完整列出具體數值,因此解讀上仍應以論文與實驗表格為準。

模型列表:LLM、SAM 系列

Categories: 開源, 影像模型, 影像處理

SenseNova-U系列:一種突破性的多模態AI

SenseNova-U1
OpenSenseNova/SenseNova-U1 on GitHub

SenseNova U1引入了一種突破性的多模態AI方法,通過單一架構統一語言和視覺。這種創新允許文本和圖像之間無縫互動,而不需要單獨的適配器,增強了效率和一致性。

在探索SenseNova U1時,最初應關注其核心架構NEO-Unify,這使得模型能夠將視覺和文本數據作為統一的複合體進行處理。實際上,這意味著模型可以更有效地跨不同類型的輸入進行推理,保留語義豐富性和視覺忠實度。

研究人員和開發者最能受益於SenseNova U1的能力,特別是那些從事需要高密度資訊渲染或交錯圖文生成應用的人。該模型處理複雜任務(如創建知識插圖或旅行日誌)的能力使其成為一個寶貴的工具。

為了充分利用SenseNova U1,用戶應擁有能夠支援多模態任務的強大大型語言模型(LLM)。該模型的開源性質也鼓勵社區貢獻和進一步發展。

• SenseNova U1原生統一多模態處理。
• 它擅長交錯圖文生成。
• 用戶需要一個穩健的LLM以實現最佳性能。
• 適合研究人員和開發者。
• 在開源多模態AI中設定了新的標準。

Source: https://github.com/OpenSenseNova/SenseNova-U1

Categories: 開源, 影像模型, 影像處理, 模型

AnyRecon:使用視頻擴散模型進行任意視角3D重建

logo
OpenImagingLab/AnyRecon 在 GitHub 上

AnyRecon利用視頻擴散模型從輸入視頻中重建任意的3D視圖。這個創新的工具對於希望探索視覺敘事新維度的內容創作者和研究人員特別有用。

在開始使用AnyRecon時,最初應專注於理解其核心功能——將連續幀轉換為空間上一致的3D重建。該過程涉及將視頻數據通過預訓練模型,該模型輸出詳細的3D模型。此工作流程需要仔細準備輸入視頻並精確配置模型參數。

研究人員和藝術家最能受益於AnyRecon的功能。它使他們能夠從現有的視頻內容生成沉浸式的3D環境,為虛擬現實應用和互動媒體打開了可能性。然而,用戶應該意識到該工具需要強大的大型語言模型(LLM)才能達到最佳性能。

主要收穫包括:
* AnyRecon使用視頻擴散模型進行3D重建。
* 適合內容創作和研究目的。
* 需要堅固的LLM以獲得最佳效果。

了解AnyRecon的底層機制有助於用戶有效地量身定製他們的項目。通過嘗試不同的視頻輸入和調整設置,創作者可以解鎖獨特的視覺體驗。

Source: https://github.com/OpenImagingLab/AnyRecon

Categories: 開源, 香港大學, 香港中文大學, 影像處理, 模型


Vista4D 使用 4D 點雲進行視頻重拍

Vista4D 預告圖
Eyeline-Labs/Vista4D 在 GitHub 上

Vista4D 提供了一種獨特的視頻重拍方法,通過從新的角度合成場景。它利用 4D 點雲有效地處理現實世界中的視頻缺陷。這使得它特別適合希望擴展其視覺敘事能力的創作者。

在開始使用 Vista4D 時,重點是理解其核心功能——從新穎的角度重拍視頻。該框架對點雲工件的強健性確保了即使在不完美的重建下也能可靠運行。此特性對於維護場景完整性至關重要。

在實際應用中,Vista4D 受益於動態場景擴展和 4D 場景重組的專業人士。它在保留場景內容的同時允許精確的相機控制,為創意編輯打開了大門。用戶可以預期在視頻製作流程中獲得增強的靈活性。

該框架需要一個強大的大型語言模型(LLM)以獲得最佳結果。創作者和編輯人員將發現 Vista4D 因其創新性的視頻操作方法而極具價值。

• 使用新穎視角增強視頻重拍
• 對點雲工件具有強健性
• 適合動態場景擴展和重組

Source: https://github.com/Eyeline-Labs/Vista4D

Categories: 開源, 影像模型, 影像處理, 模型, 視頻模型

MocapAnything 創新的動作捕捉方法

MoCapAnything V2 預告片 — 點擊以在項目頁面觀看視頻
animotionlab26/MocapAnything 在 GitHub 上

MoCapAnything V2 為那些從事動畫、遊戲開發和需要動作捕捉能力的研究人員提供了一個令人信服的解決方案。該工具通過將單目視頻轉換為詳細的骨骼動畫而脫穎而出,而不依賴於中間網格模型。對於希望在保持高精度的同時簡化工作流程的專業人士來說,MoCapAnything V2 值得探索。最初,用戶應專注於理解參考錨定旋轉的核心概念,這簡化了使用單一參考姿勢-旋轉對將姿勢轉換為旋轉的過程。這種方法確保生成的動畫既精確又在不同資產之間保持一致。

在實踐中,MoCapAnything V2 通過其主要模型 video2pose2rot 運行,該模型整合了兩個子任務:從視頻幀預測關節位置(video2pose)和將這些位置轉換為關節旋轉(pose2rot)。這些任務共同優化,消除了對分析逆運動學的需求。結果是一個無縫的管道,可以直接從輸入視頻提供 BVH 準備好的關節旋轉。這種方法不僅提高了效率,還為速度至關重要的實時應用打開了可能性。處理多樣角色模型的動畫師和開發人員將發現這特別有益,因為該系統可以使用匹配物種的參考框架來適應各種骨骼結構。

在其項目中處理複雜、任意骨骼的人。無論是動畫人類角色還是奇特生物,該工具的靈活性都允許在沒有傳統方法約束的情況下進行準確的動作捕捉。計算機視覺和機器學習領域的研究人員也會欣賞這一端到端優化的創新,為動作捕捉技術的進一步發展提供了堅固的框架。

然而,也有一些權衡需要考慮。雖然無網格的方法顯著提升了處理速度,但它可能無法捕捉到基於網格系統所能處理的細節。用戶應評估 MoCapAnything V2 提供的細節水平是否符合他們項目的要求。此外,對參考姿勢的依賴意味著為了獲得最佳結果,需要仔細選擇和校準。儘管有這些考慮,MoCapAnything V2 所提供的優勢使其成為任何從事動作捕捉的人的工具箱中有價值的添加。

MoCapAnything V2 在動作捕捉技術方面代表了一個重要的進步。其端到端設計,加上參考錨定旋轉和無網格處理,使其成為動畫師、遊戲開發者和研究人員的強大工具。通過專注於關鍵特徵並理解實際影響,用戶可以有效地利用此工具。雖然有一些限制需要注意,但對於許多應用而言,提高效率和靈活性的好處遠遠超過缺點。

Source: https://github.com/animotionlab26/MocapAnything

Categories: 開源, 影像處理

Page 5 of 17
1 3 4 5 6 7 17