4DThinker:讓影片理解動態空間的4D視覺腦

drawing

4DThinker 是一個面向研究用途的視覺語言模型框架,重點不是單純描述影片內容,而是讓模型從單鏡頭影片理解物件如何移動、互相影響,以及場景隨時間怎樣變化。簡單講,它想解決「模型見到影片,能否真正理解空間變動」這件事。

它的實際用法較接近訓練與評估流程,而不是即裝即用的消費級工具。專案提供資料集、模型權重、訓練程式,以及前處理所需資源;若要重現效果,需準備影片資料、SAM3 checkpoint,並以 Qwen2.5-VL-3B-Instruct 作為基礎模型,部分資料生成流程亦會用到 OpenAI 相容 API。

這個專案最值得留意的創新,在於它不再只靠文字一步步「講出」推理過程,而是加入所謂 4D latent imagery,讓模型在隱藏空間中模擬場景演化。配合 DIFT 微調,以及 4DRL 強化學習,方向上是希望把動態視覺理解能力直接學進模型本身,而非額外串接複雜幾何模組。

重點摘要:
– 針對單鏡頭影片的動態空間推理
– 提供資料生成、訓練與評測相關組件
– 以 4D 潛在表徵處理時間與空間變化
– 支援調整 latent token 數量與損失權重
– 較適合研究團隊,而非一般用家直接部署

如果你做的是機械人感知、影片問答、場景理解,或者想提升模型對「之後會怎樣」的判斷,4DThinker 特別值得留意。至於一般內容摘要或靜態圖片分析,它未必是最直接的選擇,因為整個設計明顯是為動態推理而生。

Source: https://github.com/zhangquanchen/4DThinker

Categories: 開源, Agentic, , 模型, 視覺模型, 中國, 清華大學

coreb:這個 code search 基準有咩特別?

Repository image for hq-bench/coreb

CoREB 係一個針對程式碼 embedding models 搜尋同 reranking 的評測基準,透過 LoRA 在混合重排序器語料庫上對Qwen3-Reranker-4B進行了微調。CoREB 分三種常見場景:用文字搵 code、用 code 搵相似 code,以及由 code 反推題目描述。一般人可以理解成:唔只測「搵唔搵到」,仲測「排位準唔準」。

實際使用上,你可以直接載入資料集,讀取 queries、qrels 同 code/text 語料,再用標準資訊檢索評分工具做評估;如果係模型開發者,亦可以接上兩階段流程,先做 embedding 檢索,再用 cross-encoder 重排。這個設計方便將現有搜尋模型快速放入同一把尺比較。

它最有價值的地方,係用三級相關性標註,將「真正答案」同「同題但錯嘅干擾項」分開,避免只係二元對錯。再加上問題切分唔重疊、涵蓋五種程式語言,令測試更貼近真實開發情境,而唔係只考記憶。

  • 支援 Text-to-Code、Code-to-Code、Code-to-Text 三類任務
  • 以三級相關性處理 hard negative,對排序更敏感
  • 涵蓋 Python、C++、Java、Go、Ruby
  • 訓練/測試分割避免題目重疊
  • 適合比較檢索模型同 reranker 的整體效果

如果你做的是程式碼搜尋、AI coding assistant,或者想評估向量檢索加重排的完整流程,CoREB 會幾有參考價值。特別係想避免資料污染、又想睇模型喺唔同語言同任務之間的差異,呢個基準算係比較務實的一種選擇。

Source: https://github.com/hq-bench/coreb

Categories: 開源, Embedding, 模型, 編程, 中國

HumanNet:百萬小時影片庫,點樣幫AI更識人類動作

teaser

HumanNet 是一個以「人類活動」為核心的大型影片資料庫,目標是幫研究團隊訓練模型,更準確理解動作、互動同身體運動。它收集接近百萬小時影片,重點不只是片量大,還包括第一身與第三身視角的配對,以及動作相關標註。

實際使用上,這個專案較適合做 AI 研究、資料集分析,或者作為影片理解模型的預訓練基礎,而不是一般用家即裝即用的應用程式。現階段公開資訊顯示,完整語料、整理流程同驗證程式碼仍在陸續釋出,較像研究預覽版本。

它最值得留意的創新,是把資料整理流程本身當成核心設計,包括以人為中心的篩選、視角分類、去重、品質控制同私隱審查。相比單純堆影片數量,HumanNet 更著重資料是否適合訓練模型理解細緻動作,這點對機械人學習同具身智能尤其重要。

根據項目提供的結果,在受控的 vision-language-action 後訓練設定下,用 HumanNet 內約 1,000 小時第一身影片作初始化,效果可追近甚至略勝較少量真實機械人資料,亦明顯縮窄與超大型機械人資料基線的差距。這代表當機械人實拍數據昂貴又難收集時,人類第一身影片可能是更可擴展的替代方案。

  • 做什麼:提供大規模人類活動影片,用於動作理解、影片學習與具身 AI 預訓練。
  • 點樣用:適合研究人員用來訓練、初始化或評估影片與動作模型。
  • 主要特色:兼有第一身與第三身視角,並附說明文字、動作、手部與身體訊號。
  • 最適合場景:機械人學習、活動辨識、從影片學習操作行為。
  • 要注意:目前看來仍屬研究預覽,部分資料與流程尚未完全公開。

Source: https://github.com/DAGroup-PKU/HumanNet

Categories: 開源, 模型, 視覺模型, 中國, 北京大學

Flow-OPD:讓文生圖多工對齊更穩的關鍵一步

Teaser

Flow-OPD 是一個針對 Flow Matching 文生圖模型的後訓練框架,核心目標不是單純追高某一項分數,而是把 OCR、組合理解、問答與人類偏好等不同能力整合進同一個學生模型。從公開資訊來看,它建立在 SD-3.5-Medium 上,並以兩階段流程處理「先培養專長、再統一能力」這個多任務對齊難題。

實際使用上,這個專案目前較適合研究者或進階生成模型開發者參考其方法與權重,而不是一般使用者直接拿來當完整訓練工具鏈。README 顯示模型權重已釋出,但完整訓練程式仍在進行中,因此比較合理的使用方式,是先檢視論文與模型成果,再評估是否將其蒸餾思路移植到自己的 Flow Matching 訓練流程。

它最值得注意的創新,在於把原本稀疏的標量獎勵,改成由多個教師模型提供的軌跡級稠密向量場監督。配合 on-policy 的 SDE 採樣,學生模型能在自身生成軌跡上接受更細緻的指導;再加上 MAR 正則化,則是用來降低純 RL 對齊常見的美感退化問題,這點對文生圖品質維持特別重要。

從結果看,Flow-OPD 的價值在於它不只比 vanilla GRPO 更強,還試圖解決多任務訓練常見的「翹翹板效應」。公開數據顯示,該方法在 GenEval、OCR、DeQA 與 PickScore 上都有提升,平均表現優於基線,且在 OCR、DeQA 上甚至出現超越個別教師的現象;不過這些結論仍應以論文設定與基準環境為前提理解。

  • 定位明確:專注於 Flow Matching 文生圖模型的多任務後訓練與對齊。
  • 方法新意:以多教師稠密監督取代單一標量獎勵,降低任務間梯度干擾。
  • 實務亮點:MAR 用來守住美感品質,避免只追指標造成生成退化。
  • 適用場景:適合需要同時兼顧文字生成、構圖理解與偏好對齊的通用型文生圖系統。
  • 使用前提:目前較偏研究型專案,若要重現訓練流程,可能仍需等待完整訓練程式公開。

Model download: https://huggingface.co/CostaliyA/Flow-OPD

Source: https://github.com/CostaliyA/Flow-OPD

Categories: 開源, 香港中文大學, 影像模型, 影像處理, 模型

MACE-Dance:把音樂變成舞蹈影片

Repository image for AMAP-ML/MACE-Dance

MACE-Dance 是一個面向音樂驅動舞蹈影片生成的研究型專案,核心目標是讓系統根據音樂內容,產生具有舞蹈動作與角色外觀一致性的影片。從名稱與簡介來看,它特別強調 motion 與 appearance 的分工建模,而不是把整個生成流程視為單一路徑處理。

這個專案最值得注意的地方,在於所謂 Motion-Appearance Cascaded Experts 的設計思路。簡單說,它像是把「先決定怎麼跳」與「再決定畫面怎麼呈現」拆成串接的專家模組,這種做法理論上有助於減少動作節奏與人物外觀彼此牽制的問題,也更貼近舞蹈影片生成常見的兩大難點。

實際使用上,這類儲存庫通常更適合已有生成式影音或人體動作研究背景的開發者與研究者。若你想評估模型表現,重點應放在輸入音樂後的動作對拍程度、角色連續性,以及生成影片是否維持合理的視覺一致性;若要延伸研究,則可觀察其模組拆分是否方便替換不同的音樂表徵或影像生成元件。

  • 聚焦音樂到舞蹈影片的多模態生成任務
  • 以動作與外觀分階段處理作為主要方法亮點
  • 適合分析節奏對齊、角色一致性與影片連續性
  • 較偏研究用途,不像一般即裝即用的消費型工具

就應用場景而言,它最適合用在舞蹈生成研究、虛擬人表演合成、音樂視覺化內容製作,以及多模態生成模型的比較實驗。若你正在找的是可快速產出商業級短影音的完整產品,這個專案目前看來更像方法驗證與學術探索平台;但若你的目標是理解音樂驅動角色影片生成的前沿方向,它具備相當明確的研究切入點。

Source: https://github.com/AMAP-ML/MACE-Dance

Categories: 開源, 影像模型, 影像處理, 模型, 視頻模型

SplAttN:用可微分投影補強點雲補全的關鍵一環

SplAttN logo

SplAttN 是一個面向影像引導點雲補全(Point Cloud Completion)的 PyTorch 研究專案,核心目標是讓稀疏的 3D 幾何與 2D 視覺先驗之間,維持可學習且可微分的連結。它對準的問題很明確:傳統把點雲硬式投影到影像平面後,往往只留下過度稀疏的對應訊號,導致影像資訊難以有效影響補全結果。

這個方法的亮點,在於以 Differentiable Gaussian Splatting 取代硬投影,將稀疏投影點轉成較連續、較稠密的影像平面表示,再透過注意力機制融合幾何特徵與視覺特徵。從論文描述來看,這不只是提升表現的工程技巧,更是在處理多模態學習中「影像到底有沒有真的被用上」的核心問題。

值得注意的是,SplAttN 還加入了反事實評估觀點,檢查模型是否真的依賴視覺線索,而不是把影像當成可有可無的附加輸入。README 提到它在 PCN、ShapeNet-55/34 與 KITTI 上做了驗證,並宣稱在部分基準上達到先進水準;其中 KITTI 被當作壓力測試,這點對評估真實場景泛化特別有參考價值。

重點摘要:
– 以可微分 Gaussian splatting 改善 2D 與 3D 的訊號連接
– 用注意力融合影像與幾何特徵,強化跨模態依賴學習
– 強調反事實評估,而非只看最終分數高低
– 提供官方 PyTorch 實作,適合研究重現與延伸

實際使用上,這個專案最適合拿來做多模態點雲補全研究、模型重現、方法比較,尤其適合想分析影像訊號在 3D 任務中是否真正發揮作用的研究者。若你的工作聚焦在 3D 視覺、自动駕駛感知或學術實驗設計,SplAttN 的價值不只在結果,還在它對跨模態連結機制提出了更可檢驗的做法。

Source: https://github.com/zay002/SplAttN

Categories: 開源, 3D, 模型

CWM (Code World Model) 32B – Meta 開源編程模型

Meta FAIR 的「Code World Model (CWM)」是一個 32B 參數、專門為「帶世界模型的程式碼生成研究」設計的開放權重 LLM。它的關鍵點是:不只學 code syntax,而是透過大量「執行軌跡」去內化程式執行對系統狀態的影響,並在多任務 RL 下強化 agentic coding 能力。


CWM 是什麼?

  • CWM(Code World Model)是一個 32 億參數(32B)、dense、decoder‑only 的 Transformer LLM,主要面向程式碼生成與程式相關推理。
  • 它被設計成「世界模型式」的 code LLM:不只預測下一個 token,而是學會在腦中「模擬程式執行過程」及其對環境狀態的影響。
  • 官方目標是提供一個強大的開放權重 testbed,讓研究者探索「世界模型 + agentic reasoning/planning」如何提升程式碼生成與軟體工程工作流。

訓練流程與 world modeling 設計

CWM 的訓練 pipeline 不是單純「pretrain → SFT」,而是刻意插入 world‑model mid‑training,再加上多任務 RL:

  • 前期:先在一般語言與程式碼資料上做大規模預訓練,建立廣泛的語言、程式知識基礎。
  • Mid‑training(世界模型核心):
    • 在大量「observation‑action 軌跡」上進一步訓練,這些軌跡來自 Python interpreter 執行 trace,以及在 Docker container 中以 agent 方式操作系統的互動紀錄。
    • 這類資料讓模型看到「程式片段/指令 → 執行過程 → 輸出與系統狀態變化」,等於學習一個對應「code → world dynamics」的隱式世界模型。
  • 後期 post‑training:
    • 先進行 supervised fine‑tuning,引入明確的 reasoning format、step‑by‑step 推理風格等標註資料。
    • 再用 multi‑task RL(文中提到使用 GRPO 類型方法)在可驗證的 coding 任務、數學問題、多輪軟體工程環境中進行強化學習,reward 來自於測試通過率、解答正確與任務完成度。

這種設計的重點是:讓 RL 是「從已經具備世界模型的基底」開始,而不是只在純 token LLM 上做 RL,理論上比較容易學到長程規劃與工具使用策略。


模型架構與上下文長度

  • CWM 是一個 64 層的 decoder‑only Transformer,採用現代 LLM 常見配置(例如 RoPE 位置編碼、SwiGLU FFN、GQA 等)。
  • 參數規模為 32B,詞彙表約 128k token,明顯針對大型 codebase 與多語言程式碼場景設計。
  • 上下文長度最高達約 131k tokens,可容納整個專案、多檔案上下文與長程互動軌跡。
  • 為了處理這種長上下文,它使用「交錯式注意力」:
    • 多數層採局部 attention(例如 8,192 token 視窗),每隔數層插入一次 global/sliding attention 層可以看到完整 131k 上下文,文中描述比率約為 3:1。
    • 這樣的設計在計算量可控的前提下,仍能在多層中“刷新”全局資訊,對閱讀大型 codebase 與長對話 debugging 特別有利。

基準測試成績

在多個開源 benchmark 上,CWM 以 32B 級別達到非常有競爭力甚至 SOTA 的表現:

  • SWE‑bench Verified:pass@1 約 53.9%(不做 test‑time scaling),在採用 test‑time scaling 後可達約 65.8%。
  • LiveCodeBench:v5 約 68.6,v6 約 63.5(pass@1)。
  • 數學與推理:
    • Math‑500 約 96.6%。
    • AIME 2024 約 76.0%。
    • CruxEval Output 約 94.3%。
  • 論文與解讀都提到:在同等或相近參數規模的開放權重 LLM 中,CWM 在一般 coding 與更 agentic 的軟體工程任務上都具有「best‑in‑class」水準,甚至接近或追平一些封閉大模型。

對你這種做 RAG / agent / tools‑calling 工作流的人來說,這顆模型的亮點其實是「在環境中操作和修 bug 的能力」,而不只是單輪 code completion 分數。


權重釋出與取得方式

  • Meta 以「開放權重」形式釋出 CWM,提供多個 checkpoint:
    • mid‑training 後的 world‑model 版本。
    • SFT 後版本。
    • RL 後完整版。
      方便研究者分析各階段對能力的影響。
  • 社群整理指出,CWM 權重目前在 GitHub 與 Hugging Face 上提供,包含 transformers 版權重與推理程式碼;Meta 採用自家訂定的 open‑weights 授權條款,主要定位在研究用途,具體使用限制需看 AI at Meta 官方頁與 HF model card 條款。
  • Hugging Face transformers 已內建 CwmForCausalLM 與對應 tokenizer。

與一般 code LLM 的本質差異

和傳統只在「靜態 code corpora + 少量程式執行資料」上訓練的 code LLM 相比,CWM 的幾個關鍵差異:

  • 訓練核心是「大量程式執行與 agent interaction 的軌跡」,把「程式 → 執行 → 狀態變化」當成序列學習對象,形成隱式世界模型,而不只是 code token 統計模型。
  • RL 設計是圍繞「可驗證結果」(例如測試通過、問題解答正確、多輪任務完成),而不僅是人類偏好/指令跟從,這對長程規劃與工具調度尤其重要。
  • 長上下文 + 交錯 attention 讓模型可以在一次推理中讀完整個 repo、ticket 歷史與多輪 log,這是很多傳統 code LLM 現階段比較薄弱的地方。
Categories: 模型, 編程

ComboStoc 擴散模型訓練更快的關鍵

ComboStoc samples

ComboStoc 是一個針對擴散生成模型訓練流程的研究型實作,核心目標不是換掉整個模型架構,而是修正既有訓練對「組合式結構」取樣不足的問題。這個版本以 PyTorch 為主,提供影像擴散模型、訓練腳本,以及預訓練權重,定位相當明確:拿來驗證論文方法,也適合已有 SiT 或相近擴散管線的人直接比較。

這個專案真正有辨識度的地方,在於它不再把整筆資料視為同步走在同一個 diffusion timestep。相反地,它讓不同維度、patch,甚至可能的屬性使用非同步時間步,藉此更完整覆蓋高維資料中的組合空間;這也是它和一般只調 loss、scheduler 或採樣器的做法最不一樣之處。

實務上,它延續 SiT 風格的實作思路,並提供基於 PyTorch DDP 的訓練流程,代表它不是紙上談兵,而是可在分散式訓練中直接測試。推論端也不只是在既有 checkpoint 上出圖,還能利用非同步時間步做更細緻的控制;若參考論文描述,這種機制對局部條件控制或結構化生成尤其有意義。

最能受益的族群,會是正在研究影像生成、擴散模型訓練效率,或需要面對高度結構化資料的人。若你關心的是更快收斂、較低 FID,或想把相同模型延伸到更有屬性組合複雜度的任務,這個專案值得細看;至於 3D structured shape 的完整程式,儲存庫目前看來仍是後續補上。

  • 特色在於非同步 diffusion timestep,不是單純更換 backbone
  • PyTorch 實作,並提供 DDP 訓練腳本
  • 已附預訓練的 ComboStoc-XL-2 權重,可直接做採樣比較
  • 適合拿來研究高維資料中組合複雜度對生成品質的影響

Source: https://github.com/Xrvitd/ComboStoc

Categories: 開源, 香港大學, 影像模型, 模型

SenseNova-U系列:一種突破性的多模態AI

SenseNova-U1
OpenSenseNova/SenseNova-U1 on GitHub

SenseNova U1引入了一種突破性的多模態AI方法,通過單一架構統一語言和視覺。這種創新允許文本和圖像之間無縫互動,而不需要單獨的適配器,增強了效率和一致性。

在探索SenseNova U1時,最初應關注其核心架構NEO-Unify,這使得模型能夠將視覺和文本數據作為統一的複合體進行處理。實際上,這意味著模型可以更有效地跨不同類型的輸入進行推理,保留語義豐富性和視覺忠實度。

研究人員和開發者最能受益於SenseNova U1的能力,特別是那些從事需要高密度資訊渲染或交錯圖文生成應用的人。該模型處理複雜任務(如創建知識插圖或旅行日誌)的能力使其成為一個寶貴的工具。

為了充分利用SenseNova U1,用戶應擁有能夠支援多模態任務的強大大型語言模型(LLM)。該模型的開源性質也鼓勵社區貢獻和進一步發展。

• SenseNova U1原生統一多模態處理。
• 它擅長交錯圖文生成。
• 用戶需要一個穩健的LLM以實現最佳性能。
• 適合研究人員和開發者。
• 在開源多模態AI中設定了新的標準。

Source: https://github.com/OpenSenseNova/SenseNova-U1

Categories: 開源, 影像模型, 影像處理, 模型

AnyRecon:使用視頻擴散模型進行任意視角3D重建

logo
OpenImagingLab/AnyRecon 在 GitHub 上

AnyRecon利用視頻擴散模型從輸入視頻中重建任意的3D視圖。這個創新的工具對於希望探索視覺敘事新維度的內容創作者和研究人員特別有用。

在開始使用AnyRecon時,最初應專注於理解其核心功能——將連續幀轉換為空間上一致的3D重建。該過程涉及將視頻數據通過預訓練模型,該模型輸出詳細的3D模型。此工作流程需要仔細準備輸入視頻並精確配置模型參數。

研究人員和藝術家最能受益於AnyRecon的功能。它使他們能夠從現有的視頻內容生成沉浸式的3D環境,為虛擬現實應用和互動媒體打開了可能性。然而,用戶應該意識到該工具需要強大的大型語言模型(LLM)才能達到最佳性能。

主要收穫包括:
* AnyRecon使用視頻擴散模型進行3D重建。
* 適合內容創作和研究目的。
* 需要堅固的LLM以獲得最佳效果。

了解AnyRecon的底層機制有助於用戶有效地量身定製他們的項目。通過嘗試不同的視頻輸入和調整設置,創作者可以解鎖獨特的視覺體驗。

Source: https://github.com/OpenImagingLab/AnyRecon

Categories: 開源, 香港大學, 香港中文大學, 影像處理, 模型

Page 9 of 18
1 7 8 9 10 11 18