影像處理 – Page 6

Skill0.5 如何提升強化學習泛化力

2026 年 5 月 29 日

Skill0.5 是一個面向 Agentic Reinforcement Learning 的研究項目，聚焦處理 out-of-distribution generalization 問題。它指出傳統 skill-based RL 方法常要在 full externalization 與 full internalization 之間二選一，前者會帶來高昂的 context 開銷，後者則容易出現 overfitting 與知識衝突。

這項目把 general skill internalization 與 task-specific skill utilization 一同納入訓練，但用不同策略處理兩種性質不同的技能。系統會用 difficulty-aware router 按任務難度分流：Hard tasks 用 privileged distillation 內化通用技能，Medium tasks 用標準 RL 提升成功率，Easy tasks 則透過 diagnostic probing 懲罰走捷徑的行為，迫使模型忠實運用任務相關技能。

對初步理解這個項目的人來說，可先把它視為一種「按難度分工」的訓練框架，而不是單一模型結構。使用時要留意 context 開銷被視為問題之一，某程度上也反映較重的外部技能依賴可能增加資源壓力，包括 VRAM 與序列處理成本。

解決 rigid choice 問題，避免只靠 externalization 或 internalization
用 difficulty-aware router 把任務分成 Hard、Medium、Easy 三層
分別結合 privileged distillation、標準 RL 與 diagnostic probing
在 ALFWorld 與 WebShop 中，據摘要所述優於 memory-based 與 skill-based RL baselines

這類項目較適合研究智能代理、任務規劃與泛化能力的人參考，尤其是想改善模型在陌生情境下穩定性的團隊。

訓練和實現時使用 Qwen2.5-7B-Instruct 作為基礎模型。策略最佳化方面採用 GRPO 作為骨幹網絡，組別大小 G = 8，學習率為 1 × 10⁻⁶。訓練在 4 個 H800 GPU 上進行，每次迭代的批次大小為 16 個任務，最大互動範圍設定為 30 步。任務特定技能透過 Qwen3-Embedding-0.6B 取得。

GitHub： https://github.com/JasonZhujp/Skill0_5

Categories: 開源, 多模態模型, 影像模型, 影像處理

LaRA 用層級表示找出 RL 訓練污染

2026 年 5 月 29 日

這篇論文介紹 LaRA（Layer-wise Representation Analysis），目的是找出 Reinforcement learning（RL）post-training 階段的資料污染問題。所謂污染，是指評估題目或基準資料混入訓練資料，令 Large Language Models（LLMs）看似表現很好，但其實可能只是記住答案，影響泛化能力與評估可信度。

作者指出，現有方法多數只看輸出層面的訊號，例如 likelihood、entropy 或生成行為差異，但這類方法對 RL 訓練後的模型未必穩定。原因是 RL 重點在整條 reasoning trajectory 的 reward，而不是逐個 token 的機率，因此只靠輸出分佈，容易受 miscalibration 影響，未必能準確反映模型是否記住了評測資料。

LaRA 改為分析模型各層的內部表示，觀察受控擾動前後的幾何變化。論文提出三個互補指標：perturbation sensitivity、directional collapse、local representation rigidity，用來量度污染樣本在不同 layer 的異常反應；作者發現，受污染資料會在多層表示中逐步出現更高敏感度、更強方向收縮，以及更高局部剛性。

使用這個項目時，重點不是增加推理速度，而是作為檢測流程，協助研究人員審視 RL 訓練後模型的可信度。文中也提出一套偵測 protocol，把不同 layer 與不同指標的偏差整合起來；在 RL-trained reasoning models 的實驗中，這套方法表現優於現有 output-level baseline。

解決 RL post-training 資料污染難以辨識的問題
以 representation-level 訊號取代單看輸出機率
結合三個指標，從多層 layer 分析污染痕跡
適合用於 reasoning 模型評估、訓練審核與研究比較
論文摘要未提供 VRAM 需求，較可能受模型大小、抽取 layer 數目與批次分析設定影響

如果你關心 VRAM 的應用，這篇內容沒有列出明確顯示卡記憶體需求，也沒有提供部署規格。不過按方法性質推測，LaRA 需要讀取多個 layer 的 hidden representations，使用時 VRAM 主要會花在模型載入、儲存中間層表示，以及對多個擾動版本做批次分析；模型越大、分析層數越多，VRAM 需求通常越高。

Paper： https://arxiv.org/pdf/2605.29888

Categories: 開源, 多模態模型, 影像模型, 影像處理

NAVA 點樣做好聲畫同步生成

2026 年 5 月 29 日

NAVA 是一個主打音訊與影片同步生成的項目，目標不是先整好畫面再補聲，而是由一開始就把兩者放在同一個生成流程內處理。對非技術讀者來說，可以把它理解成一個較重視「畫面發生什麼，聲音就跟住發生什麼」的模型，因此打鬥、說話、環境聲這類時間配合會更自然。

這個項目的核心做法，是先在獨立空間建立 audio-video alignment，再用文字或其他 context 去引導生成，並採用 Align-then-Fuse MMDiT 架構。另一個亮點是 Timbre-in-Context Conditioning，能把參考 WAV 的音色對應到指定語音片段，適合多角色對白、指定聲線或旁白控制。

NAVA 有 6.3B 參數，可在 8 張 GPUs 配合 Ulysses sequence parallelism 下約 1 分鐘生成 720p 影片，這代表它主要面向高階 GPU 環境；VRAM 的作用是存放模型權重、推理中的中間特徵、音訊與影片 token，以及較高解像度生成所需的緩衝空間，VRAM 越充足，越有機會支援更高畫質、較長內容或較穩定的批次推理。

支援 native stereo audio，畫面、場景聲與語音一併生成
可用文字控制鏡頭構圖、運鏡與節奏
支援 multi-timbre voice control，適合多角色配音場景
同一 checkpoint 可輸出橫向、直向與正方形比例
英文 TTS 表現較強，其他語言支援看來仍較有限

它在 Verse-Bench、Seed-TTS 及用戶研究中，於影片質素、聲畫同步和參考音色可控性有明顯優勢，音訊質素亦具競爭力。若你關注開放式 audio-video generation、TTS、虛擬角色影片、短片內容製作，或者想研究 6.3B 級別模型如何平衡同步效果與運算需求，NAVA 是一個很值得細看的項目。

GitHub： https://github.com/ernie-research/NAVA

Categories: 開源, 多模態模型, 影像模型, 影像處理

LongCat-Video 1.5：生成更實用的長片

2026 年 5 月 26 日

LongCat-Video 是一個 13.6B 參數的影片生成項目，主打把文字生成影片、圖片生成影片，以及影片續寫放進同一套架構。對一般使用者來說，最易明白的價值是：不用為不同影片任務分開找不同模型，處理流程可以更集中。

它解決長影片生成常見的畫面走樣、色彩飄移，以及愈生成愈差的情況。項目特別提到自己原生預訓練了影片續寫能力，因此在長時間內容上較有優勢，目標是生成分鐘級影片時仍保持穩定。

先決定輸入方式：有文字概念就做 Text-to-Video，有單張圖片就做 Image-to-Video，要接續既有片段就用 Video-Continuation。提供相關模型與延伸版本，包括 LongCat-Video、LongCat-Video-Avatar 1.5，以及 Hugging Face 與 ModelScope 上提供的模型頁面。

它同時強調速度與畫質。項目表示透過時間與空間兩個方向的 coarse-to-fine 生成策略，再配合 Block Sparse Attention，可在數分鐘內產出 720p、30fps 影片；這類設計對高解析度生成尤其重要，因為影片模型最常見瓶頸就是算力與等待時間。

單一模型支援 Text-to-Video、Image-to-Video、Video-Continuation
強調長影片生成，主打減少色偏與畫質退化
以 coarse-to-fine 加速推理，兼顧效率與解析度
提到用多重獎勵的 GRPO 強化學習提升整體表現

這項目較適合關注開源影片生成、長片段內容、角色或場景延續的人，也適合想研究統一式影片模型設計的開發者。其表現可比肩領先開源模型與新近商業方案，但更細的分數與比較細節，仍需要配合技術報告一併閱讀會較穩妥。

Evaluation Results

Text-to-Video

The Text-to-Video MOS evaluation results on our internal benchmark.

MOS score	Veo3	PixVerse-V5	Wan 2.2-T2V-A14B	LongCat-Video
Accessibility	Proprietary	Proprietary	Open Source	Open Source
Architecture	–	–	MoE	Dense
# Total Params	–	–	28B	13.6B
# Activated Params	–	–	14B	13.6B
Text-Alignment↑	3.99	3.81	3.70	3.76
Visual Quality↑	3.23	3.13	3.26	3.25
Motion Quality↑	3.86	3.81	3.78	3.74
Overall Quality↑	3.48	3.36	3.35	3.38

Image-to-Video

The Image-to-Video MOS evaluation results on our internal benchmark.

MOS score	Seedance 1.0	Hailuo-02	Wan 2.2-I2V-A14B	LongCat-Video
Accessibility	Proprietary	Proprietary	Open Source	Open Source
Architecture	–	–	MoE	Dense
# Total Params	–	–	28B	13.6B
# Activated Params	–	–	14B	13.6B
Image-Alignment↑	4.12	4.18	4.18	4.04
Text-Alignment↑	3.70	3.85	3.33	3.49
Visual Quality↑	3.22	3.18	3.23	3.27
Motion Quality↑	3.77	3.80	3.79	3.59
Overall Quality↑	3.35	3.27	3.26	3.17

GitHub： https://github.com/meituan-longcat/LongCat-Video

Categories: 影像處理, 模型, 數字人, 視覺模型, 視頻模型, 世界模型

LatentOmni 想重寫影音推理方式

2026 年 5 月 23 日

LatentOmni 是一個面向影音多模態大語言模型的研究項目，重點不是叫模型先把線索全都翻成文字再慢慢推理，而是讓聲音與畫面的資訊在同一個潛在空間內一起運作。簡單講，它想保留更多原始感官訊號，減少中途只靠語言猜答案的情況。

這個方向要解決的問題很明確：不少模型在看影片、聽聲音後，雖然能描述內容，但一遇到需要同時對齊時間、事件因果或細節關聯的題目，表現便會下跌。LatentOmni 提出的做法，是把文字推理流程與影音潛在狀態交錯進行，並用 OSPE 這類時間同步設計，幫助模型對準聲畫節奏。

從使用角度看，現時這個 GitHub 儲存庫仍以論文與概念介紹為主，訓練程式、推論程式、模型權重和資料集尚未正式釋出。因此較適合先拿來了解新一代多模態推理方法，或者作為研究與技術評估的參考，而不是立即部署到產品流程。

核心亮點是統一聲音與畫面的潛在推理，而非只輸出文字式思路
加入特徵層級監督與 OSPE，目標是保留時間對齊與跨模態關聯
配套資料集為 LatentOmni-Instruct-35K，用來訓練交錯式影音推理軌跡
論文指出它在多個影音推理基準上，表現優於明確文字 CoT 基線

整體來看，這個項目最吸引之處，是它把「模型怎樣思考」由文字中介，推前到更接近原始聲畫訊號的層面。適合關注 MLLM、影音理解、跨模態推理的人留意；若你想比較相關模型，也可把它與依賴文字 CoT 的開源多模態模型放在同一條線上觀察。不過現階段公開內容有限，性能細節仍應以論文報告為準，評估時要保持審慎。

GitHub： https://github.com/yfanDai/LatentOmni

Paper： https://arxiv.org/pdf/2605.22012

Categories: 開源, 香港科技大學, 影像處理, 模型, 聲效, 視覺模型, 中國, 北京大學, 清華大學

PhysX-Omni：讓 3D 生成更貼近物理世界

2026 年 5 月 23 日

PhysX-Omni 由南洋理工大學及中國 ACE Robotics 開發，是個面向模擬用途的 3D 生成項目，重點不只是做出外觀，而是連同剛體、可變形物件與可動關節物件一併考慮。簡單說，它想解決的問題是：很多 3D 生成結果看起來像樣，但未必能直接放進物理模擬或機械人流程裡使用。

這個項目的亮點，在於把幾何形狀、絕對尺寸、材質、可供互動的功能，以及運動結構放到同一套框架內處理。它配合 PhysXVerse 資料集和 PhysX-Bench 評估方法，目標是同時檢查生成能力與理解能力，這點比只看外觀相似度更進一步。

整體流程偏向研究型：先準備 Python/conda 環境，再安裝相依套件，之後下載 PhysXNet、PhysX-Mobility 與 PhysXVerse 等資料，完成前處理和條件圖像渲染，最後再設定訓練路徑。這代表它較適合已有 AI 或 3D 處理基礎的人，而不是即開即用的輕量工具。

PhysX-Omni: Unified Sim-Ready Physical 3D Generation for Rigid, Deformable, and Articulated Objects

Watch this video on YouTube

核心價值：生成可放進模擬流程的 3D 資產，而非只有表面外觀
覆蓋範圍：支援剛體、可變形物件、關節物件三類內容
相關資源：包括 PhysXVerse 資料集、PhysX-Bench 評估，以及 README 提到的 Qwen2.5 相依套件
適合場景：機械人訓練、物理模擬、具條件控制的 3D 場景生成

性能方面，公開資料指出它會用一般指標加上自家的基準一同評估，並強調在生成與理解兩邊都有不錯表現。不過從現有資訊來看，較完整的數字仍應以論文與官方頁面為準；對一般讀者而言，最值得留意的是它把「看得像」推進到「更可能用得著」，這正是這個項目最有意思的地方。

GitHub： https://github.com/physx-omni/PhysX-Omni

Paper： https://arxiv.org/pdf/2605.21572

Categories: 開源, 影像模型, 影像處理, 模型, 中國, Dataset 數據集

MM-OCEAN：拆解 AI 人格判斷盲點

2026 年 5 月 23 日

MM-OCEAN 是一個用來評估多模態大語言模型的基準項目，核心不是單看模型能否判斷一個人的人格傾向，而是檢查它有沒有根據影片中的可觀察行為去推理。它聚焦 Big Five 五大人格維度，並指出一個很值得關注的現象：不少模型即使評分答對，背後也未必有可靠證據支持。

這個項目解決的問題很清楚。以往不少評估只看最後分數，但人格判斷牽涉表情、語氣、動作和互動線索，單靠結果很難知道模型是「看懂了」，還是只是碰巧猜中。MM-OCEAN 進一步把評估拆成評分、文字解釋和線索對應三層，令研究者可以分辨模型是理解不足、胡亂補充，還是無法把線索整合成合理結論。

資料規模方面，項目包含 1,104 段 15 秒影片、約 13,500 條經人工核實的細粒度行為觀察、5,520 份有證據支持的人格分析，以及 5,320 題多項選擇題。倉庫亦提供評分腳本和提示模板，研究者可以依照既定流程，把自己的模型輸出放入同一套框架比較；相關評測涵蓋 27 個多模態模型，屬於頗完整的橫向觀察。

最有新意的地方，是它不把「答對」視為終點，而是加入幾種失誤指標去量化問題，例如答對但沒有線索依據、線索對了但推理不通，或找到線索卻得出錯誤結論。論文摘要提到，整體有 51% 的正確評分並非建立在檢索到的線索之上，而更嚴格的整體通過表現最高亦只有約 33.5%，這說明現時模型距離可靠的人格推理仍有明顯差距。

重點不是只計分數，而是同時檢查理由與證據是否一致
提供三層評估流程，較易看出模型錯在觀察、推理還是整合
涵蓋 27 個多模態模型，方便做基準比較
適合研究多模態理解、AI 安全、公平性與人機互動的團隊
可留意的相關模型類型，包括閉源與開源多模態大模型，但倉庫摘要未逐一列出名稱

對研究團隊、評測設計者，甚至關心 AI 是否會憑表面印象下判斷的人來說，MM-OCEAN 都很有參考價值。它不是一般可直接拿來日常應用的小工具，而是偏向研究與驗證用途；但正因如此，它把問題講得夠具體，亦讓人更清楚看到今天多模態模型在人格理解上仍有甚麼盲點。

GitHub： https://github.com/kkkcx/MM-OCEAN

Paper： https://arxiv.org/pdf/2605.22109

Categories: 開源, 影像處理, Dataset 數據集, 框架

wvs-code：用影片與聲音驗證模型是否真懂內容

2026 年 5 月 21 日

專案《When Vision Speaks for Sound》t提供官方程式碼，核心目標不是做一般影音問答，而是檢查支援影片的多模態模型，究竟有沒有真正理解聲音，還是只靠畫面和語意猜答案。它提供模型、評估介面和訓練流程，方便研究者重現實驗或改造自己的測試方式。

儘管支援視頻的多模態大語言模型（video-capable MLLMs）進步很快，但研究發現它們在視頻中表現出的「音頻理解」能力往往是由視覺驅動的：模型其實是依靠視覺線索來推斷、甚至幻想出聲音相關的資訊，而不是真正去檢查或分析音頻串流本身。

這個問題普遍存在於：

最先進的開源全能模型（omni models）

主要閉源模型供應商（如 Google 和 OpenAI）的頂級模型

換句話說，這些模型看起來能「聽懂」視頻中的聲音，但實際上它們只是「看」畫面來猜聲音是什麼，並沒有真正處理音頻數據，因此容易產生錯誤或幻覺（hallucinate）。

先準備好影片和音訊資料，再把資料登記到 LLaMA-Factory 的資料設定中，之後就可以用它的 SFT 或 DPO 格式去訓練。專案也支援把樣本寫成 ShareGPT 風格，讓每條資料同時帶上 <video> 和 <audio>，方便模型學習在多模態情境下作答。

它比較特別的地方，在於採用介入式診斷框架 Thud，專門測試模型是否真的有做音訊驗證，而不是只走視覺捷徑。這種設計對研究「模型到底看了甚麼、聽了甚麼」特別有用，也比單純準確率更能揭示模型行為。

可用來評測影片語音、音畫同步、時間延遲等問題
適合做多模態模型研究、除錯和基準測試
支援 SFT 與 DPO 訓練流程
可接入 LLaMA-Factory 一起使用
相關模型與框架重點包括 Thud、LLaMA-Factory 以及多種可處理影片的多模態模型

整體來說，這個專案更像是一套「檢查工具」，而不是面向一般用家的應用程式。對做 AI 研究、影音理解評測，或者想分析模型有沒有偷懶靠畫面猜答案的人，會特別有參考價值。

GitHub： https://github.com/rakanWen/wvs-code

Paper： https://arxiv.org/pdf/2605.16403

Categories: 開源, 影像處理, 模型, 聲效, 視覺模型, 框架

KVPO 點樣提升影片生成對齊

2026 年 5 月 20 日

KVPO 係一個針對影片生成訓練流程嘅研究型專案，焦點唔係單純「生成到片」，而係令模型喺逐格、逐段生成嘅過程中，更穩定咁貼近文字提示同預期內容。對一般讀者嚟講，可以理解成：佢想改善 AI 影片成日出現嘅「開頭啱、之後走樣」問題。

呢個方法特別之處，在於佢唔只睇最後條影片好唔好，而係會喺生成途中做多條候選路線探索，再用獎勵模型判斷邊條路線更值得學。README 提到佢結合咗類似 PPO 嘅強化學習更新，以及對生成軌跡嘅機率估計，目標係令自動回歸影片模型學得更準。

實際了解同試用呢個專案，會由查看論文、專案頁面同釋出權重開始，再按設定準備對應環境、模型權重同資料。由於文件列出咗 H200、CUDA 12.8、Wan2.1 backbone，以及 HPSv3、VideoReward 等元件，較適合已有 GPU 資源、熟悉深度學習訓練流程嘅讀者，而唔係即開即用型工具。