影像模型 – Page 4

NAVA 點樣做好聲畫同步生成

2026 年 5 月 29 日

NAVA 是一個主打音訊與影片同步生成的項目，目標不是先整好畫面再補聲，而是由一開始就把兩者放在同一個生成流程內處理。對非技術讀者來說，可以把它理解成一個較重視「畫面發生什麼，聲音就跟住發生什麼」的模型，因此打鬥、說話、環境聲這類時間配合會更自然。

這個項目的核心做法，是先在獨立空間建立 audio-video alignment，再用文字或其他 context 去引導生成，並採用 Align-then-Fuse MMDiT 架構。另一個亮點是 Timbre-in-Context Conditioning，能把參考 WAV 的音色對應到指定語音片段，適合多角色對白、指定聲線或旁白控制。

NAVA 有 6.3B 參數，可在 8 張 GPUs 配合 Ulysses sequence parallelism 下約 1 分鐘生成 720p 影片，這代表它主要面向高階 GPU 環境；VRAM 的作用是存放模型權重、推理中的中間特徵、音訊與影片 token，以及較高解像度生成所需的緩衝空間，VRAM 越充足，越有機會支援更高畫質、較長內容或較穩定的批次推理。

支援 native stereo audio，畫面、場景聲與語音一併生成
可用文字控制鏡頭構圖、運鏡與節奏
支援 multi-timbre voice control，適合多角色配音場景
同一 checkpoint 可輸出橫向、直向與正方形比例
英文 TTS 表現較強，其他語言支援看來仍較有限

它在 Verse-Bench、Seed-TTS 及用戶研究中，於影片質素、聲畫同步和參考音色可控性有明顯優勢，音訊質素亦具競爭力。若你關注開放式 audio-video generation、TTS、虛擬角色影片、短片內容製作，或者想研究 6.3B 級別模型如何平衡同步效果與運算需求，NAVA 是一個很值得細看的項目。

GitHub： https://github.com/ernie-research/NAVA

Categories: 開源, 多模態模型, 影像模型, 影像處理

Lens：更慳算力的高質文字生圖

2026 年 5 月 25 日

Lens 是 Microsoft 推出的文字生成圖片模型，規模約 3.8B 參數，重點不只是畫質，還包括「用較少訓練成本做到接近甚至追上更大模型」。這個 GitHub 項目目前定位清晰，主要提供推論用途的最小程式碼，方便直接用現成 checkpoint 生成圖片。

動手方式很直接：準備好 Lens 的權重後，利用這個項目的推論程式輸入文字提示，便可生成圖像。它特別適合想快速試畫面風格、測試長提示詞效果，或者比較不同文字生圖模型輸出的人；若要完整訓練或微調流程，現有儲存庫資訊顯示並不是這個項目的重心。

它解決的核心問題，在於近年文字生圖模型愈做愈大，訓練成本高得驚人。Lens 嘗試從資料密度、模型結構和解析度學習方式入手，在較緊湊的 3.8B 規模下，仍保持不錯的提示理解、高解析度輸出，以及多種長寬比生成能力。

較值得留意的地方有幾個：它用長篇密集描述的圖文資料預訓練，配合 mixed-resolution learning，令模型一次學到更多內容；文字理解方面則結合 GPT-OSS 多層特徵與 FLUX.2 semantic VAE。官方亦提到有 Lens-Turbo 這類後續變體，主打 4-step 快速生成，另有 RL 調整版本用來改善畫質與壓低瑕疵。不過仍需要 A100/V100 GPU。

3.8B 參數規模，定位是高效率文字生圖模型
支援約 1:2 至 2:1 長寬比，最高可到 1440×1440
相關模型包括 Lens、Lens-Turbo，以及經 RL 調整的變體
官方論文指出 1024×1024 輸圖可達約 3.15 秒，Turbo 4-step 約 0.84 秒

整體來看，這個項目最吸引之處不是功能包山包海，而是把焦點放在「精簡推論」與「高效率模型設計」上。對研究生成式 AI 趨勢、想評估新一代文字生圖效率，或需要高解析度輸出的開發者與創作者來說，Lens 是一個值得留意的項目；不過涉及基準細節與全面比較時，仍建議一併參考論文與模型頁面。

GitHub： https://github.com/microsoft/Lens

Paper： https://arxiv.org/pdf/2605.21573

Categories: 開源, 微軟, 影像模型, 模型

PhysX-Omni：讓 3D 生成更貼近物理世界

2026 年 5 月 23 日

PhysX-Omni 由南洋理工大學及中國 ACE Robotics 開發，是個面向模擬用途的 3D 生成項目，重點不只是做出外觀，而是連同剛體、可變形物件與可動關節物件一併考慮。簡單說，它想解決的問題是：很多 3D 生成結果看起來像樣，但未必能直接放進物理模擬或機械人流程裡使用。

這個項目的亮點，在於把幾何形狀、絕對尺寸、材質、可供互動的功能，以及運動結構放到同一套框架內處理。它配合 PhysXVerse 資料集和 PhysX-Bench 評估方法，目標是同時檢查生成能力與理解能力，這點比只看外觀相似度更進一步。

整體流程偏向研究型：先準備 Python/conda 環境，再安裝相依套件，之後下載 PhysXNet、PhysX-Mobility 與 PhysXVerse 等資料，完成前處理和條件圖像渲染，最後再設定訓練路徑。這代表它較適合已有 AI 或 3D 處理基礎的人，而不是即開即用的輕量工具。

PhysX-Omni: Unified Sim-Ready Physical 3D Generation for Rigid, Deformable, and Articulated Objects

Watch this video on YouTube

核心價值：生成可放進模擬流程的 3D 資產，而非只有表面外觀
覆蓋範圍：支援剛體、可變形物件、關節物件三類內容
相關資源：包括 PhysXVerse 資料集、PhysX-Bench 評估，以及 README 提到的 Qwen2.5 相依套件
適合場景：機械人訓練、物理模擬、具條件控制的 3D 場景生成

性能方面，公開資料指出它會用一般指標加上自家的基準一同評估，並強調在生成與理解兩邊都有不錯表現。不過從現有資訊來看，較完整的數字仍應以論文與官方頁面為準；對一般讀者而言，最值得留意的是它把「看得像」推進到「更可能用得著」，這正是這個項目最有意思的地方。

GitHub： https://github.com/physx-omni/PhysX-Omni

Paper： https://arxiv.org/pdf/2605.21572

Categories: 開源, 影像模型, 影像處理, 模型, 中國, Dataset 數據集

KVPO 點樣提升影片生成對齊

2026 年 5 月 20 日

KVPO 係一個針對影片生成訓練流程嘅研究型專案，焦點唔係單純「生成到片」，而係令模型喺逐格、逐段生成嘅過程中，更穩定咁貼近文字提示同預期內容。對一般讀者嚟講，可以理解成：佢想改善 AI 影片成日出現嘅「開頭啱、之後走樣」問題。

呢個方法特別之處，在於佢唔只睇最後條影片好唔好，而係會喺生成途中做多條候選路線探索，再用獎勵模型判斷邊條路線更值得學。README 提到佢結合咗類似 PPO 嘅強化學習更新，以及對生成軌跡嘅機率估計，目標係令自動回歸影片模型學得更準。

實際了解同試用呢個專案，會由查看論文、專案頁面同釋出權重開始，再按設定準備對應環境、模型權重同資料。由於文件列出咗 H200、CUDA 12.8、Wan2.1 backbone，以及 HPSv3、VideoReward 等元件，較適合已有 GPU 資源、熟悉深度學習訓練流程嘅讀者，而唔係即開即用型工具。

主要處理影片生成中內容偏離提示、時間一致性變差等問題
核心做法係先探索多個生成分支，再用獎勵分數引導學習
研究重點放喺自動回歸影片模型，而唔係一般圖片生成
文件顯示會配合 Wan2.1-T2V-1.3B 等 backbone 使用
仲會涉及 HPSv3、VideoReward 呢類評分或獎勵相關模型

整體而言，KVPO 比較適合關注影片生成訓練方法嘅研究者、工程師，或者想比較唔同對齊策略嘅團隊。對非技術用家，佢未必係直接拎嚟出片嘅方案；但作為觀察新一代影片模型點樣「學識跟指令」嘅方向，呢個專案幾有參考價值。

GitHub： https://github.com/Richard-Zhang-AI/KVPO

Paper： https://arxiv.org/pdf/2605.14278

Categories: 開源, 香港科技大學, 影像模型, 影像處理, 清華大學

Lance：一個模型包辦圖像與影片

2026 年 5 月 20 日

Lance 是 ByteDance 推出的 3B 級多模態模型，重點不只是「識圖」，而是把圖片與影片的理解、生成、編輯放在同一套框架內處理。對一般讀者來說，最易明白的價值是：同一個專案可應付多種視覺工作，不用為每個任務分開找不同模型。

Lance 可處理的任務包括文字生成圖片、文字生成影片、圖片編輯、影片編輯，以及由圖片或影片輸出文字說明。環境方面需要 Python 3.10+、CUDA 12.4+，推理亦要至少 40GB VRAM 的 GPU，較適合有工作站或伺服器資源的團隊先做測試，再按任務修改預設參數與樣本配置。

它較有意思的地方，在於用 3B active parameters 去覆蓋多種視覺任務，並強調由零開始訓練，加上分階段的多任務訓練方法。這代表它的設計方向不是只追單一指標，而是希望不同任務之間互相帶動，令圖片與影片能力更集中在同一模型內。

支援的任務範圍廣：t2i、t2v、image edit、video edit、x2t image、x2t video
模型規模屬 3B，但官方稱在多項圖片與影片基準上表現不俗
重點是統一框架，減少多模型切換的複雜度
推理硬件門檻不低，較適合研究、內容工具開發及企業試驗

合適視覺 AI 研究、內容製作流程整合、需要同時處理圖像與短片的原型系統。相關模型方向可留意文字轉圖片、文字轉影片、影像編輯、影片編輯，以及視覺轉文字這幾類；Lance 的特點正是把這些能力盡量收攏到同一個模型體系之中。

GitHub： https://github.com/bytedance/Lance

Paper： https://arxiv.org/pdf/2605.18678

Categories: 開源, 字節跳動, 影像模型, 影像處理

LongLive：長片段影片生成再快一步

2026 年 5 月 20 日

LongLive 係 NVIDIA NVLabs 針對長影片生成提出的基礎設施，核心目標唔係單純「整到片」，而係令模型喺處理長時間、多鏡頭內容時，冇咁易被記憶體同速度拖慢。由 1.0 強調即時互動式生成，到 2.0 加入 NVFP4 平行化設計，重點已經擴展到訓練、蒸餾同推理全流程。

實際使用時，較自然嘅路線係先睇示範頁同文件，了解佢點樣接收連續提示詞，再按需要選擇 BF16 或 NVFP4 模型版本。現有公開模型包括 LongLive-2.0-5B、LongLive-2.0-5B-NVFP4-S4，而較早期分支亦有 LongLive-1.3B，方便分別比較畫質、速度同硬件需求。

呢個專案最值得留意嘅地方，在於佢唔只優化生成結果，仲直接處理長影片常見樽頸，例如 KV cache 佔用、跨卡通訊、以及多鏡頭自回歸生成時嘅效率問題。資料顯示，2.0 版本支援多鏡頭或單鏡頭訓練、序列平行推理、非同步解碼，同時可用較低精度格式減少記憶體開銷；論文亦提到訓練與推理速度都有明顯提升，但實際表現仍要視乎 GPU 架構而定。

支援長影片、多鏡頭連續生成，方向比一般短片生成更明確
提供 BF16 同 NVFP4 版本，方便按硬件取捨
針對訓練與推理一齊優化，唔係只顧其中一端
包含序列平行、KV cache 量化、非同步解碼等工程設計
適合研究人員、影片生成開發者，同埋需要評估部署效率嘅團隊

整體來講，LongLive 比較似一個面向進階影片生成工作流嘅「引擎室升級」，特別適合關注長片段敘事、互動式生成，或者想研究多鏡頭影片模型點樣落地嘅人。對一般讀者而言，最容易理解嘅價值就係：佢嘗試用更慳資源、更快嘅方式，令 AI 生成長影片唔再只停留喺概念展示。

GitHub： https://github.com/NVlabs/LongLive

Paper： https://arxiv.org/pdf/2605.18739

Categories: 開源, NVIDIA, 影像模型

Flash-GRPO：影片生成訓練再提速

2026 年 5 月 19 日

Flash-GRPO 針對的是影片生成模型訓練中一個很實際的難題：要令模型更貼近人類偏好或評分標準，傳統做法往往要走完整訓練軌跡，計算量高、時間長，對硬件要求亦相當重。這個專案提出單步式優化框架，重點是用較低運算預算，換取更有效率的對齊效果。

從公開資料來看，它主要面向影片擴散模型，並配合獎勵模型一同使用。實際動手時，需要先準備基礎模型 Wan2.1-1.3B，以及 README 提到的 HPSv3 獎勵模型，再按專案提供的訓練流程啟動；現階段較適合已熟悉 Python、分散式訓練和 GPU 環境的人直接試跑。

這個方法較有意思的地方，在於它不只是「少做步驟」，而是嘗試處理時間步之間訓練訊號不穩定的問題。README 提到兩個核心設計：一個是維持同一提示詞在時間上的一致性分組，另一個是修正不同時間步梯度尺度不一致的情況，目標是令訓練更穩定，也更容易比較模型表現。

主打影片擴散模型的對齊訓練，而非一般文字模型微調
強調單步式策略優化，方向上比完整軌跡訓練更省資源
已在 1.3B 到 14B 規模模型做實驗驗證
相關基礎組件，包括 Wan2.1-1.3B 與 HPSv3

整體來說，Flash-GRPO 比較適合做生成式 AI 研究、影片模型訓練優化，或想評估低成本對齊方案的團隊。對一般用家而言，它不是即裝即用的成品；但對需要在有限 GPU 預算下提升訓練效率的人，這個專案展示了一條相當值得關注的技術路線。

GitHub： https://github.com/Shredded-Pork/Flash-GRPO

Paper： https://arxiv.org/pdf/2605.15980

Categories: 開源, 影像模型, 中國, 清華大學

PhysBrain-VLA：教機械人先懂物理常識

2026 年 5 月 19 日

Repository image for Phys-Brain/PhysBrain-VLA

PhysBrain-VLA 係一個面向機械人控制的研究專案，但它最值得留意的地方，其實係訓練思路改變咗。以往不少系統主要靠機械人示範資料學動作，成本高之餘，遇到新場景亦未必識變通；而呢個專案就主張先由大量人類第一身影片抽取「物理常識」，再轉化畀模型學習。

對一般讀者嚟講，可以將它理解為：與其死記「點樣拎起杯」，不如先明白杯喺枱上、手要接近、物件有前後高低關係，甚至某些動作做唔做到。根據公開資料，團隊處理咗超過 3,000 小時人類影片，並整理成包含空間關係、動作可行性同推理線索的多模態訓練資料。

如果你想上手理解這個專案，較實際的方法唔係直接當成即裝即用工具，而係先由它的整體架構入手：先看資料引擎點樣把影片轉成結構化訊息，再看基礎模型如何吸收這些知識，最後理解 VLA 部分點樣把理解能力轉成機械人動作。對研究員、機械人開發者，或者關心 embodied AI 發展方向的人，呢個閱讀路線會比較清晰。

核心價值係減少對昂貴機械人示範數據的依賴
主要做法係由人類第一身影片提煉物理與空間常識
架構包含 PhysBrain、TwinBrainVLA、LangForce
提到的評測包括 ERQA、PhysBench、SimplerEnv-WidowX、LIBERO、RoboCasa

其中較有新意的是 TwinBrainVLA 的雙腦式設計，目標是減輕微調後「學咗新嘢就忘記舊嘢」的問題；LangForce 則把訓練重心由單純模仿行為，轉向較貼近物理推理的學習方式。從論文摘要來看，它在多個理解與控制評測都有強表現，尤其在陌生環境的泛化能力方面值得關注。

整體而言，PhysBrain-VLA 未必係面向普通用家的產品型專案，但作為技術方向，它展示咗一條幾實際的路：先讓模型理解世界，再叫它出手做事。若你想追蹤未來機械人如何由「照做」走向「識判斷」，這個專案相當有參考價值。

Project Page： https://phys-brain.github.io

網址： https://github.com/Phys-Brain/PhysBrain-VLA

網址： https://arxiv.org/pdf/2605.15298

Categories: 開源, 影像模型, 模型, 視覺模型, Robotic, 中國

PAGER 提升 GUI 操作介面準確度

2026 年 5 月 19 日

而家好多 GUI 智能代理都已經識得喺網頁、手機同桌面介面按掣、輸入文字，但呢類能力多數建立喺「大概撳中就得」嘅情況。呢篇研究處理嘅，係另一種要求高好多嘅環境：喺幾何畫布上落點，少少座標偏差都可能令之後所有圖形關係出錯。

研究團隊將呢類任務界定為對精度非常敏感嘅介面操作，並提出 PAGE Bench 作為評測基準，包含 4,906 條題目，同超過 22.4 萬個帶有過程監督嘅像素級操作資料。對一般讀者嚟講，可以理解為：研究者唔單止睇最後畫啱未，仲會逐步記錄每一下應該點做，方便訓練同評估模型。

為咗應付呢個問題，團隊提出 PAGER。佢會先按幾何物件之間嘅依賴關係做規劃，再執行像素級操作；另外再配合針對精準度嘅強化學習，用當前畫面狀態同幾何回饋去修正行為。簡單講，佢唔只係「認得要畫咩」，而係更著重「每一步要落喺邊個點」。

重點可以歸納為：
– 針對連續畫布上嘅落點操作，而唔係一般按鈕式介面
– 建立咗 PAGE Bench，專門量度像素級幾何控制能力
– 指出多模態模型存在明顯落差：理解指令未必代表真係做到
– PAGER 透過結構化規劃同幾何回饋，提升實際完成率

實驗結果亦幾有代表性。論文指出，一般多模態模型即使喺動作類型判斷上可超過 88% 準確率，整體任務成功率仍低於 6%，反映「語意理解」同「可執行操作」之間有明顯鴻溝；PAGER 就將任務成功率提升到最強通用基線嘅 4.1 倍，步驟成功率亦由不足 9% 提升到超過 62%。如果你關注 AI 代理、自動化操作，或者需要處理 CAD、教學幾何、精密繪圖等場景，呢項工作值得留意。

由應用角度睇，PAGER 特別適合用喺幾何教學軟件、自動作圖代理，同需要高精度圖形互動嘅研究場景。相比只判斷「有冇撳中元件」嘅方法，佢更重視座標、半徑、端點等連續參數，對處理精細圖形操作更有參考價值。

網址： https://openraiser.github.io/Pager-webpage/

Categories: 開源, 影像模型, 中國, Dataset 數據集

DepthVLM：識睇圖又識估距離

2026 年 5 月 18 日

如果你曾經好奇電腦點樣由一張相片判斷物件有幾遠，DepthVLM 就係一個幾有代表性的答案。呢個專案主打由單張圖片直接輸出具實際尺度的深度資訊，同時保留問答、理解畫面內容等多模態能力，唔係只做單一視覺任務。

對一般開發者而言，上手方向算清晰：程式碼、模型權重同基準資料都已有公開入口，亦提供示例視覺化結果方便先睇效果。要留意資料本身受授權限制，作者未有直接派發整理後全集，但有公開資料整理流程，較適合願意自己重現訓練或評估的人。

佢較特別之處，在於唔需要將「睇圖理解」同「估深度」拆開做。論文資訊顯示，DepthVLM 會喺單次推理中同時產生深度圖與文字輸出，並以輕量模組接到語言模型骨幹上，速度亦比同類 VLM 方案如 DepthLM、Youtu-VL 更快。

如果你做機械人、AR/VR、室內導航，或者想研究影像中的 3D 空間推理，呢類模型特別有價值。從公開內容看，相關比較對象包括 DepthLM-12B、Youtu-VL-4B、InternVL3.5-38B，以及偏純視覺路線的 Depth Anything V3、UniDepth V2、Metric3D v2、Depth Pro、ZoeDepth。

一個模型兼顧畫面理解與深度預測
可輸出具米制尺度的稠密深度圖
推理效率強調比部分現有 VLM 更快
已提供範例、模型檔與基準標註入口
較適合研究、實驗同進階應用整合

整體來講，DepthVLM 吸引之處唔單止係準確度，而係它試圖將 3D 感知正式帶入視覺語言模型工作流。若你想搵一個連接「識答問題」同「識判斷空間距離」的方案，呢個專案相當值得先收藏再深入試用。

網址： https://github.com/hanxunyu/DepthVLM

網址： https://arxiv.org/pdf/2605.15876

Categories: 開源, 香港科技大學, 騰訊, 影像模型, 視覺模型

Page 4 of 12

« Previous 1 2 3 4 5 6 … 12 Next »