線上服務 – Page 6

SpectraReward：用 MLLM 反讀圖片做文生圖獎勵

2026 年 7 月 15 日

文生圖訓練最麻煩的一環，往往不是生成本身，而是怎樣穩定判斷圖片有冇跟足提示詞。SpectraReward 屬於影像生成 reinforcement learning 的獎勵方法，處理的正是這個問題：它不靠人工偏好標註，也不用再微調 reward model，而是借用預訓練 Multimodal Large Language Models（MLLMs）本身已有的圖文對齊能力，直接替生成結果打分。

核心做法很直觀：先讓 MLLM 看生成出來的圖片，再檢查它能否把原本的 prompt「讀返出嚟」。SpectraReward 用一次 image-conditioned、teacher-forced forward pass，計算 prompt 的平均 log-likelihood，數值越高，代表圖片越能還原文字意圖。相比常見做法要模型直接評分、回答拆解後的驗證問題，這個方法少了額外訓練步驟，也減少了設計評分流程的負擔。

項目亦提出 Self-SpectraReward，對 BAGEL 這類 unified multimodal models（UMMs）尤其有意思。做法是讓同一個模型的 understanding branch，為 generation branch 產生的樣本評分，形成 self-reward。這種安排的重點不在模型愈大愈好，而在 reward 與 policy 是否真正對齊；資料指出，這種內部對齊效果有時可追平，甚至超過更大型的外部 MLLMs。

不需要 preference labels，也不需要 reward-model fine-tuning
只用一次 MLLM forward pass，就可計出 training-free reward
把「圖片能否還原 prompt」變成可量化的獎勵訊號
Self-SpectraReward 適合 BAGEL 類 unified multimodal models（UMMs）

從結果描述來看，reward 提升時，複雜場景生成質素也同步改善，表示這個訊號不只理論上合理，亦能推動可見的畫面進步。對正在做 text-to-image generation、影像模型強化學習，或想減少外部獎勵模型依賴的讀者來說，SpectraReward 提供了一種更省步驟、但仍保留語義判斷能力的路線。文中提到的模型包括 MLLMs，以及 BAGEL 這類 unified multimodal models。

項目主頁 · GitHub

Categories: 香港, 香港大學, 字節跳動, Image, txt2img, 多模態模型, 影像模型, 模型訓練, 北京大學

[技術文章] Xiaomi-Robotics-U0 小米用世界模型打通機械人

2026 年 7 月 15 日

當世界模型式的影像與影片生成能力要落到機械人場景，難題唔止係出圖或出片，而係同一個場景喺多個視角下都要合理，物件幾何要一致，仲要符合唔同 robot embodiment 嘅操作限制。

Xiaomi-Robotics-U0 屬於 world foundation model 路線，針對的正是這類 embodied synthesis 工作：一邊保留大型 image and video generation model 已學到的視覺知識，一邊補上機械人資料需要的可控性與一致性。

常見做法通常係用有限的機械人資料去微調 foundation model，但作者認為呢種範式容易犧牲大規模預訓練帶來的泛化能力。Xiaomi-Robotics-U0 改用 unified embodied synthesis 設計，把 text-to-image generation、image editing、embodied scene generation、embodied transfer 同 embodied video generation 放入同一個 38-billion-parameter multimodal autoregressive model 聯合優化，將 embodied generation 視為 foundation image and video generation 的延伸，而唔係另一條割裂的任務線。

呢個項目最有用的地方，在於它不只生成好看的資料，而是生成可拿來支援機械人學習的資料。文中提到它首次支援跨多種 robot embodiments 的高品質 multi-view scene generation，亦加入 structured、controllable embodied transfer，做細緻編輯時仍可保留 multi-view consistency 同 interaction dynamics，對要做模擬資料擴增、場景改寫、操作軌跡配套生成的工作流幫助較大。

聯合處理多種任務，減少每個場景各自做模型適配的割裂流程
核心差異在於保住 pre-trained world foundation model 的泛化，同時加入 embodied constraints
支援 multi-view scene generation 與 embodied transfer，重點放在幾何一致性與互動連貫性
生成結果可作為 scalable data engine，服務後續 policy training

效能上，Xiaomi-Robotics-U0 在 single-step 與 sequential generation 任務都做到 state-of-the-art，human evaluations 中於 embodied scene generation 同 transfer 超過 GPT-Image-2.0，embodied video generation 在 World Arena 排名第一。更實際的指標來自真實操作任務：它把 π 0.5 \pi_{0.5} 在 out-of-distribution 情況下的 success rate 由 36.9% 提升到 63.2%，說明這類 world model 不只是內容生成工具，亦開始成為 embodied intelligence 的資料引擎。

文中亦提到完整流程涵蓋 dataset curation、unified annotation pipeline、single-step training、sequential training，以及配合 FlashAR 與 vLLM Integration 的 inference 設計。整體訊息很清楚：作者想證明 foundation world models 可以同時扮演 embodied world models 與合成資料基建，讓機械人訓練不再只依賴昂貴而稀缺的真人示範。

Paper

Categories: Video, Image, 軟件, txt2img, 多模態模型, 影像模型, 模型, 模型訓練, 視頻模型, Robotic, 世界模型, 小米-Xiaomi, Dataset 數據集

Latent-Identity Tuning 人像身份細緻微調

2026 年 7 月 15 日

想修改鼻形、加鬍鬚或雀斑，同時又保留同一個人的辨識度，對 text-to-image (T2I) 個人化生成來說一直很難。Latent-Identity Tuning in Text-to-Image Personalization Models 聚焦在這個卡位：不只是改一張圖，而是調整某個人的身份表示，之後可在不同場景中生成同一個經過微調的人。

做法上，輸入人像會先經由預訓練 personalization encoder 轉成一組 identity tokens。研究發現，不同 token 會偏向捕捉眼、鼻、口、頭髮等不同區域或語義特徵，因此可以在這個 identity space 入面尋找有意思的方向，例如鬍鬚、捲髮或其他面部屬性，再沿着方向調整。

直接微調 identity tokens，而不是只在單張圖片上修圖
可做局部、細緻，而且語義較一致的人臉改動
修改後的身份可配合不同 prompts 生成新圖
透過 attention maps 觀察 token 與臉部區域的關係
使用定性與定量實驗檢查局部編輯及跨圖身份一致性

和常見 image editing 相比，這個方法的差異在於它處理的是「身份的潛在表示」。換言之，改動不是鎖死在原圖姿勢、背景或光線，而是把編輯後的身份交給 T2I 模型，在新場景、新描述下仍盡量維持同一個人。

這類方法會較適合需要穩定角色形象的創作者、視覺設計工作流，以及研究人像個人化生成的人。限制上，資料未交代可直接使用的產品化介面或完整模型名單；引用模型方面，內容只提到預訓練 personalization encoder 與 text-to-image model，未列明具體基礎模型名稱。

項目主頁 · Paper

Categories: Image, txt2img, 數字人, 框架

CtrlVTON 把虛擬試穿變成可控編輯

2026 年 7 月 14 日

網購試衫最常見的落差，不是像不像，而是你根本無法指定件衫要點樣著。CtrlVTON 屬於影像生成與虛擬試穿項目，處理的是 Virtual try-on (VTO) 長期欠缺的可控性：同一件衫可以鬆身或貼身、束入或放出、打開或扣上，甚至改變穿著位置與疊穿方式。

現有做法多數把 VTO 當成 inpainting 問題，擅長補畫衣物，卻不容易精準跟住使用者指定的版型同位置。CtrlVTON 改用 image editing framing，再配合 segmentation mask 做 pixel-level control，重點不是單純生成得自然，而是令版面安排真正聽話。論文亦明確指出，它在服裝忠實度接近強勢 proprietary editing systems 的同時，對使用者提供的布局跟隨得更準。

支撐這套方法的另一半，是 Visual-Instance-Prompt Segmentation 與對應模型 VIP-SAM。以往常見的是 category-level visual-reference segmentation，但作者針對的是 instance-level 任務：先給你一張平拍服裝圖，再從人物穿著照片中分出同一件衣物。這一步對同類衣物干擾、遮擋，以及布料變形都更敏感，所以 VIP-SAM 會把 support features 提早注入 SAM backbone，目標是令定位更穩。

把 VTO 由 inpainting 轉成 image editing，控制粒度更細
用 segmentation masks 指定服裝大小、風格與身體上的位置
VIP-SAM 先解決「相中究竟係邊一件衫」的 instance-level 分割問題
一個框架內處理 garment swapping、layering、selective switching、multi-garment composition
已公開 VITON-HD-edit dataset，並有 arXiv 論文可交叉核對方法與結果

理解這個項目的較合理方式，不是把它當成即裝即用成品，而是研究型原型加資料集組合。，測試與部署會圍繞論文、GitHub 儲存庫，以及 Hugging Face 上的 VITON-HD-edit dataset 展開；較適合做可控試穿研究、電商影像流程驗證，或想比較 LoRA 式輕量微調能否取代大型封閉編輯服務的團隊。限制也很清楚：Project Page 尚未公開，README 釋出的安裝與推理細節仍不完整，現階段更適合有影像模型基礎的人先跟論文設定重現，再評估能否接入產品流程。

GitHub · Paper

Categories: 開源, Image, 影像模型, 影像處理, Dataset 數據集

Motion4Motion：免訓練跨物種動作轉移

2026 年 7 月 14 日

當角色外形差很遠，傳統動作轉移最易卡在骨架對唔上：人、鵝、熊貓根本冇共同骨骼模板，結果常見問題包括動作僵硬、身份漂移，或者腳步滑動。Motion4Motion 屬於影像生成／視頻模型方向的研究，直接避開骨架表示，改為從來源影片抽取密集 motion flow，再把動作帶到另一個目標主體身上。

呢個項目的可取之處，在於 training-free。它唔需要為跨物種或跨拓撲角色另行訓練模型，而係建基於凍結的 Diffusion Transformer（WAN-T2V）做兩階段推理：先找出來源影片主體的運動軌跡，再用 TransPE（Transferring Positional Encoding）把重定向後的位置信息注入注意力過程，令目標外觀跟住動起來。

重點可以整理成幾項：
– 毋須 skeleton，較易處理 human → panda、human → goose 呢類外形差異大嘅轉移
– 毋須額外訓練，推理時完成動作遷移，部署門檻較低
– 用 pixel-level motion flow 取代骨架驅動，減少骨架對齊失效帶來的限制
– 建基於預訓練視頻 diffusion transformer，保留生成式模型對外觀細節的表達能力

它會先用 Grounded SAM-2 在來源首幀取樣主體錨點，再靠 diffusion features 建立來源與目標之間的對應，並以 point tracker 追蹤時間上的軌跡。之後在去噪階段重用目標主體的 K/V，配合來自重定向 motion flow 的 RoPE 位置編碼，令 self-attention 按新動作重組畫面。

現有資料指出，Motion4Motion 在多組實驗與應用展示中勝過強基線，亦示範到跨物種轉移，甚至可出現「教枱行路」呢類非典型案例。適合留意角色動畫、視頻生成、動作重定向工作流嘅讀者；不過目前簡介主要集中在研究展示，具體穩定性與邊界情況仍要等更完整實驗細節支持。

項目主頁

Categories: 香港科技大學, Video, 教學, 模型訓練, 清華大學, 框架

LightMem-Ego：AI 眼鏡及手機的日常記憶系統

2026 年 7 月 14 日

LightMem-Ego 由 Zhejiang University、South China University of Technology、Central China Normal University 與 Lenovo Group Limited 共同開發。它瞄準的是手機與 AI 眼鏡長時間接收影像、聲音後，怎樣把零散片段變成可追問的日常記憶，屬於端到端 streaming multimodal memory system。

現有多模態助理多數擅長回答當下畫面或單次對話，但要回想剛才誰講過甚麼、物件放在哪裏、一天內發生過甚麼，就需要把連續經驗累積、整理和檢索。LightMem-Ego 的做法是把第一身 visual-audio streams 對齊到同一條時間線，再分成 Current memory、Short-term memory 和 Long-term memory，查詢時按問題動態路由到合適記憶層，並用 timestamped multimodal evidence 支撐答案。

工作流定位：連接 Rokid AI Glass Android app、browser frontend 和 online backend service。
主要用途：object finding、conversation recall、life summarization、routine discovery 和 hands-free wearable assistance。
核心取捨：不是只追求單次多模態理解，而是把輕量、持續累積和可檢索記憶放在中心。
部署理解： Quick Start 與 glasses + web deployment，但提供資料未列出完整安裝指令或模型配置細節。

對可穿戴裝置開發者、個人助理產品團隊來說，這個項目的價值在於它把擷取、時間線對齊、記憶分層和問答串成一條較完整的流程。它也較適合需要測試「長時間生活脈絡」的場景，而不是只做單張圖片問答或短語音轉錄。

性能與評估資料在提供內容中仍然有限，未見具體 benchmark 數字可引用。相關模型資料只提到 multimodal large language models 的背景，包括 OpenAI 與 Gemini；未明確指定 LightMem-Ego 後端必須使用哪一個固定模型。

GitHub · Paper

Categories: 開源, Gemini, OpenAI, Agentic, Audio, 多模態模型, 語音, 中國, Dataset 數據集, 框架

ABot-N1 點樣令導航模型更穩更易懂

2026 年 7 月 14 日

做室內外導航時，最麻煩往往不是單純避障，而是模型要同時理解語言、辨認目標，再即時走出合理路線。ABot-N1屬於 VLA（Vision-Language-Action）navigation model，焦點放在處理黑盒式策略常見的座標漂移、長尾語意理解不足，以及決策過程難以解釋的問題。

它的做法不是把所有事塞進同一個控制器，而是用 slow-fast 架構把認知與控制分開。較慢的 vision-language reasoner 會讀取歷史畫面與任務提示，產生明確的 Chain-of-Thought reasoning，並輸出 pixel goals 作為通用的影像空間錨點；較快的 action expert 再結合文字線索與 pixel guidance，持續生成 waypoint，將高層意圖接到低層移動控制。

這種設計的好處，在於同一套框架可以覆蓋多種導航任務，而不只是單一路徑跟隨。現有資料提到它支援 point-goal、POI-goal、object-goal、instruction-following 同 person-following，當中 POI-goal 需要由戶外走到實際入口，特別能反映語意理解與跨場景移動是否連得上。

把 cognition 與 control 非同步拆分，減少黑盒式端到端策略的不透明問題
用 dual visual-language signals 連接推理與動作，核心輸出包括 Target Pixel 與 Affordance Pixel
涵蓋 point-goal、POI-goal、object-goal、instruction-following、person-following 等任務
成績上錄得新 state-of-the-art，POI arrival 提升 35.0% 至 77.3%
複雜室內與室外場景分別達到 95.4% 與 92.9% SR，亦同步開源新 benchmark

整體來看，ABot-N1最值得留意的不是單一指標，而是它試圖把「看得懂、講得清、走得穩」放進同一個導航模型。對做 embodied AI、robotics 或通用導航工作流的人來說，這個項目提供了一條比純黑盒控制更可分析、也更容易擴展到不同任務的路線。

項目主頁

Categories: 開源, 阿里巴巴, Image, 3D, 多模態模型, 模型, 模型訓練, 視覺模型, Robotic, Dataset 數據集, VLA

MedPMC 把醫學圖文資料做成可訓練基座

2026 年 7 月 14 日

Repository image for Yale-BIDS-Chen-Lab/MedPMC

做醫學多模態模型，最難往往不是再堆一個新架構，而是先整理到可用的圖文資料。MedPMC 屬於Dataset 數據集加模型訓練程式碼項目，核心價值是把 PubMed Central (PMC) 文獻中的醫學圖片與文字抽取、清理，再接上訓練與評估流程，處理的是醫學 vision-language 資源長期分散、難重現的問題。

目前最值得留意的是 MedPMC Dataset 首個版本，提供約 1,100 萬組 medical image-text pairs；同時亦有基於 MedPMC-11M 訓練的 MedPMC-CLIP。這種做法與不少只放模型權重、或只交出資料連結的項目不同，它把 dataset curation、preprocessing、model training、evaluation 放在同一個代碼庫，較適合研究團隊沿住同一條流程再做微調或重跑實驗。

部署與測試的理解方式很直接：資料集與模型都已放到 Hugging Face，現階段較像給研究者先下載資料、檢查抽樣品質、再接入自家訓練管線。README 未提供很完整的操作文件，dataset viewer 亦未必可直接預覽，所以短期內它比較偏向有 Python 與資料處理能力的團隊，而不是即開即用的線上服務。

約 1,100 萬組來自 PMC 的醫學圖文配對，是項目現時最重要資產
連同 MedPMC-CLIP 一併釋出，方便由資料走到模型驗證
重點不在花巧介面，而在可重現的資料整理與訓練流程
文件仍在補完中，benchmarks 與更多 training recipes 尚待發布

以現有資訊看，MedPMC 的強項是規模與研究流程整合，限制則是文件與基準結果仍未齊備，暫時較難單靠公開頁面判斷模型表現上限。對醫學 AI、視覺模型、RAG 前處理，或需要建立醫學圖文檢索基座的團隊來說，這個開源項目已有不錯參考價值；相關模型現時可確認的是 MedPMC-CLIP。

項目主頁 · GitHub · 模型

Categories: 開源, NVIDIA, Image, Medical醫學, Python, RAG, 多模態模型, 模型訓練, 視覺模型, Dataset 數據集

ReChannel：用生成模型做密集預測

2026 年 7 月 14 日

一張 RGB 圖像想同時拿到深度、surface normal、matting 同 referring segmentation，通常意味住要換幾套模型；ReChannel偏偏反其道而行，將預訓練 text-to-image DiT 的空間 token 直接改作密集預測讀出。這不是完整訓練流程釋出，而是偏向 inference／質性展示的 GitHub 項目，定位很清楚：展示 FLUX-Klein 骨幹除咗生圖，亦可以做 pixel-space dense prediction。

它的類型更接近研究型模型讀出方法＋推理示範工具，實際解決的是「可否沿用生成模型已有的空間表示，避免為每個密集任務重建一套重型解碼器」。做法上，骨幹維持 frozen，只為每個任務加 LoRA，再配一個 token-local linear head；標量任務頭部大約 33K 參數，surface normals 約 99K，沒有 convolution、沒有 upsampling，也沒有 target-side VAE decoder。

同類方法很多會把功夫放在額外解碼器或多尺度結構，ReChannel的取向剛好相反：盡量把空間結構留在 DiT token field 內，最後只做通道重映射。這種設計夠輕，但取捨亦直接，現有儲存庫沒有完整 benchmark pipeline，姿態估計亦未放入最小示範，所以更適合用來理解方法潛力，而非直接拿來做嚴格橫向比較。

支援單張圖片推理，可輸出 depth、normal、matting、refseg，refseg 需要輸入文字描述
依賴 CUDA GPU，首次執行會自動下載 black-forest-labs/FLUX.2-klein-base-4B 與對應 LoRA、線性頭權重
depth、normal、matting 會保留長寬比並可用 horizontal-flip TTA；refseg 固定在 512² 單次前向
已公開的是 demo/inference 版本，不是論文表格所用的完整評測流程

受益最大的人，會是研究 dense prediction、生成模型再利用、或者想測試 LoRA 能否把同一骨幹轉成多任務視覺讀出的團隊。相關模型核心是 black-forest-labs/FLUX.2-klein-base-4B，再疊加每任務 LoRA adapters；對想研究生成模型表示能否外借到視覺理解工序的人，這個項目相當值得留意。

GitHub

Categories: 開源, 香港科技大學, NVIDIA, Stable Diffusion, Image, txt2img, 影像處理, Dataset 數據集

PanoWorld 把 360 影片生成拉回真實場景

2026 年 7 月 14 日

做 360° 影片生成，最易穿崩的往往不是單幀畫質，而是鏡頭轉了一大圈之後，場景記憶是否仍然連貫。PanoWorld屬於世界模型兼影片生成模型，針對全景 world model 的 long-range memory 問題，目標是生成更符合空間幾何與物理一致性的 panoramic video。

這個項目的取向幾明確：不是單純追求更短時間出片，而是利用 omnidirectional representations 的 rotation-equivariant 特性，將旋轉視為隱含幾何變換，再把相機軌跡簡化成固定朝向下的平移。核心做法包括 Dense Panoramic Ray-Conditioning (DPRC) 與 Geometry-aware Memory Augmentation (GMA)，並建基於 Wan2.2 backbone 的 triple-stream DiT，處理當前動作建模與長程記憶。

現階段公開資訊較適合做推理測試與結果驗證，訓練代碼仍未釋出。環境要求也不算輕：Linux（已測 Ubuntu 22.04）、CUDA 12.8 以上、Python 3.10，並需要至少 20GB VRAM 的 CUDA GPU；README 亦提供 demo assets，可先用來跑 inference，觀察 81-frame 與 161-frame panoramic video 的生成表現。

重點放在 long-range memory，而非只提升單段片段觀感
可生成 81-frame、161-frame 的 panoramic video
評測依託 World360，涵蓋真實全景無人機片段與 AirSim360 模擬資料
官方表示在 World360 上明顯勝過其他方法，但目前公開細節以展示頁與推理資源為主

受益最明顯的，會是做 360 內容生成、沉浸式視覺、無人機視角模擬，或研究世界模型長時序一致性的團隊。它未必是最容易部署的項目，但定位很清楚：當一般 video model 在大範圍空間變化與光照變化下容易失憶，PanoWorld正面處理這個痛點，並且連同 World360 一起把評測場景拉近真實世界。

項目主頁 · GitHub

Categories: 開源, NVIDIA, Video, 3D, Linux, Python, 影像處理, 視頻模型, 世界模型, Dataset 數據集, 清華大學

Page 6 of 22

« Previous 1 … 4 5 6 7 8 … 22 Next »