香港 – Page 2 – InferNews

SpectraReward：用 MLLM 反讀圖片做文生圖獎勵

2026 年 7 月 15 日

文生圖訓練最麻煩的一環，往往不是生成本身，而是怎樣穩定判斷圖片有冇跟足提示詞。SpectraReward 屬於影像生成 reinforcement learning 的獎勵方法，處理的正是這個問題：它不靠人工偏好標註，也不用再微調 reward model，而是借用預訓練 Multimodal Large Language Models（MLLMs）本身已有的圖文對齊能力，直接替生成結果打分。

核心做法很直觀：先讓 MLLM 看生成出來的圖片，再檢查它能否把原本的 prompt「讀返出嚟」。SpectraReward 用一次 image-conditioned、teacher-forced forward pass，計算 prompt 的平均 log-likelihood，數值越高，代表圖片越能還原文字意圖。相比常見做法要模型直接評分、回答拆解後的驗證問題，這個方法少了額外訓練步驟，也減少了設計評分流程的負擔。

項目亦提出 Self-SpectraReward，對 BAGEL 這類 unified multimodal models（UMMs）尤其有意思。做法是讓同一個模型的 understanding branch，為 generation branch 產生的樣本評分，形成 self-reward。這種安排的重點不在模型愈大愈好，而在 reward 與 policy 是否真正對齊；資料指出，這種內部對齊效果有時可追平，甚至超過更大型的外部 MLLMs。

不需要 preference labels，也不需要 reward-model fine-tuning
只用一次 MLLM forward pass，就可計出 training-free reward
把「圖片能否還原 prompt」變成可量化的獎勵訊號
Self-SpectraReward 適合 BAGEL 類 unified multimodal models（UMMs）

從結果描述來看，reward 提升時，複雜場景生成質素也同步改善，表示這個訊號不只理論上合理，亦能推動可見的畫面進步。對正在做 text-to-image generation、影像模型強化學習，或想減少外部獎勵模型依賴的讀者來說，SpectraReward 提供了一種更省步驟、但仍保留語義判斷能力的路線。文中提到的模型包括 MLLMs，以及 BAGEL 這類 unified multimodal models。

項目主頁 · GitHub

Categories: 香港, 香港大學, 字節跳動, Image, txt2img, 多模態模型, 影像模型, 模型訓練, 北京大學

Motion4Motion：免訓練跨物種動作轉移

2026 年 7 月 14 日

當角色外形差很遠，傳統動作轉移最易卡在骨架對唔上：人、鵝、熊貓根本冇共同骨骼模板，結果常見問題包括動作僵硬、身份漂移，或者腳步滑動。Motion4Motion 屬於影像生成／視頻模型方向的研究，直接避開骨架表示，改為從來源影片抽取密集 motion flow，再把動作帶到另一個目標主體身上。

呢個項目的可取之處，在於 training-free。它唔需要為跨物種或跨拓撲角色另行訓練模型，而係建基於凍結的 Diffusion Transformer（WAN-T2V）做兩階段推理：先找出來源影片主體的運動軌跡，再用 TransPE（Transferring Positional Encoding）把重定向後的位置信息注入注意力過程，令目標外觀跟住動起來。

重點可以整理成幾項：
– 毋須 skeleton，較易處理 human → panda、human → goose 呢類外形差異大嘅轉移
– 毋須額外訓練，推理時完成動作遷移，部署門檻較低
– 用 pixel-level motion flow 取代骨架驅動，減少骨架對齊失效帶來的限制
– 建基於預訓練視頻 diffusion transformer，保留生成式模型對外觀細節的表達能力

它會先用 Grounded SAM-2 在來源首幀取樣主體錨點，再靠 diffusion features 建立來源與目標之間的對應，並以 point tracker 追蹤時間上的軌跡。之後在去噪階段重用目標主體的 K/V，配合來自重定向 motion flow 的 RoPE 位置編碼，令 self-attention 按新動作重組畫面。

現有資料指出，Motion4Motion 在多組實驗與應用展示中勝過強基線，亦示範到跨物種轉移，甚至可出現「教枱行路」呢類非典型案例。適合留意角色動畫、視頻生成、動作重定向工作流嘅讀者；不過目前簡介主要集中在研究展示，具體穩定性與邊界情況仍要等更完整實驗細節支持。

項目主頁

Categories: 香港科技大學, Video, 教學, 模型訓練, 框架, 清華大學

ReChannel：用生成模型做密集預測

2026 年 7 月 14 日

一張 RGB 圖像想同時拿到深度、surface normal、matting 同 referring segmentation，通常意味住要換幾套模型；ReChannel偏偏反其道而行，將預訓練 text-to-image DiT 的空間 token 直接改作密集預測讀出。這不是完整訓練流程釋出，而是偏向 inference／質性展示的 GitHub 項目，定位很清楚：展示 FLUX-Klein 骨幹除咗生圖，亦可以做 pixel-space dense prediction。

它的類型更接近研究型模型讀出方法＋推理示範工具，實際解決的是「可否沿用生成模型已有的空間表示，避免為每個密集任務重建一套重型解碼器」。做法上，骨幹維持 frozen，只為每個任務加 LoRA，再配一個 token-local linear head；標量任務頭部大約 33K 參數，surface normals 約 99K，沒有 convolution、沒有 upsampling，也沒有 target-side VAE decoder。

同類方法很多會把功夫放在額外解碼器或多尺度結構，ReChannel的取向剛好相反：盡量把空間結構留在 DiT token field 內，最後只做通道重映射。這種設計夠輕，但取捨亦直接，現有儲存庫沒有完整 benchmark pipeline，姿態估計亦未放入最小示範，所以更適合用來理解方法潛力，而非直接拿來做嚴格橫向比較。

支援單張圖片推理，可輸出 depth、normal、matting、refseg，refseg 需要輸入文字描述
依賴 CUDA GPU，首次執行會自動下載 black-forest-labs/FLUX.2-klein-base-4B 與對應 LoRA、線性頭權重
depth、normal、matting 會保留長寬比並可用 horizontal-flip TTA；refseg 固定在 512² 單次前向
已公開的是 demo/inference 版本，不是論文表格所用的完整評測流程

受益最大的人，會是研究 dense prediction、生成模型再利用、或者想測試 LoRA 能否把同一骨幹轉成多任務視覺讀出的團隊。相關模型核心是 black-forest-labs/FLUX.2-klein-base-4B，再疊加每任務 LoRA adapters；對想研究生成模型表示能否外借到視覺理解工序的人，這個項目相當值得留意。

GitHub

Categories: 開源, 香港科技大學, NVIDIA, Stable Diffusion, Image, txt2img, 影像處理, Dataset 數據集

UniClawBench 點樣測主動式代理

2026 年 7 月 10 日

比起只問模型識唔識答，UniClawBench更在意代理能否一路做、一路修正，直到完成整個工作流。它屬於benchmark 項目，針對 proactive AI agents 在真實工具、瀏覽器、檔案處理與桌面 GUI 任務中的完成能力，補足傳統單步評測難以反映連續操作表現的缺口。

現有做法常把 agent evaluation 壓縮成靜態問答、固定軌跡重播，或者只看最後答案；作者明確改用 three-role closed-loop evaluation framework，將 executor、hidden answer supervisor 同 public user simulator 分開。呢個設計的重點，是同時檢查代理點樣行動、途中有冇偏離、收到回饋後能否繼續修正，而唔係只計一次輸出啱唔啱。

公開版本提供 400 個雙語任務，英文與中文各 200 個，覆蓋 Skill Usage、Exploration、Long Context、Multimodal、Cross Platform 五類能力。部署思路亦算清晰：倉庫已放入 packaged task resources、Docker-based runtimes、distributed dispatch scripts，同埋可檢視 leaderboard、trace、artifacts 與 timeline 的 WebUI；要跑測試，核心其實是先填好 executor、Codex provider 同 API keys 相關設定檔，再用它的執行環境批次評估。

用 three-role 閉環評測取代一次性答題
任務同時涉及 browser、files、GUI apps 與其他工具
400 個雙語任務，較易檢查跨語言穩定性
WebUI 可回看 traces、artifacts 同示範流程

從補充資料看，作者想指出的取向幾鮮明：framework choice 對能力表現的影響，往往比 model choice 更大，而 long-context 與 multimodal 仍是主要瓶頸。相關模型與組合亦有列出，例如 GPT-5.4、Claude Opus-4.8、Kimi-2.6，並配合 OpenClaw、EDICT、Nanobot 等框架比較；對研究 agent system、企業內部自動化流程，或者想建立較完整評測流水線的團隊，這個項目的參考價值高過單純看排行榜。

項目主頁 · GitHub · Paper

Categories: 開源, 香港大學, OpenAI, Agentic, API, 多模態模型, Anthropic, OpenClaw, 框架, Dataset 數據集, Skill 技能

OpenCoF 用影片學會推理

2026 年 7 月 10 日

文字 Chain-of-Thought (CoT) 之外，OpenCoF 把推理搬到影片時間軸上，主打 Chain-of-Frame (CoF) reasoning：模型不是靠外部工具拆步驟，而是在連續生成的畫面裡理解因果、規則同狀態變化。這屬於一個研究型框架，核心想處理的問題，是現有影片生成模型多數只見過一般影片資料，未必學到穩定的時序推理能力。

作者對既有做法的批評很明確：以往影片模型通常用通用影片語料訓練，缺少專門針對 CoF reasoning 的監督，因此即使畫面能動起來，都未必真係「識推」。OpenCoF 於是補上兩層東西：先有 OpenCoF-17K 這個包含 17,312 段影片、覆蓋 11 類任務的資料集，再用它把 Wan2.2-I2V-A14B 經 LoRA 微調成 Wan-CoF，之後再加上 Visual Reasoning Tokens (vt) 與 Textual Reasoning Tokens (tt) 兩種設計。

OpenCoF 先用資料監督驗證影片推理能否被教出來，再用 token 設計補強中間推理狀態，而不是一開始就堆很多複雜推理機制。公開資訊顯示，Wan-CoF 單靠資料監督，已經在 MME-CoF、Gen-ViRe、VIPER、RULER-Bench 四個外部 benchmark 全面勝過基線；Wan-CoF vt 與 Wan-CoF tt 則再向前一步，但兩者偏重不同，vt 較擅長低階視覺線索，tt 較著重高階語意先驗。

OpenCoF-17K 由四條資料整理流程建成，兼顧規則型任務、程序生成場景與真實影片多樣性
Wan-CoF 以 Wan2.2-I2V-A14B 為底，靠 LoRA 微調驗證資料本身已可提升推理表現
Wan-CoF vt / Wan-CoF tt 分別從視覺 latent 與文字條件序列加入 reasoning tokens，走兩條互補路線
評測覆蓋 MME-CoF、Gen-ViRe、VIPER、RULER-Bench，結果指向同一件事：時序監督對影片推理有明顯幫助

OpenCoF 適合研究團隊、做視覺推理評測的人，或者關注 Video reasoning 與 Video generation 交界的開發者參考：儲存庫已公開論文與方法框架，但 code、dataset 同 model checkpoints 仍在內部審核，暫時未能直接下載測試；現時較合理的理解方式，是先把 OpenCoF 視為一個針對 CoF reasoning 的資料與訓練範式，等正式釋出後再判斷重現成本與落地價值。

項目主頁 · GitHub · Paper

Categories: 開源, 香港中文大學, 字節跳動, Video, 多模態模型, 視覺模型, 視頻模型, 蘋果, Dataset 數據集

SciReasoner 想把科學推理拉回結構本身

2026 年 7 月 10 日

只看文字去判斷蛋白質功能、分子反應性或材料性質，經常會漏掉真正關鍵的空間結構。SciReasoner屬於多模態 scientific foundation model，針對的正是這個落差：把 protein structures、3D molecules、crystals、sequences、formulas 同 text 轉成可對照的 structure-aware evidence tokens，再用來做 scientific QA、prediction、classification 同 generation/design。

與科學資料先「文字化」再交畀大型語言模型處理的做法不同。作者明確押注 native structural reasoning，保留 Foldseek 3Di、ConfSeq、SLICES 呢類結構編碼，令模型唔係淨係讀描述，而係可以沿住 residues、fragments、conformers 甚至晶體配位環境去推理；官網展示的 traces 亦反映出，項目希望連推理路徑都可以檢查，而唔只係輸出答案。

GitHub 上的 models 同 demo 仍標示為 coming soon。換句話說，眼前較合理的理解方式係先把它當成研究型項目：閱讀 benchmark、看案例 traces，判斷它是否適合生物資訊、化學資訊或材料 AI 團隊之後的評測與整合方向，而唔係即刻下載部署到生產流程。

在 86 個評測任務入面，67 個做到 state-of-the-art，對比 generalist LLM baselines 有 75 個任務表現最好
與已發表的 specialist 方法相比，在 33 組比較入面有 26 組持平或更好
範圍唔只化學，亦覆蓋 proteins、DNA/RNA、small molecules、3D molecular structures 同 inorganic crystals
traces 可檢查，雙盲專家評分中，與 DeepSeek-V4-Pro 相比有 98% 判斷屬 preferred 或 comparable

相關模型方面，SciReasoner以 Qwen3-14B 初始化，再對齊 domain-native structural vocabularies。對需要跨蛋白質、核酸、分子同材料做統一推理介面的團隊，呢個方向幾有吸引力；限制同樣明顯，因為公開模型與可直接測試的 demo 尚未提供，現階段更適合當成值得追蹤的研究項目，而唔係可即用工具。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, 香港, 香港中文大學, DeepSeek, 3D, Medical醫學, 多模態模型, 模型, 中國, 南京大學, Dataset 數據集

SenseNova-Vision 把視覺任務收進同一模型

2026 年 7 月 8 日

SenseNova-Vision handles diverse vision tasks in a unified model

做視覺項目最麻煩的，往往不是單一任務做不到，而是偵測、OCR、分割、深度估計同多視角幾何各有各套輸出格式。SenseNova-Vision把這些工作收斂到 unified multimodal model（UMM）的生成介面之內，屬於多模態模型項目，重點是用自然語言指令加可選視覺提示，統一處理結構化理解與密集預測。

它的取向幾明確：不再為每類視覺任務各自設計頭部與輸出器，而是把 boxes、points、OCR strings、keypoints、camera parameters 交由文字生成，把 segmentation masks、depth maps、surface normals、multi-view point maps 交由影像生成，亦支援文字加影像混合回應。這種做法的好處是工作流一致，代價則是推理解碼與評測轉換要做得夠穩，否則通用性未必等於每一項都最強。

目前公開內容包括推理程式、模型權重 SenseNova-Vision-7B-MoT、資料集 SenseNova-Vision-Corpus-50M，以及可試用的 Demo。要理解它點樣測試，最直接是先用 Demo 看同一張圖在不同指令下可否輸出可解碼結果，再配合倉庫的 Evaluation Guide 對標準 benchmark 檢查文字、影像或混合輸出的還原能力。

同一模型覆蓋 結構化視覺理解、分割、dense geometric prediction 與 multi-view visual geometry
輸出形式統一：文字、影像、混合文字影像都可作為回應
已公開資源完整：inference code、SenseNova-Vision-7B-MoT、SenseNova-Vision-Corpus-50M、Demo
適合場景明確：研究團隊、視覺產品原型、要整合多任務流程的工程工作

這個項目最適合不想為每個任務維護一套模型堆疊的團隊，尤其是同時要做偵測、文字辨識、分割與幾何估計的組合型流程。現有資料指出它在多類視覺任務上有不錯結果，但倉庫摘要未列出完整數字；現階段更值得留意的，是它用可解碼生成格式統一 benchmark 輸出的能力，這比單看某一項分數更能反映其定位。

GitHub · 模型

Categories: 開源, 香港, Image, 多模態模型, 影像處理, 模型, Dataset 數據集

MuseBench 用藝術理解考驗 MLLMs

2026 年 7 月 8 日

Repository image for musebench/musebench-code

見到畫面、聽到聲音，未必等於真係明白作品想點講。MuseBench 把焦點放到 artistic intent，專門測 multimodal large language models（MLLMs）能否由視聽證據推斷創作選擇背後的意思；它屬於 benchmark／數據集型項目，處理的是現有評測多數只停留在 perceptual recognition，未能反映藝術理解深度的問題。

現有做法常用一般視覺問答或影片理解題，模型只要辨認物件、情節或表面事件就有機會得分；作者認為這種 fixed paradigm 忽略 stylistic vocabulary、cultural priors 同 grounded audiovisual inference，所以改用 narrator-removed video clip，並配合可選 audio transcript，迫使模型直接由鏡頭、聲音、節奏與敘事線索作判斷。題目覆蓋 Cinematic Arts、Static Visual Arts、Stage Performing Arts 同 Game Arts，合共 4,016 條問答。

同類 benchmark 多數著重「睇到乜」，MuseBench 則更在意「點解要咁呈現」。它亦唔只用單一選擇題，仲有 single-select 同 multi-select 兩種格式，並加入 Chance-Adjusted Accuracy（CAA）處理選項數量不同帶來的偏差，令比較 28 個 MLLMs 時較公平。

涵蓋 4 個藝術領域、11 個細分類，題材比一般影片 QA 更闊
評測 28 個 MLLMs，包含 proprietary、open source 同 video-specific 路線
最佳模型準確率 48.29%，明顯低於 human expert 的 87.18%
已整合 VLMEvalKit，方便把新模型接入同一套流程測試

部署同測試理解上，這個 code repository 主要唔係提供訓練模型，而是把 MuseBench 接到 VLMEvalKit 的評測流程，較適合研究團隊、模型評估人員、做 video understanding 或多模態推理的項目直接比較新舊模型。已公開的結果提到 Claude-4.6-Opus、Qwen-3.5-Plus、Doubao-Seed、GPT-5.4、Gemini-3.1-Pro、Grok-4.1 等都測過，分數整體仍與專家有大段距離；換句話說，這個項目最有價值的地方，在於它清楚指出現時 MLLMs 在藝術判讀仍未算接近可靠。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, 香港, 香港大學, 字節跳動, Gemini, OpenAI, Video, Audio, 多模態模型, Anthropic, Dataset 數據集

SIEVE 點樣揀出更值錢的機械人示範數據

2026 年 7 月 8 日

機械人示範資料最常見的問題，不是數量不夠，而是重複、嘈雜，甚至長段任務其實只是不斷重演相似動作。SIEVE 屬於一個面向 imitation learning 的資料篩選工具，同時帶有研究方法性質，重點不是逐條 trajectory 粗略評分，也不是只看 state-action，而是把長任務拆成可重用的 visuo-motor primitives 與 transition interfaces，再決定哪些 episode 更值得留下來訓練 VLA 模型。

它批評的舊範式相當明確：現有 data selection 方法多數只在 trajectory level 或 state-action level 做判斷，因而忽略長時序行為內部可重用的結構。SIEVE 的做法是先用 end-effector pose 與控制訊號做 segmentation，再抽取 V-JEPA 特徵、用 PCA 壓到預設 256 維、以 MiniBatchKMeans 找出 primitive pattern，之後按 cluster-sequence pattern 做兩階段 episode selection，最後可以匯出回 LeRobot 格式，方便直接接回原本訓練流程。

這種取向的好處，在於它不是單純挑「最好」或「最乾淨」的示範，而是優先保留結構覆蓋度與可重用性。論文提供的訊息亦相當直接：SIEVE 在多個 datasets、benchmarks 與 VLA models 上，都比競爭性的 baseline 更穩定，甚至在只用 50% demonstrations 和 50% training steps 的情況下，表現可以超過 full-data training。當然，這也代表它較適合已有一定規模示範資料、並且願意先跑一輪離線整理流程的團隊，而不是追求即插即用的小型腳本。

以 LeRobot v2 資料根目錄作輸入，支援單一或多個 dataset
流程由 segmentation、feature extraction、dimensionality reduction、clustering、selection 組成
特徵抽取依賴 V-JEPA，輸出中間結果到 Zarr，再匯出選中的 LeRobot episodes
核心差異是按 reusable structure 揀數據，不是只按整條 trajectory 或逐步 state-action 打分

部署理解上，這個項目更像一條可重複執行的離線資料處理 pipeline，而不是一個直接提供推理服務的套件。適合用來整理大型 robot demonstration corpus、為 VLA imitation learning 減少冗餘訓練樣本；相關模型與技術脈絡包括 Vision-Language-Action (VLA) models、V-JEPA，以及輸出端相容的 LeRobot。

GitHub · Paper

Categories: 開源, 香港, 香港科技大學, 多模態模型, 影像處理, 模型, 模型訓練, 視覺模型, Robotic, 中國, VLA, Dataset 數據集

LiveEdit：串流影片編輯走向即時化

2026 年 7 月 5 日

LiveEdit 是一個 diffusion-based streaming video editing 系統，屬於影片編輯模型與方法項目。它的核心任務是根據來源影片加上文字指令，逐段完成 causal chunk-by-chunk editing，並盡量保留背景與沒有修改的區域。

這個項目不是追求離線影片慢慢算到最靚，而是針對接近即時的串流編輯。它建基於 Wan2.1 和 Self-Forcing codebase，並用 three-stage distillation，把雙向編輯 teacher 的能力轉移到串流 student，再配合 AR-oriented Mask Cache 減少重複運算，換來較低延遲。

部署與測試資訊算是完整，提供 inference scripts、training code、checkpoint instructions，也講明建議在 Linux 配合 NVIDIA GPUs 執行；單 GPU 可做 inference，多 GPU torchrun 主要用於訓練。輸入方式是準備一個 JSON，填入 source video 路徑和 instruction，然後配合已釋出的權重與 Wan2.1 base model 進行推理。

有一個相當關鍵的參考值：項目頁列出 12.66 FPS，並表示透過 4-step distilled diffusion generation 達成 real-time streaming inference。這個成績對互動式影片編輯很重要，不過公開資訊未見更完整的硬件條件、顯存需求或不同解析度下的比較，因此判斷效能時仍要保留一點。

重點不是一般文字生片，而是保留原片內容的串流影片編輯
主要技術包括 three-stage distillation、Causal DiT、AR-oriented Mask Cache
已公開 inference 與 training 程式碼，也提供 Hugging Face checkpoint 指引
已知較適合 Linux、NVIDIA GPU 環境，研究團隊或影像生成工程師較易受益
相關模型與基礎包括 Wan2.1-T2V-1.3B、bidirectional editing teacher、streaming student

整體來看，LiveEdit 的價值在於把 streaming video editing 做得更接近可互動系統，而不只是展示級效果。它較適合研究即時影片編輯、互動內容製作、直播視覺處理或需要低延遲生成的團隊；一般用家若想直接在圖形介面一鍵開用，現有資料未提供管理後台整合、免手動設定流程，仍然比較像面向研究與開發者的項目。

項目主頁 · GitHub · 模型

Categories: 開源, 香港科技大學, NVIDIA, Video, Linux, 模型, 視覺模型, 視頻模型, 蘋果, 框架

Page 2 of 12

« Previous 1 2 3 4 … 12 Next »