模型訓練 – Page 4

Canvas360 把全景生成拉回可用水平

2026 年 7 月 10 日

最值得留意嘅地方，在於佢唔只想生成一張闊圖，而係想處理 360 度全景最常見嘅破綻：左右邊界接唔上、透視變形唔自然、補圖後空間結構散開。Canvas360 屬於影像生成框架，建基於 FLUX，處理嘅係 text-to-panorama image generation，同時延伸到 inpainting、outpainting、editing 同 style transfer 呢類全景工作流。

現有做法多數先把全景當成一般平面圖片生成，再靠後處理減少接縫；作者認為呢種範式忽略咗 panoramic projection 本身嘅幾何特性，所以容易喺邊界、深度關係同局部結構出現錯位。Canvas360 用 two-stage framework 重組呢件事：先做 geometry-aware pretraining，引入 parallel RGB-depth pretraining，再配合 continuous position encoding、circular latent padding 同 per-block feature synchronization，將 360 度連續性直接放入模型學習過程。

同類項目相比，Canvas360 嘅取向唔係單純追求更華麗嘅畫面，而係優先修正全景生成最影響可用性嘅一致性問題。項目亦補上 Canvas360Dataset，提供 1M paired panoramic samples，支援 style transfer、inpainting、outpainting 同 editing，反映作者唔止做單一模型改良，仲想連訓練資料結構一併補強。

核心定位係 FLUX-based framework，主打 text-to-panorama image generation 同全景補全
關鍵方法包括 geometry-aware pretraining、continuous position encoding、circular latent padding
已公開 inference code 同 training code，但 model weights 與 online demo 仍然未釋出
需要 base model black-forest-labs/FLUX.1-dev，並可配合自備 LoRA 跑生成或下游任務
相關比較對象包括 PanFusion、SMGD、PAR、WorldGen、HunyuanWorld、DiT360，以及 FLUX.1-Kontext-dev、FLUX.2-dev、Qwen-Image-Edit

測試同現階段較接近研究型項目而唔係即開即用服務。儲存庫已提供 inference.py 同 inference_downstream.py，代表你可以在本地環境配好 PyTorch、依賴套件、FLUX.1-dev 存取權同 LoRA 後，直接驗證文字生成全景，或者試全景補圖與延展；不過權重未公開，所以現時更適合研究團隊、全景影像工具開發者，或者想研究 360 度生成方法嘅人先行閱讀同跟進。現有介紹強調結果比多個舊方法更少接縫瑕疵、結構更清晰，但儲存庫內容未見完整量化指標表，判斷性能仍要等論文與權重進一步公開後先更穩陣。

項目主頁 · GitHub · Paper

Categories: 開源, 字節跳動, Stable Diffusion, Image, Python, 影像模型, 模型, 模型訓練, 視覺模型, Dataset 數據集, 框架, 清華大學

RCORE 為什麼我打不開抽屜

2026 年 7 月 10 日

見到抽屜就猜「關上」、見到杯就猜「拿起」，正是 Zero-Shot Compositional Action Recognition (ZS-CAR) 最容易失手的位置。RCORE 是一個研究型模型項目，處理的是新 verb–object 組合辨識，核心不是再加更多標籤，而是壓低模型依賴物件類別走捷徑的傾向。

現有做法多數沿用已見過的共現關係去推斷動作，作者指出這種 fixed compositional supervision 會令模型把 object 當成近路，忽略影片中的 temporal evidence。RCORE 的回應很直接：用 CPR（Co-occurrence Prior Regularization）補足原本缺席的組合監督，同時把常見配對當成 hard negatives；再用 TORC（Temporal Order Regularization for Composition）迫使 verb 表徵對時間順序敏感，而不是學成靜態語意。

這個取向的價值，在於它不是單純追求更強 backbone，而是修正 ZS-CAR 的學習偏差。論文亦加入 FSP、FCP 與 Compositional Gap 這幾個診斷指標，不只看最後準確率，亦檢查模型是否真的較少受 co-occurrence patterns 牽引；已公開資訊指出，它在 Sth-com 與 EK100-com 都能改善 compositional generalization。

重點放在減少 object-driven shortcuts，不是單靠物件猜動詞
CPR 針對訓練配對偏斜，TORC 針對時序線索不足
準備 Python 3.10、requirements，以及特定 tokenizer 詞彙檔
InternVideo2 1B backbone 依賴 flash-attn，CLIP / InternVideo2-Base 則較易測試

部署與測試方式偏向研究流程：先安裝相依套件、準備資料，再跑 training 與 evaluation；它較適合做影片理解、組合泛化或 benchmark 分析的團隊，而不是即插即用的產品工具。相關模型與骨幹包括 CLIP、InternVideo2-Base、InternVideo2 1B；對於想研究模型為何會「看錯動作」的人，RCORE 比單看分數更有參考價值。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, Python, 模型訓練, Robotic, VLA, Dataset 數據集

CineMobile 點樣把電影運鏡搬上手機

2026 年 7 月 10 日

由 Wan 2.1 架構的 teacher model 壓縮而來，CineMobile 針對 image-to-video diffusion 而設，重點唔係追求最大全能，而係讓 bullet time、dolly zoom、slow motion 這類電影感鏡頭可以在手機晶片上跑得動。對一般使用者來說，最大差異是它把原本偏向雲端或高階 GPU 的生成流程，縮短到可在行動裝置完成的級別。

技術路線分三步走：先用 distillation-guided pruning 保留關鍵影片生成能力，再把壓縮後模型結合 diffusion distillation 與 reinforcement learning，進一步做成 4-step generator，最後再用 hybrid post-training quantization 把整體模型壓到 1 GB 以下。這組做法直接對準兩個瓶頸：DiTs 參數太大，以及多步去噪太慢。

頁面提供的數字相當具體。相比採用 Wan 2.1 architecture 的 teacher model，CineMobile 可帶來 40× 生成加速；生成 49-frame、480p 影片時，在 NVIDIA H200 GPU 的每步 denoising latency 為 0.6 秒，在 MediaTek Dimensity 8400 Ultimate 5G 平台約為 20 秒，峰值記憶體使用量為 1.8 GB。這代表它雖然仍有明顯等待時間，但已進入手機可接受的範圍。

基礎來源可確認與 Wan 2.1 架構有關，但頁面未見完整 base model 款式或 checkpoint 名稱
核心優化包括 pruning、distillation、reinforcement learning 與 post-training quantization
目標輸出為 49-frame、480p 的 cinematic camera motion 影片
重點能力在於連續運鏡，同時維持 subject identity 與 scene consistency

Hugging Face 暫未提供可直接下載量化檔的模型頁，未提供 GGUF、mmproj、llama.cpp、Ollama、LM Studio、chat template 或 v2 檔名更新資訊，亦無法判斷是否支援 MTP draft speculation。

項目主頁 · Paper

Categories: NVIDIA, Video, Image, AI productions, LLaMa, Ollama, 模型訓練, 視頻模型

PhyMRI-SR：MRI 超解像唔只靠放大

2026 年 7 月 10 日

Repository image for weilihua0205/PhyMRI-SR

做 MRI 超解像時，問題往往唔係「放大得夠唔夠」，而係高解析度同 SNR 會互相拉扯。PhyMRI-SR 把這個矛盾放到核心處理；它屬於一個醫學影像超解像模型／研究項目，目標不是盲目追求最高輸入解析度，而是找出更有結構資訊的重建位置。

現有做法多數把低解析度 MRI 當成一般影像放大；作者認為這種 fixed paradigm 忽略 MRI acquisition physics，亦未必對應最有資訊量的輸入條件。PhyMRI-SR 因而改用 physics-aware Gaussian splatting，把組織先驗、MR signal equations 同 continuous-scale super-resolution 合併，嘗試沿住 resolution-SNR spectrum 找到更合理的平衡點。

它不是直接生成高解像圖，而是先經 segmentation-guided primitive allocation 分配 Gaussian primitives，再由 prior-aware representation 預測位置偏移與協方差，之後用 physics-constrained signal modeling 根據 tissue properties（例如 alpha、R2）計算訊號強度，最後經 differentiable splatting 合成影像。另加 meta-learning-based adaptation，用來縮窄 synthetic training 與真實 low-field MRI 之間的 domain gap。

與一般影像式 SR 比較，重點放在物理一致性，唔係純粹視覺銳化
支援 arbitrary-resolution 輸入，同 continuous-scale MRI super-resolution 取向一致
結構上結合 segmentation、Gaussian representation 同 MR signal equations
結果顯示最佳表現未必出現在最高輸入解析度，回應作者的核心假設

項目列出 simulated 與 real multi-resolution MRI datasets 的比較：模擬資料在 x0.7 時錄得 PSNR 28.10 dB、SSIM 0.9234、HFEN 0.3051、DISTS 0.1148；真實資料在 x0.76 時取得最低 HFEN 0.4570，其他指標亦有競爭力。這類結果較適合醫學影像研究、MRI 重建與超解像團隊參考；部署與測試細節仍需回到 GitHub 程式碼確認，但整體定位已很清楚：它不是通用修圖工具，而是面向 MRI 成像規律的專門方法。

項目主頁 · GitHub · Paper

Categories: 開源, Medical醫學, 影像處理, 模型訓練, Meta, 中國, Dataset 數據集

ARDY 讓 3D 角色動作可即時受控

2026 年 7 月 10 日

一邊輸入文字、一邊指定角色要去邊、幾時抬手或者身體要擺成咩姿勢，系統仍然可以即時生成自然動作；ARDY瞄準的正正是呢種互動式 3D human motion generation 場景。呢類能力對動畫、模擬同 humanoid robotics 都重要，因為傳統離線方法雖然控制精準，但速度未必跟得上互動需求；純即時方法又常常在語意理解、長距離目標同約束服從度上打折扣。

ARDY 採用 autoregressive diffusion model，同時配合 hybrid representation，把角色移動軌跡相關的 root features 同 latent body embedding 結合。咁樣做的用意很直接：一方面保留對路徑與朝向的明確控制，另一方面維持生成模型學習複雜全身動作時的效率與彈性。配合 two-stage autoregressive transformer denoiser，同一套框架可以處理 online text prompting，亦能接住較長時間範圍的 kinematic constraints。

它支援的約束方式幾完整，包括 root paths、waypoints、full-body keyframes，以及 sparse joint positions/rotations，亦可混合使用。更重要的是，約束唔一定只限當前生成視窗，較遠將來的目標都可以先講定，令角色更容易朝長程目標連續行動，而唔係每幾步就失去方向。

支援 online text-to-motion generation，可即時改提示詞
可加入 root paths、waypoints、full-body keyframes 同 sparse joint constraints
兼顧即時反應、動作品質同長距離控制
面向動畫、模擬、humanoid robotics 等互動工作流

資料提到，ARDY 以大型 motion capture dataset 訓練，並直接用文字標籤與來自真實姿勢抽樣的 kinematic constraints 作條件，令模型原生學會受控生成。研究團隊亦展示了互動式 demo，涵蓋動態文字控制、關鍵幀約束、路徑跟隨同即時 locomotion control；定位上，它較適合需要邊調邊看結果的內容製作與研究場景。

項目主頁 · 模型

Categories: NVIDIA, Video, 軟件, 3D, Embedding, 動畫, 提示詞, 模型訓練, Robotic, 世界模型, 框架, Dataset 數據集, VLA

CrossViewTokenFusion：乳房 X 光雙視角分類新路線

2026 年 7 月 10 日

Repository image for PartAI-Projects/CrossViewTokenFusion

臨床判讀乳房 X 光唔會只望單一角度，但不少多視角方法仍然偏向把特徵提早合併，或者只做一次 cross-attention，結果容易把 view-specific 線索同共享資訊混埋。CrossViewTokenFusion 屬於醫學影像分類模型／研究原型，針對 dual-view mammography classification，重點係讓 CC 與 MLO 兩個視角以 token 為單位逐步交換資訊，而唔係一開始就粗略融合。

項目建基於 frozen MedSigLIP vision model，採用兩階段流程：先做 deep prompt learning 適配，再做 cross-view token-based fusion。作者批評既有 multi-view learning 常見的 feature-level aggregation 同 single-stage cross-attention 互動太淺，於是改用 dedicated fusion tokens 作為中介，透過 cross-attention 在多個 transformer 深度反覆傳遞雙向訊息，之後再把 fusion tokens 放回 token sequence 繼續細化。

部署要求先準備 VinDr-Mammo 或 CMMD（Chinese Mammography Database），再做 preprocessing、stage 1 訓練、stage 2 訓練，最後載入 checkpoint 測試。

它比較適合做醫學影像研究、醫療 AI 團隊驗證多視角融合設計，未見到直接面向臨床系統的封裝介面。

舊範式多數用 feature-level aggregation 或單層 fusion；這個項目改為 multi-depth token 互動
以 frozen vision transformer backbone 配合 prompt learning，取向係少改主幹、多做適配
公開資料集包括 VinDr-Mammo 同 CMMD，方便學術重現與橫向比較
VinDr-Mammo BI-RADS classification 達到 50.40% F1-score、0.8090 AUC
相比 dual-view fusion baseline，二分類設定下 AUC 提升 0.10

它的價值係重新定義雙視角點樣溝通：保留各自結構，再用 fusion tokens 逐層傳遞互補證據。

GitHub · Paper

Categories: 開源, Medical醫學, 多模態模型, 模型, 模型訓練, 視覺模型

OmniTacTune 用觸覺補上視覺機械手

2026 年 7 月 10 日

做到看得見路徑，未必做得到插得準、扭得開。OmniTacTune 屬於 Robotic 項目，處理的正是視覺策略在接觸密集操作上的短板：鏡頭能提供整體動作方向，但一到真正碰撞、受力、卡位的瞬間，就需要觸覺去補足判斷。

它的取向幾清晰：不重訓整個 visuo-tactile policy，而是保留已訓練好的 visual policy 作為 motion prior，再用 real-world RL 學一個輕量 tactile residual correction。這種做法的價值，在於可以直接疊加到不同基礎策略上，包括 ACT、Diffusion Policy (DP) 與 Flow Policy，亦能配合來自 human video 或 teleoperation data 的視覺基礎能力。

項目示範了四類 contact-rich tasks，包括 peg-in-hole、charger insertion、cap opening 同 box opening。公開結果指出，系統可在約 40 至 80 分鐘內於真機完成適應訓練，而且有一段 one-take online RL 示範，訓練過程不需要為鏡頭刻意重設場景，重點放在由較弱的 base policy 持續練到較可靠的接觸操作。

凍結 visual base policy，只學 tactile residual，減少重訓成本
可接到不同 observations、architectures 同 action-chunk horizons 的基礎策略
適合插入、開蓋、開盒這類依賴接觸幾何與受力回饋的工作流
使用 human video 與 teleoperation data 訓練的基礎策略都可接入

這個項目最受用的場景，是手上已經有視覺模仿學習策略，但卡在最後接觸成功率的人。現有資料顯示，它強調的是通用接入能力與真機短時適應，而不是用大量觸覺資料由零開始建模；取捨也很明顯，系統價值集中在「最後一里」修正，前提仍然是 base policy 本身已具備基本動作先驗。

項目主頁

Categories: Video, 教學, 模型訓練, Robotic

SPLASH 讓小型 MLLM 學會觸覺

2026 年 7 月 10 日

想將觸覺資料接入小型多模態模型，最麻煩的地方往往不是接唔接到，而是模型一邊學「摸到乜」，一邊把原本「睇到乜」的能力搞亂。SPLASH屬於模型訓練框架，針對的正是 MLLMs 在加入 tactile perception 後容易出現的 catastrophic forgetting，目標是在保住 vision-language 能力之下完成 visuo-tactile 對齊。

它的取向幾清楚：唔係全面重訓，也唔係隨便加一條 tactile branch 就算，而是先在 LLM backbone 入面找出較「沉睡」的參數空間，再把觸覺學習限制在呢部分。項目提到它用 weight 與 activation importance scoring 生成 dormant masks，之後做 mask-guided sparse training；好處是唔使大幅動到關鍵視覺語言參數，代價則是整個流程仍然偏研究型，部署前要先備好資料集、分割資料，同時需要 CUDA 12.0 以上與至少兩張 GPU 做分散式訓練。

現有版本主要有兩個模型變體：SPLASH-1B 以 InternVL2.5-1B 為 base MLLM，SPLASH-3B 則建基於 Qwen2.5-VL-3B，兩者都配合 ViT-Tiny + MLP adapter 作 tactile frontend。資料部分亦唔算輕量，除了 LLaVA-CC3M-Pretrain-595K 與 CC3M 用來生成 mask，仲要配合 Touch-Vision-Language-Dataset、TacQuad 等項目做訓練與 OOD 評估，所以它比較適合做多模態研究、機械感知、或想驗證觸覺—視覺聯合推理的團隊。

重點不在新增多少參數，而在把觸覺更新隔離到 dormant subspace
基底模型包括 InternVL2.5-1B 與 Qwen2.5-VL-3B
觸覺前端採用 ViT-Tiny + MLP adapter
評估覆蓋 SSVTP、TVL、TacQuad，並強調保留原有通用能力

以公開資訊判斷，SPLASH最值得留意的不是單一 benchmark 分數，而是它明確押注「non-destructive modality expansion」：讓模型多學一種感官，而唔需要用視覺能力做交換。對打算在緊湊參數預算下擴展 MLLMs 感知模態的研究項目而言，這個方向比單純追高表現更有參考價值。

項目主頁 · GitHub

Categories: 開源, Qwen, NVIDIA, 多模態模型, 模型訓練, Dataset 數據集

Rank-Then-Act 點樣用影片學出獎勵

2026 年 7 月 9 日

做強化學習最麻煩的地方，往往不是訓練本身，而是根本冇一個好用的 reward function。Rank-Then-Act 針對的正正是這個缺口：它屬於一個以 Vision-Language Model (VLM) 為核心的強化學習框架，目標是在沒有環境獎勵的情況下，從示範影片推回任務進度，再把這種進度感變成 agent 可學習的 dense reward。

同類方法很多時會直接學一個 scalar reward，或者預測成功與否，但作者刻意避開這條路。RTA 先用 GRPO 微調 VLM，要求模型在打亂次序的畫面序列中估計 task-completion 百分比與排序，再用 VOC 這個 rank-correlation reward 去約束模型真的理解時間進展，而不是偷看絕對時間線索；之後在第二階段，系統不是直接輸出分數當 reward，而是用 Spearman rank correlation 比較預測進度排序與真實時間索引，得到一個 bounded、scale-invariant 的學習訊號。

這種取向的好處，是 reward 較不容易因尺度漂移而失真，亦較有機會跨任務重用同一個 progress scorer。現有資料指出，它在離散環境如 PyBoy 上的 Catrap、Kirby，以及連續控制環境如 MetaWorld、PointMaze 都有不錯表現，對 unseen tasks 亦有泛化能力；不過這仍然是研究型項目，重點在方法驗證，未算是即裝即用的成品工具。

重點不是直接預測分數，而是先學會判斷畫面進度排序
第一階段用 GRPO 訓練 VLM，第二階段用 PPO 訓練策略
reward 來自 VOC 與 Spearman rank correlation，訊號範圍固定在可控區間
已覆蓋 Game Boy 模擬器 PyBoy 與 MetaWorld 這類不同控制場景
需要 Python 3.10+、CUDA GPU，第二階段還要 xvfb、ROM 與 save state

理解和測試這個項目，最合理的方式不是把它當普通套件安裝，而是當成兩階段實驗流程來看：先在 stage1 用 gameplay videos 訓練 progress scorer，再到 stage2 把該模型凍結成 reward model，放進 PPO 訓練流程。儲存庫已把資料處理、Hydra 設定、多 GPU 配置、PyBoy 包裝器與 VOC 計算分開整理好，適合研究團隊、做 video-based RL 的人，或者想比較 ordinal reward 與 scalar reward 差異的讀者深入追蹤。

項目主頁 · GitHub · Paper

Categories: 開源, NVIDIA, Agentic, Video, Python, 多模態模型, 模型訓練, 視覺模型

[技術文章] Gemma 4：更快更慳算力的多模態開放模型

2026 年 7 月 8 日

Google 正式發佈 Gemma 4 技術報告文章：

當模型要同時處理文字、圖片同音訊，常見做法多數靠獨立 encoder 加上大型語言模型組合；能力雖然完整，但記憶體佔用、推理速度同長上下文成本都容易變重。Gemma 4 Technical Report 針對的正是呢個矛盾：唔只追求更強表現，亦想把多模態理解、推理能力同計算效率放到同一條路線上處理。

Gemma 4 屬於 open-weight、natively multimodal language models，涵蓋 dense 同 Mixture-of-Experts（MoE）架構，規模由 2.3B 到 31B。報告最值得留意的對比，在於作者唔再只沿用「更大模型加外掛模組」呢種固定範式，而是加入 thinking mode，令模型先產生 reasoning trace 再回答；同時用長上下文優化、KV cache sharing，以及在 12B 版本引入 unified, encoder-free architecture，把 raw audio 同 image patches 直接投影到 LLM embedding space。

呢種設計帶來的好處幾實際：一方面，長上下文下的記憶體壓力有機會減輕，報告提到 global KV cache footprint 最多可減 37.5%；另一方面，模型亦提供用 quantization-aware training（QAT）訓練的量化版本，盡量在不明顯犧牲品質下減少參數記憶體佔用同延遲。另有 autoregressive multi-token prediction（MTP）drafter head，配合 speculative decoding 提升解碼速度。

支援文字、圖片、音訊，多個型號覆蓋不同硬件需求
以 thinking mode 加強數學、編程等重推理任務
透過 p-RoPE、KV cache sharing 等方法改善長上下文效率
12B 型號採用 encoder-free 路線，減少獨立 encoder 帶來的記憶體碎片化

性能方面，報告指 Gemma 4 在 STEM、多模態同長上下文 benchmark 有明顯進步，亦在 Arena 等 human-rated tasks 接近更大型的 frontier open models。原始資料未提供安裝步驟或完整使用流程，但已清楚交代模型系列的核心取向：用較可控的成本，換取更接近前沿水準的多模態推理能力，並以 Apache 2.0 授權開放。

Paper

Categories: Google, Gemini, Image, Audio, Embedding, 多模態模型, 模型, 模型訓練, Dataset 數據集

Page 4 of 14

« Previous 1 2 3 4 5 6 … 14 Next »