模型訓練 – Page 3

AMID 把醫學影像建模流程交畀代理協作

2026 年 7 月 15 日

醫學影像建模最麻煩的位，往往唔係只係揀網絡，而係每個任務都有唔同資料形態、指標、切分規則同提交要求。AMID把呢個痛點拉到枱面：它屬於一個 autonomous multi-agent framework，目標唔係產生一段建議文字，而係交出可訓練、可推理、可驗證、可提交的完整模型產物。

現有通用 MLE agent 往往沿用比較粗略的搜尋與試錯範式，先提方案、再寫碼、再靠結果反覆修補；作者認為放到醫學影像場景，呢種做法容易忽略資料條件、驗證協議同提交格式。AMID改用 Data-Conditioned Method Planning，先按任務資料與可運行資源整理出可執行的 method lanes，再用 Verification-Guided Two-Stage Optimization 由早期廣泛探索，轉去後期集中追蹤有潛力路線，同時持續檢查 metric computation、validation protocol 同 prediction artifacts。

呢種取向的差異，在於它把「做得出分數」同「流程可核對」放埋一齊處理。對醫療 AI 團隊、挑戰賽參賽者，或者要同時管理 2D 影像、3D volumes、segmentation masks、class labels 等異質資料的人，AMID的吸引力在於減少人手串接流程的時間；代價是它目前仍以技術報告與任務解法報告為主，README亦寫明 source code 尚未釋出，暫時未到可以直接部署測試的階段。

效能方面，AMID用 ReX-MLE 的 20 個 medical imaging challenge tasks 做基準，比較對象包括一般用途 MLE systems，同時拿 human-designed challenge solutions 作參照。作者指出它整體表現優於被評測的通用系統，部分任務接近或追平人手設計方案；現階段較適合把它理解成一套清晰的方法論與工作流藍圖，而唔係即裝即跑的開源工具。

核心定位係 autonomous multi-agent framework，處理醫學影像模型開發與驗證交付
主要方法包括 Data-Conditioned Method Planning 同 Verification-Guided Two-Stage Optimization
輸出唔止模型建議，仲包括 training code、inference code、weights、prediction files 同 audit trail
基準測試來自 ReX-MLE 的 20 個任務，整體表現優於通用 MLE systems
目前已公開 technical report 同 20 份 solution reports，source code 尚未發布

相關模型與系統脈絡方面，AMID直接對比的是 general-purpose MLE systems，同時以 human-designed challenge solutions 作為高水位參考。它未有把重點放在單一 backbone 或某個固定醫學影像模型，而是把多代理規劃、優化與驗證流程包成可重複的方法，呢點比單次調參工具更值得留意。

GitHub · Paper

Categories: 開源, 香港, 香港中文大學, 微軟, Agentic, Image, 3D, Medical醫學, 多模態模型, 影像處理, 模型訓練, Dataset 數據集, 框架

SpectraReward：用 MLLM 反讀圖片做文生圖獎勵

2026 年 7 月 15 日

文生圖訓練最麻煩的一環，往往不是生成本身，而是怎樣穩定判斷圖片有冇跟足提示詞。SpectraReward 屬於影像生成 reinforcement learning 的獎勵方法，處理的正是這個問題：它不靠人工偏好標註，也不用再微調 reward model，而是借用預訓練 Multimodal Large Language Models（MLLMs）本身已有的圖文對齊能力，直接替生成結果打分。

核心做法很直觀：先讓 MLLM 看生成出來的圖片，再檢查它能否把原本的 prompt「讀返出嚟」。SpectraReward 用一次 image-conditioned、teacher-forced forward pass，計算 prompt 的平均 log-likelihood，數值越高，代表圖片越能還原文字意圖。相比常見做法要模型直接評分、回答拆解後的驗證問題，這個方法少了額外訓練步驟，也減少了設計評分流程的負擔。

項目亦提出 Self-SpectraReward，對 BAGEL 這類 unified multimodal models（UMMs）尤其有意思。做法是讓同一個模型的 understanding branch，為 generation branch 產生的樣本評分，形成 self-reward。這種安排的重點不在模型愈大愈好，而在 reward 與 policy 是否真正對齊；資料指出，這種內部對齊效果有時可追平，甚至超過更大型的外部 MLLMs。

不需要 preference labels，也不需要 reward-model fine-tuning
只用一次 MLLM forward pass，就可計出 training-free reward
把「圖片能否還原 prompt」變成可量化的獎勵訊號
Self-SpectraReward 適合 BAGEL 類 unified multimodal models（UMMs）

從結果描述來看，reward 提升時，複雜場景生成質素也同步改善，表示這個訊號不只理論上合理，亦能推動可見的畫面進步。對正在做 text-to-image generation、影像模型強化學習，或想減少外部獎勵模型依賴的讀者來說，SpectraReward 提供了一種更省步驟、但仍保留語義判斷能力的路線。文中提到的模型包括 MLLMs，以及 BAGEL 這類 unified multimodal models。

項目主頁 · GitHub

Categories: 香港, 香港大學, 字節跳動, Image, txt2img, 多模態模型, 影像模型, 模型訓練, 北京大學

[技術文章] Xiaomi-Robotics-U0 小米用世界模型打通機械人

2026 年 7 月 15 日

當世界模型式的影像與影片生成能力要落到機械人場景，難題唔止係出圖或出片，而係同一個場景喺多個視角下都要合理，物件幾何要一致，仲要符合唔同 robot embodiment 嘅操作限制。

Xiaomi-Robotics-U0 屬於 world foundation model 路線，針對的正是這類 embodied synthesis 工作：一邊保留大型 image and video generation model 已學到的視覺知識，一邊補上機械人資料需要的可控性與一致性。

常見做法通常係用有限的機械人資料去微調 foundation model，但作者認為呢種範式容易犧牲大規模預訓練帶來的泛化能力。Xiaomi-Robotics-U0 改用 unified embodied synthesis 設計，把 text-to-image generation、image editing、embodied scene generation、embodied transfer 同 embodied video generation 放入同一個 38-billion-parameter multimodal autoregressive model 聯合優化，將 embodied generation 視為 foundation image and video generation 的延伸，而唔係另一條割裂的任務線。

呢個項目最有用的地方，在於它不只生成好看的資料，而是生成可拿來支援機械人學習的資料。文中提到它首次支援跨多種 robot embodiments 的高品質 multi-view scene generation，亦加入 structured、controllable embodied transfer，做細緻編輯時仍可保留 multi-view consistency 同 interaction dynamics，對要做模擬資料擴增、場景改寫、操作軌跡配套生成的工作流幫助較大。

聯合處理多種任務，減少每個場景各自做模型適配的割裂流程
核心差異在於保住 pre-trained world foundation model 的泛化，同時加入 embodied constraints
支援 multi-view scene generation 與 embodied transfer，重點放在幾何一致性與互動連貫性
生成結果可作為 scalable data engine，服務後續 policy training

效能上，Xiaomi-Robotics-U0 在 single-step 與 sequential generation 任務都做到 state-of-the-art，human evaluations 中於 embodied scene generation 同 transfer 超過 GPT-Image-2.0，embodied video generation 在 World Arena 排名第一。更實際的指標來自真實操作任務：它把 π 0.5 \pi_{0.5} 在 out-of-distribution 情況下的 success rate 由 36.9% 提升到 63.2%，說明這類 world model 不只是內容生成工具，亦開始成為 embodied intelligence 的資料引擎。

文中亦提到完整流程涵蓋 dataset curation、unified annotation pipeline、single-step training、sequential training，以及配合 FlashAR 與 vLLM Integration 的 inference 設計。整體訊息很清楚：作者想證明 foundation world models 可以同時扮演 embodied world models 與合成資料基建，讓機械人訓練不再只依賴昂貴而稀缺的真人示範。

Paper

Categories: Video, Image, 軟件, txt2img, 多模態模型, 影像模型, 模型, 模型訓練, 視頻模型, Robotic, 世界模型, 小米-Xiaomi, Dataset 數據集

Motion4Motion：免訓練跨物種動作轉移

2026 年 7 月 14 日

當角色外形差很遠，傳統動作轉移最易卡在骨架對唔上：人、鵝、熊貓根本冇共同骨骼模板，結果常見問題包括動作僵硬、身份漂移，或者腳步滑動。Motion4Motion 屬於影像生成／視頻模型方向的研究，直接避開骨架表示，改為從來源影片抽取密集 motion flow，再把動作帶到另一個目標主體身上。

呢個項目的可取之處，在於 training-free。它唔需要為跨物種或跨拓撲角色另行訓練模型，而係建基於凍結的 Diffusion Transformer（WAN-T2V）做兩階段推理：先找出來源影片主體的運動軌跡，再用 TransPE（Transferring Positional Encoding）把重定向後的位置信息注入注意力過程，令目標外觀跟住動起來。

重點可以整理成幾項：
– 毋須 skeleton，較易處理 human → panda、human → goose 呢類外形差異大嘅轉移
– 毋須額外訓練，推理時完成動作遷移，部署門檻較低
– 用 pixel-level motion flow 取代骨架驅動，減少骨架對齊失效帶來的限制
– 建基於預訓練視頻 diffusion transformer，保留生成式模型對外觀細節的表達能力

它會先用 Grounded SAM-2 在來源首幀取樣主體錨點，再靠 diffusion features 建立來源與目標之間的對應，並以 point tracker 追蹤時間上的軌跡。之後在去噪階段重用目標主體的 K/V，配合來自重定向 motion flow 的 RoPE 位置編碼，令 self-attention 按新動作重組畫面。

現有資料指出，Motion4Motion 在多組實驗與應用展示中勝過強基線，亦示範到跨物種轉移，甚至可出現「教枱行路」呢類非典型案例。適合留意角色動畫、視頻生成、動作重定向工作流嘅讀者；不過目前簡介主要集中在研究展示，具體穩定性與邊界情況仍要等更完整實驗細節支持。

項目主頁

Categories: 香港科技大學, Video, 教學, 模型訓練, 框架, 清華大學

ABot-N1 點樣令導航模型更穩更易懂

2026 年 7 月 14 日

做室內外導航時，最麻煩往往不是單純避障，而是模型要同時理解語言、辨認目標，再即時走出合理路線。ABot-N1屬於 VLA（Vision-Language-Action）navigation model，焦點放在處理黑盒式策略常見的座標漂移、長尾語意理解不足，以及決策過程難以解釋的問題。

它的做法不是把所有事塞進同一個控制器，而是用 slow-fast 架構把認知與控制分開。較慢的 vision-language reasoner 會讀取歷史畫面與任務提示，產生明確的 Chain-of-Thought reasoning，並輸出 pixel goals 作為通用的影像空間錨點；較快的 action expert 再結合文字線索與 pixel guidance，持續生成 waypoint，將高層意圖接到低層移動控制。

這種設計的好處，在於同一套框架可以覆蓋多種導航任務，而不只是單一路徑跟隨。現有資料提到它支援 point-goal、POI-goal、object-goal、instruction-following 同 person-following，當中 POI-goal 需要由戶外走到實際入口，特別能反映語意理解與跨場景移動是否連得上。

把 cognition 與 control 非同步拆分，減少黑盒式端到端策略的不透明問題
用 dual visual-language signals 連接推理與動作，核心輸出包括 Target Pixel 與 Affordance Pixel
涵蓋 point-goal、POI-goal、object-goal、instruction-following、person-following 等任務
成績上錄得新 state-of-the-art，POI arrival 提升 35.0% 至 77.3%
複雜室內與室外場景分別達到 95.4% 與 92.9% SR，亦同步開源新 benchmark

整體來看，ABot-N1最值得留意的不是單一指標，而是它試圖把「看得懂、講得清、走得穩」放進同一個導航模型。對做 embodied AI、robotics 或通用導航工作流的人來說，這個項目提供了一條比純黑盒控制更可分析、也更容易擴展到不同任務的路線。

項目主頁

Categories: 開源, 阿里巴巴, Image, 3D, 多模態模型, 模型, 模型訓練, 視覺模型, Robotic, VLA, Dataset 數據集

MedPMC 把醫學圖文資料做成可訓練基座

2026 年 7 月 14 日

Repository image for Yale-BIDS-Chen-Lab/MedPMC

做醫學多模態模型，最難往往不是再堆一個新架構，而是先整理到可用的圖文資料。MedPMC 屬於Dataset 數據集加模型訓練程式碼項目，核心價值是把 PubMed Central (PMC) 文獻中的醫學圖片與文字抽取、清理，再接上訓練與評估流程，處理的是醫學 vision-language 資源長期分散、難重現的問題。

目前最值得留意的是 MedPMC Dataset 首個版本，提供約 1,100 萬組 medical image-text pairs；同時亦有基於 MedPMC-11M 訓練的 MedPMC-CLIP。這種做法與不少只放模型權重、或只交出資料連結的項目不同，它把 dataset curation、preprocessing、model training、evaluation 放在同一個代碼庫，較適合研究團隊沿住同一條流程再做微調或重跑實驗。

部署與測試的理解方式很直接：資料集與模型都已放到 Hugging Face，現階段較像給研究者先下載資料、檢查抽樣品質、再接入自家訓練管線。README 未提供很完整的操作文件，dataset viewer 亦未必可直接預覽，所以短期內它比較偏向有 Python 與資料處理能力的團隊，而不是即開即用的線上服務。

約 1,100 萬組來自 PMC 的醫學圖文配對，是項目現時最重要資產
連同 MedPMC-CLIP 一併釋出，方便由資料走到模型驗證
重點不在花巧介面，而在可重現的資料整理與訓練流程
文件仍在補完中，benchmarks 與更多 training recipes 尚待發布

以現有資訊看，MedPMC 的強項是規模與研究流程整合，限制則是文件與基準結果仍未齊備，暫時較難單靠公開頁面判斷模型表現上限。對醫學 AI、視覺模型、RAG 前處理，或需要建立醫學圖文檢索基座的團隊來說，這個開源項目已有不錯參考價值；相關模型現時可確認的是 MedPMC-CLIP。

項目主頁 · GitHub · 模型

Categories: 開源, NVIDIA, Image, Medical醫學, Python, RAG, 多模態模型, 模型訓練, 視覺模型, Dataset 數據集

GenCeption 單一模型多種視覺任務

2026 年 7 月 14 日

做影像理解時，很多人最頭痛的不是單一任務做唔到，而是每做一種任務就要換一套模型。GenCeption 屬於通用視覺模型，目標是把深度估計、法線、相機姿態、分割、2D/3D 關鍵點甚至 4D grounding 放入同一個流程，並且用文字指令控制輸出。

它處理的核心問題，是電腦視覺長期依賴任務專用模型，工作流容易分散、訓練與部署成本亦高。GenCeption 的做法，是先用 video generative diffusion model 做預訓練，吸收空間與時間上的 world priors，以及原生的 vision-language alignment，再經過 multi-task post-training，把原本偏生成式、多步驟的骨幹，改造成單步 feed-forward 推理模型。

這種路線跟常見做法最大分別，在於它不是為每個任務各自砌一個模型，而是用單一、task-agnostic architecture 應付 dense 與 sparse vision tasks。資料上亦以 synthetic data 為主，重點放在學習效率、sim-to-real transfer，以及遇到 out-of-distribution 物件類別時的泛化能力。

支援多種視覺任務，包含 depth、surface normal、camera pose、segmentation、2D/3D keypoint prediction
透過文字指令切換任務，保持同一模型介面
把影片生成預訓練轉成 feed-forward 視覺推理，而不是停留在多步生成流程
官方描述指它在多個任務上可與專用 SOTA 模型競爭，對比對象包括 DepthAnything3、D4RT、VGGT-Ω、SAM3、Sapiens、DAVID

對研究多模態模型、通用機械視覺，或者想整合複數感知任務的人來說，GenCeption 值得留意。現時公開內容仍以研究展示為主，Code 亦標示為 TBA，所以較適合先理解方法方向與能力邊界，再觀察後續開源與可重現程度。

項目主頁

Categories: Google, Video, 3D, 多模態模型, 影像處理, 模型, 模型訓練, 視覺模型, 視頻模型

Needle 想把微型 AI 帶落手機同手錶

2026 年 7 月 13 日

想喺手機、手錶或者眼鏡一類裝置放入可用嘅個人 AI，卡位往往唔係模型夠唔夠大，而係夠唔夠細、夠唔夠快，仲要肯做工具呼叫。Needle 就係朝呢個位置落手：一個以 Simple Attention Network 為核心嘅微型模型項目，重點處理 single-shot function call，目標唔係長篇對話，而係幫個人 AI 更穩定咁叫工具做事。

呢個項目最值得留意嘅地方，在於佢將 Gemini 3.1 蒸餾到 26M 參數，並且保留到可以喺 Mac/PC 本地 finetune 嘅路線。對開發者同產品團隊嚟講，意思好直接：你未必要綁死雲端大模型，亦可以先用開放權重同資料生成流程，試自己嘅工具介面、指令格式同 function schema，再按需要微調。

Cactus Needle - The 26M Function Calling Model

Watch this video on YouTube

同類小模型通常會喺「尺寸、速度、泛化能力」之間拉扯，Needle 明顯揀咗功能導向呢一邊。README 已經講得很坦白：佢喺 single-shot function call 勝過 FunctionGemma-270m、Qwen-0.6B、Graninte-350m、LFM2.5-350m，但呢類較大模型喺對話範圍同容量上仍然更強，所以 Needle 比較似一把專用工具，而唔係通才助手。

類型上屬於開源模型項目，集中解決小裝置上嘅 function call 效率與部署成本。
權重同 dataset generation 都已開放，適合拿來測試自家工具鏈同微調流程。
生產環境配合 Cactus，可達 6000 toks/sec prefill 同 1200 decode speed，取向非常著重吞吐。
預訓練用 16 TPU v6e 跑 200B tokens，之後再用 2B tokens 嘅 single-shot function call dataset 做 post-training。

模型結構亦反映咗呢種取向：Simple Attention Network 採用 encoder-decoder 佈局，配合 GQA+RoPE、Cross Attn、ZCRMSNorm 同 shared embedding，目的係用更細規模支撐工具呼叫輸出。要留意嘅限制同樣清楚，小模型本身比較 finicky，對資料格式、工具定義同微調質素會更敏感；需要穩定多輪對話或者更廣知識覆蓋嘅場景，仍然未必係 Needle 最合適。

GitHub

Categories: 開源, Qwen, Gemini, Embedding, Mac, 模型, 模型訓練, Dataset 數據集

ABot-World 把互動世界模型帶上桌面 GPU

2026 年 7 月 11 日

影片生成做到流暢並不罕見，但能一邊接收操作、一邊把世界延伸落去，門檻就高得多。ABot-World定位屬於模型加示範工具，核心處理的是 action-conditioned world rollout：用戶輸入動作之後，系統持續生成可探索的世界，而唔係播完就停的被動片段。

呢個項目的取向相當鮮明：它唔係先追求超高畫質，而是把「可互動、可持續、可在單張桌面顯示卡跑起來」放到前面。官方公開的數字是單張 NVIDIA RTX 5090 可在 720P、16 FPS、1.2 秒延遲、19GB GPU 記憶體下運行，配合 LongForcing training 減少 scene lock-in，令 rollout 期間可以擴展新場景同動態，唔使靠 prompt switching 硬接續。

測試方式算直接：項目已提供本地 gradio demo，同時有線上版 ABot World Studio；想自己部署，它在 Ubuntu 22.04、CUDA 13.3、NVIDIA RTX 5090 環境驗證過，並要先下載 ABot-World-0-5B-LF checkpoint。換句話說，現階段較適合把它理解成高階桌面 GPU 上的研究型互動系統，而唔係一般消費級硬件都能順手跑的輕量工具。

幾個重點值得留意：
– ABot-World-0-5B-LF 已公開，屬於 causal student model
– 互動重點在連續探索，不是固定長度 video generation
– 本地推理與線上 playground 都已提供，驗證路徑清楚
– Bidirectional Teacher Model 仍未釋出，生態暫時未算完整

適合研究 world model、interactive video generation、Agentic 模擬環境，或者想為遊戲原型與具身智能測試場景找參考的團隊。現階段的吸引力在於它把「無限 rollout」和「單桌面 GPU 即時推理」放到同一個項目內。

項目主頁 · GitHub · 模型

Categories: 開源, 阿里巴巴, Google, NVIDIA, Agentic, Video, Linux, 模型訓練, 視頻模型, 世界模型, 蘋果

DrugGen-2：把疾病上下文拉進分子生成流程

2026 年 7 月 10 日

很多老牌分子生成模型只盯着單一蛋白靶點或通用化學性質做條件生成，往往忽略了同一個靶點在不同疾病背景下行為可能完全不同。DrugGen-2 正是針對這個落差而來，它是一個用 MeSH DAG（疾病本體層級結構）加上蛋白序列做條件輸入的語言模型，輸出端直接給出 SMILES 結構，既支援 de novo 設計，也能用於藥物再利用篩選。

這個項目屬於開源模型與訓練框架的混合體，背後以 liyuesen/druggpt 為基底，先做 Supervised Fine-Tuning（SFT），再用 Group Relative Policy Optimization（GRPO）做強化學習微調，整個流程跑在 Hugging Face transformers 與 TRL 上。作者認為舊做法把疾病與靶點切割看待，於是提出以疾病為錨點重新組織資料的 framing，這也是它和同類工具最大的差異點。

對做計算化學、藥物篩選前期探索或想快速做假說驗證的研究團隊來說，這類輸入比直接丟一個蛋白 ID 更貼近真實用藥情境。要部署的話只要 clone 倉庫、安裝 requirements，再透過 Python API 或 CLI 餵入疾病名稱、MeSH ID 與 Uniprot 序列即可生成候選分子，預訓練權重已放在 Hugging Face 上方便取用。

不過要留意，模型表現仍受限於 alimotahharynia/approved_disease_target_drug 訓練集的覆蓋範圍，對冷門疾病或新興靶點的泛化能力尚未有公開 benchmark 直接驗證。它比較適合作為初期探索與假說排序的輔助，而非取代濕實驗驗證的工具。

項目主頁 · GitHub · Paper

Categories: 開源, API, Clone, Medical醫學, Python, 模型訓練, Dataset 數據集

Page 3 of 14

« Previous 1 2 3 4 5 … 14 Next »