香港科技大學

DomainShuttle 開源：把主角穿梭到任何風格的影片

2026 年 6 月 26 日

DomainShuttle 是一個以 Wan2.2-T2V-A14B 為基底的 subject-driven text-to-video（主體驅動文字轉影片）框架，目標是讓用戶提供一張參考圖後，能在不同視覺風格與場景中維持同一角色的身份一致性。過去的 subject-driven 方法多在 in-domain（與訓練資料同域）下能保留主體細節，但一旦跨域到風格差異大的場景，主體往往走樣或失去身份特徵；DomainShuttle 把參考特徵與影片特徵解耦，並引入 domain attribute 建模與 intrinsic subject representation，試圖兼顧 in-domain fidelity 與 cross-domain editability。

開發團隊來自香港科技大學 C4G 實驗室，作者群包括 Nan Chen、Yiyang Cai、Rongchang Xie、Junwen Pan、Cheng Chen、Weinan Jia、Zhuowei Chen、Wen Zhou（項目負責人）、Zhenbang Sun 以及通訊作者 Wenhan Luo。等貢獻作者共同發表技術報告，並同時釋出 14B 規模的非官方權重與推理代碼。

先以 conda 建立 Python 3.10 環境並安裝 PyTorch 2.5.1（CUDA 12.4），接著執行 build_env_conda.sh。模型準備分兩步：先用 huggingface-cli 下載 Wan-AI 的 Wan2.2-T2V-A14B 作為基底模型，再下載 CNcreator0331/DomainShuttle_weight，最後將 VAE、configuration.json 等檔案移入指定的 ./models/Diffusion_Transformers/Wan2.2-DomainShuttle-A14B/ 目錄。原始資料未提供完整推論指令片段，相關細節需參考技術報告與項目頁面的後續說明。

從示範結果看，DomainShuttle 能在寫實人物、動漫風、Ghibli 風、3D 動畫風等不同域之間切換，同時保留臉部與服飾特徵，跨域 personalisation 效果明顯。適合短片創作、角色 IP 化、廣告分鏡與動畫預覽等需要「同一角色穿梭多場景」的團隊。需注意目前釋出的是非官方實作，且依賴 14B 規模的基座模型，部署對顯存要求較高。

重點摘要：

類型：subject-driven text-to-video 框架，建基於 Wan2.2-T2V-A14B
開發團隊：香港科技大學 C4G 實驗室，Wen Luo 為通訊作者
核心設計：解耦參考與影片特徵、加入 domain attribute 與 intrinsic subject representation
與同類差異：強調 cross-domain editability，補足過往方法跨域走樣的缺陷
資源：已釋出 14B 權重、技術報告與推理代碼，需 CUDA 12.4 環境

GitHub： https://github.com/HKUST-C4G/DomainShuttle

項目主頁： https://cn-makers.github.io/DomainShuttle/

模型： https://huggingface.co/CNcreator0331/DomainShuttle_weight

Categories: 開源, 香港, 香港科技大學, NVIDIA, Stable Diffusion, Video, Content Creator, 3D, IDE, Python, Python NLP, 動畫, 模型, 視覺模型, 視頻模型, 框架

DREAM：用語言模型反向教檢索

2026 年 6 月 26 日

DREAM 是一個稠密檢索嵌入訓練方法／研究原型，核心是把 autoregressive language model 的預測訊號拿來訓練 dense retriever。它要解決的問題很明確：傳統 dense retrieval 多數依賴 contrastive objectives，需要正負文件配對與標註，但這類資料昂貴，hard negatives 也不穩定。

現有做法通常是替 query 配 positive documents 與 sampled negatives，再拉近或拉遠 embedding 距離；作者認為這種範式過度依賴人工或額外挖掘流程，未必真正反映哪些文件能幫助模型完成生成。DREAM 的做法是把 query-document 相似度送入指定的 Query-Focused Retrieval Heads（QRHeads），讓 frozen LLM 在預測 target 時，直接用 next-token prediction loss 回傳訊號，告訴 retriever 哪些文件真的有用。

這個取向最值得留意的地方，在於它不是單純改 loss，而是把檢索分數接進 attention heads，令生成模型的預測難度成為監督來源。代價也很明顯：流程比一般 embedding fine-tuning 更複雜，要先做 QRHead detection，再跑 DREAM adapter 訓練；儲存庫亦未附完整 training data、checkpoints 與 evaluation outputs，較接近研究復現路線，而不是即裝即用工具。

安裝與理解方式算清晰，儲存庫分成 qrhead_repo/、dream_routing/ 與 data/sample/ 三部分：前者負責找出 QRHeads，後者負責訓練 adapter，樣本資料則用 JSONL 提供 query、docs、target 結構。部署重點不是直接上線服務，而是先準備自己的 Hugging Face dataset 或本地 JSONL，依序完成 head 檢測與訓練；推論部分則主要依賴 Hugging Face 上已釋出的 adapters。

已提供預訓練模型：DREAM-0.5B、DREAM-1B、DREAM-3B
對應底座模型：Qwen2.5-0.5B、Llama-3.2-1B、Llama-3.2-3B
評測指向 BEIR 與 RTEB，論文稱在不同模型尺寸上都優於既有 baselines
適合研究檢索訓練、RAG、embedding 設計與 LLM-retriever 協同優化的團隊

受益最大的一類人，不是只想下載 embedding 即用的使用者，而是要研究 retriever 如何配合生成模型工作的團隊。對做 RAG、知識檢索、代理式搜尋的人來說，DREAM 提供了一條不同於 contrastive training 的路；對資源有限的小團隊而言，訓練鏈較長、重現門檻較高，較適合作為方法參考或實驗基線，而非現成產品元件。

GitHub： https://github.com/yixuantt/DREAM

Model： https://huggingface.co/collections/yixuantt/dream

Categories: 開源, Qwen, 香港, 香港科技大學, 工具, Embedding, LLaMa, Python, RAG, 庫, 模型, 模型訓練, Meta, Dataset 數據集

ClinHallu 拆解醫療 MLLM 幻覺來源

2026 年 6 月 16 日

ClinHallu 是一個醫療多模態大模型 benchmark 與評測工具，目標不是只計算答對率，而是找出 Medical MLLM 在推理途中哪一段開始出現 hallucination。現有醫療 hallucination benchmark 多數偏重資料收集與最終輸出檢查，作者認為這種範式難以分辨錯誤究竟來自看錯影像、記錯醫學知識，還是把資訊串連時推錯，因此把問題重組成 stage-wise 診斷。

這個項目的核心做法，是把每筆樣本的 reasoning trace 拆成 Visual Recognition、Knowledge Recall、Reasoning Integration 三段，再配合 structured CoT annotations 與 stage-replacement interventions 觀察：如果只修正其中一段，最終答案會否改善。這種設計比單看答案更有分析力，因為它直接對應三種常見錯誤來源：visual hallucination、knowledge hallucination、reasoning hallucination。

ClinHallu 含有 7,031 個驗證過的 instances，並提供評測流程。想試這個項目的人，較合理的路線是先選定 datasets 內要跑的資料集，再對照 models.gold cot、models.model cot、models.judge 的設定，之後查看 results 內的 model cot 與 eval 輸出；若只想生成替換後的 jsonl，也可用 generate 流程。這表示它較適合研究、模型比較與錯誤分析，不是面向一般用家的醫療問答產品。

基準結果也有參考價值。公開表格顯示，Gemini-3-Flash 在整體準確率與三類 hallucination rate 上都屬前列，Avg Acc 為 80.1，而 Qwen3-VL-Plus、Qwen3.5-9B、Qwen3-VL-32B 等模型亦有列入比較。這些數字的重點不是分高下，而是提醒你：同一模型可能答案不差，但在某個階段的 hallucination rate 仍然偏高，之後微調或加防護時就有更清晰方向。

不是只看答對率：它會拆解模型在哪個推理階段出錯。
方法有辨識度：用 structured CoT 與 stage-replacement interventions 做細粒度診斷。
場景很明確：適合醫療 AI 研究、模型評測、trace-supervised fine-tuning 前後比較。
相關模型完整：結果涵蓋 Qwen、Gemini、InternVL、MedGemma、Lingshu 等系列。

如果你在找的是可直接部署的醫療助手，ClinHallu 並不屬於那一類；它更像一把量尺，專門檢查模型推理鏈哪裡開始失真。對研究團隊來說，這比只知道「模型有幻覺」更有用，因為後續可以按 Visual Recognition、Knowledge Recall、Reasoning Integration 分段修正，連 trace-supervised fine-tuning 是否有效都較容易驗證。

GitHub： https://github.com/alibaba-damo-academy/ClinHallu

Paper： https://arxiv.org/pdf/2606.14697

Categories: 開源, 阿里巴巴, Qwen, 香港科技大學, Gemini, Medical醫學, 多模態模型, 清華大學, Dataset 數據集

RedAct 解決 tool-using 代理軌跡外洩難題

2026 年 6 月 15 日

RedAct 屬於框架類項目，核心作用是替 agent traces 做選擇性改寫，讓外界仍看得到審核需要的證據，例如工具呼叫、執行次序、中間決策與最終輸出，但較難直接重建可重用的 procedural skills。這個方向切中 Computer-use agents 與其他代理系統常見矛盾：透明度愈高，營運 know-how 愈容易流出。

這個項目由香港科技大學與中國科學院大學研究人員合作開發，作者包括 Shuwen Xu、Zhitao He 與 Yi R. (May) Fung。團隊關注的是 tool-using agents 公開執行軌跡後的安全問題：紀錄能幫人追查錯誤，但同時可能把公式、門檻值、工具選擇與驗證流程一併暴露。

如果想進一步了解，最直接是先看論文與 CapTraceBench 的設定，再對照自己團隊有沒有公開 trace、審計留痕或第三方驗證需求。項目現階段重點在研究驗證，不是即裝即用型產品，所以較適合安全研究、代理平台、企業內部治理與學術實驗場景。

保留 auditability：輸出、工具使用證據、執行順序與 verifier 需要的欄位仍可保留
加入 protection：公式、thresholds、implementation details、tool dependencies、private heuristics 會被抽象化或隱去
提供 provenance 能力：可選 behavioral watermark hooks，方便分析下游是否重用行為模式
配套基準 CapTraceBench：涵蓋 75 個 long-horizon tasks、154 個 curated skills、7 個領域

這項目特別之處在於它不是把整段軌跡直接遮掉，而是把「需要審核的內容」與「可複製的技能細節」拆開處理，再加上 behavioral watermarks 做來源分析。論文數字亦頗具說服力：在代表性的 trace reuse 方法下，REDACT 將 normalized skill transfer (NST) 由原始軌跡的 44.7% 至 67.1%，壓到低於 no-skill baseline；獨立 watermark 偵測的 true detection 達 93.6% 至 100.0%，false alarm rate 最多 1.9%。

相關內容不只包括 RedAct，也包括用來測試外洩風險的 CapTraceBench，以及文中聚焦的 agent traces、procedural skills、behavioral watermarks、black-box trace disclosure 等概念。若你的項目需要公開代理操作紀錄，又不想把核心流程白白送出去，這個研究值得細看；若你要的是完整產品化流程，現時資料仍較偏研究原型。

GitHub： https://github.com/XuShuwenn/RedAct

Paper： https://arxiv.org/pdf/2606.10813

Categories: 開源, 香港科技大學, Agentic, 框架

Bayesian-Agent：讓代理流程愈跑愈準

2026 年 6 月 10 日

Bayesian-Agent 是一個 Bayesian self-evolving agent framework，更準確地說，它像是疊在代理系統之上的演化層：把已驗證的 agent trajectories 整理成可重用、帶證據權重的 Skills 與 SOPs。它不改動底層模型參數，而是調整推理階段可見的證據、失敗模式與流程選擇，目標是令代理在有限樣本下也能持續修正決策。

這個項目最實用的地方，在於它不要求你由零重建整套系統。文件顯示它支援三種路線：從零開始跑完整任務、接到既有代理後只修補失敗軌跡、以及在不同 execution harness 之間轉接。對手上已有 agent workflow 的團隊來說，這比重新訓練模型更貼近日常維護需要。

v0.5 加入 first-party native harness，內含自己的 LLM loop、workspace tools、三層記憶與 trajectory capture；同時保留 GenericAgent、mini-swe-agent、Claude Code 等 compatibility backends。這表示項目的重點不是綁死某一套框架，而是用可攜的 trajectory schema 和 adapter boundary，令 Skills 演化結果能跨環境沿用。

核心定位是 Bayesian Skill Evolution，不是單純聊天模型
可把 verified success／failure evidence 轉成可重用 Skills 與 SOPs
支援 full-run evolution、incremental repair、cross-harness adaptation
內建 Bayesian Evidence Model，亦保留 Beta-Bernoulli backend 作 ablations
適合已有代理流程、想減少重試成本與修復失敗任務的團隊

表現方面，公開資訊提到 SOP-Bench、Lifelong AgentBench、RealFin-Bench 的實驗結果，並列出 deepseek-v4-flash 與 deepseek-v4-pro 的 native-harness 測試，但這裡未見完整數字，較穩妥的判斷是：項目已朝可比較、可驗證的方向整理實驗，而不是只停留在概念。若你正管理會反覆執行任務的 agent 項目，尤其需要判斷何時停止、重試或重寫流程，Bayesian-Agent 的價值會比一次性 Demo 更明顯。

GitHub： https://github.com/DataArcTech/Bayesian-Agent

項目： https://dataarctech.github.io/Bayesian-Agent/

Categories: 開源, 香港科技大學, Agentic, 框架

Echo-Memory 讓世界模型認得回家的路

2026 年 6 月 9 日

當 AI 影片模型控制鏡頭離開某個場景再折返時，常常會「認錯地方」——同一條街、同一件家具，回來時卻變成另一個看起來合理、但其實陌生的世界。Echo-Memory 想解的，正是這個讓生成影片失去一致性的老問題。整個研究的設計非常克制：只更換「記憶模組」，其餘一概不動。

Echo-Memory 以同一套 Wan 2.1 1.3B 動作到影片（action-to-video）模型作為共用底座，把記憶方式分成四大類——Context（原始幀滑窗）、Compression（壓縮後的學習 token）、Spatial（顯式空間讀寫狀態）、State-Space（區塊式 SSM 遞迴更新）。所有變體都掛在相同的寫入—讀取介面上，差別只在於「存什麼」和「怎麼取回」。這種單一變因的設定，讓四種記憶家族的表現可以乾乾淨淨地比較。

對研究員和工程師而言，項目提供了開發者指南。Echo-Team 已把訓練到 30,000 步的 Wan 2.1 1.3B 權重放在 Hugging Face 的 Echo-Team/Echo-Memory，並附上 SpatialVID 子集的動態訓練池設定文件，開發者指南亦提供中英雙語流程。評測方面，項目提供 GT replay、in-domain 180 度折返，以及 open-domain 編輯式回訪三種探測腳本，涵蓋靜態回放和場景重訪兩個維度。

要注意的是，目前的權重僅限 Wan 2.1 1.3B（epoch-0），Wan 2.2 以及 5B／14B 多尺度底座、以及超越靜態重訪的動態評測，仍列在路線圖上等待補齊。對於研究世界模型長期一致性、做可控影片生成，或是想在 LoRA／記憶外掛（memory adapter）方向動手的人，這個項目提供了一個難得的可重現基準；對一般讀者來說，它也示範了當鏡頭「回家」時，AI 為何會迷路、又該怎麼讓它記路。

重點摘要：

統一底座、只換記憶：以 Wan 2.1 1.3B 為共用骨幹，比較 Context、Compression、Spatial、State-Space 四種記憶家族。
可控變因設計：所有模組共享寫入—讀取介面，差異集中在「存什麼、怎麼取回」。
完整可重現資源：公開 30,000 步權重、SpatialVID 訓練池設定、雙語開發者指南與評測腳本。
三種回訪探測：GT replay、in-domain 180 度折返、open-domain 編輯式回訪，分別檢驗重播與折返記憶。
未來路線：Wan 2.2、5B／14B 多尺度底座與動態評測仍待補齊。

GitHub： https://github.com/Echo-Team-Joy-Future-Academy-JD/Echo-Memory

項目： https://echo-team-joy-future-academy-jd.github.io/Echo-Memory/

Categories: 開源, 香港大學, 香港科技大學, 北京大學, 清華大學, 框架

Stream3D-VLM 把串流影片變成 3D

2026 年 6 月 9 日

Stream3D-VLM 是一個 online 3D vision-language model，重點是直接從串流影片做即時空間理解，而不是等整段影片或整個場景收集完才分析。對想研究機械人、空間問答，或 3D 場景互動的人來說，這個項目處理的是「模型可否一邊看、一邊建立場景概念，再即時回答問題」這件事。

使用這個項目時，核心資源包括已公開的 Stream3D-VLM-4B 模型、Stream3D-1M Dataset，以及 Stream3D-Bench。資料方面未有直接釋出原始媒體，但有提供標註、GLB 與 RRD 等重建結果；GLB 可放入一般 3D viewer 逐步查看點雲，RRD 則可配合相機姿態與點雲記錄觀察完整重建流程。

Stream3D-VLM 加入 incremental geometry priors，令模型隨時間吸收對齊的 3D 幾何線索。項目亦提出 Visual-Spatial Feature Integration（VSFI）模組，以及 Geometry-Adaptive Voxel Compression（GAVC）模組，前者負責把幾何資訊逐步注入視覺串流，後者用 3D 結構去壓縮 visual tokens，減少長序列推理負擔。

團隊亦建立了可擴展的資料生成流程，整理超過 1M online spatio-temporal 3D QA pairs，並設計涵蓋 29 項任務的基準。項目聲稱在 online 與 offline 的 3D spatial understanding、reasoning、grounding 任務上，表現優於部分 proprietary 與 open-source models；不過文章未在這份資訊中列出完整數字，閱讀結果時仍要配合論文與實驗頁面一起看。

解決痛點：傳統 3D Large Multimodal Models 多數依賴離線處理，這個項目改為面向 streaming video。
主要方法：結合 autoregressive streaming control、VSFI 與 GAVC。
資料與基準：提供 Stream3D-1M Dataset 標註及 Stream3D-Bench，涵蓋 29 項任務。
可視化資源：支援 GLB 與 RRD，方便檢查增量重建與相機軌跡。
相關模型：已公開 Stream3D-VLM-4B，可作為了解整體能力的主要入口。

整體來看，Stream3D-VLM 最適合用來觀察 3D 多模態模型如何由「看完整段再答」走向「邊看邊答」。它未必是一般開發者即裝即用的輕量工具，但對研究串流場景理解、3D 問答、空間推理流程的人，這個項目有相當清晰的方向與實驗野心。

GitHub： https://github.com/hanxunyu/Stream3D-VLM

項目： https://stream3d-vlm.github.io/

Categories: 香港科技大學, 騰訊, NVIDIA, 多模態模型, 模型, 視覺模型, Robotic

AffordanceVLA：為機械臂加入「先想再做」的能力

2026 年 6 月 7 日

機械臂聽到「把杯子拿起來」這類指令時，傳統的視覺語言動作模型（Vision-Language-Action Model, VLA）往往要直接把影像和文字翻譯成關節角度，中間欠缺一個「思考」步驟。AffordanceVLA 嘗試在這個鴻溝上架一道橋：先讓模型預測結構化的可供性（affordance），再據此生成動作。

整個框架由三個專家模型組成，按單向的 UAA 注意力串接。Understanding Expert（M_und）以 PaliGemma（SigLIP + Gemma）為骨幹，把畫面、指令與機械臂自身狀態融合成統一的語意表示。Affordance Generation Expert（M_gen）以 Gemma 搭配可學習查詢，把上述表示解碼為三種可供性標記：Which2Act 判斷要操作的物件、Where2Act 標出二維互動熱區、How2Act 則推估三維幾何資訊。最後 Action Expert（M_act）以 flow matching 方式輸出整段動作序列（action chunk）。這個設計呼應了論文「Affordances serve as a perfect bridge」的核心想法。

由於現成機器人數據集中缺乏密集的可供性標註，作者額外提供了一條自動化標註管線，並以三階段漸進式課程訓練 MoT 架構。訓練時須留意 model.chunk_size 與 data.chunk_size 保持一致，否則動作 attention mask 會錯位；Which2Act 的 Flux loss 預設為 MSE，可在 src/models/which2act_decoder.py 頂端切換。

這個項目適合研究 VLA、機器人操作策略，或對可供性表示有興趣的開發者。需要一支能跑 PaliGemma 與 flow matching 的 GPU 環境，並準備好仿真或實機評測流程。論文中的模擬與真機實驗橫跨多種操作場景，顯示加入可供性中間層能提升泛化與精確度，但具體數字仍以官方報告為準。

重點摘要

以 Which2Act、Where2Act、How2Act 三段式可供性作為視覺、語言與動作之間的中間橋樑。
採用 MoT 架構，串接 PaliGemma 為基礎的 Understanding、Gemma 為基礎的 Affordance 與 Action Expert。
配套自動化可供性標註管線，緩解機器人數據標註不足的問題。
訓練採三階段漸進式策略，flow matching 輸出整段動作序列。
模型、訓練與標註腳本皆隨開源項目釋出，歡迎社群延伸。

GitHub： https://github.com/Skywalker-yqz/AffordanceVLA

Categories: 開源, 香港中文大學, 香港科技大學, 多模態模型, 模型, 模型訓練, 北京大學

Lumos-Custom：DAMO 學院的影片生成套件

2026 年 6 月 2 日

Lumos-Custom 是阿里巴巴DAMO 學院的開源影片定制研究合集，把三個子項目整合在同一個儲存庫，方便研究者各自取用。三個子項目分別對應不同的影片生成難題：身份與屬性定制、打光控制，以及結合推理的統一生成。

其中最受關注的是 Lumos-Nexus （arXiv 2605.31603）。它解決了一個長期痛點：把大型高保真生成器放進統一訓練迴圈成本太高，改為訓練一個輕量的連接器對齊理解模組，再用「Unified Progressive Frequency Bridging (UPFB)」在推論時把任務交接給預訓練的高容量生成器，既省訓練資源又保留視覺品質。為了補足推理類影片生成的評測空白，作者還發布了 VR-Bench。

第二個項目是 LumosX，已被 ICLR 2026 接收。它的切入點是「多主體個性化影片生成」：先用字幕與 MLLM 抽取的先驗建構關係結構，再透過 Relational Self-Attention 與 Relational Cross-Attention 編碼主體與屬性之間的依賴。評測資源集中在 LumosX/benchmark/，權重已上傳 Hugging Face。

第三個項目是 UniLumos（NeurIPS 2025），專注於圖像與影片的統一重新打光，採用 RGB 空間幾何回饋配合 flow-matching 主幹，適合需要控制光影的研究與應用場景。

總結要點：

** DAMO 是 Discovery, Adventure, Momentum and Outlook
Lumos-Nexus：輕量訓練搭配 UPFB 頻率交接，兼顧推理品質與視覺保真度
LumosX：以關係式注意力處理多主體個性化生成，附 benchmark 與 Hugging Face 權重
UniLumos：統一圖片與影片重新打光，採用 flow-matching 與幾何回饋
VR-Bench：補上推理驅動影片生成的評測缺口
子項目獨立部署：每個子項目都有獨立 README，支援單獨安裝與重現

這個項目適合研究影片生成、多模態統一模型與個性化生成的研究者與工程師。如果你想驗證 Lumos-Nexus 的推理影片效果，可進入 Lumos-Nexus/ 跟隨 README 取得 OmniVideo 權重並跑批次推論；想評測打光則可參考 UniLumos 提供的流程。

✧ Repository layout ✧

Lumos-Custom/
├── README.md                 # This file: umbrella overview
├── LumosX/                   # ICLR 2026 · personalized multi-subject video generation
│   └── README.md
├── UniLumos/                 # NeurIPS 2025 · unified relighting + LumosBench/
│   ├── README.md
│   └── LumosBench/
└── Lumos-Nexus/              # arXiv preprint · reasoning-driven unified video generation + VR-Bench
    ├── README.md
    └── vr_bench_eval/

GitHub： https://github.com/alibaba-damo-academy/Lumos-Custom

項目： https://jiazheng-xing.github.io/nexus-lumos-home/

Categories: 開源, 阿里巴巴, 香港科技大學, 影像模型, 視頻模型, 清華大學

minWM：由影片生成走向 World Model

2026 年 5 月 30 日

minWM 的定位很清楚：它不是再提供一個新模型，而是把建立 video world model 的整條流程拆開，讓人由 bidirectional T2V（Text-to-Video）或 TI2V（Text-and-Image-to-Video）基礎模型，一步步轉成 action-conditioned video world model。對剛接觸這個領域的人來說，這種完整路線比只放權重或單段程式碼更有幫助。

這項目重點不是「裝完即用」，而是按它提供的資料處理、訓練、蒸餾與推理流程逐段走。項目公開了 data → training → inference 的全流程，並提供 example data、runnable scripts、Claude Skills 與新手知識整理，方便你先跟一次標準流程，再按自己需要改 backbone、資料分佈或控制方式。

它要解決的問題，在於高質影片生成模型未必等同可互動的 world model。要做到低延遲、可因果 rollout、可回應鏡頭軌跡等操作，背後需要 camera control、autoregressive training、few-step distillation 及 streaming inference 等整套機制；minWM 正是把這些環節模組化，並用 Causal Forcing、Causal Forcing++、Teacher Forcing 與 asymmetric DMD 串連起來。

支援 4-step DMD inference，並提到 multi-GPU sequence parallelism
可用 pose strings 或 JSON 檔控制 camera trajectory
提供 debug-world-model，整理 loss NaN、jitter、camera drift 等常見失敗模式
提供 integrate-new-backbone，示範怎樣接入新的 video DiT
參考 backbone 包括 Wan2.1-T2V-1.3B、HY1.5-TI2V-8B，亦提到 HY Action2V、HY TI2V、Wan Action2V

項目的新意在於它同時處理「怎樣訓練」與「怎樣改造」。除了支援不同 backbone 與 condition injection 方式，也把團隊累積的排錯經驗與 Claude 協作流程寫進項目，令研究者或工程人員不只看到結果，還能理解常見錯誤從哪裡出現。

它的目標是 real-time interactive video world models，並附有對 camera trajectory quality、controllability training steps、minimal batch-size requirements 的實驗分析。不過公開資訊較偏向框架與流程，若你想比較單一模型跑分，這個項目更適合當作建立、重現及擴展 World Model 的工作底座。

GitHub： https://github.com/shengshu-ai/minWM

Categories: 開源, 香港科技大學, Agentic, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 視頻模型, 世界模型, 框架

Page 2 of 5

« Previous 1 2 3 4 5 Next »