模型 – Page 8 – InferNews

UnityShots：多鏡頭影音生成的記憶驅動新方案

2026 年 6 月 26 日

UnityShots 是一個研究性質的多鏡頭影音生成框架，核心任務是解決現有方法在長序列多鏡頭影片中難以維持人物、場景與聲音一致性的問題。它基於已有的單鏡頭影音擴散模型 LTX-2.3（22B 參數）建構，從一段結構化提示詞直接生成 3 至 9 個鏡頭的連續 .mp4 影片，確保角色容貌、場景光影與配音語音在各鏡頭間保持連貫。

現有做法通常依賴三種路線：端到端訓練固定長度序列但難以擴展、以記憶庫逐鏡頭生成但容量隨鏡頭數線性膨脹，或用大型語言模型規劃器調度預訓練生成器而缺乏多鏡頭感知骨幹。UnityShots 的切入點是引入邊界感知門控（Boundary-Aware Gating）與雙槽記憶機制：影片流維持兩個固定大小記憶槽，長期記憶（LTM）錨定開場鏡頭，短期記憶（STM）保留前一鏡頭尾部，兩者在每次剪接時由門控網路更新；音訊流則在每個鏡頭注入參考說話者 token，避免滑動音訊庫的負擔。另一個辨識度高的設計是透過 AdaLN 學習離散剪接類型先驗（cut-type prior），讓使用者可在推論階段調整轉場強度。

以下為重點摘要：

類型：多鏡頭影音生成研究框架，附帶資料集與基準測試。
核心差異：用固定大小雙記憶槽取代線性增長的記憶庫，並加入參考語者 token 維持聲音一致性。
控制能力：剪接類型先驗成為推論時可調旋鈕，使用者可指定轉場強弱。
相關模型：以 LTX-2.3 22B 為基座，整合 AdaLN 門控機制。
資料集：釋出 UnityShotsBench，涵蓋六大文化區域、13 種語言的 200 段多鏡頭序列。

現有評估涵蓋 I2V、T2V、R2V 三種條件模式，UnityShots 在跨鏡頭一致性與音畫品質上與開源及閉源基準相當。對從事多鏡頭敘事、短影音自動化或數位人內容生成的團隊而言，這套框架提供了較完整的記憶與控制設計思路。原始資料庫明確指出，檢查點、訓練程式碼與代理系統尚未釋出，因此目前無法從儲存庫直接取得安裝指令或模型權重；讀者若有興趣部署，需等待官方後續發布。資料集本身可從 Hugging Face 的 KlingTeam/UnityShotsBench 下載，供研究者評測自家模型。授權為 CC BY-NC 4.0，僅限非商業學術用途。

GitHub： https://github.com/JIA-Lab-research/UnityShots

項目主頁： https://jackailab.github.io/Projects/UnityShots/

Paper： https://arxiv.org/pdf/2606.21661

Categories: 開源, 香港, 香港中文大學, 香港科技大學, 字節跳動, Video, 庫, 提示詞, 模型, 數字人, 視頻模型, 語音, LTX, 清華大學, 框架

TryOnCrafter：首個鏡頭可控的影片虛擬試穿框架

2026 年 6 月 26 日

TryOnCrafter 是一個基於 DiT（Diffusion Transformer）的虛擬試穿影片框架，專門處理「鏡頭可控影片虛擬試穿」（Camera-controllable Video Virtual Try-on, CaM-VVT）這個新任務。它的主要用途是讓使用者能夠在指定鏡頭軌跡（例如推近、傾斜、環繞）的情況下，生成穿著指定服裝的人物影片。

傳統的影片虛擬試穿只能沿著原始影片的鏡頭路徑生成結果，無法讓使用者自由改變視角。TryOnCrafter 的做法是引入一個「可渲染的 4D 試穿代理」（Renderable 4D Try-on Proxy），先把 2D 試穿結果提煉成一個基於 3D Gaussian Splatting（3DGS）的穿衣化身，再用 SMPL-X 序列驅動動作，最後把這個化身對齊到重建的背景點雲中。這個代理模型把人物與環境分離開來，提供穩定的幾何骨架，讓後續的影片生成能夠在任意鏡頭下保持結構一致。

在生成階段，框架採用 Proxy-Anchored Video DiT，把代理模型渲染出來的多層資訊（包括渲染先驗、參考特徵、服裝語意提示）作為幾何錨點，確保最終影片在指定軌跡下保持物理合理的形變與外觀。這種設計同時支援多項延伸應用，包括人物重新定位、子彈時間效果，以及 360 度環繞檢視。

團隊建立了 CaM-VVTBench 評測基準，結果顯示 TryOnCrafter 在結構一致性與服裝身份保留方面，明顯優於現有方法。這個框架較適合需要展示服裝 3D 效果的研究團隊、電商內容製作，以及對鏡頭語言有要求的多媒體創作場景。

重點摘要

首個鏡頭可控試穿框架：突破傳統 VVT 只能被動沿用原片鏡頭的限制，支援使用者自訂鏡頭軌跡。
4D 試穿代理模型：以 3DGS 化身 + SMPL-X 動作序列，把人物與背景解耦，提供密集幾何引導。
Proxy-Anchored Video DiT：以代理渲染結果作為幾何錨點，確保任意視角下的結構與服裝一致性。
多元延伸應用：支援人物重定位、子彈時間、360 度環繞等下游編輯。
新基準 CaM-VVTBench：團隊建立的專用評測集，在結構一致性與服裝身份保留上明顯領先既有方法。

模型與源碼說明：原始資料為項目主頁，未提供具體的源碼下載連結、安裝步驟或模型權重取得方式。

項目主頁： https://sunhao242.github.io/TryOnCrafter_web.github.io/

Paper： https://arxiv.org/pdf/2606.26092

Categories: 開源, 阿里巴巴, Video, AI productions, RAG, 影像模型, 影像處理, 模型, 數字人, 視覺模型, 視頻模型, 框架

DomainShuttle 開源：把主角穿梭到任何風格的影片

2026 年 6 月 26 日

DomainShuttle 是一個以 Wan2.2-T2V-A14B 為基底的 subject-driven text-to-video（主體驅動文字轉影片）框架，目標是讓用戶提供一張參考圖後，能在不同視覺風格與場景中維持同一角色的身份一致性。過去的 subject-driven 方法多在 in-domain（與訓練資料同域）下能保留主體細節，但一旦跨域到風格差異大的場景，主體往往走樣或失去身份特徵；DomainShuttle 把參考特徵與影片特徵解耦，並引入 domain attribute 建模與 intrinsic subject representation，試圖兼顧 in-domain fidelity 與 cross-domain editability。

開發團隊來自香港科技大學 C4G 實驗室，作者群包括 Nan Chen、Yiyang Cai、Rongchang Xie、Junwen Pan、Cheng Chen、Weinan Jia、Zhuowei Chen、Wen Zhou（項目負責人）、Zhenbang Sun 以及通訊作者 Wenhan Luo。等貢獻作者共同發表技術報告，並同時釋出 14B 規模的非官方權重與推理代碼。

先以 conda 建立 Python 3.10 環境並安裝 PyTorch 2.5.1（CUDA 12.4），接著執行 build_env_conda.sh。模型準備分兩步：先用 huggingface-cli 下載 Wan-AI 的 Wan2.2-T2V-A14B 作為基底模型，再下載 CNcreator0331/DomainShuttle_weight，最後將 VAE、configuration.json 等檔案移入指定的 ./models/Diffusion_Transformers/Wan2.2-DomainShuttle-A14B/ 目錄。原始資料未提供完整推論指令片段，相關細節需參考技術報告與項目頁面的後續說明。

從示範結果看，DomainShuttle 能在寫實人物、動漫風、Ghibli 風、3D 動畫風等不同域之間切換，同時保留臉部與服飾特徵，跨域 personalisation 效果明顯。適合短片創作、角色 IP 化、廣告分鏡與動畫預覽等需要「同一角色穿梭多場景」的團隊。需注意目前釋出的是非官方實作，且依賴 14B 規模的基座模型，部署對顯存要求較高。

重點摘要：

類型：subject-driven text-to-video 框架，建基於 Wan2.2-T2V-A14B
開發團隊：香港科技大學 C4G 實驗室，Wen Luo 為通訊作者
核心設計：解耦參考與影片特徵、加入 domain attribute 與 intrinsic subject representation
與同類差異：強調 cross-domain editability，補足過往方法跨域走樣的缺陷
資源：已釋出 14B 權重、技術報告與推理代碼，需 CUDA 12.4 環境

GitHub： https://github.com/HKUST-C4G/DomainShuttle

項目主頁： https://cn-makers.github.io/DomainShuttle/

模型： https://huggingface.co/CNcreator0331/DomainShuttle_weight

Categories: 開源, 香港, 香港科技大學, NVIDIA, Stable Diffusion, Video, Content Creator, 3D, IDE, Python, Python NLP, 動畫, 模型, 視覺模型, 視頻模型, 框架

WATER：WordArt 場景文字識別新突破

2026 年 6 月 26 日

這是一個由復旦大學（上海多模態具身 AI 重點實驗室）與騰訊 WeChat Vision 聯合發佈的研究項目（屬於數據集＋模型基準組合），同時收錄於 ECCV 2026。針對 WordArt-oriented scene TExt Recognition（WATER）這項任務，原有 STR 數據集與方法普遍圍繞「規則場景文字」與「固定模板輸入」建構，難以應對 WordArt 高度自訂的字體、紋理與版面，因此表現受限。WATER 從兩端突破：數據方面構建 2M 規模合成數據集 WATER-S，模型方面提出支援任意形狀輸入的 STR 基線 WATERec。

WATER-S 數據集設計包含兩個互補子集：WATER-T（1M）由 SynthWordArt 渲染引擎透過 11,250 款藝術字體生成，提供高可控的精準合成樣本；WATER-Z（1M）則結合 Qwen3-VL 提示詞挖掘與 Z-Image 影像合成，覆蓋更真實且多元的場景。再搭配 WATER-R（3.2M，整理自 Union14M-L、WordArt、WAS-R 並去重）作為真實訓練集，整體數據規模較既有藝術文字數據提升數百倍。

WATERec 模型架構採用類似 NaViT 的編碼器搭配 RoPE，支援任意形狀輸入，再以自回歸解碼器處理複雜版面，從結構上打破固定模板 STR 的瓶頸。在 WordArt-Bench 上以 90.40% 準確率成為首個突破 90% 的結果，大幅超越 HunyuanOCR（81.54%）及其他通用或 OCR 專用視覺語言模型。

使用方法需配合外部資源：WATERec 訓練與推理程式碼位於 OpenOCR-WATERec 倉庫；模型權重、數據集（包含 WordArt-Bench）、273K 條 WATER-Z 提示詞模板與 112K 款藝術字體皆託管於 HuggingFace。複製本倉庫後，可透過 SynthWordArt/ 目錄取得 WATER-T 渲染流程，prompts/ 目錄提供 caption_mining.py 與 fewshot_expansion.py 兩階段提示詞挖掘，Z-Image/gen_zimage.py 支援多 GPU 並行生成，eval_vlm/ 則整合 Qwen3-VL-8B、InternVL3.5-8B、GOT-OCR2.0、DeepSeek-OCR-2、PaddleOCR-VL、PP-OCRv5、HunyuanOCR、Nemotron-VL-8B 等基線評測腳本。

重點摘要：
– 復旦大學與騰訊 WeChat Vision 團隊合作，獲 ECCV 2026 收錄
– WATER-S 含 WATER-T（字體渲染）與 WATER-Z（VLM + 影像合成）兩條合成路徑
– WATERec 以任意形狀編碼器 + 自回歸解碼器突破固定模板限制
– WordArt-Bench 90.40% 為首次突破九成，超越 HunyuanOCR 等專用 VLM
– 所有模型、數據、字體與提示詞均開源於 HuggingFace

從評估對照來看，不論是通用 VLM、OCR 專用 VLM 或一般 OCR 工具，在 WordArt-Bench 上皆明顯落後於 WATERec，反映藝術文字仍是當前多模態模型的弱項。對從事海報辨識、品牌素材處理、廣告設計自動化，以及需要處理高度風格化文字的團隊而言，這套數據＋模型組合是目前少數針對該場景強化的開源方案。

GitHub： https://github.com/YesianRohn/WATER

模型： https://huggingface.co/Yesianrohn/WATERec-Models

Categories: 開源, 騰訊, DeepSeek, Image, 多模態模型, 模型, 深度學習, 視覺模型, 中國, 北京大學, Dataset 數據集

Wan Streamer：即時生成影音互動模型

2026 年 6 月 26 日

Wan Streamer v0.1 是一款由阿里巴巴（通義萬相/Wan 團隊）開發的原生流式端到端基礎模型，專為即時、低延遲、全雙工的音視頻互動而設計。它把語言、音訊、影像同時作為輸入與輸出，全部整合在單一 Transformer 之中，並以 block-causal attention 協調增量式生成。

現有即時互動系統普遍存在的延遲與不同步難題。純語音方案雖然回應快，但沒有可見的影像輸出；音視頻方案則多由 ASR、語言模型、TTS、動畫模組拼接而成，每個邊界都會疊加延遲，而且很少有系統公開端到端時延數字。Wan Streamer 把整個流程重新設計為可流式架構，包括因果編解碼器、block-causal attention、低延遲多模態 token 排程，在 25 fps 下最短流式單元可達 160 毫秒。

與常見做法的最大差異在於「端到端」與「同步影音輸出」。模型側延遲約 200 毫秒，加入 350 毫秒雙向網絡延遲後，總互動延遲約 550 毫秒，可支援亞秒級全雙工通訊。同時輸出語音與影片內容，而非分別由不同模組拼接，這是它最值得留意的特點。模型覆蓋聽、看、思考、說話、生成影像回應五種能力，適用於需要即時數字人、互動助理、虛擬陪伴等低延遲場景。

重點摘要：

由阿里 Wan/通義萬相團隊研發，定位為即時互動基礎模型
單一 Transformer 同時處理語音、影像、文字輸入與輸出
模型側延遲約 200 毫秒，總互動延遲約 550 毫秒
支援 25 fps 串流，最短流式單元 160 毫秒
與拼接式方案相比，延遲更低且影音輸出真正同步

項目主頁： https://wan-streamer.com/

Categories: 阿里巴巴, Agentic, 多模態模型, 模型, 數字人, 視頻模型, 語音

Semantic Browsing：用樹狀圖掌控 AI 生圖的多樣性

2026 年 6 月 26 日

Semantic Browsing 是一篇發表於 ECCV 2026 的學術項目，由 Tel Aviv University 的 Sara Dorfman、Maya Vishnevsky、Omer Dahary、Or Patashnik 與 Daniel Cohen-Or 共同開發。它針對文字生成圖像模型在重複取樣時容易「語意塌縮」、產出過於雷同的問題，提出一套可控多樣性的工作流程。

這套方法的核心做法，是把多樣性從像素層級搬到文字層級。系統會先用多智能體（multi-agent）流程把使用者的提示擴寫成結構化的場景 JSON，記錄物件、屬性、互動與整體場景設定，再從中找出提示中未明確指定、但合理的變化軸心。每一次分支都對應一個明確的語意決定，例如角色、構圖或風格的差異，最終形成一棵可瀏覽的場景樹。

與一般常見做法相比，這個項目最值得留意的差異在於：變化不是來自隨機噪聲，而是來自可解讀的語意約束。樹狀結構讓使用者可以沿著特定分支往下探索，同時保留先前已固定的條件，方便在設計空間中做有意識的導覽。

重點摘要：

開發團隊：Tel Aviv University 的 Sara Dorfman、Maya Vishnevsky、Omer Dahary、Or Patashnik 與 Daniel Cohen-Or。
核心方法：以多智能體流程把提示展開為結構化 JSON 場景樹。
可控多樣性：每個分支對應一個明確的語意決定，而非隨機變化。
適用情境：概念設計、視覺探索、需要比較多個語意詮釋的創作流程。
目前狀態：程式碼尚未公開，僅釋出 arXiv 論文與項目頁。

使用方法詳細教學：

準備提示：先寫好一段文字提示，例如「A poster featuring animals」，提示中可以刻意留白部分細節，讓系統有空間展開變化。
進入項目頁：前往 Semantic Browsing 的官方網頁（saradorfman1.github.io/SemanticBrowsing-webpage/），等待互動介面載入。
送出提示並生成根節點：系統會先推論出一個初始場景詮釋，作為場景樹的根節點。
瀏覽與選擇變化軸心：介面會列出可變化的語意面向，例如角色、構圖、風格等，每個面向都會顯示目前值與替代選項。
展開分支：選定一個面向並挑選替代值後，系統會呼叫多智能體流程，在保留先前約束的前提下產生新的子節點與對應圖像。
沿著分支深入探索：可以重複步驟四與五，沿著感興趣的路徑繼續往下展開，逐步建立一棵專屬的設計樹。
匯出或記錄結果：若需要保留特定分支，可記下該節點的場景 JSON 或截圖，作為後續迭代或團隊溝通的依據。

由於程式碼尚未釋出，目前只能透過項目頁的示範介面體驗流程；待官方開源後，便能整合進 ComfyUI、Stable Diffusion 等本地生圖工作流。對於從事概念設計、視覺探索，或需要比較多個語意詮釋的創作者與研究人員來說，這套方法提供了一條比隨機抽樣更可控的探索路徑。

項目主頁： https://saradorfman1.github.io/SemanticBrowsing-webpage/

Paper： https://arxiv.org/pdf/2606.23679

Categories: 開源, ComfyUI, Stable Diffusion, Agentic, Image, 影像處理, 模型, 教學, 視覺模型

EventVLA：長時序機器人操作加入事件記憶機制

2026 年 6 月 26 日

EventVLA 是一個由中國科學技術大學、上海人工智能實驗室、上海交通大學、大連理工大學、香港大學、清華大學、北京大學及華為等團隊共同開發的視覺語言動作（Vision-Language-Action, VLA）框架，專門針對長時序機器人操作任務設計。它解決的核心問題是：當機器人需要執行跨越許多步驟的任務時，往往必須回想起數十步之前出現過的視覺線索，而傳統 VLA 政策通常只依賴壓縮後的隱狀態，容易遺失早期關鍵畫面。EventVLA 的做法是引入事件驅動的視覺證據記憶（event-driven visual evidence memory），在執行過程中偵測與任務相關的事件，把對應的關鍵幀以原始影像形式存入記憶體，並在後續動作預測時重新取用這些畫面作為參考。

這個項目同時發佈了 RoboTwin-MeM 基準測試，這是建基於 RoboTwin 2.0 的記憶依賴型操作評測環境，包含八個需要長時序記憶的任務，例如依序拾取物件、按照紙上指示重複放下積木、依指示重現路線等。與同類 VLA 框架相比，EventVLA 的差異在於它不只壓縮隱狀態，而是保留原始關鍵幀影像作為可回溯的視覺證據，這在需要精確回憶早期空間配置的任務上特別有用。

部署與測試方式

建議建立兩個 conda 環境：一個用於 RoboTwin-MeM 模擬，另一個用於 EventVLA 模型訓練與推論。
從 Hugging Face 下載對應的 checkpoint（RoboTwin-MeM 或 RMBench 版本），搭配相應的評測腳本即可在模擬環境中重現結果。
數據集同時提供 HDF5 軌跡格式與 LeRobot 2.1 訓練格式，方便不同訓練流程直接取用。
目前程式碼已支援模擬訓練與評估，真實機器人推論與微調模型仍在開發中。

重點摘要

核心機制：事件驅動的關鍵幀記憶，以原始影像儲存視覺證據而非僅壓縮隱狀態。
配套基準：RoboTwin-MeM 包含八個長時序記憶依賴任務。
目前狀態：模擬環境訓練與評估已開源，真實世界部署尚未釋出。
適用場景：需要回溯早期視覺線索的多步驟機器人操作任務。

從已釋出的資源來看，研究人員與機器人團隊可直接透過 Hugging Face 上的 checkpoint 與 RoboTwin-MeM 數據集進行基準測試與模型微調，評估記憶機制對長時序任務表現的影響。

GitHub： https://github.com/InternRobotics/EventVLA

項目主頁： https://ganlin-yang.github.io/EventVLA.github.io/

模型： https://huggingface.co/ganlinyang/EventVLA/tree/main

Categories: 開源, Qwen, 香港, 香港大學, 華為, 多模態模型, 模型, 模型訓練, 深度學習, 視覺模型, Robotic, 世界模型, 中國, 北京大學, 清華大學, 框架, 上海人工智慧實驗室

FLAT：單次生成可即時互動的 3D 場景

2026 年 6 月 26 日

Architecture overview of FLAT from latent video features to triangle-splat scene geometry

FLAT（Feedforward Latent Triangle Splatting）是一個由 Google Research、牛津大學 Visual Geometry Group 與慕尼黑工業大學共同開發的 3D 場景生成項目，主打從影片擴散模型的潛在表示中，單次前向解碼出幾何準確的三角形面片場景。

開發團隊方面，FLAT 由 Orest Kupyn、Goutam Bhat、Philipp Henzler、Fabian Manhardt、Christian Rupprecht 與 Federico Tombari 等研究員共同發表，核心作者來自 Google Research，並與牛津大學 Visual Geometry Group 及慕尼黑工業大學合作完成。

與常見做法相比，FLAT 跳過了「先生成再優化」的兩階段流程，直接從壓縮的影片擴散潛在特徵預測三角形面片，而非 3D 高斯體素。這項差異讓輸出結果在幾何精度上更貼近真實表面，同時保留視覺品質，並能直接用簡單的三角形渲染器顯示。

重點摘要：

直接三角形解碼：單次前向從影片擴散潛在特徵預測三角形面片，省去後續優化步驟。
幾何專屬訓練設計：採用以視線為中心的三角形參數化與 product window 渲染函數，穩定三角形回歸的梯度流。
輕量精修流程：經過簡單的測試階段精修，將三角形集合轉為完全不透明表示，適用於標準渲染與物理引擎。
跨裝置即時瀏覽：輸出場景可用簡單三角形渲染器即時探索，在觸控裝置上支援拖曳與 WASD 移動操作。
物理互動支援：精修後的資產可整合到遊戲引擎風格的物理交互流程中。

使用方法方面，FLAT 已在 HuggingFace 上發布模型權重，並提供網頁互動示範。讀者可透過 HuggingFace 頁面取得模型，或在官方項目網站（flat-splat.github.io）直接體驗瀏覽器內的互動 Demo，拖曳畫面或使用 WASD 鍵即可在場景中移動視角。

FLAT 適合需要快速生成可匯出 3D 資產的研究人員、開發者及遊戲或圖形相關工作者，尤其在需要幾何準確性與物理交互的場景中表現突出。

項目主頁： https://flat-splat.github.io/

Categories: 開源, Google, 3D, 模型, 視覺模型, 視頻模型

DREAM：用語言模型反向教檢索

2026 年 6 月 26 日

DREAM 是一個稠密檢索嵌入訓練方法／研究原型，核心是把 autoregressive language model 的預測訊號拿來訓練 dense retriever。它要解決的問題很明確：傳統 dense retrieval 多數依賴 contrastive objectives，需要正負文件配對與標註，但這類資料昂貴，hard negatives 也不穩定。

現有做法通常是替 query 配 positive documents 與 sampled negatives，再拉近或拉遠 embedding 距離；作者認為這種範式過度依賴人工或額外挖掘流程，未必真正反映哪些文件能幫助模型完成生成。DREAM 的做法是把 query-document 相似度送入指定的 Query-Focused Retrieval Heads（QRHeads），讓 frozen LLM 在預測 target 時，直接用 next-token prediction loss 回傳訊號，告訴 retriever 哪些文件真的有用。

這個取向最值得留意的地方，在於它不是單純改 loss，而是把檢索分數接進 attention heads，令生成模型的預測難度成為監督來源。代價也很明顯：流程比一般 embedding fine-tuning 更複雜，要先做 QRHead detection，再跑 DREAM adapter 訓練；儲存庫亦未附完整 training data、checkpoints 與 evaluation outputs，較接近研究復現路線，而不是即裝即用工具。

安裝與理解方式算清晰，儲存庫分成 qrhead_repo/、dream_routing/ 與 data/sample/ 三部分：前者負責找出 QRHeads，後者負責訓練 adapter，樣本資料則用 JSONL 提供 query、docs、target 結構。部署重點不是直接上線服務，而是先準備自己的 Hugging Face dataset 或本地 JSONL，依序完成 head 檢測與訓練；推論部分則主要依賴 Hugging Face 上已釋出的 adapters。

已提供預訓練模型：DREAM-0.5B、DREAM-1B、DREAM-3B
對應底座模型：Qwen2.5-0.5B、Llama-3.2-1B、Llama-3.2-3B
評測指向 BEIR 與 RTEB，論文稱在不同模型尺寸上都優於既有 baselines
適合研究檢索訓練、RAG、embedding 設計與 LLM-retriever 協同優化的團隊

受益最大的一類人，不是只想下載 embedding 即用的使用者，而是要研究 retriever 如何配合生成模型工作的團隊。對做 RAG、知識檢索、代理式搜尋的人來說，DREAM 提供了一條不同於 contrastive training 的路；對資源有限的小團隊而言，訓練鏈較長、重現門檻較高，較適合作為方法參考或實驗基線，而非現成產品元件。

GitHub： https://github.com/yixuantt/DREAM

Model： https://huggingface.co/collections/yixuantt/dream

Categories: 開源, Qwen, 香港, 香港科技大學, 工具, Embedding, LLaMa, Python, RAG, 庫, 模型, 模型訓練, Meta, Dataset 數據集

DiffusionBench：擴散模型評測框架

2026 年 6 月 26 日

這是一個針對擴散 Transformer（Diffusion Transformers, DiT）研究的基準測試項目（benchmark），核心目的是在 ImageNet 與文字生成圖像（T2I）兩種場景下，對擴散模型進行統一的訓練與橫向評測。舊有做法普遍以 ImageNet 的類別條件生成（class-conditional generation）為單一評測標準，作者批評這種範式已經難以反映生成模型的真實進展，因為 T2I 雖然更貼近實用，卻常被視為過於昂貴或不便而跳過。為此，項目推出 NanoGen 統一訓練框架，並以 DiffusionBench 重新組織評測結構，把 ImageNet 與 T2I 納入同一比較基準。

統一訓練介面：NanoGen 只需約 12 行的配置更改，就能在 ImageNet 與 T2I 之間切換。
跨任務方法比較：系統性收錄並比較 25 種 DiT 方法。
多維度評測指標：涵蓋 FID 等多項 ImageNet 與 T2I 指標。
研究成果已收錄 arXiv 論文（2606.24888），對應的模型權重同步上載至 HuggingFace。
目前版本為 v0.1，作者明確標示仍處於初步階段，並積極招募社群貢獻者。

與單獨的 ImageNet 評測相比，DiffusionBench 的關鍵差異在於同時納入 T2I 任務，藉此揭示方法排名在兩類任務之間並無強相關（no strong correlation），這意味著 ImageNet 上的 FID 提升未必代表 T2I 生成品質同步改善。框架支援 VAE、RAE 與 Pixel space 等不同潛在空間（latent space）的訓練，技術上整合了 REPA-E 與 iREPA 等對比方法，適合 DiT 研究團隊、生成式模型工程師，以及關心基準公正性的學術工作者使用。受惠最大的，是需要評估自家方法在多任務泛化能力的團隊，以及希望避免單一指標誤導的審稿人與研究者。

GitHub： https://github.com/End2End-Diffusion/diffusion-bench

項目主頁： https://end2end-diffusion.github.io/diffusion-bench/

Model： https://huggingface.co/diffusion-bench/diffusion-bench

Categories: 開源, Image, txt2img, 影像模型, 模型, 模型訓練, 深度學習, 框架

Page 8 of 29

« Previous 1 … 6 7 8 9 10 … 29 Next »