Dataset 數據集 Archives - Page 3 of 6

StylisticBias 拆解 MLLMs 視覺偏見

2026 年 6 月 23 日

不少 Multimodal Large Language Models（MLLMs）偏見研究，通常拿不同人物或群組互相比較；問題是外貌差異與身份差異會纏在一起，最後很難判斷模型究竟是受年齡、衣著、身形影響，還是只是換了另一個人。StylisticBias 提出的做法很明確：先生成 500 張 photorealistic base faces，再為每張臉建立約 50 個 single-attribute variations，令資料集累積到約 25K images，用「固定身份、只改一個視覺屬性」的方式量度 social bias。

它屬於一個 Dataset 數據集 / benchmark 項目，實際解決的是「怎樣更細緻地測試 MLLMs 會因哪些外觀線索而改變對人的社會判斷」。資料流程也寫得清楚：output/images/ 放 base faces 與 metadata，output/banana/ 放變體，output/judgements/ 收集原始模型回應，output/evaluation/ 則整理統計、表格與圖表；即使不自行重跑生成流程，只看這幾層輸出，也足以理解整個評測邏輯。

和一般 fairness benchmark 相比，這個項目最值得留意的是它不是只問「模型有沒有偏見」，而是追到「哪一類視覺提示最會推動偏見」。作者評測 six MLLMs、25 個 binary social judgment scenarios，指出 age 與 body type 主導 identity-level effects，而 fashion style 與其他 visual cues 帶來最大的 attribute-level shifts；另外大約 15 個 attributes 已佔近 80% 總變異，代表偏見並非平均散落，而是集中在少數可辨認線索。

固定同一張臉，只改一個屬性，較易分開 appearance effects 與 identity differences
規模約 25K images，適合做較細粒度的 bias analysis
結果顯示 age、body type、fashion style 是高敏感因素
judgement 對 appearance 語意較貼近的場景最敏感，尤其 socioeconomic 與 style-related 判斷

這項目最適合評估多模態產品風險的團隊、研究 AI fairness 的學者，以及要比較不同 vision-language model 行為的人。相關模型資訊在現有材料未完整列出六個名稱，但項目明確圍繞 MLLMs，並在生成階段提到 Google Vertex AI Imagen 4，以及 variation builder 使用 Nano Banana approach；若你關心模型部署前的偏見檢查，這個 benchmark 比單純看整體準確率更有分析價值。

GitHub： https://github.com/timo-cavelius/StylisticBias

項目主頁： https://huggingface.co/datasets/shaghayegh/stylistic-bias-dataset

Paper： https://arxiv.org/pdf/2606.20527

Categories: 開源, Google, Gemini, NanoBanana, Image, 多模態模型, 安全, 視覺模型, Meta, Dataset 數據集, 框架

可控制生成 3D 腦 MRI 的 BrainG3N

2026 年 6 月 22 日

BrainG3N是一個面向3D腦部 MRI 的生成模型，重點不只是「生成影像」，而是按指定條件產生帶有臨床訊息的合成掃描。它先用凍結的 3D MAE encoder 處理資料，再由 conditional flow-matching DiT 在潛在空間生成新樣本，最後用 fine-tuned CNN decoder 轉回 voxel 影像。

這類方法要解決的，是醫學影像生成常見的「生成到，但控制不準」問題。BrainG3N聲稱可按 disease、age、sex、modality、site、IDH1 status 等條件控制輸出，亦支援病人縱向變化預測，對研究病程模擬與稀有群組補數據尤其有用。

和一般直接在像素或 voxel 空間生成的做法相比，它把生成放在 clinically grounded latent space 內進行，目標是令合成結果更容易保留指定屬性。頁面列出的結果顯示，從生成掃描中可重新探測出目標條件，例如年齡相關性達 Pearson r=0.93，反映控制訊號並非只停留在文字或標籤層面。

同一個 frozen encoder 本身亦被當作 foundation model 使用，在 21/23 個 linear-probing tasks 上達到或超過 BrainIAC、BrainSegFounder、MedicalNet；其中 IDH1 AUC 0.937、brain-age MAE 4.43 years，而且無需 fine-tuning。對醫學 AI 研究者來說，這代表同一套架構可同時支援表徵學習與合成數據生成。

可控制條件包括 disease、age、sex、modality、site、IDH1 status
支援 patient-specific longitudinal forecasting
生成流程包含 3D MAE encoder、conditional flow-matching DiT、CNN decoder
可用於 under-represented cohorts 補充、counterfactual disease trajectories、privacy-preserving synthetic data sharing

目前頁面只提供論文簡介，model、code 與 synthetic dataset 尚未釋出，所以現階段較適合先了解方法設計與指標表現。若你關注 Medical醫學影像、合成數據或可控生成，這個項目很值得留意。

項目主頁： https://huggingface.co/papers/2606.19651

Paper： https://arxiv.org/pdf/2606.19651

Categories: Image, 3D, Medical醫學, 模型, 模型訓練, Dataset 數據集

GateMem：測試 AI 記憶有冇分寸

2026 年 6 月 22 日

現有記憶基準多數集中問一件事：代理可唔可以正確記住資料；GateMem 改問更接近部署環境的問題：同一個 shared memory 俾多個 principal 共用時，代理能否按角色、授權範圍同刪除要求去管理資訊。作者批評舊範式偏向 single-user recall，未能反映多方協作場景入面最常見的越權讀取、過度披露同刪除後重建資訊風險。

GateMem屬於Benchmark / Dataset 數據集項目，用來評估 memory-augmented LLM agents 在 multi-principal shared-memory agents 情境下，是否同時做到 Utility、Access Control 同 Active Forgetting。它把 persistent memory 視為 governed shared state，而唔係私人快取，這個 framing 令測試重點由「記得幾準」轉去「幾時應該答、幾時唔應該答」。

資料規模唔算細：4 個場景、91 個 long-form episodes、2,218 個 hidden checkpoints，涵蓋 Medical、Office、Education、Household。評分核心有一個 MGS 指標：MGS = U · (1 − A) · (1 − F)，即係授權下要有用，未授權時要少洩漏，刪除後亦唔可以被確認、還原或旁敲側擊重建。

要理解點樣測，重點係用它提供的 benchmark toolkit、dataset 同 leaderboard 去跑代理，再對照 hidden checkpoints 睇表現。較受用的會係做 Agentic 系統、長期記憶代理、企業內部助理、醫療或教育流程自動化的團隊，因為呢類系統最怕的通常唔係答錯一次，而係記對咗但講錯人聽。

核心差異：由單人記憶召回，轉成多角色共享記憶治理
三個評測面向：Utility、Access Control、Active Forgetting
場景貼近機構流程，包含授權、關係變化、刪除請求
相關模型背景包括 memory-augmented LLM agents、persistent memory agents，同頁面亦提到測過 6 backbone LLMs、7 memory baselines，但具體型號需以論文或排行榜為準
限制係它主要衡量治理表現，唔等於完整覆蓋所有真實政策、法規或系統整合成本

GitHub： https://github.com/rzhub/GateMem

項目主頁： https://rzhub.github.io/GateMem/project.html

Paper： https://arxiv.org/pdf/2606.18829

Categories: 開源, Agentic, Medical醫學, 安全, 模型, 框架, Dataset 數據集

PerceptionDLM：多區域圖像描述加速方案

2026 年 6 月 22 日

現時不少 Multimodal Large Language Models (MLLMs) 做區域描述時，仍然依賴 autoregressive (AR) 逐段生成：一張圖有幾多個 mask，就要逐個區域慢慢解讀。PerceptionDLM 提出的方向很明確，改用 Multimodal Diffusion Language Model，同一輪 denoising process 內同時輸出多個區域描述，目標是解決多區域感知在延遲上隨數量線性上升的問題。

這是一個偏向模型加基準測試的開源項目：核心是 PerceptionDLM 與 PerceptionDLM-Base，另加 ParaDLC-Bench、PerceptionDLM-Data 和 Bee / Honey 系列訓練資料配方。作者點名批評舊範式主要卡在 autoregressive region captioning，因此加入 efficient prompting 與 structured attention masking，讓平行生成不只停留在概念，而是落到 sequence level 同 token level。

從公開資料看，這個項目較適合以 Hugging Face 已釋出的模型、資料集與 evaluation suite 來理解和測試；想重現結果的人，亦可沿住訓練資料配方、Training 與 Evaluation 流程部署。對一般開發團隊而言，最有參考價值的不是安裝細節，而是它示範了 diffusion VLM 怎樣處理「多區域同時描述」這種以往較少由 DLM 承擔的任務。

單次 denoising pass 可同時描述多個 masked regions，官方稱在密集多區域情境可有最高 3.4× throughput speedup
PerceptionDLM-Base 據稱在 16 個 multimodal benchmarks 之中，15 個勝過 LLaDA-V
ParaDLC-Bench 不只看 caption quality，也把 inference efficiency 一併納入
已公開 code、model weights、training data recipe、evaluation suite，重現門檻比只放論文低

它較適合做視覺理解、圖像標註、自動資料整理，或者需要一次看多個區域的研究團隊。限制也很清楚：目前公開資訊主力強調 benchmark 與吞吐提升，對一般產品場景的記憶體需求、延遲分佈與部署成本仍要再看實測；相關模型則包括 PerceptionDLM、PerceptionDLM-Base，以及其 backbone LLaDA-8B-Instruct，對比對象則有 LLaDA-V。

GitHub： https://github.com/MSALab-PKU/PerceptionDLM

項目主頁： https://msalab-pku.github.io/projects/PerceptionDLM/index.html

項目： https://huggingface.co/collections/MSALab/perceptiondlm-model-zoo

Categories: 開源, 字節跳動, Stable Diffusion, 多模態模型, 提示詞, 模型, 模型訓練, 視覺模型, 北京大學, Dataset 數據集

PermaVid 令影片修改後仍然連貫

2026 年 6 月 22 日

很多影片生成方法處理編輯任務時，會把過往畫面當成單一記憶來源；一旦做了 style、season、weather 或 time 這類修改，舊記憶就可能變成過時參考，之後生成的鏡頭容易出現人物變樣、場景走位錯亂，或者視角切換後對不上。PermaVid 提出的方向，是把「外觀語意」同「幾何結構」分開保存，避免一次編輯令全部上下文一齊失效。

這是一個影片生成框架，核心工作是讓 edited video 在跨時間、跨視角、跨多次修改之下，仍保持內容連貫。它使用 disentangled context memory：RGB context memory 負責記錄 semantic appearance，depth context memory 則保留 geometry-only structure，再配合 edit-aware memory update and retrieval，把新修改過的資訊逐步寫回記憶。

和一般只靠單一記憶庫或單一路徑條件控制的方法相比，PermaVid 的取捨很清楚：系統更複雜，也要同時處理 RGB 與 depth 兩種脈絡，但換來的是編輯之後的長期一致性。從儲存庫資訊看，項目亦提供 dataset、paper 及 demo，並依賴 Wan2.1-VACE-14B、Qwen-Image-Edit、Qwen3-VL-8B-Instruct 等模型，顯示它不是輕量玩具，而是偏研究型、多模組組合的完整流程。

支援相機移動控制，例如 direction-frames-speed 這類格式
編輯類型涵蓋 style、season、weather、time 等全局變化
重點不只是生成單段片，而是修改之後仍維持後續片段一致
需要較完整環境配置，包含 PyTorch、CUDA 與額外訓練／推理依賴

如果你是做 instruction-based video editing、reference video generation，或者想研究 Computer Vision 同多模態記憶如何影響長片段一致性，這個項目很有參考價值。現有資料提到它在長期 semantic 與 structural consistency 上明顯優於 state-of-the-art methods，但公開資訊未列出完整量化分數；較穩妥的理解，是它的亮點在方法設計與 benchmark 表現方向，而不是即裝即用的消費級工具。

GitHub： https://github.com/YS-IMTech/PermaVid

項目主頁： https://ys-imtech.github.io/projects/PermaVid/

Paper： https://arxiv.org/pdf/2606.16449

Categories: 開源, 阿里巴巴, Qwen, 香港, 香港中文大學, NVIDIA, Video, Image, 工具, Python, 庫, 影像處理, 視覺模型, 視頻模型, Dataset 數據集, 框架

MolmoMotion 把語言變成 3D 動作預測

2026 年 6 月 21 日

現有做法多數偏向追蹤已經發生的移動，或者只在 2D 畫面估計下一步位置；作者認為這種 retrospective 範式難以支援機械人規劃與可控影片生成，所以提出 MolmoMotion、MolmoMotion-1M 同 PointMotionBench，把問題改成「根據語言指令預測 3D 點位未來軌跡」。這不是單純看影片理解內容，而是要模型根據短段 RGB 歷史、2D query points、初始 3D 位置，以及文字動作描述，預測之後約 2 秒的 3D movement。

MolmoMotion 本身屬於模型，更準確地說是 4B vision-language model，處理的是物件上指定點會怎樣移動的預測問題。儲存庫目前公開的是 autoregressive (AR) variant，並提供訓練資料、評測集、已釋出模型，以及由 pretrain 到 long-horizon finetune 的兩階段流程，較適合研究團隊直接重現結果或改成自家任務。

和同類方法相比，這個項目的取向很鮮明：它不是先做一般影片理解，再另外接 motion head，而是把 language-guided 3D point trajectory forecasting 當成核心任務。代價是輸入要求較多，你要有 query points 同初始 3D 資訊；回報則是輸出更貼近規劃用途，特別適合要預測「物件將會點樣郁」而不是只想分類場景的人。

可預測最長約 2 秒未來軌跡，文件提到 15 fps、F=30 或 F=32 的設定
評測指標列出 ADE、FDE、PWT，焦點放在軌跡準確度而非只看畫面相似度
配套包含 MolmoMotion-1M 訓練資料集與 PointMotionBench 評測基準
作者指出學到的 motion prior 可轉移到 robotics planning 與 motion-guided video generation

部署與測試的理解方式相當直接：先下載模型、資料集或 benchmark，再按儲存庫提供的 evaluation 與 training 流程執行；若不打算重訓，較合理是先拿已釋出模型跑 PointMotionBench 或自家樣本，看看語言指令改變時，3D 點位預測是否穩定。現有資訊未見完整效能數字摘錄，但官方明確聲稱表現明顯優於既有 forecasting 方法；較保守的判斷是，它最適合 embodied AI、robotics、可控影片生成研究者，以及需要把語言意圖轉成未來運動假設的團隊。

相關模型與資源包括：MolmoMotion、其 autoregressive (AR) variant、MolmoMotion-1M、PointMotionBench；底層 backbone 初始化與從零訓練入口亦有提供。

GitHub： https://github.com/allenai/molmo-motion

項目主頁： https://allenai.org/blog/molmo-motion

Categories: 開源, Video, 3D, AI productions, IDE, 多模態模型, 庫, 模型, 模型訓練, 視覺模型, 視頻模型, Robotic, Dataset 數據集

visually_grounded_thinking：讓 VLM 推理同時指向圖片證據

2026 年 6 月 21 日

現時不少 Vision-Language Models（VLMs）做視覺推理時，通常只輸出文字思路，證據其實來自圖片哪一部分，模型未必講得清。作者認為這種 text-only reasoning trace 難驗證、亦難監督，所以提出 visually grounded thinking：在推理文字中插入 <obj>...</obj>，直接標示 point 或 box 座標，將語句同圖片區域綁在一起。

這不是單純加標籤的格式改動，而是一套訓練與評測流程。項目先用 open-source counting 與 spatial reasoning datasets 合成帶視覺依據的思路，再用 SAM3-based grounding agent 產生 mask supervision，之後分別用 SFT 與 GRPO 訓練；RL 階段再靠 grounding-aware reward，以 box IoU 或 point F1 檢查模型指向的物件是否對應正確證據。

同類做法多數關注答案啱唔啱，這個項目連中間引用的圖像證據都計分，取向明顯較重視可驗證性。不過代價亦很清楚：資料製作、物件對齊、reward routing 都更複雜，訓練門檻比只做文字 reasoning 高，較適合已經有 VLM 訓練流程的研究團隊。

在 counting benchmarks 與 spatial reasoning benchmarks，加上 visually grounded thinking 的 Gemma3-4B-IT 普遍優於原版模型與 non-grounded thinking baseline；在部分空間推理任務，4B 版本甚至可追上或超過 Gemma3-27B-IT。作者亦指出 point grounding 較適合 counting，而 box grounding 在 spatial tasks 配合 grounding rewards 效果更突出。

類型上，它屬於 VLM 訓練框架加研究代碼，重點是改善視覺推理過程缺乏可核對證據的問題。
儲存庫已分開 data_synthesis_pipeline、agent、rl_reward、sft_dataset、VLMEvalKit 與 scripts，結構算清晰，理解流程會比直接改模型權重更重要。
部署思路偏研究用途，較可能需要 Docker 環境、SFT/RL 訓練配置，以及自備算力，而不是即裝即用的終端工具。
相關模型與元件包括 Gemma3-4B-IT、Gemma3-27B-IT、SAM3、GRPO、SFT、VLMEvalKit。
適合關注可解釋視覺推理、VQA、counting、spatial reasoning，或者想把中間推理變成可監督訊號的團隊。

GitHub： https://github.com/Jun-Kai-Zhang/visually_grounded_thinking

Paper： https://arxiv.org/pdf/2606.16122

Categories: 開源, Gemini, Agentic, Image, 工具, 多模態模型, 庫, 模型, 模型訓練, 視覺模型, Meta, 框架, Dataset 數據集

FreeStyle：用社群 LoRA 做雙參考生圖

2026 年 6 月 21 日

現時不少 style-reference 生成，只處理單一風格參考；至於 content + style dual-reference，常見難位是資料難整、風格長尾不足，兼且 style reference 容易把人物、物件等內容一併「滲」入結果。FreeStyle 把社群 LoRA 視為風格或內容概念的聚類中心，再配合自動生成與過濾流程，重組出可訓練的雙參考資料，連 benchmark 一起補上。

這不是單純模型，而是一個結合資料管線、benchmark 與 DiT-based model 的影像生成項目，目標是解決 SRef 與 CRef+SRef 兩類任務中，內容保持、風格對齊與 leakage suppression 很難同時兼顧的問題。文中提出 attention-level constraint，以及 RoPE low-frequency modulation，核心取向很清楚：寧可多做約束，也要壓住 style-reference content leakage。

資料規模是 FreeStyle 最有份量的部分。CRef+SRef dataset 提供 480K sequences，涵蓋 1,704 種 styles；SRef dataset 則有 619,302 sequences、622 種 styles。評測亦不只看靚唔靚，還加入 CSD、OneIG、DINOv2、CAS、CLIP-T、aesthetic predictors 及 VLM-as-judge，將 style similarity、content preservation、instruction following 同 leakage rejection 分開量度。

想理解怎樣測試這個項目，較合理的做法是分三層看：先用公開 dataset 與 benchmark 檢查資料結構；再看 repo 提供的 LoRA metadata 與 ComfyUI workflows，理解 triplet 怎樣生成與驗證；最後才研究 checkpoint 表現。它較適合研究團隊、做可控生圖的產品組，或者本身已在用 FLUX、Qwen、Illustrious 生態的人。

把 Civitai、TensorArt、Liblib 的社群 LoRA 變成可用訓練訊號
同時覆蓋 SRef 與 CRef+SRef，而非只做單一風格參考
重點不是單純追求風格像，而是壓低內容洩漏
提供 dataset、benchmark、workflow、checkpoint，便於重現整個流程

相關模型與基礎生態包括 DiT-based model、FLUX、Illustrious、Qwen，以及資料生成用的 ComfyUI workflow。若你關心的是商用穩定性，仍要留意它相當依賴社群 LoRA 品質與過濾流程；作者亦有講明，原始 LoRA 權重本身未必會隨項目再分發。

GitHub： https://github.com/Blue2Giant/FreeStyle

項目： https://blue2giant.github.io/FreeStyle/

Categories: 開源, 阿里巴巴, Qwen, ComfyUI, Stable Diffusion, Image, 工具, Content Creator, Sora, 多模態模型, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, Meta, Dataset 數據集

ImageWAM 用圖片編輯做機械人決策

2026 年 6 月 21 日

Repository image for yuyangalin/ImageWAM

ImageWAM 是一個模型訓練與評測項目，核心目標是用 image-editing foundation models 取代傳統 World Action Models (WAMs) 常見的影片生成流程，處理機械人動作預測又慢又重的問題。它的判斷很鮮明：與其生成一段未來畫面，不如直接從「當前影像 + 指令」抽取足夠的動作線索。

這項目把圖片編輯模型的中間表徵拿來做 robot action prediction。根據項目頁資料，ImageWAM 推論時不一定要解碼出編輯後影像，而是使用單次 image editing forward step 產生的 KV caches，再交給 action expert 生成未來動作，方向上比多幀影片預測更輕量。

先看 FLUX.2 ImageWAM，因為倉庫已表明它是主力版本，並提供 4B 與 9B 變體。之後再按手上資料與算力，準備本地 datasets、pretrained weights、ActionDiT 初始化權重，然後在 LIBERO、LIBERO-plus 或 RoboTwin 這幾個基準環境做訓練與評測。

這個方向不只是概念實驗。項目頁列出 RoboTwin 2.0 為 93.38%、LIBERO 為 98.4%、LIBERO-Plus 為 83.1%，並提到可節省 4.1× FLOPs、推論延遲加速 84.7%。這些數字很吸引，但始終以作者公開的實驗設定為準，若換成不同機械人平台或資料分布，表現仍要再驗證。

支援多個相關模型：FLUX.2 ImageWAM、OmniGen2 ImageWAM、Ovis-U1 ImageWAM
FLUX.2 提供 4B 與 9B 版本，Ovis-U1 走較細模型路線
適合機械人控制、world modeling、action prediction 研究與基準測試
重點不是生成漂亮畫面，而是抽取對動作決策有用的變化資訊

整體來看，ImageWAM 不算面向一般用家的 AI 工具，更像給研究者與工程團隊驗證新路線的開源項目。若你關心 world action models 是否一定要靠影片生成，這個項目提供了一個相當具體，而且有基準成績支持的反例。

GitHub： https://github.com/yuyangalin/ImageWAM

項目： https://zhangwenyao1.github.io/ImageWAM/

Categories: 開源, Video, Image, 工具, 庫, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, Robotic, 世界模型, Dataset 數據集

ActWorld 讓世界模型學懂互動

2026 年 6 月 18 日

ActWorld 是一個 Interactive World Model，目標是把「可四處觀看的世界」推進到「可以即時操作的世界」。以往不少世界模型主要支援移動、轉向、環視等導航動作，對場景中的物件互動支援有限；這個項目則加入中途操作物件的能力，例如拾取、搬運、放置，令同一次 rollout 不只是在場景中行走。

這個項目想處理兩個核心問題：一是缺少高質素的人與物件互動數據，二是模型容易忘記早前發生、但會影響之後物件狀態的關鍵畫面。為此，團隊建立了 100K interaction video dataset，並以 chain-of-thought reasoning 產生 per-chunk captions；同時提出 hierarchical action-aware memory 和 persistent memory bank，讓模型按互動重要性保留歷史資訊，減少 action-forgetting。

使用時，讀者可先從項目頁面的 Paper、Code、Video 和 Comparisons 了解能力範圍。從內容描述判斷，ActWorld 適合研究 Interactive World Model、Computer-use agents（CUAs）相關模擬環境、機械人互動、或需要長時序場景生成與控制的團隊參考。

在單一模型內同時處理 long-horizon navigation 與 object interaction
透過 100K interaction video dataset 補足互動數據不足
用 hierarchical action-aware memory 保留較重要的互動歷史
以 persistent memory bank 追蹤事件更新與物件身份

按頁面說明，實驗結果顯示它在不犧牲 viewpoint control 的情況下，interaction fidelity 明顯優於只做導航的 baseline。現階段公開資訊以研究展示為主，若想深入理解效果，最應留意 Comparisons 及論文中的評測設定與限制。

項目： https://interactwm.github.io/ActWorld/

Categories: 開源, 騰訊, Agentic, Video, AI productions, 多模態模型, 模型, 世界模型, Dataset 數據集

Page 3 of 6

« Previous 1 2 3 4 5 6 Next »