StylisticBias 拆解 MLLMs 視覺偏見

StylisticBias pipeline overview

不少 Multimodal Large Language Models(MLLMs)偏見研究,通常拿不同人物或群組互相比較;問題是外貌差異與身份差異會纏在一起,最後很難判斷模型究竟是受年齡、衣著、身形影響,還是只是換了另一個人。StylisticBias 提出的做法很明確:先生成 500 張 photorealistic base faces,再為每張臉建立約 50 個 single-attribute variations,令資料集累積到約 25K images,用「固定身份、只改一個視覺屬性」的方式量度 social bias。

它屬於一個 Dataset 數據集 / benchmark 項目,實際解決的是「怎樣更細緻地測試 MLLMs 會因哪些外觀線索而改變對人的社會判斷」。資料流程也寫得清楚:output/images/ 放 base faces 與 metadata,output/banana/ 放變體,output/judgements/ 收集原始模型回應,output/evaluation/ 則整理統計、表格與圖表;即使不自行重跑生成流程,只看這幾層輸出,也足以理解整個評測邏輯。

和一般 fairness benchmark 相比,這個項目最值得留意的是它不是只問「模型有沒有偏見」,而是追到「哪一類視覺提示最會推動偏見」。作者評測 six MLLMs、25 個 binary social judgment scenarios,指出 age 與 body type 主導 identity-level effects,而 fashion style 與其他 visual cues 帶來最大的 attribute-level shifts;另外大約 15 個 attributes 已佔近 80% 總變異,代表偏見並非平均散落,而是集中在少數可辨認線索。

  • 固定同一張臉,只改一個屬性,較易分開 appearance effects 與 identity differences
  • 規模約 25K images,適合做較細粒度的 bias analysis
  • 結果顯示 age、body type、fashion style 是高敏感因素
  • judgement 對 appearance 語意較貼近的場景最敏感,尤其 socioeconomic 與 style-related 判斷

這項目最適合評估多模態產品風險的團隊、研究 AI fairness 的學者,以及要比較不同 vision-language model 行為的人。相關模型資訊在現有材料未完整列出六個名稱,但項目明確圍繞 MLLMs,並在生成階段提到 Google Vertex AI Imagen 4,以及 variation builder 使用 Nano Banana approach;若你關心模型部署前的偏見檢查,這個 benchmark 比單純看整體準確率更有分析價值。

GitHub: https://github.com/timo-cavelius/StylisticBias

項目主頁: https://huggingface.co/datasets/shaghayegh/stylistic-bias-dataset

Paper: https://arxiv.org/pdf/2606.20527

Categories: 開源, Google, Gemini, NanoBanana, Image, 多模態模型, 安全, 視覺模型, Meta, Dataset 數據集, 框架

可控制生成 3D 腦 MRI 的 BrainG3N

Og image

BrainG3N是一個面向3D腦部 MRI 的生成模型,重點不只是「生成影像」,而是按指定條件產生帶有臨床訊息的合成掃描。它先用凍結的 3D MAE encoder 處理資料,再由 conditional flow-matching DiT 在潛在空間生成新樣本,最後用 fine-tuned CNN decoder 轉回 voxel 影像。

這類方法要解決的,是醫學影像生成常見的「生成到,但控制不準」問題。BrainG3N聲稱可按 disease、age、sex、modality、site、IDH1 status 等條件控制輸出,亦支援病人縱向變化預測,對研究病程模擬與稀有群組補數據尤其有用。

和一般直接在像素或 voxel 空間生成的做法相比,它把生成放在 clinically grounded latent space 內進行,目標是令合成結果更容易保留指定屬性。頁面列出的結果顯示,從生成掃描中可重新探測出目標條件,例如年齡相關性達 Pearson r=0.93,反映控制訊號並非只停留在文字或標籤層面。

同一個 frozen encoder 本身亦被當作 foundation model 使用,在 21/23 個 linear-probing tasks 上達到或超過 BrainIAC、BrainSegFounder、MedicalNet;其中 IDH1 AUC 0.937、brain-age MAE 4.43 years,而且無需 fine-tuning。對醫學 AI 研究者來說,這代表同一套架構可同時支援表徵學習與合成數據生成。

  • 可控制條件包括 disease、age、sex、modality、site、IDH1 status
  • 支援 patient-specific longitudinal forecasting
  • 生成流程包含 3D MAE encoder、conditional flow-matching DiT、CNN decoder
  • 可用於 under-represented cohorts 補充、counterfactual disease trajectories、privacy-preserving synthetic data sharing

目前頁面只提供論文簡介,model、code 與 synthetic dataset 尚未釋出,所以現階段較適合先了解方法設計與指標表現。若你關注 Medical醫學影像、合成數據或可控生成,這個項目很值得留意。

項目主頁: https://huggingface.co/papers/2606.19651

Paper: https://arxiv.org/pdf/2606.19651

Categories: Image, 3D, Medical醫學, 模型, 模型訓練, Dataset 數據集

GateMem:測試 AI 記憶有冇分寸

GateMem logo

現有記憶基準多數集中問一件事:代理可唔可以正確記住資料;GateMem 改問更接近部署環境的問題:同一個 shared memory 俾多個 principal 共用時,代理能否按角色、授權範圍同刪除要求去管理資訊。作者批評舊範式偏向 single-user recall,未能反映多方協作場景入面最常見的越權讀取、過度披露同刪除後重建資訊風險。

GateMem屬於Benchmark / Dataset 數據集項目,用來評估 memory-augmented LLM agents 在 multi-principal shared-memory agents 情境下,是否同時做到 Utility、Access Control 同 Active Forgetting。它把 persistent memory 視為 governed shared state,而唔係私人快取,這個 framing 令測試重點由「記得幾準」轉去「幾時應該答、幾時唔應該答」。

資料規模唔算細:4 個場景、91 個 long-form episodes、2,218 個 hidden checkpoints,涵蓋 Medical、Office、Education、Household。評分核心有一個 MGS 指標:MGS = U · (1 − A) · (1 − F),即係授權下要有用,未授權時要少洩漏,刪除後亦唔可以被確認、還原或旁敲側擊重建。

要理解點樣測,重點係用它提供的 benchmark toolkit、dataset 同 leaderboard 去跑代理,再對照 hidden checkpoints 睇表現。較受用的會係做 Agentic 系統、長期記憶代理、企業內部助理、醫療或教育流程自動化的團隊,因為呢類系統最怕的通常唔係答錯一次,而係記對咗但講錯人聽。

  • 核心差異:由單人記憶召回,轉成多角色共享記憶治理
  • 三個評測面向:Utility、Access Control、Active Forgetting
  • 場景貼近機構流程,包含授權、關係變化、刪除請求
  • 相關模型背景包括 memory-augmented LLM agents、persistent memory agents,同頁面亦提到測過 6 backbone LLMs、7 memory baselines,但具體型號需以論文或排行榜為準
  • 限制係它主要衡量治理表現,唔等於完整覆蓋所有真實政策、法規或系統整合成本

GitHub: https://github.com/rzhub/GateMem

項目主頁: https://rzhub.github.io/GateMem/project.html

Paper: https://arxiv.org/pdf/2606.18829

Categories: 開源, Agentic, Medical醫學, 安全, 模型, 框架, Dataset 數據集

PerceptionDLM:多區域圖像描述加速方案

icon

現時不少 Multimodal Large Language Models (MLLMs) 做區域描述時,仍然依賴 autoregressive (AR) 逐段生成:一張圖有幾多個 mask,就要逐個區域慢慢解讀。PerceptionDLM 提出的方向很明確,改用 Multimodal Diffusion Language Model,同一輪 denoising process 內同時輸出多個區域描述,目標是解決多區域感知在延遲上隨數量線性上升的問題。

這是一個偏向模型加基準測試的開源項目:核心是 PerceptionDLM 與 PerceptionDLM-Base,另加 ParaDLC-Bench、PerceptionDLM-Data 和 Bee / Honey 系列訓練資料配方。作者點名批評舊範式主要卡在 autoregressive region captioning,因此加入 efficient prompting 與 structured attention masking,讓平行生成不只停留在概念,而是落到 sequence level 同 token level。

從公開資料看,這個項目較適合以 Hugging Face 已釋出的模型、資料集與 evaluation suite 來理解和測試;想重現結果的人,亦可沿住訓練資料配方、Training 與 Evaluation 流程部署。對一般開發團隊而言,最有參考價值的不是安裝細節,而是它示範了 diffusion VLM 怎樣處理「多區域同時描述」這種以往較少由 DLM 承擔的任務。

  • 單次 denoising pass 可同時描述多個 masked regions,官方稱在密集多區域情境可有最高 3.4× throughput speedup
  • PerceptionDLM-Base 據稱在 16 個 multimodal benchmarks 之中,15 個勝過 LLaDA-V
  • ParaDLC-Bench 不只看 caption quality,也把 inference efficiency 一併納入
  • 已公開 code、model weights、training data recipe、evaluation suite,重現門檻比只放論文低

它較適合做視覺理解、圖像標註、自動資料整理,或者需要一次看多個區域的研究團隊。限制也很清楚:目前公開資訊主力強調 benchmark 與吞吐提升,對一般產品場景的記憶體需求、延遲分佈與部署成本仍要再看實測;相關模型則包括 PerceptionDLM、PerceptionDLM-Base,以及其 backbone LLaDA-8B-Instruct,對比對象則有 LLaDA-V。

GitHub: https://github.com/MSALab-PKU/PerceptionDLM

項目主頁: https://msalab-pku.github.io/projects/PerceptionDLM/index.html

項目: https://huggingface.co/collections/MSALab/perceptiondlm-model-zoo

Categories: 開源, 字節跳動, Stable Diffusion, 多模態模型, 提示詞, 模型, 模型訓練, 視覺模型, 北京大學, Dataset 數據集

PermaVid 令影片修改後仍然連貫

teaser

很多影片生成方法處理編輯任務時,會把過往畫面當成單一記憶來源;一旦做了 style、season、weather 或 time 這類修改,舊記憶就可能變成過時參考,之後生成的鏡頭容易出現人物變樣、場景走位錯亂,或者視角切換後對不上。PermaVid 提出的方向,是把「外觀語意」同「幾何結構」分開保存,避免一次編輯令全部上下文一齊失效。

這是一個影片生成框架,核心工作是讓 edited video 在跨時間、跨視角、跨多次修改之下,仍保持內容連貫。它使用 disentangled context memory:RGB context memory 負責記錄 semantic appearance,depth context memory 則保留 geometry-only structure,再配合 edit-aware memory update and retrieval,把新修改過的資訊逐步寫回記憶。

和一般只靠單一記憶庫或單一路徑條件控制的方法相比,PermaVid 的取捨很清楚:系統更複雜,也要同時處理 RGB 與 depth 兩種脈絡,但換來的是編輯之後的長期一致性。從儲存庫資訊看,項目亦提供 dataset、paper 及 demo,並依賴 Wan2.1-VACE-14B、Qwen-Image-Edit、Qwen3-VL-8B-Instruct 等模型,顯示它不是輕量玩具,而是偏研究型、多模組組合的完整流程。

  • 支援相機移動控制,例如 direction-frames-speed 這類格式
  • 編輯類型涵蓋 style、season、weather、time 等全局變化
  • 重點不只是生成單段片,而是修改之後仍維持後續片段一致
  • 需要較完整環境配置,包含 PyTorch、CUDA 與額外訓練/推理依賴

如果你是做 instruction-based video editing、reference video generation,或者想研究 Computer Vision 同多模態記憶如何影響長片段一致性,這個項目很有參考價值。現有資料提到它在長期 semantic 與 structural consistency 上明顯優於 state-of-the-art methods,但公開資訊未列出完整量化分數;較穩妥的理解,是它的亮點在方法設計與 benchmark 表現方向,而不是即裝即用的消費級工具。

GitHub: https://github.com/YS-IMTech/PermaVid

項目主頁: https://ys-imtech.github.io/projects/PermaVid/

Paper: https://arxiv.org/pdf/2606.16449

Categories: 開源, 阿里巴巴, Qwen, 香港, 香港中文大學, NVIDIA, Video, Image, 工具, Python, , 影像處理, 視覺模型, 視頻模型, Dataset 數據集, 框架

MolmoMotion 把語言變成 3D 動作預測

MolmoMotion teaser

現有做法多數偏向追蹤已經發生的移動,或者只在 2D 畫面估計下一步位置;作者認為這種 retrospective 範式難以支援機械人規劃與可控影片生成,所以提出 MolmoMotion、MolmoMotion-1M 同 PointMotionBench,把問題改成「根據語言指令預測 3D 點位未來軌跡」。這不是單純看影片理解內容,而是要模型根據短段 RGB 歷史、2D query points、初始 3D 位置,以及文字動作描述,預測之後約 2 秒的 3D movement。

MolmoMotion 本身屬於模型,更準確地說是 4B vision-language model,處理的是物件上指定點會怎樣移動的預測問題。儲存庫目前公開的是 autoregressive (AR) variant,並提供訓練資料、評測集、已釋出模型,以及由 pretrain 到 long-horizon finetune 的兩階段流程,較適合研究團隊直接重現結果或改成自家任務。

和同類方法相比,這個項目的取向很鮮明:它不是先做一般影片理解,再另外接 motion head,而是把 language-guided 3D point trajectory forecasting 當成核心任務。代價是輸入要求較多,你要有 query points 同初始 3D 資訊;回報則是輸出更貼近規劃用途,特別適合要預測「物件將會點樣郁」而不是只想分類場景的人。

  • 可預測最長約 2 秒未來軌跡,文件提到 15 fps、F=30 或 F=32 的設定
  • 評測指標列出 ADE、FDE、PWT,焦點放在軌跡準確度而非只看畫面相似度
  • 配套包含 MolmoMotion-1M 訓練資料集與 PointMotionBench 評測基準
  • 作者指出學到的 motion prior 可轉移到 robotics planning 與 motion-guided video generation

部署與測試的理解方式相當直接:先下載模型、資料集或 benchmark,再按儲存庫提供的 evaluation 與 training 流程執行;若不打算重訓,較合理是先拿已釋出模型跑 PointMotionBench 或自家樣本,看看語言指令改變時,3D 點位預測是否穩定。現有資訊未見完整效能數字摘錄,但官方明確聲稱表現明顯優於既有 forecasting 方法;較保守的判斷是,它最適合 embodied AI、robotics、可控影片生成研究者,以及需要把語言意圖轉成未來運動假設的團隊。

相關模型與資源包括:MolmoMotion、其 autoregressive (AR) variant、MolmoMotion-1M、PointMotionBench;底層 backbone 初始化與從零訓練入口亦有提供。

GitHub: https://github.com/allenai/molmo-motion

項目主頁: https://allenai.org/blog/molmo-motion

Categories: 開源, Video, 3D, AI productions, IDE, 多模態模型, , 模型, 模型訓練, 視覺模型, 視頻模型, Robotic, Dataset 數據集

visually_grounded_thinking:讓 VLM 推理同時指向圖片證據

Visually grounded thinking modes

現時不少 Vision-Language Models(VLMs)做視覺推理時,通常只輸出文字思路,證據其實來自圖片哪一部分,模型未必講得清。作者認為這種 text-only reasoning trace 難驗證、亦難監督,所以提出 visually grounded thinking:在推理文字中插入 <obj>...</obj>,直接標示 point 或 box 座標,將語句同圖片區域綁在一起。

這不是單純加標籤的格式改動,而是一套訓練與評測流程。項目先用 open-source counting 與 spatial reasoning datasets 合成帶視覺依據的思路,再用 SAM3-based grounding agent 產生 mask supervision,之後分別用 SFT 與 GRPO 訓練;RL 階段再靠 grounding-aware reward,以 box IoU 或 point F1 檢查模型指向的物件是否對應正確證據。

同類做法多數關注答案啱唔啱,這個項目連中間引用的圖像證據都計分,取向明顯較重視可驗證性。不過代價亦很清楚:資料製作、物件對齊、reward routing 都更複雜,訓練門檻比只做文字 reasoning 高,較適合已經有 VLM 訓練流程的研究團隊。

在 counting benchmarks 與 spatial reasoning benchmarks,加上 visually grounded thinking 的 Gemma3-4B-IT 普遍優於原版模型與 non-grounded thinking baseline;在部分空間推理任務,4B 版本甚至可追上或超過 Gemma3-27B-IT。作者亦指出 point grounding 較適合 counting,而 box grounding 在 spatial tasks 配合 grounding rewards 效果更突出。

  • 類型上,它屬於 VLM 訓練框架加研究代碼,重點是改善視覺推理過程缺乏可核對證據的問題。
  • 儲存庫已分開 data_synthesis_pipeline、agent、rl_reward、sft_dataset、VLMEvalKit 與 scripts,結構算清晰,理解流程會比直接改模型權重更重要。
  • 部署思路偏研究用途,較可能需要 Docker 環境、SFT/RL 訓練配置,以及自備算力,而不是即裝即用的終端工具。
  • 相關模型與元件包括 Gemma3-4B-IT、Gemma3-27B-IT、SAM3、GRPO、SFT、VLMEvalKit。
  • 適合關注可解釋視覺推理、VQA、counting、spatial reasoning,或者想把中間推理變成可監督訊號的團隊。

GitHub: https://github.com/Jun-Kai-Zhang/visually_grounded_thinking

Paper: https://arxiv.org/pdf/2606.16122

Categories: 開源, Gemini, Agentic, Image, 工具, 多模態模型, , 模型, 模型訓練, 視覺模型, Meta, 框架, Dataset 數據集

FreeStyle:用社群 LoRA 做雙參考生圖

FreeStyle teaser

現時不少 style-reference 生成,只處理單一風格參考;至於 content + style dual-reference,常見難位是資料難整、風格長尾不足,兼且 style reference 容易把人物、物件等內容一併「滲」入結果。FreeStyle 把社群 LoRA 視為風格或內容概念的聚類中心,再配合自動生成與過濾流程,重組出可訓練的雙參考資料,連 benchmark 一起補上。

這不是單純模型,而是一個結合資料管線、benchmark 與 DiT-based model 的影像生成項目,目標是解決 SRef 與 CRef+SRef 兩類任務中,內容保持、風格對齊與 leakage suppression 很難同時兼顧的問題。文中提出 attention-level constraint,以及 RoPE low-frequency modulation,核心取向很清楚:寧可多做約束,也要壓住 style-reference content leakage。

資料規模是 FreeStyle 最有份量的部分。CRef+SRef dataset 提供 480K sequences,涵蓋 1,704 種 styles;SRef dataset 則有 619,302 sequences、622 種 styles。評測亦不只看靚唔靚,還加入 CSD、OneIG、DINOv2、CAS、CLIP-T、aesthetic predictors 及 VLM-as-judge,將 style similarity、content preservation、instruction following 同 leakage rejection 分開量度。

想理解怎樣測試這個項目,較合理的做法是分三層看:先用公開 dataset 與 benchmark 檢查資料結構;再看 repo 提供的 LoRA metadata 與 ComfyUI workflows,理解 triplet 怎樣生成與驗證;最後才研究 checkpoint 表現。它較適合研究團隊、做可控生圖的產品組,或者本身已在用 FLUX、Qwen、Illustrious 生態的人。

  • 把 Civitai、TensorArt、Liblib 的社群 LoRA 變成可用訓練訊號
  • 同時覆蓋 SRef 與 CRef+SRef,而非只做單一風格參考
  • 重點不是單純追求風格像,而是壓低內容洩漏
  • 提供 dataset、benchmark、workflow、checkpoint,便於重現整個流程

相關模型與基礎生態包括 DiT-based model、FLUX、Illustrious、Qwen,以及資料生成用的 ComfyUI workflow。若你關心的是商用穩定性,仍要留意它相當依賴社群 LoRA 品質與過濾流程;作者亦有講明,原始 LoRA 權重本身未必會隨項目再分發。

GitHub: https://github.com/Blue2Giant/FreeStyle

項目: https://blue2giant.github.io/FreeStyle/

Categories: 開源, 阿里巴巴, Qwen, ComfyUI, Stable Diffusion, Image, 工具, Content Creator, Sora, 多模態模型, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, Meta, Dataset 數據集

ImageWAM 用圖片編輯做機械人決策

Repository image for yuyangalin/ImageWAM

ImageWAM 是一個模型訓練與評測項目,核心目標是用 image-editing foundation models 取代傳統 World Action Models (WAMs) 常見的影片生成流程,處理機械人動作預測又慢又重的問題。它的判斷很鮮明:與其生成一段未來畫面,不如直接從「當前影像 + 指令」抽取足夠的動作線索。

這項目把圖片編輯模型的中間表徵拿來做 robot action prediction。根據項目頁資料,ImageWAM 推論時不一定要解碼出編輯後影像,而是使用單次 image editing forward step 產生的 KV caches,再交給 action expert 生成未來動作,方向上比多幀影片預測更輕量。

先看 FLUX.2 ImageWAM,因為倉庫已表明它是主力版本,並提供 4B 與 9B 變體。之後再按手上資料與算力,準備本地 datasets、pretrained weights、ActionDiT 初始化權重,然後在 LIBERO、LIBERO-plus 或 RoboTwin 這幾個基準環境做訓練與評測。

這個方向不只是概念實驗。項目頁列出 RoboTwin 2.0 為 93.38%、LIBERO 為 98.4%、LIBERO-Plus 為 83.1%,並提到可節省 4.1× FLOPs、推論延遲加速 84.7%。這些數字很吸引,但始終以作者公開的實驗設定為準,若換成不同機械人平台或資料分布,表現仍要再驗證。

  • 支援多個相關模型:FLUX.2 ImageWAM、OmniGen2 ImageWAM、Ovis-U1 ImageWAM
  • FLUX.2 提供 4B9B 版本,Ovis-U1 走較細模型路線
  • 適合機械人控制、world modeling、action prediction 研究與基準測試
  • 重點不是生成漂亮畫面,而是抽取對動作決策有用的變化資訊

整體來看,ImageWAM 不算面向一般用家的 AI 工具,更像給研究者與工程團隊驗證新路線的開源項目。若你關心 world action models 是否一定要靠影片生成,這個項目提供了一個相當具體,而且有基準成績支持的反例。

GitHub: https://github.com/yuyangalin/ImageWAM

項目: https://zhangwenyao1.github.io/ImageWAM/

Categories: 開源, Video, Image, 工具, , 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, Robotic, 世界模型, Dataset 數據集

ActWorld 讓世界模型學懂互動

Og image

ActWorld 是一個 Interactive World Model,目標是把「可四處觀看的世界」推進到「可以即時操作的世界」。以往不少世界模型主要支援移動、轉向、環視等導航動作,對場景中的物件互動支援有限;這個項目則加入中途操作物件的能力,例如拾取、搬運、放置,令同一次 rollout 不只是在場景中行走。

這個項目想處理兩個核心問題:一是缺少高質素的人與物件互動數據,二是模型容易忘記早前發生、但會影響之後物件狀態的關鍵畫面。為此,團隊建立了 100K interaction video dataset,並以 chain-of-thought reasoning 產生 per-chunk captions;同時提出 hierarchical action-aware memory 和 persistent memory bank,讓模型按互動重要性保留歷史資訊,減少 action-forgetting。

使用時,讀者可先從項目頁面的 Paper、Code、Video 和 Comparisons 了解能力範圍。從內容描述判斷,ActWorld 適合研究 Interactive World Model、Computer-use agents(CUAs)相關模擬環境、機械人互動、或需要長時序場景生成與控制的團隊參考。

  • 在單一模型內同時處理 long-horizon navigation 與 object interaction
  • 透過 100K interaction video dataset 補足互動數據不足
  • 用 hierarchical action-aware memory 保留較重要的互動歷史
  • 以 persistent memory bank 追蹤事件更新與物件身份

按頁面說明,實驗結果顯示它在不犧牲 viewpoint control 的情況下,interaction fidelity 明顯優於只做導航的 baseline。現階段公開資訊以研究展示為主,若想深入理解效果,最應留意 Comparisons 及論文中的評測設定與限制。

項目: https://interactwm.github.io/ActWorld/

Categories: 開源, 騰訊, Agentic, Video, AI productions, 多模態模型, 模型, 世界模型, Dataset 數據集

Page 3 of 6
1 2 3 4 5 6