Stable Diffusion

Microsoft Mage：4B 多模態輕量路線

2026 年 7 月 31 日

當你想喺有限 GPU 預算下做影像生成、編輯，甚至延伸到影像與影片理解，Mage 這個開源模型家族的定位就相當直接：用固定 4B 參數規模，處理多模態理解與生成兩條路線，目標唔係堆大模型，而係保留研究可控性同部署可行性。

Mage 目前最完整的是 Mage-Flow，屬於模型家族中的生成與編輯分支。它把 Mage-VAE 同 Native-Resolution Multimodal Diffusion Transformer 組合起來，前者負責更高效率的 latent tokenizer，後者負責文字生圖與指令式修圖；同時提供 Base、RL-aligned 同 4-step Turbo 版本，方便按畫質、對齊程度與速度取捨。另一條線 Mage-VL 對準 image/video understanding，但程式與權重細節仍待釋出。

同類開源影像模型很多都靠更大參數量換效果，Mage 的判斷明顯不同：它把重點放喺 codec-aligned efficiency，同一個 checkpoint 已可覆蓋 512 到 2048、不同長闊比，連 4:1 這類極端尺寸都原生支援，減少多套模型或額外縮放流程。它在生成、編輯表現上可與 Qwen-Image 20B、FLUX.2 32B、FireRed-Image-Edit 20B 等較大型開源系統競爭，但取捨是 Mage-VL 仍未完整開放，整個家族現階段更適合關注研究與工作流整合的人先行評估。

Super fast Image Edit model Mage-Flow on 8GB VRAM

Watch this video on YouTube

固定 4B 規模，主打可訓練、可微調、可部署
Mage-Flow 已覆蓋 text-to-image 與 instruction-based image editing
Mage-VAE 以更低 encode/decode MACs 減輕高解析度瓶頸
單一 checkpoint 支援 512–2048 與多種 aspect ratio
Turbo 版本強調速度，1024² 在單張 A100 有明確推理數字

部署與測試方面，現有資料顯示 Hugging Face 已提供多個 Mage-Flow 與 Mage-Flow-Edit 權重，適合先用現成 checkpoint 驗證生成、修圖與速度，再決定是否進一步做微調。對做垂直領域影像項目、想研究後訓練方法，或者需要把高解析度生成放入較實際算力條件的人，Mage 的吸引力不在花巧包裝，而在它用一條輕量路線，把研究、性能與部署成本拉回較平衡的位置。

項目主頁 · GitHub · 模型

Categories: 開源, Qwen, 微軟, Stable Diffusion, Video, Image, Medical醫學, txt2img, 多模態模型, 影像模型, 影像處理, 模型, 視覺模型

Sana 把高解像生成壓到快 100 倍

2026 年 7 月 26 日

高解像圖片同影片生成最常見的卡位，不是效果做不到，而是算力、延遲同部署成本太難接受。NVlabs/Sana 屬於生成模型代碼庫，集中處理這個矛盾：在維持高解析輸出的前提下，把訓練與推理做得更省、更快，並且一路延伸到圖片、影片、世界模型等多條分支。

這個項目唔係單一模型，而是一個家族。SANA 主打最高到 4K 的 text-to-image，README 直接給出「比 Flux-12B 細 20 倍、快 100 倍」的定位；SANA-1.5 進一步處理訓練期與推理期的 compute scaling；SANA-Sprint 則把重點放在 one/few-step 生成，官方數字提到 H100 上 1024px 圖片可做到 0.1 秒級。取向很清楚：不是一味追最大模型，而是用效率換取更可部署的生成流程。

影片部分同樣值得留意。SANA-Video 與 SANA-Video 2.0 把焦點放在 720p 長序列生成，做法上用 hybrid linear attention 配合 Attention Residuals，目的是減少 full-softmax attention 的成本，同時盡量保住畫質與長序列表達能力。公開資料提到 SANA-Video 2.0 在單張 H100 上，720p/5 秒影片可做到 13.06 秒，VBench 總分 84.30，也強調比 Wan 2.2 14B 有大幅速度優勢，但這類數字仍要連同硬件、步數與設定一齊理解。

同一庫內含 SANA、SANA-1.5、SANA-Sprint、SANA-Video、SANA-WM、SANA-Streaming、Sol-RL
提供完整 training 與 inference pipeline，唔止展示模型效果
可透過官方 demo、Hugging Face、ComfyUI 整合去理解生成表現與部署方向
重點不是極限參數量，而是高解像生成的速度、成本同可擴展性

部署與測試路線相對清晰：已有官方文件、網頁 demo、Hugging Face 集合，亦見到 ComfyUI、SGLang、Replicate 等接點，代表它較適合研究團隊、影像工作流開發者，以及想把高解像生成放進產品流程的人。 SANA-WM 的 2.6B controllable world model、6-DoF camera control，同 Sol-RL 的加速收斂能力，則顯示這個項目不只做靜態出圖，而是朝更完整的生成系統推進。

項目主頁 · GitHub

Categories: 開源, NVIDIA, ComfyUI, Stable Diffusion, Video, Image, AI productions, txt2img, 模型訓練, 世界模型

GraphVid 把圖生影片拆解成圖節點關係圖

2026 年 7 月 26 日

PLAN-Lab（伊利諾伊大學厄巴納-香檳分校）開源的 GraphVid 採用 Diffusers 框架，用 Stable Diffusion 類的 Diffusion Pipeline 配 bfloat16 精度載入，適用於 CUDA 與 Apple MPS 裝置。這個名稱裡的「Graph」不是社群網絡圖，而是把影片拆成多個關鍵畫面節點，再用一張小型關係檔 graph.pth（約 118 MB）描述節點之間如何銜接——模型先理解這些畫面該怎樣排序與過渡，再交由 transformer、VAE 等模組逐段生成。

頁面沒有公開 base model 來源，也沒有說明訓練資料或評測指標，因此難以判斷它的整體品質，只能從架構面推測它把控制粒度從「逐幀文字描述」轉移到「節點拓樸」。使用 DiffusionPipeline.from_pretrained 配合 torch_dtype=torch.bfloat16，屬於現今影片擴散模型常見的省記憶體做法。

從模型卡提供的程式碼範例可見，GraphVid 直接接受文字 prompt 即可生成畫面，毋須手動編排節點，這層抽象對一般使用者比較友善；進階用家則可透過 graph.pth 微調節點關係，控制運鏡節奏。整個 gvc_ckpt_folder 容量約 64.3 GB，包含 scheduler、text_encoder、tokenizer、transformer、VAE 等標準組件，搭配 Hugging Face 提供的 Colab / Kaggle 範例即可快速試跑。

關係圖驅動：以 graph.pth 定義畫面節點與時序關係，再交由擴散模型生成影片。
Diffusers 相容：透過 DiffusionPipeline 載入，支援 bfloat16 與 CUDA / MPS。
Apache-2.0 授權：可自由下載研究與再分發，但頁面未提供量化版本。
硬體需求高：完整 checkpoint 約 64.3 GB，建議使用高階 GPU。
缺乏評測數據：原始頁面沒有提供基準分數或與其他影片模型的直接比較，採用前宜自行測試。

若以本地消費級 GPU 試跑，建議先把 torch_dtype 設為 bfloat16，並留意 VRAM 是否足以容納 transformer 與 VAE 的權重；想進一步壓縮，可留意社群後續是否釋出量化或 LoRA 版本。

項目主頁

Categories: 開源, Google, NVIDIA, Stable Diffusion, Image, Python, 教學, 蘋果, 框架

ReChannel：用生成模型做密集預測

2026 年 7 月 14 日

一張 RGB 圖像想同時拿到深度、surface normal、matting 同 referring segmentation，通常意味住要換幾套模型；ReChannel偏偏反其道而行，將預訓練 text-to-image DiT 的空間 token 直接改作密集預測讀出。這不是完整訓練流程釋出，而是偏向 inference／質性展示的 GitHub 項目，定位很清楚：展示 FLUX-Klein 骨幹除咗生圖，亦可以做 pixel-space dense prediction。

它的類型更接近研究型模型讀出方法＋推理示範工具，實際解決的是「可否沿用生成模型已有的空間表示，避免為每個密集任務重建一套重型解碼器」。做法上，骨幹維持 frozen，只為每個任務加 LoRA，再配一個 token-local linear head；標量任務頭部大約 33K 參數，surface normals 約 99K，沒有 convolution、沒有 upsampling，也沒有 target-side VAE decoder。

同類方法很多會把功夫放在額外解碼器或多尺度結構，ReChannel的取向剛好相反：盡量把空間結構留在 DiT token field 內，最後只做通道重映射。這種設計夠輕，但取捨亦直接，現有儲存庫沒有完整 benchmark pipeline，姿態估計亦未放入最小示範，所以更適合用來理解方法潛力，而非直接拿來做嚴格橫向比較。

支援單張圖片推理，可輸出 depth、normal、matting、refseg，refseg 需要輸入文字描述
依賴 CUDA GPU，首次執行會自動下載 black-forest-labs/FLUX.2-klein-base-4B 與對應 LoRA、線性頭權重
depth、normal、matting 會保留長寬比並可用 horizontal-flip TTA；refseg 固定在 512² 單次前向
已公開的是 demo/inference 版本，不是論文表格所用的完整評測流程

受益最大的人，會是研究 dense prediction、生成模型再利用、或者想測試 LoRA 能否把同一骨幹轉成多任務視覺讀出的團隊。相關模型核心是 black-forest-labs/FLUX.2-klein-base-4B，再疊加每任務 LoRA adapters；對想研究生成模型表示能否外借到視覺理解工序的人，這個項目相當值得留意。

GitHub

Categories: 開源, 香港科技大學, NVIDIA, Stable Diffusion, Image, txt2img, 影像處理, Dataset 數據集

Canvas360 把全景生成拉回可用水平

2026 年 7 月 10 日

最值得留意嘅地方，在於佢唔只想生成一張闊圖，而係想處理 360 度全景最常見嘅破綻：左右邊界接唔上、透視變形唔自然、補圖後空間結構散開。Canvas360 屬於影像生成框架，建基於 FLUX，處理嘅係 text-to-panorama image generation，同時延伸到 inpainting、outpainting、editing 同 style transfer 呢類全景工作流。

現有做法多數先把全景當成一般平面圖片生成，再靠後處理減少接縫；作者認為呢種範式忽略咗 panoramic projection 本身嘅幾何特性，所以容易喺邊界、深度關係同局部結構出現錯位。Canvas360 用 two-stage framework 重組呢件事：先做 geometry-aware pretraining，引入 parallel RGB-depth pretraining，再配合 continuous position encoding、circular latent padding 同 per-block feature synchronization，將 360 度連續性直接放入模型學習過程。

同類項目相比，Canvas360 嘅取向唔係單純追求更華麗嘅畫面，而係優先修正全景生成最影響可用性嘅一致性問題。項目亦補上 Canvas360Dataset，提供 1M paired panoramic samples，支援 style transfer、inpainting、outpainting 同 editing，反映作者唔止做單一模型改良，仲想連訓練資料結構一併補強。

核心定位係 FLUX-based framework，主打 text-to-panorama image generation 同全景補全
關鍵方法包括 geometry-aware pretraining、continuous position encoding、circular latent padding
已公開 inference code 同 training code，但 model weights 與 online demo 仍然未釋出
需要 base model black-forest-labs/FLUX.1-dev，並可配合自備 LoRA 跑生成或下游任務
相關比較對象包括 PanFusion、SMGD、PAR、WorldGen、HunyuanWorld、DiT360，以及 FLUX.1-Kontext-dev、FLUX.2-dev、Qwen-Image-Edit

測試同現階段較接近研究型項目而唔係即開即用服務。儲存庫已提供 inference.py 同 inference_downstream.py，代表你可以在本地環境配好 PyTorch、依賴套件、FLUX.1-dev 存取權同 LoRA 後，直接驗證文字生成全景，或者試全景補圖與延展；不過權重未公開，所以現時更適合研究團隊、全景影像工具開發者，或者想研究 360 度生成方法嘅人先行閱讀同跟進。現有介紹強調結果比多個舊方法更少接縫瑕疵、結構更清晰，但儲存庫內容未見完整量化指標表，判斷性能仍要等論文與權重進一步公開後先更穩陣。

項目主頁 · GitHub · Paper

Categories: 開源, 字節跳動, Stable Diffusion, Image, Python, 影像模型, 模型, 模型訓練, 視覺模型, 清華大學, 框架, Dataset 數據集

RDM：一步生成影像的新取向

2026 年 7 月 3 日

iRDM post-trains four-step FLUX.2 [klein] into a one-step generator at matched quality; GenEval and PickScore climb past

RDM 是一個一步式影像生成研究項目，也是面向 one-step visual generation 的訓練方法。它要解決的問題很直接：把原本需要多次採樣的生成流程，壓縮成一次 network evaluation，仍然盡量保住影像質素。

現有做法通常會依賴 online teacher、adversary，或者追蹤 trajectory 來蒸餾多步生成器；作者認為這類範式訓練成本高、流程複雜，亦容易被單一訊號牽著走。RDM 改用 Representation Distribution Matching，把生成圖與真實圖在多個 frozen pretrained encoders 之下的特徵分佈對齊，核心比較方式是 squared MMD with a Gaussian kernel，同時配合 Nyström attraction、within-batch repulsion，以及 joint image-text law。

這個取向和同類方法的差異，在於它不靠 online teacher、no adversary、no trajectory，訓練邏輯更像直接校準「生成分佈是否接近真實分佈」。作者亦刻意不用單一 encoder，而是用一組 frozen encoders（10 train + 4 held out），再用 proportional Lagrangian controller 平衡各個表示空間，這個設計明顯是想減少模型只迎合某一種評分器的問題。

README 已交代基本理解方式：安裝後可用 ImageNet-256 影像樹做訓練與驗證，也可沿 FLUX text-to-image 路線配合 COCO、GenEval、Pick-a-Pic 做評測；另有 Hugging Face demo 與 checkpoints，可直接看輸出效果。部署上它較像研究型訓練框架，不是即開即用的終端應用，較適合有 GPU 資源、想重現論文結果或做後訓練實驗的團隊。

性能數字有辨識度。RDM 報稱達到 one-step ImageNet state of the art，SW_r14 為 1.30；在 FLUX.2 [klein] 的 post-training 路線中，one-step 模型於 GenEval 達到 0.826，高於 four-step teacher 的 0.794，PickScore 亦升到 22.76，高過 teacher 的 22.58。相關模型與組件包括 FLUX.2 [klein]、open_clip、DreamSim，以及多個 frozen pretrained encoders；整體更適合關注模型訓練、生成效率與影像評測方法的研究或產品項目。

項目類型：研究型訓練方法／框架，重點在一步式影像生成
核心差異：不用 online teacher、adversary、trajectory，改做分佈匹配
測試方式：可用 ImageNet-256、COCO、GenEval、Pick-a-Pic 驗證結果
主要取捨：流程更乾淨，但仍需要資料準備、GPU 資源與完整評測環境
受益情境：想把多步生成器壓成單步模型的研究團隊與影像生成項目

項目主頁 · GitHub · 模型

Categories: 開源, Stable Diffusion, Image, txt2img, 影像模型, 模型訓練, 框架, Dataset 數據集

MrFlow：文字生成圖片提速新路線

2026 年 7 月 3 日

MrFlow 是一個訓練免除的圖像生成加速方法，屬於針對 flow-matching text-to-image diffusion models 的研究原型與實作。它要解決的問題很直接：高解析度出圖太慢，因此先在低解析度完成大部分生成，再用較短的高解析度修補流程補回細節。

現有多解析度加速方法，通常會在 latent space 做上採樣，或者只改動部分區域；作者認為這種固定範式容易帶來模糊感與 artifact。MrFlow 改用 pixel space 的 Real-ESRGAN 做超解析度，之後重新編碼、注入與 scheduler 一致的低強度雜訊，再做短步數 refinement，將昂貴的高解析度 denoising 成本，大幅轉移到較便宜的低解析度階段。

這個項目的取向相當務實，因為它不要求 finetuning、learned upsampler，亦唔需要 model-specific retraining 或 custom kernels，直接建立在 PyTorch、Diffusers 與既有 scheduler 控制之上。部署理解上，它比較像一條可插入現成模型流程的 sampling pipeline：先準備 Diffusers 相容環境、對應的預訓練模型權重，以及 Real-ESRGAN 的 x2 權重，再把 README 內示例腳本的 checkpoint 路徑換成本地設定即可。

效能數字是這個項目的核心賣點。資料指出，MrFlow 在 Qwen-Image 可做到超過 10x end-to-end speedup，論文亦提到相對加速前的 OneIG 差距可控制在 1% 以內；再配合 timestep-distilled models，例如 Pi-Flow 與 FLUX-schnell，整體加速可進一步去到 25x。這種設計也已展示可轉移到 Qwen-Image、FLUX.1-dev、FLUX.2 Klein 與 Z-Image family，代表它不是只綁死單一模型。

類型定位：訓練免除的 staged sampling 加速方法，唔係新底模本身
主要差異：避開 latent space 上採樣路線，改用 pixel space 超解析度加短程高解析度修補
部署重點：依賴 PyTorch、Diffusers、Transformers、Real-ESRGAN，並需自行配置模型與權重路徑
適合場景：要保留畫質、又想縮短生成時間的圖像生成團隊與研究人員
相關模型：Qwen-Image、FLUX.1-dev、FLUX.2 Klein、Z-Image、Pi-Flow、FLUX-schnell

MrFlow 最適合放在已有文字生成圖片流程的項目之中，作為加速層而不是完整替代品。它的限制亦很清楚：仍然依賴外部超解析度模型與既有 backbone 品質，重點在於重新分配算力成本，未必等於所有提示詞、所有畫風都能無代價複製原本高解析度長步數生成的結果。

GitHub · Paper

Categories: 開源, Qwen, NVIDIA, Stable Diffusion, Image, Python, txt2img, 中國

EO-WM：把衛星影像預報變成天氣驅動的世界模型

2026 年 6 月 28 日

這是一個結合物理知識的影片擴散世界模型（EO-WM），專門用於多光譜衛星影像的概率預測。整體目標是把地球觀測（Earth Observation, EO）預報重新定位為「部分可觀察、天氣驅動的世界建模」任務，在稀疏衛星上下文與未來氣象條件下預測地表動態，並支援災害監測、作物產量預估及植被變化追蹤等下游應用。

過去的 EO 預測方法分為兩類：決定式模型把不確定性壓縮成單一未來影像，擴散式方法則往往把天氣變量當成籠統的條件輸入。這兩種做法都難以正確反映「氣象條件如何改變地表狀態」這個核心問題，而且現有 benchmark 多聚焦於像素重建準確度，未能衡量模型在改變天氣條件時是否會產生方向正確的響應。EO-WM 為了解決這個落差，引入一個 EO 專屬 VAE 把稀疏衛星觀測編碼為潛在影片 token，再用擴散 Transformer（diffusion transformer）經由獨立條件路徑同時處理三種信號：氣候基線（climatological baseline）、天氣異常（weather anomaly）與累積物理壓力（cumulative stress），並持續將空間上下文重新注入影片 token 流。

在評測方面，作者提出兩個以 EarthNet2021 為基礎的診斷式 benchmark：Extreme Summer Benchmark 衡量極端熱浪與乾旱下植被退化的嚴重程度感知能力，引入 TN-MAE 與 Drop Amplitude Error；Seasonal Matched-Pair Benchmark 則衡量當天氣條件改變時預測方向與幅度是否正確，以 Divergence Reproduction Ratio、Directional Hit Rate 與 Paired Divergence Correlation 為指標。報告結果顯示 NDVI 下降幅度的預測誤差相對減少 5.63%，方向命中率相對提升 7.80%，同時在像素級 ENS、P-MAE、N-MAE 等指標上仍具競爭力。

這個項目對遙感研究者、農業監測團隊及氣候風險分析團隊特別有價值，因為它同時提供模型與基準資料，讓外界可在統一的評測框架下比較不同方法的天氣響應能力。從工程角度來看，架構設計強調物理分離條件與空間重注入，而非單純堆疊參數，這種取捨有助於提高極端情境下的可解釋性。需留意的是，目前 GitHub 倉庫主要釋出 benchmark CSV 與 Earthformer 參考評測腳本，模型權重與完整訓練流程屬於配套資源，重現完整結果仍需自行準備 EarthNet2021 的 extreme 與 seasonal 切分資料。

重點摘要：

重新定義 EO 預報範式：把衛星影像預測視為天氣驅動的世界建模，而非純粹的影像重建。
物理分離條件：天氣信號被拆分為基線、異常與累積壓力三條獨立條件路徑。
診斷式 benchmark：Extreme Summer 與 Seasonal Matched-Pair 兩個基準專門檢驗模型在天氣改變下的響應正確性。
可量化的天氣敏感度：NDVI 下降誤差降低 5.63%，方向命中率提升 7.80%，標準指標仍具競爭力。
目前釋出內容：以 benchmark CSV 與評測腳本為主，完整訓練流程需搭配 EarthNet2021 資料集。

GitHub · Paper

Categories: 開源, 香港, 香港大學, 香港理工大學, Stable Diffusion, 庫, 模型, 深度學習, 世界模型, 框架

DomainShuttle 開源：把主角穿梭到任何風格的影片

2026 年 6 月 26 日

DomainShuttle 是一個以 Wan2.2-T2V-A14B 為基底的 subject-driven text-to-video（主體驅動文字轉影片）框架，目標是讓用戶提供一張參考圖後，能在不同視覺風格與場景中維持同一角色的身份一致性。過去的 subject-driven 方法多在 in-domain（與訓練資料同域）下能保留主體細節，但一旦跨域到風格差異大的場景，主體往往走樣或失去身份特徵；DomainShuttle 把參考特徵與影片特徵解耦，並引入 domain attribute 建模與 intrinsic subject representation，試圖兼顧 in-domain fidelity 與 cross-domain editability。

開發團隊來自香港科技大學 C4G 實驗室，作者群包括 Nan Chen、Yiyang Cai、Rongchang Xie、Junwen Pan、Cheng Chen、Weinan Jia、Zhuowei Chen、Wen Zhou（項目負責人）、Zhenbang Sun 以及通訊作者 Wenhan Luo。等貢獻作者共同發表技術報告，並同時釋出 14B 規模的非官方權重與推理代碼。

先以 conda 建立 Python 3.10 環境並安裝 PyTorch 2.5.1（CUDA 12.4），接著執行 build_env_conda.sh。模型準備分兩步：先用 huggingface-cli 下載 Wan-AI 的 Wan2.2-T2V-A14B 作為基底模型，再下載 CNcreator0331/DomainShuttle_weight，最後將 VAE、configuration.json 等檔案移入指定的 ./models/Diffusion_Transformers/Wan2.2-DomainShuttle-A14B/ 目錄。原始資料未提供完整推論指令片段，相關細節需參考技術報告與項目頁面的後續說明。

從示範結果看，DomainShuttle 能在寫實人物、動漫風、Ghibli 風、3D 動畫風等不同域之間切換，同時保留臉部與服飾特徵，跨域 personalisation 效果明顯。適合短片創作、角色 IP 化、廣告分鏡與動畫預覽等需要「同一角色穿梭多場景」的團隊。需注意目前釋出的是非官方實作，且依賴 14B 規模的基座模型，部署對顯存要求較高。

重點摘要：

類型：subject-driven text-to-video 框架，建基於 Wan2.2-T2V-A14B
開發團隊：香港科技大學 C4G 實驗室，Wen Luo 為通訊作者
核心設計：解耦參考與影片特徵、加入 domain attribute 與 intrinsic subject representation
與同類差異：強調 cross-domain editability，補足過往方法跨域走樣的缺陷
資源：已釋出 14B 權重、技術報告與推理代碼，需 CUDA 12.4 環境

GitHub： https://github.com/HKUST-C4G/DomainShuttle

項目主頁： https://cn-makers.github.io/DomainShuttle/

模型： https://huggingface.co/CNcreator0331/DomainShuttle_weight

Categories: 開源, 香港, 香港科技大學, NVIDIA, Stable Diffusion, Video, Content Creator, 3D, IDE, Python, Python NLP, 動畫, 模型, 視覺模型, 視頻模型, 框架

Semantic Browsing：用樹狀圖掌控 AI 生圖的多樣性

2026 年 6 月 26 日

Semantic Browsing 是一篇發表於 ECCV 2026 的學術項目，由 Tel Aviv University 的 Sara Dorfman、Maya Vishnevsky、Omer Dahary、Or Patashnik 與 Daniel Cohen-Or 共同開發。它針對文字生成圖像模型在重複取樣時容易「語意塌縮」、產出過於雷同的問題，提出一套可控多樣性的工作流程。

這套方法的核心做法，是把多樣性從像素層級搬到文字層級。系統會先用多智能體（multi-agent）流程把使用者的提示擴寫成結構化的場景 JSON，記錄物件、屬性、互動與整體場景設定，再從中找出提示中未明確指定、但合理的變化軸心。每一次分支都對應一個明確的語意決定，例如角色、構圖或風格的差異，最終形成一棵可瀏覽的場景樹。

與一般常見做法相比，這個項目最值得留意的差異在於：變化不是來自隨機噪聲，而是來自可解讀的語意約束。樹狀結構讓使用者可以沿著特定分支往下探索，同時保留先前已固定的條件，方便在設計空間中做有意識的導覽。

重點摘要：

開發團隊：Tel Aviv University 的 Sara Dorfman、Maya Vishnevsky、Omer Dahary、Or Patashnik 與 Daniel Cohen-Or。
核心方法：以多智能體流程把提示展開為結構化 JSON 場景樹。
可控多樣性：每個分支對應一個明確的語意決定，而非隨機變化。
適用情境：概念設計、視覺探索、需要比較多個語意詮釋的創作流程。
目前狀態：程式碼尚未公開，僅釋出 arXiv 論文與項目頁。

使用方法詳細教學：

準備提示：先寫好一段文字提示，例如「A poster featuring animals」，提示中可以刻意留白部分細節，讓系統有空間展開變化。
進入項目頁：前往 Semantic Browsing 的官方網頁（saradorfman1.github.io/SemanticBrowsing-webpage/），等待互動介面載入。
送出提示並生成根節點：系統會先推論出一個初始場景詮釋，作為場景樹的根節點。
瀏覽與選擇變化軸心：介面會列出可變化的語意面向，例如角色、構圖、風格等，每個面向都會顯示目前值與替代選項。
展開分支：選定一個面向並挑選替代值後，系統會呼叫多智能體流程，在保留先前約束的前提下產生新的子節點與對應圖像。
沿著分支深入探索：可以重複步驟四與五，沿著感興趣的路徑繼續往下展開，逐步建立一棵專屬的設計樹。
匯出或記錄結果：若需要保留特定分支，可記下該節點的場景 JSON 或截圖，作為後續迭代或團隊溝通的依據。

由於程式碼尚未釋出，目前只能透過項目頁的示範介面體驗流程；待官方開源後，便能整合進 ComfyUI、Stable Diffusion 等本地生圖工作流。對於從事概念設計、視覺探索，或需要比較多個語意詮釋的創作者與研究人員來說，這套方法提供了一條比隨機抽樣更可控的探索路徑。

項目主頁： https://saradorfman1.github.io/SemanticBrowsing-webpage/

Paper： https://arxiv.org/pdf/2606.23679

Categories: 開源, ComfyUI, Stable Diffusion, Agentic, Image, 影像處理, 模型, 教學, 視覺模型

Page 1 of 3

1 2 3 Next »