HiDream-O1-Image：一個模型包辦生圖與改圖

HiDream-O1-Image 是一個開源影像生成模型，主打把文字、圖片像素和不同任務條件放進同一個系統處理。對一般用家來說，可以將它理解為一個不只會「生圖」，亦能處理改圖、角色一致化，甚至長文字排版的多功能工具。

實際使用上，它較適合拿來做文字生成圖片、按指令修改現有圖片，或者用同一角色、產品去延伸出不同場景。官方亦提供 Hugging Face 上的模型與線上體驗，因此未必一定要自行搭建環境先感受到效果。

這個專案最值得留意的創新，是它採用所謂 Pixel-Level Unified Transformer，聲稱不依賴外部 VAE 或分開的文字編碼器。簡單講，即是想用更統一的方法直接理解像素與文字，理論上有助減少不同模組之間的割裂，對複雜提示、版面安排和文字渲染會更有幫助。

支援text-to-image、圖片編輯、主體個人化等多種任務
可原生輸出最高 2048×2048，較適合需要細節的畫面
內建 reasoning-driven prompt agent，強調先處理布局與隱含需求
提供 8B 規模版本，並有 distilled 與 undistilled 變體

这个模型居然没有 VAE？实测 HiDream-O1 像素级统一 Transformer 的威力

Watch this video on YouTube

若你常做海報草圖、分鏡、品牌角色延伸，這類模型會特別實用；如果重視圖片內長文字、指定區域排版，HiDream-O1-Image 亦屬值得關注的一類。不過實際效果仍會受提示寫法、任務類型和版本選擇影響，尤其編輯任務方面，官方就建議優先考慮完整模型。

硬體需求

GPU：需要 CUDA 支援的 NVIDIA GPU 。模型本身有兩個版本 — 標準版（Full）和蒸餾版（Dev）。標準版需要 50 個推理步驟，蒸餾版則需要 28 個步驟，因此蒸餾版對硬體的需求更低。

根據社群資訊，使用 FP8 量化的蒸餾版本可以用約 10GB VRAM 的 GPU 運行。如果使用全精度模型（Full），VRAM 需求會更高，具體取決於生成的影像解析度（最高支持 2048×2048）。

軟體依賴

安裝後需要執行 pip install -r requirements.txt 。官方強烈建議安裝 flash-attn 以優化注意力運算，如果無法安裝，則需要手動編輯 models/pipeline.py 第 291 行，將 "use_flash_attn": True 改為 "use_flash_attn": False，否則推理會失敗。

推理模式選擇

Dev 模式（蒸餾版）：28 步，guidance scale 為 0.0，適合資源受限的環境
Full 模式（標準版）：50 步，guidance scale 為 5.0，品質更高但運算成本更大

網址 https://github.com/HiDream-ai/HiDream-O1-Image

網址 https://huggingface.co/HiDream-ai/HiDream-O1-Image