影像模型 – Page 3

OneStory – I2V 生成多鏡組合

現實世界的視訊敘事往往由多個鏡頭組成——這些鏡頭表面上不連續，但在語義上彼此關聯，共同構成完整且連貫的故事。然而，現有的多鏡頭視訊生成（Multi-Shot Video Generation, MSV）方法難以有效捕捉長距離的跨鏡頭語意關聯，主要因其依賴有限的時間窗口或單關鍵影格條件，導致在複雜敘事場景中表現受限。

為此，Meta 提出 OneStory，一種可同時建模全局語義與緊湊上下文的多鏡頭生成方法，實現一致且可擴展的長篇敘事生成。OneStory 將 MSV 問題重新定義為「下一鏡頭生成」任務，基於預訓練的影像轉影片（Image-to-Video, I2V）模型進行強視覺條件化，並透過自回歸方式生成鏡頭序列。

Categories: 影像模型, 影像處理

TwinFlow-Qwen-Image-v1.0 極速生成影像框架

TwinFlow 利用自對抗流實現大型模型的一步生成框架，是一個能夠實現高品質單步和少步生成而不會造成管道臃腫的框架。

值得注意一般大型多模態模型為了取得了驚人的生成能力，代價十分高昂：因為推理效率低。標準的擴散模型和流動匹配模型通常需要50-100 次非特徵提取 (NFE)才能產生一幅影像。

Categories: 影像模型, 開源

WindowSeat 相片修復

華為 Bayer Lab 在 Hugging Face 上發布的 WindowSeat (開源)應用，採用 Alibaba 的 Qwen-Image-Edit 2509 模型，主要用於移除單張圖像中的窗戶反射。

WindowSeat 自動產生無反射的乾淨版本，專門針對窗戶、飛機、商場或辦公室玻璃反射設計。它基於擴散轉換器（DiT）框架，透過單步潛在擴散實現端到端反射移除。

Categories: 阿里巴巴, 華為, 影像模型, 影像處理

ComfyUI LongCat Image Edit 實測安裝教學

ComfyUI LongCat Image Edit Workflow: Can It Beat Nano Banana Pro?

Watch this video on YouTube

LongCat-Image-Edit 模型

這個模型主打中英雙語精準編輯、保持未編輯區域的一致性（構圖、材質、色調、人臉一致）

Categories: 影像模型, 影像處理

隱藏版 Nano Banana Pro 提示詞！(第二部) 教學 2026

I Found HIDDEN Nano Banana Pro Prompts No One Shares! (Part 2) | Nano Banana Pro Tutorial 2026

Categories: Google, NanoBanana, 影像模型, 影像處理

Kling01 vs Google Flow Video 模型比較

Cinematic AI Tutorial Showdown: Kling O1 vs. Nano Banana (Google Flow)

Categories: 影像模型, 影像處理

ComfyUI 版 Z-Image

Z Image Turbo 支持 ComfyUI，它採用 qwen_3_4b.safetensors 的 Text encoder 及 Flux 1 VAE 。

Z-Image 是一款功能強大且高效的影像生成模型，擁有60 億個參數。目前共有三個版本：

🚀 Z-Image-Turbo – Z-Image 的精簡版，僅需8 次函數評估 (NFE)，即可達到甚至超越領先競爭對手的性能。它在企業級 H800 GPU 上可實現⚡️亞秒級推理延遲⚡️，並能輕鬆適配16G 顯存的消費級設備。它在照片級圖像生成、雙語文字渲染（中英文）以及強大的指令執行能力方面表現卓越。

🧱 Z-Image-Base – 未經精簡的基礎模型。透過發布此版本，我們旨在充分釋放社群驅動的微調和自訂開發的潛力。

✍️ Z-Image-Edit – Z-Image 的一個衍生版本，專為影像編輯任務而最佳化。它支援創意圖像到圖像的生成，並具備強大的指令跟隨功能，允許根據自然語言提示進行精確編輯。

Flux 2 Was Too Heavy… But Z-Image FIXED Everything — Smaller • Faster • More Realistic!

Watch this video on YouTube

Categories: 阿里巴巴, 影像模型, 開源

OVI 11B 低 VRAM 顯卡上做 10 秒影片

影片教你怎樣用「ComfyUI + OVI 11B」在低 VRAM 顯示卡上做 10 秒有畫又有聲嘅影片生成功能，重點係一步步教你放啱模型檔、設定 workflow，同埋用 LoRA 喺低 steps 都保持畫質。

ComfyUI OVI Workflow: Text & Image to 10s Video on Low VRAM

Watch this video on YouTube

主要功能

用 ComfyUI 的 OVI workflow，一套 graph 就可以同時支援「text to video」同「image to video」，唔需要兩個 workflow。
支援 OVI 11B FP8 或 BF16，針對低 VRAM / 中高 VRAM 有唔同精度選擇。
一次 render 就生成 10 秒影片連同步音訊，包括對白同環境聲。

Categories: 阿里巴巴, 影像模型, 教學, 數字人

ComfyUI Fusion LoRA 教學

ComfyUI Tutorial Fusion LoRA Easy Compositing

Categories: ComfyUI, 影像模型, 影像處理, 開源

视频也能 P Comfyui 最强视频工作流

视频也能P Comfyui最强视频工作流三连发

Categories: ComfyUI, 影像模型, 影像處理, 開源

Page 3 of 6

« Previous 1 2 3 4 5 6 Next »