MangaNinja 優質線稿圖像上色

MangaNinja 的主要設計目標是基於協助線稿圖像上色。它採用了幾個關鍵技術:區塊隨機置換模組(patch shuffling module),點驅動控制方案(point-driven control scheme)。實驗結果顯示,MangaNinja 在色彩準確度和生成圖像質量方面明顯優於其他現有的非生成式著色方法(如 BasicPBC)、一致性生成方法(如 IP-Adapter)以及 AnyDoor。總結來說,MangaNinja 透過區塊隨機置換模組和點驅動控制方案實現精確的線稿著色。它不僅可以處理單一參考圖像,還可以利用多個參考圖像進行著色,並且可以處理參考圖像與線稿之間存在差異的情況。此外,MangaNinja 的互動式控制功能,允許使用者更精確地控制著色結果。

MangaNinja: Line Art Colorization with Precise Reference Following

HuggingFace 模型下載

Categories: 工具, 開源, 影像處理, 模型

STAR 提升真實世界影片的解析度

一種名為 STAR(Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution) 的新方法,用於提升真實世界影片的高解析度。STAR 的核心概念是將文字轉影片 (T2V) 模型整合到影片超解析度任務中,藉此改善時間一致性並提升影片品質。不同於以往僅使用靜態影像訓練的模型,STAR 利用 T2V 模型捕捉影片的動態特性。為了解決真實世界影片中複雜退化造成的瑕疵和 T2V 模型的高生成能力可能導致的保真度下降問題,STAR 提出了局部資訊增強模組 (LIEM) 和動態頻率 (DF) 損失函數,有效降低瑕疵並提升細節還原度和時間一致性,最終達成更逼真且高品質的影片超解析度結果。 STAR 也提供了與其他先進方法的比較,驗證了 STAR 的有效性。

在 STAR 的研究中,CogVideoX 是被引用的基準模型之一。研究人員來自:南京大學字節跳動、西南大學。總括而言,時空增強是 STAR 系統的核心概念,它通過整合 T2V 模型,並引入 LIEM 和 DF Loss 來克服真實世界影片超解析度中的挑戰,實現更高質量的影片重建。這使得 STAR 能夠有效地處理複雜的退化,並產生具有良好時空一致性和高保真度的超解析度影片。

Categories: 工具, 影像處理, 模型

Google 推出 PaliGemma 2 視覺語言模型

一個強大的視覺語言模型。它基於 Gemma 2 模型,新增了視覺處理能力,並提供多種模型尺寸和解析度以供選擇,用家可根據任務需求調整。PaliGemma 2 的亮點包括更長的內容生成能力,以及在化學辨識、樂譜辨識等領域的領先表現。

PaliGemma 2 是一個強大的視覺語言模型,PaliGemma 的進階版本,主要差異在於其效能提升與功能擴展。以下列出兩者之間的主要差異:

  • 擴展性:PaliGemma 2 提供多種模型尺寸(3B、10B、28B 參數)和解析度(224px、448px、896px),能針對不同任務優化效能。
  • 詳細描述能力:PaliGemma 2 不僅能識別影像中的物件,更能產生詳細且符合情境的影像描述,包含動作、情緒和場景的整體敘述。
  • 擴展應用領域:研究顯示,PaliGemma 2 在化學式辨識、樂譜辨識、空間推理和胸部 X 光報告生成方面表現出色。
  • 易於升級:PaliGemma 2 設計為 PaliGemma 的直接替換,大多數任務都能立即獲得效能提升,且不需要大幅修改程式碼。
  • 易於微調:PaliGemma 2 的彈性使其能針對特定任務和數據集進行微調,讓使用者可以根據自身需求客製化其功能。

此外,PaliGemma 2 增強了視覺能力。您可以在 Hugging Face 上找到預訓練模型和程式碼,並透過詳細的說明文件和範例筆記本將這些工具整合到您的專案中。

Categories: 影像處理, 多模態模型, 模型, Medical醫學

Comfy-WaveSpeed 高速圖像生成

Comfy-WaveSpeed 目標是為 ComfyUI 圖像生成工具提供全面、靈活且快速的推論優化方案。核心功能包含動態快取機制(First Block Cache),能透過重用先前計算結果來加速運算,以及增強版的 torch.compile,用以提升模型編譯效率。 專案目前仍在開發中(WIP),支援多種模型,例如 FLUX 和 LTXV,並提供使用教學和示範工作流程。 整體而言,Comfy-WaveSpeed 旨在提升 ComfyUI 的圖像生成速度,同時盡可能維持圖像品質。

以下影片是提升 ComfyUI 效能的教學,重點在於加速 AI 影像與影片生成的流程。教學內容涵蓋 Comfy WaveSpeed 的安裝設定、PyTorch 和 CUDA 的記憶體優化技巧、GGUF量化和模型快取的步驟指南,以及使用 Hunyuan Videos 和 Flux 展示效能提升的實例。 其目標在於幫助使用者解決 AI 生成任務中常見的漫長生成時間和記憶體瓶頸問題,並透過 Purge VRAM 等方法確保系統穩定運行。

ComfyUI WaveSpeed Hunyuan Video - Optimize for Any Local AI Video Generate!
Categories: ComfyUI, 影像處理, 教學

ComfyUI 桌面應用程式 v0.4.5

一個能獨立執行的 ComfyUI 版本,內含 ComfyUI、ComfyUI_frontend、ComfyUI-Manager 和 uv 等元件,並自動安裝 Python 庫。同時詳細說明了不同作業系統(Windows、macOS、Linux)下的安裝路徑、檔案結構,以及開發者設定和建置流程,包含 Python版本、Node.js 和 Yarn 的安裝與使用,以及如何使用 comfy-cli 工具安裝 ComfyUI 資源和相依套件。此外,它也提及了錯誤回報機制,強調只收集未處理例外和原生程式崩潰的堆疊追蹤,不會傳送個人資料、工作流程或日誌,並使用 Sentry 進行錯誤報告。核心目的是提供 ComfyUI 桌面應用的安裝、設定、開發和發佈指南,著重於跨平台相容性和開發環境的建置。

Categories: ComfyUI, 影像處理


Hunyuan 影片生成詳解

Fast Video Framework 大幅提升本地 AI 影片生成速度,同時維持高畫質。 透過 LCM 取樣和 LoRA 整合,讓 Hunyuan Video 和 Mochi One Preview 等模型在一般家用電腦上也能快速運作,並減少資源消耗。 片中以 ComfyUI 為例,逐步示範如何設定與使用,包含壓縮儲存、整合 LoRA 模型等步驟,讓使用者能輕鬆高效生成各種風格的影片。

Hunyuan Video In ComfyUI With FastVideo Framework To Optimize Performance For Local AI Video Model
Categories: ComfyUI, 影像處理, 教學


Whisk – Google Deepmind 新整合

Google Labs 宣佈了幾個重要更新。除影片生成外,Whisk 最受矚目!

Google 推出了Veo 2 和 Imagen 3 的改良版本,分別在影片和圖片生成方面達到業界頂尖水準,並整合到 VideoFX 和 ImageFX 工具中。 此外,一個名為 Whisk 的新工具也正式亮相,它允許使用者以圖片作為提示,結合 Imagen 3 和 Gemini 的技術,創造出獨特的影像。 文章最後還介紹了這些工具的應用範圍以及未來發展計畫,例如在 YouTube Shorts 和 Vertex AI 上的整合。 整體而言,文章旨在展示Google在AI影像與影片生成技術上的最新進展,以及其對提升使用者創造力和拓展應用場景的努力。

Categories: 影像處理, 多模態模型, 新聞


Page 4 of 6
1 2 3 4 5 6