1 步出圖 SD Turbo 及 SDXL Turbo

Stability 示範 :https://clipdrop.co/stable-diffusion-turbo

SDXL-Turbo 不使用 guidance_scalenegative_prompt,因此我們停用它並設定 guidance_scale=0.0。模型產生尺寸為 512×512 的圖像,但更高的圖像尺寸也可以。只需一個步驟就足以產生高品質的影像。

SDXL-Turbo 是SDXL 1.0 的精煉版本,經過即時合成訓練。SDXL-Turbo 基於一種稱為對抗擴散蒸餾 (ADD) 的新穎訓練方法(請參閱 技術報告),該方法允許在高影像品質下以 1 到 4 個步驟對大規模基礎影像擴散模型進行取樣。這種方法使用分數蒸餾來利用大規模現成的影像擴散模型作為教師訊號,並將其與對抗性損失相結合,以確保即使在一個或兩個取樣步驟的低步驟狀態下也能確保高影像保真度。

Categories: Stable Diffusion, 軟件

Draw Things: 為 iPhone 及 Mac M1 進行優化的 Stable Diffusion XL

雖然 AppStore 上已有多個 Apps 以 Stable Diffusion 作為基楚應用,例如 Diffusion Bee, 但新版 Draw Things 可算是目前最齊功能、最接近 GitHub 上的 Automatic 1111 的 GUI 版,它甚至內建 ControlNet, 直接執行 SD 1.4, 1.5 及 XL Checkpoint 及 Lora 模型。

你亦可於 App 內直接下載上千個模型並自動轉換成支援 Apple 的 Core ML 引擎,優化執行 Transformer 架構模型。出圖速度比直接執行 Stable Diffusion WebUI 版更快。

#蘋果神經引擎

第一代 Apple 神經引擎 (ANE – Apple Neural Engine) 作為我們 2017 年旗艦機型 iPhone X 中 A11 晶片的一部分發布。它在半精度浮點數資料格式下的峰值吞吐量為 0.6 兆次浮點運算 (TFlops) ( float16 或FP16),並且它有效地支援了設備上的ML 功能,例如Face ID 和Memoji。

到 2021 年,第五代 16 核 ANE 的處理能力是原來的 26 倍,即 15.8 TFlops。神經引擎的可用性也從 2017 年的 iPhone 擴展到從 A12 晶片開始的 iPad,從 M1 晶片開始擴展到 Mac。Apple 神經引擎的演變。iPhone 13 Pro 上的 A15 Bionic 晶片上的 16 核神經引擎的峰值吞吐量為 15.8 teraflops,比 iPhone X 提升了 26 倍。

Categories: 軟件

通用和高保真音訊驅動的 3D 說話人臉合成

GeneFace是一個通用且高保真的音訊驅動3D說話人臉合成模型,該模型的官方 PyTorch 實現程式碼可以在 GitHub 上的 yerfor/GeneFace 存儲庫中找到(https://github.com/yerfor/GeneFace)。

GeneFace 的目標是生成具有良好的嘴唇同步和表情表達能力的說話人臉。該模型的推論流程非常直觀,並且能夠在不同音訊域中實現更好的嘴唇同步效果。您可以觀看 GeneFace 與以前基於 NeRF 的方法進行的清晰嘴唇同步比較的視頻,以更好地了解其效果。同時,您也可以訪問該項目的頁面以獲取更多詳細信息。

如果您想要快速開始使用 GeneFace,存儲庫中提供了預訓練模型和處理過的數據集。您可以按照存儲庫中的指南進行操作,進行模型推論或使用自己的目標人物視頻進行訓練。同時,存儲庫還提供了有關環境準備、數據集準備和模型訓練的詳細說明。

除了存儲庫中提供的 May.mp4 視頻外,GeneFace 還提供了其他 8 個目標人物視頻,這些視頻也是在實驗中使用的。您可以根據存儲庫中的指南,使用這些視頻進行自己的訓練。

Categories: 軟件

Krita-ai-diffusion 實時 A.I. 生成式人工智慧繪圖

互動式工作流程,其中人工智慧生成僅用作繪畫時的一種協同工具。

  • Inpaint:使用 Krita 的選擇工具標記區域並刪除或取代影像中的現有內容。簡單的文字提示可用於指導生成。
  • Outpaint:擴展畫布,選擇空白區域並自動填入與現有影像無縫融合的內容。
  • 生成:透過用文字或現有圖像描述它們,從頭開始創建新圖像。支援SD1.5和SDXL。
  • 優化:使用強度滑桿優化現有影像內容,而不是完全取代它。這也非常適合透過繪製(粗略)近似值並以高強度進行細化來為影像添加新內容!
  • 即時繪畫:讓人工智慧即時解讀您的畫布以獲得即時回饋。影片
  • 控制:直接使用草圖或線條藝術指導圖像創建。使用現有影像或 3D 場景的深度或法線貼圖。從快照傳送角色姿勢。使用分割圖控制構圖。
  • 決議:在任何決議下都能有效率地工作。該插件將自動使用適合 AI 模型的分辨率,並縮放它們以適合您的圖像區域。
  • 升級:將影像升級並豐富至 4k、8k 以上,而不會耗盡記憶體。
  • 作業佇列:根據硬體的不同,影像產生可能需要一些時間。該插件允許您在處理圖像時排隊和取消作業。
  • 歷史:並非每張圖像都會成為傑作。隨時預覽結果並瀏覽前幾代和提示。
  • 強大的預設設定:多功能的預設樣式預設允許簡單的 UI 覆蓋許多場景。
  • 自訂:建立您自己的預設 – 選擇穩定擴散檢查點、新增 LoRA、調整取樣器等。

[英文] 詳細教學:

This One Simple Plugin Adds Realtime AI Assistance to Krita

Categories: Image, 軟件, 工具, 教學

Stability 推出 Stable Diffusion SVD 視頻模型

2023 年 11 月 21 日

  • Stability 出於研究目的發佈了穩定視頻擴散(Stable Video Diffusion),一種圖像到視頻的模型:
    • SVD:該模型經過訓練,可以在給定相同大小的上下文幀的情況下產生分辨率為 576×1024 的 14 幀。我們使用 SD 2.1 中的標準影像編碼器,但用時間感知的 deflickering decoder.
    • SVD-XT:與架構相同,SVD但針對 25 幀生成進行了微調。
    • 我們提供了一個 Streamlit 演示scripts/demo/video_sampling.py和一個獨立的 Python 腳本scripts/sampling/simple_video_sample.py,用於兩個模型的推理。

上圖評估了使用者對 GEN-2PikaLabs 上的 SVD-Image-to-Video 的偏好。 就視訊品質而言,SVD-Image-to-Video 受到很多人青睞。 有關用戶研究的詳細信息,請參閱研究論文

Stable Video Diffusion Install
Categories: Stable Diffusion, 軟件


[免費] AnimateDiff 動畫

AnimateDiff 是一個由上海人工智能實驗室、香港中文大學和美國史丹福大學聯合開發的項目。它提供了一個能夠以視覺方式呈現 GitHub 倉庫差異的工具。你可以使用 Stable Diffusion 或單獨運作此工具。

安裝和使用 AnimateDiff 的詳細教程可以在以下鏈接中找到:

此外,如果你更喜歡通過視頻來學習,你還可以在以下鏈接中找到中文的 YouTube 教學:

希望這些資源能幫助你了解和使用 AnimateDiff。

Categories: 香港中文大學, Stable Diffusion, 軟件

LLaVA 大型多模態模型

威斯康星 – 麥迪遜大學,微軟研究院,哥倫比亞大學的一群研究者發佈了LLaVA多模態大模型。LLaVA是一種新穎的端到端訓練的大型多模態模型,結合了視覺編碼器和Vicuna對於通用的視覺和語言理解, 實現令人印象深刻的聊天功能。

作者提供測試版 Demo,你可直接用手機測試。

(more…)
Categories: 軟件, 工具, 線上服務

T2I-Adapter – 類似 ControlNet 的可控性模型

T2I-Adapter

兼容 Stable Diffusion 1.6 及 XL 版。支援 T2I(Text-to-Image)、草圖、canny、線稿圖、深度圖以及 OpenPose 骨骼圖 …

T2I-Adapter 由騰訊 ARC 團隊開發,並於 2023 年 3 月在 GitHub 上開源。T2I-Adapter 是一個基於深度學習的模型,可以將文字轉換為圖像,同時保持一定的可控性。

T2I-Adapter 的工作原理是使用一個生成式對抗網路 (GAN) 來生成圖像。GAN 由兩個模型組成:一個生成器和一個判別器。生成器負責生成圖像,判別器負責判斷圖像是真是假。

T2I-Adapter 在一個包含大量文字和圖像的數據集上訓練。訓練過程中,生成器學習生成與文字描述相匹配的圖像。判別器學習區分真實圖像和生成圖像。

T2I-Adapter 可以生成各種圖像,包括風景、人物、物體等。它還可以生成具有特定風格的圖像,例如卡通、油畫等。

T2I-Adapter 的開發團隊由以下人組成:

  • 劉宇軒,騰訊 ARC 團隊的工程師
  • 劉洋,騰訊 ARC 團隊的工程師
  • 王鑫,騰訊 ARC 團隊的工程師
  • 王子航,騰訊 ARC 團隊的工程師
  • 張立峰,騰訊 ARC 團隊的主管

T2I-Adapter 是一個強大的工具,可用於各種創意應用,例如圖像生成、藝術創作等。

Categories: Stable Diffusion, 軟件, 工具

Wav2Lip (Lipsync 工具)

ChatGPT, Bard, Claude2 比較

[ACM Multimedia, 2020] Wav2Lip: Accurately Lip-syncing Videos In The Wild
Wav2Lip 簡介(英文)

Open In Colab

我從三個不同的 A.I. 平台嘗試找更多關於 Wav2Lip 的資料時出現如下的情況:

(more…)
Categories: 軟件, 工具

Page 4 of 5
1 2 3 4 5