軟件 – Page 5 – Infer News

LaVie 高質量視頻生成框架

GitHub

這是個高質量視頻生成框架，使用級聯潛在擴散模型（Cascaded Latent Diffusion Models）進行文本到視頻（Text-to-Video）生成

這是個高質量視頻生成框架，使用級聯潛在擴散模型（Cascaded Latent Diffusion Models）進行文本到視頻（Text-to-Video）生成，是Vchitect視頻生成系統的主要組成部分。項目提供了使用PyTorch實現的LaVie的官方代碼。

您可以從GitHub頁面下載。通過文本描述，生成與文本相對應的視頻。項目還提供了預訓練模型和示例代碼，助您進行推理和生成自己的視頻。

LaVie是一個基於機器學習的視頻生成框架，它使用了一種稱為級聯潛在擴散模型（Cascaded Latent Diffusion Models）的技術。這種模型可以通過將文本描述轉化為視頻序列來實現文本到視頻的生成。

LaVie項目的GitHub頁面還提供了示例代碼和相關配置文件，可以幫助您更好地理解和使用該框架。您可以根據示例代碼進行自己的實驗和應用。

請注意，LaVie的使用可能需要具備一定的機器學習和深度學習知識，以及相應的計算資源。如果您對LaVie感興趣，建議您仔細閱讀項目的文檔和代碼，並根據需要進行相應的學習和實踐。

Categories: 軟件

1 步出圖 SD Turbo 及 SDXL Turbo

Stabilityai 推出 sdxl-turbo

SDXL-Turbo 是一種快速生成文字到圖像的模型，可在單一網路評估中根據文字提示合成逼真的圖像。

Stability 示範：https://clipdrop.co/stable-diffusion-turbo

SDXL-Turbo 不使用 guidance_scale 或 negative_prompt，因此我們停用它並設定 guidance_scale=0.0。模型產生尺寸為 512×512 的圖像，但更高的圖像尺寸也可以。只需一個步驟就足以產生高品質的影像。

SDXL-Turbo 是SDXL 1.0 的精煉版本，經過即時合成訓練。SDXL-Turbo 基於一種稱為對抗擴散蒸餾 (ADD) 的新穎訓練方法（請參閱技術報告），該方法允許在高影像品質下以 1 到 4 個步驟對大規模基礎影像擴散模型進行取樣。這種方法使用分數蒸餾來利用大規模現成的影像擴散模型作為教師訊號，並將其與對抗性損失相結合，以確保即使在一個或兩個取樣步驟的低步驟狀態下也能確保高影像保真度。

Categories: Stable Diffusion, 軟件

Draw Things: 為 iPhone 及 Mac M1 進行優化的 Stable Diffusion XL

完全免費：全中文介面並直接支援 SD 1.5 及 XL 模型，

基於流行的穩定擴散模型，Draw Things 可協助您在幾分鐘而不是幾天內建立您想要的影像。

雖然 AppStore 上已有多個 Apps 以 Stable Diffusion 作為基楚應用，例如 Diffusion Bee, 但新版 Draw Things 可算是目前最齊功能、最接近 GitHub 上的 Automatic 1111 的 GUI 版，它甚至內建 ControlNet, 直接執行 SD 1.4, 1.5 及 XL Checkpoint 及 Lora 模型。

你亦可於 App 內直接下載上千個模型並自動轉換成支援 Apple 的 Core ML 引擎，優化執行 Transformer 架構模型。出圖速度比直接執行 Stable Diffusion WebUI 版更快。

#蘋果神經引擎

第一代 Apple 神經引擎 (ANE – Apple Neural Engine) 作為我們 2017 年旗艦機型 iPhone X 中 A11 晶片的一部分發布。它在半精度浮點數資料格式下的峰值吞吐量為 0.6 兆次浮點運算 (TFlops) （ float16 或FP16），並且它有效地支援了設備上的ML 功能，例如Face ID 和Memoji。

到 2021 年，第五代 16 核 ANE 的處理能力是原來的 26 倍，即 15.8 TFlops。神經引擎的可用性也從 2017 年的 iPhone 擴展到從 A12 晶片開始的 iPad，從 M1 晶片開始擴展到 Mac。Apple 神經引擎的演變。iPhone 13 Pro 上的 A15 Bionic 晶片上的 16 核神經引擎的峰值吞吐量為 15.8 teraflops，比 iPhone X 提升了 26 倍。

Categories: 軟件

通用和高保真音訊驅動的 3D 說話人臉合成

GeneFace：通用和高保真音訊驅動的 3D 說話人臉合成

Arxiv Paper: https://arxiv.org/abs/2301.13430Source Code: https://github.com/yerfor/GeneFaceOpenReview Discussion: https://openreview.net/forum?id=YfwMIDhPccD

GeneFace是一個通用且高保真的音訊驅動3D說話人臉合成模型，該模型的官方 PyTorch 實現程式碼可以在 GitHub 上的 yerfor/GeneFace 存儲庫中找到（https://github.com/yerfor/GeneFace)。

GeneFace 的目標是生成具有良好的嘴唇同步和表情表達能力的說話人臉。該模型的推論流程非常直觀，並且能夠在不同音訊域中實現更好的嘴唇同步效果。您可以觀看 GeneFace 與以前基於 NeRF 的方法進行的清晰嘴唇同步比較的視頻，以更好地了解其效果。同時，您也可以訪問該項目的頁面以獲取更多詳細信息。

如果您想要快速開始使用 GeneFace，存儲庫中提供了預訓練模型和處理過的數據集。您可以按照存儲庫中的指南進行操作，進行模型推論或使用自己的目標人物視頻進行訓練。同時，存儲庫還提供了有關環境準備、數據集準備和模型訓練的詳細說明。

除了存儲庫中提供的 May.mp4 視頻外，GeneFace 還提供了其他 8 個目標人物視頻，這些視頻也是在實驗中使用的。您可以根據存儲庫中的指南，使用這些視頻進行自己的訓練。

Categories: 軟件

Krita-ai-diffusion 實時 A.I. 生成式人工智慧繪圖

開源 GitHub – krita-ai-diffusion

免費的 Krita 圖像處理軟件使用 AI 生成圖像

互動式工作流程，其中人工智慧生成僅用作繪畫時的一種協同工具。

Inpaint：使用 Krita 的選擇工具標記區域並刪除或取代影像中的現有內容。簡單的文字提示可用於指導生成。
Outpaint：擴展畫布，選擇空白區域並自動填入與現有影像無縫融合的內容。
生成：透過用文字或現有圖像描述它們，從頭開始創建新圖像。支援SD1.5和SDXL。
優化：使用強度滑桿優化現有影像內容，而不是完全取代它。這也非常適合透過繪製（粗略）近似值並以高強度進行細化來為影像添加新內容！
即時繪畫：讓人工智慧即時解讀您的畫布以獲得即時回饋。看影片
控制：直接使用草圖或線條藝術指導圖像創建。使用現有影像或 3D 場景的深度或法線貼圖。從快照傳送角色姿勢。使用分割圖控制構圖。
決議：在任何決議下都能有效率地工作。該插件將自動使用適合 AI 模型的分辨率，並縮放它們以適合您的圖像區域。
升級：將影像升級並豐富至 4k、8k 以上，而不會耗盡記憶體。
作業佇列：根據硬體的不同，影像產生可能需要一些時間。該插件允許您在處理圖像時排隊和取消作業。
歷史：並非每張圖像都會成為傑作。隨時預覽結果並瀏覽前幾代和提示。
強大的預設設定：多功能的預設樣式預設允許簡單的 UI 覆蓋許多場景。
自訂：建立您自己的預設 – 選擇穩定擴散檢查點、新增 LoRA、調整取樣器等。

[英文] 詳細教學：

This One Simple Plugin Adds Realtime AI Assistance to Krita

Watch this video on YouTube

Categories: Image, 軟件, 工具, 教學

Stability 推出 Stable Diffusion SVD 視頻模型

SVD-Image-to-Video

Generative Models by Stability AI. Contribute to Stability-AI/generative-models development by creating an account on GitHub.

2023 年 11 月 21 日

Stability 出於研究目的發佈了穩定視頻擴散（Stable Video Diffusion），一種圖像到視頻的模型：
- SVD：該模型經過訓練，可以在給定相同大小的上下文幀的情況下產生分辨率為 576×1024 的 14 幀。我們使用 SD 2.1 中的標準影像編碼器，但用時間感知的 deflickering decoder.
- SVD-XT：與架構相同，SVD但針對 25 幀生成進行了微調。
- 我們提供了一個 Streamlit 演示scripts/demo/video_sampling.py和一個獨立的 Python 腳本scripts/sampling/simple_video_sample.py，用於兩個模型的推理。