1 步出圖 SD Turbo 及 SDXL Turbo

Stability 示範 :https://clipdrop.co/stable-diffusion-turbo

SDXL-Turbo 不使用 guidance_scalenegative_prompt,因此我們停用它並設定 guidance_scale=0.0。模型產生尺寸為 512×512 的圖像,但更高的圖像尺寸也可以。只需一個步驟就足以產生高品質的影像。

SDXL-Turbo 是SDXL 1.0 的精煉版本,經過即時合成訓練。SDXL-Turbo 基於一種稱為對抗擴散蒸餾 (ADD) 的新穎訓練方法(請參閱 技術報告),該方法允許在高影像品質下以 1 到 4 個步驟對大規模基礎影像擴散模型進行取樣。這種方法使用分數蒸餾來利用大規模現成的影像擴散模型作為教師訊號,並將其與對抗性損失相結合,以確保即使在一個或兩個取樣步驟的低步驟狀態下也能確保高影像保真度。


Draw Things: 為 iPhone 及 Mac M1 進行優化的 Stable Diffusion XL

雖然 AppStore 上已有多個 Apps 以 Stable Diffusion 作為基楚應用,例如 Diffusion Bee, 但新版 Draw Things 可算是目前最齊功能、最接近 GitHub 上的 Automatic 1111 的 GUI 版,它甚至內建 ControlNet, 直接執行 SD 1.4, 1.5 及 XL Checkpoint 及 Lora 模型。

你亦可於 App 內直接下載上千個模型並自動轉換成支援 Apple 的 Core ML 引擎,優化執行 Transformer 架構模型。出圖速度比直接執行 Stable Diffusion WebUI 版更快。

#蘋果神經引擎

第一代 Apple 神經引擎 (ANE – Apple Neural Engine) 作為我們 2017 年旗艦機型 iPhone X 中 A11 晶片的一部分發布。它在半精度浮點數資料格式下的峰值吞吐量為 0.6 兆次浮點運算 (TFlops) ( float16 或FP16),並且它有效地支援了設備上的ML 功能,例如Face ID 和Memoji。

到 2021 年,第五代 16 核 ANE 的處理能力是原來的 26 倍,即 15.8 TFlops。神經引擎的可用性也從 2017 年的 iPhone 擴展到從 A12 晶片開始的 iPad,從 M1 晶片開始擴展到 Mac。Apple 神經引擎的演變。iPhone 13 Pro 上的 A15 Bionic 晶片上的 16 核神經引擎的峰值吞吐量為 15.8 teraflops,比 iPhone X 提升了 26 倍。


通用和高保真音訊驅動的 3D 說話人臉合成

GeneFace是一個通用且高保真的音訊驅動3D說話人臉合成模型,該模型的官方 PyTorch 實現程式碼可以在 GitHub 上的 yerfor/GeneFace 存儲庫中找到(https://github.com/yerfor/GeneFace)。

GeneFace 的目標是生成具有良好的嘴唇同步和表情表達能力的說話人臉。該模型的推論流程非常直觀,並且能夠在不同音訊域中實現更好的嘴唇同步效果。您可以觀看 GeneFace 與以前基於 NeRF 的方法進行的清晰嘴唇同步比較的視頻,以更好地了解其效果。同時,您也可以訪問該項目的頁面以獲取更多詳細信息。

如果您想要快速開始使用 GeneFace,存儲庫中提供了預訓練模型和處理過的數據集。您可以按照存儲庫中的指南進行操作,進行模型推論或使用自己的目標人物視頻進行訓練。同時,存儲庫還提供了有關環境準備、數據集準備和模型訓練的詳細說明。

除了存儲庫中提供的 May.mp4 視頻外,GeneFace 還提供了其他 8 個目標人物視頻,這些視頻也是在實驗中使用的。您可以根據存儲庫中的指南,使用這些視頻進行自己的訓練。


Krita-ai-diffusion 實時 A.I. 生成式人工智慧繪圖

互動式工作流程,其中人工智慧生成僅用作繪畫時的一種協同工具。

  • Inpaint:使用 Krita 的選擇工具標記區域並刪除或取代影像中的現有內容。簡單的文字提示可用於指導生成。
  • Outpaint:擴展畫布,選擇空白區域並自動填入與現有影像無縫融合的內容。
  • 生成:透過用文字或現有圖像描述它們,從頭開始創建新圖像。支援SD1.5和SDXL。
  • 優化:使用強度滑桿優化現有影像內容,而不是完全取代它。這也非常適合透過繪製(粗略)近似值並以高強度進行細化來為影像添加新內容!
  • 即時繪畫:讓人工智慧即時解讀您的畫布以獲得即時回饋。影片
  • 控制:直接使用草圖或線條藝術指導圖像創建。使用現有影像或 3D 場景的深度或法線貼圖。從快照傳送角色姿勢。使用分割圖控制構圖。
  • 決議:在任何決議下都能有效率地工作。該插件將自動使用適合 AI 模型的分辨率,並縮放它們以適合您的圖像區域。
  • 升級:將影像升級並豐富至 4k、8k 以上,而不會耗盡記憶體。
  • 作業佇列:根據硬體的不同,影像產生可能需要一些時間。該插件允許您在處理圖像時排隊和取消作業。
  • 歷史:並非每張圖像都會成為傑作。隨時預覽結果並瀏覽前幾代和提示。
  • 強大的預設設定:多功能的預設樣式預設允許簡單的 UI 覆蓋許多場景。
  • 自訂:建立您自己的預設 – 選擇穩定擴散檢查點、新增 LoRA、調整取樣器等。

[英文] 詳細教學:

This One Simple Plugin Adds Realtime AI Assistance to Krita


自家部署訓練中文大語言模型

GitHub 專案專注中文語言模型,並提供相關的程式碼和文件。

這個專案的目的是讓你能夠在本地的 CPU 或 GPU 上進行中文語言模型的訓練和部署。LLaMA 是一種大型語言模型,而 Alpaca 則是一種輕量級語言模型。透過這些架構,您可以建立和訓練自己的中文語言模型,應用於各種自然語言處理任務,例如文本生成、機器翻譯、情感分析等。

在該專案的 GitHub 頁面上,您可以找到詳細的文件和程式碼示例,以協助您開始使用這些模型。您也可以在專案上進行提問和討論,與其他開發者交流經驗和想法。不管您是想進行語言模型的研究、實驗,或者應用到實際項目中,這個專案都提供了有價值的資源和支援。

專案在 GitHub 上托管,您可以自由查看、下載和貢獻程式碼,以及參與社群討論。


Lyria 改變未來的音樂創作方法

從爵士樂到重金屬,從電子音樂到歌劇,音樂是一種深受人們喜愛的創意表達形式。到目前為止,由於歌詞、旋律、節奏和人聲複雜且層次豐富,創作引人入勝的音樂對於人工智慧 (AI) 系統來說尤其具有挑戰性。

今天 與 YouTube 合作,宣布推出 Google DeepMind 的 Lyria,這是我們迄今為止最先進的人工智慧音樂生成模型,以及兩項旨在為創造力開闢新遊樂場的人工智慧實驗:

  • Dream Track – YouTube Shorts 中的一項實驗,旨在透過音樂創作幫助加深藝術家、創作者和粉絲之間的聯繫。
  • 音樂人工智慧工具——我們與藝術家、歌曲作者和製作人一起設計的一套工具,以幫助加強他們的創作過程。

為了開發這些項目,我們匯集了來自 Google 各地的技術專家以及眾多世界知名藝術家和歌曲作者,共同探索生成音樂技術如何負責任地塑造音樂創作的未來。我們很高興能夠建立新技術,以增強專業音樂家和藝術家社群的工作,並為音樂的未來做出積極貢獻。

Google DeepMind,前稱DeepMind科技(DeepMind Technologies Limited)是一家英國的人工智慧公司。公司建立於2010年,在2014年被Google收購。


Stability 推出 Stable Diffusion SVD 視頻模型

2023 年 11 月 21 日

  • Stability 出於研究目的發佈了穩定視頻擴散(Stable Video Diffusion),一種圖像到視頻的模型:
    • SVD:該模型經過訓練,可以在給定相同大小的上下文幀的情況下產生分辨率為 576×1024 的 14 幀。我們使用 SD 2.1 中的標準影像編碼器,但用時間感知的 deflickering decoder.
    • SVD-XT:與架構相同,SVD但針對 25 幀生成進行了微調。
    • 我們提供了一個 Streamlit 演示scripts/demo/video_sampling.py和一個獨立的 Python 腳本scripts/sampling/simple_video_sample.py,用於兩個模型的推理。

上圖評估了使用者對 GEN-2PikaLabs 上的 SVD-Image-to-Video 的偏好。 就視訊品質而言,SVD-Image-to-Video 受到很多人青睞。 有關用戶研究的詳細信息,請參閱研究論文

Stable Video Diffusion Install


離「AI 會自己思考」還有多遠?


PromptHero – 提詞搜索


Page 42 of 49
1 40 41 42 43 44 49