T2I-Adapter – 類似 ControlNet 的可控性模型

T2I-Adapter

兼容 Stable Diffusion 1.6 及 XL 版。支援 T2I(Text-to-Image)、草圖、canny、線稿圖、深度圖以及 OpenPose 骨骼圖 …

T2I-Adapter 由騰訊 ARC 團隊開發,並於 2023 年 3 月在 GitHub 上開源。T2I-Adapter 是一個基於深度學習的模型,可以將文字轉換為圖像,同時保持一定的可控性。

T2I-Adapter 的工作原理是使用一個生成式對抗網路 (GAN) 來生成圖像。GAN 由兩個模型組成:一個生成器和一個判別器。生成器負責生成圖像,判別器負責判斷圖像是真是假。

T2I-Adapter 在一個包含大量文字和圖像的數據集上訓練。訓練過程中,生成器學習生成與文字描述相匹配的圖像。判別器學習區分真實圖像和生成圖像。

T2I-Adapter 可以生成各種圖像,包括風景、人物、物體等。它還可以生成具有特定風格的圖像,例如卡通、油畫等。

T2I-Adapter 的開發團隊由以下人組成:

  • 劉宇軒,騰訊 ARC 團隊的工程師
  • 劉洋,騰訊 ARC 團隊的工程師
  • 王鑫,騰訊 ARC 團隊的工程師
  • 王子航,騰訊 ARC 團隊的工程師
  • 張立峰,騰訊 ARC 團隊的主管

T2I-Adapter 是一個強大的工具,可用於各種創意應用,例如圖像生成、藝術創作等。


OpenAI 即將推出更強大的 AI 繪圖模型 Dall-E 3

OpenAI 也制定了保護措施,阻止使用者產生色情或暴力圖形藝術或公眾人物圖像。OpenAI 的政策研究員 Sandhini Agarwal 表示,對於色情內容的非常明確的請求,必須經過分類器並且會被拒絕。

Dall-E 3 還允許用戶透過 ChatGPT 來完善創作,就好像他們要求真正的藝術家進行更改一樣。「你真的不必擔心很長的提示,」首席研究員兼 Dall-E 團隊負責人 Aditya Ramesh 說。“相反,您可以與 ChatGPT 進行交互,就像與同事交談一樣。”

Dall-E 團隊的首席研究員 Gabriel Goh 向《Wired》雜誌展示了這項技巧,他要求 Dall-E 3 為一家想像中的麵館製作幾張宣傳海報。在收到幾個選項後,Goh 透過 ChatGPT 要求 Dall-E 3 選擇其中一個並將其變成懸掛在餐廳外的標誌的插圖。

Dall-E 3 現已透過付費版本 ChatGPT Plus 提供。


Wav2Lip (Lipsync 工具)

ChatGPT, Bard, Claude2 比較

[ACM Multimedia, 2020] Wav2Lip: Accurately Lip-syncing Videos In The Wild
Wav2Lip 簡介(英文)

Open In Colab

我從三個不同的 A.I. 平台嘗試找更多關於 Wav2Lip 的資料時出現如下的情況:

(more…)

Google Bard Extensions 可連結至第三方應用程式


港學者獲 AI 新法轉化語言 – 最佳論文獎


「中大創新」成立助初創企業發展


Fooocus – Stable Diffusion XL簡易版

Fooocus 使用 SDXL – Stable-diffusion XL 版作為產生圖片的核心。SDXL 是一款開源免費的 Clipdrop 技術,通過使用擴展現有的圖像處理算法,可以快速而準確地在不同設備上生成圖片

原圖
Fooocus 擴展左右
(more…)


Google Bard 實驗更新內容

Bard 迄今功能最強大的模型

  • 改變:使用者的意見回饋讓 Bard 變得更直覺好用、更具創意,而且回應速度更快。無論你是想找個創意夥伴共同創作趣味內容、將想法翻譯成 40 多種語言、編寫複雜的程式碼,或是從不同角度探索新知,Bard 都能助你一臂之力,而且品質和準確度大大提升。
  • 原因:我們秉持快速疊代原則,努力將 Bard 最先進的技術帶給全世界。你的意見回饋幫助我們打造出迄今最強大的 Bard 版本,讓世界各地的使用者能以各種語言順暢使用 Bard。

使用新版「使用 Google 搜尋」功能,檢查 Bard 的回覆

  • 功能:[G] 按鈕讓你借助 Google 搜尋的力量,檢查 Bard 生成的 AI 回覆。此功能將從英文開始支援。如果回覆中陳述可受驗證,該段陳述在回覆中便會醒目顯示,你可以按一下查看更多資訊。

    請注意:這些連結為 Google 搜尋找到的內容,不代表 Bard 在撰寫原始回覆時曾使用這些資料來源。
  • 目的:大家使用 AI 工具,是為了以全新的方式來理解複雜的內容。使用者在 Bard 的幫助下學習新知,那麼 AI 生成內容的可信度就十分重要,讓你可以安心吸收資訊。

接續他人分享的對話

  • 功能:當別人透過 Bard 的公開連結分享功能與你分享他們的 Bard 對話,你可以在自己的帳戶中繼續對話,接續別人開啟的話題。
  • 目的:他人的作品往往能激發我們的創意,有越多點子可以參考,我們就越可能發想出真正創新的點子。因此我們推出此功能,讓你能夠輕鬆使用其他人分享的對話,由此展開你的創意探索。

更多功能將於所有支援的語言中推出

  • 功能:不管使用何種支援語言,你都可透過 Google 智慧鏡頭上傳圖像、在回覆中顯示 Google 搜尋圖像,並修改 Bard 的回覆,讓回覆更簡潔,或將回覆加長、縮短,甚至改用更專業或更隨性口語的語氣。
  • 目的:修改回覆功能可讓你依照需求調整回覆,對自己的創作過程更有掌控權。將圖像加入提示中可激發更多創造力,而在回覆中顯示圖像也能幫你把想法化為具象。

Google 開發的機器學習庫 TensorFlow Hub

TensorFlow Hub 是一個由 Google 開發的機器學習庫,它提供了許多預訓練的機器學習模型和資源,讓開發者能夠輕鬆地使用這些模型來解決各種機器學習任務。你可以在 TensorFlow Hub 上找到許多先進的模型,包括圖像分類、自然語言處理、聲音識別等等。

使用TensorFlow Hub,你不需要從頭訓練一個模型,而是直接使用經過大量訓練的模型來進行預測或特徵提取。節省大量的時間和資源。TensorFlow Hub 還提供了一個便於使用和共享模型的平台,讓開發者能夠輕鬆地找到和使用最適合自己任務的模型。

對於想要使用機器學習的開發者來說,TensorFlow Hub 是一個非常有用的工具,它能夠加速模型開發和部署的過程。

例如:有興趣訓練支援中文的模型,可以參考 Universal Sentence Encoder

classic


Page 44 of 49
1 42 43 44 45 46 49