Google AI Studio – Gemini Flash/Pro 開發平台

Google AI Studio 是一個由 Google AI 開發的雲端平台,可讓您使用 Gemini 多模態生成式 AI 模型來創建各種內容。Gemini 是一個強大的 AI 模型,可以生成文字、程式碼、圖像、音樂等。Google AI Studio 使您可以輕鬆使用 Gemini,而無需任何編碼或機器學習知識。

Google AI Studio 仍處於早期開發階段,但它已經可以用於許多目的,例如:

  • 創建創意文字格式,如詩歌、程式碼、腳本、音樂作品、電子郵件、信件等。
  • 以不同的風格回答您的問題,以一種信息豐富的方式。
  • 生成圖像和創意文字格式的組合。

Google AI Studio 的一些功能包括:

  • **結構化提示:**您可以使用結構化提示來指示 Gemini 生成您想要的內容類型。例如,您可以要求 Gemini 寫一首關於愛情的詩,或者生成一隻貓的圖像。
  • **示例:**您可以向 Gemini 提供示例,以幫助它了解您想要的內容。例如,如果您想寫一首詩,可以向 Gemini 提供一些您喜歡的詩的示例。
  • **微調:**您可以微調 Gemini 的響應以獲得更好的結果。例如,您可以調整創意文字格式的風格或圖像的真實度。

如果您有興趣嘗試使用 AI 來激發您的創意,那麼 Google AI Studio 值得一試。

  • **語言支持:**Google AI Studio 目前支持英語、中文、法語、德語、西班牙語和日語。
  • **定價:**Google AI Studio 是免費的。


PromeAI – 令草圖轉為逼真的照片或高質影片

PromeAI – 使用終極 AI 藝術生成器釋放您的創意潛力。將草圖轉換為逼真的照片和高品質影片。從草圖、照片或文字生成令人驚嘆的 AI 藝術、3D 渲染、插圖、繪畫、標誌、動漫、逼真照片和影片。

【零門檻】1個AI工具,解放設計❗️|建築設計/室內設計/電商設計/遊戲設計|AI TOOLS FOR DESIGNERS

MVSEP – 自制 Karaoke 必備

新增了新版本的 BSRoformer 權重。目前它可能是世界上最好的可用模型。



FMA-Net 即將推出最強模糊影片修正


RVC-Boss/GPT-SoVITS 語音合成模型

功能:

  1. 零樣本文本到語音(TTS): 輸入5秒的聲音樣本,即刻體驗文本到語音轉換。
  2. 少樣本TTS: 僅需1分鐘的訓練數據即可微調模型,提升聲音相似度和真實感。
  3. 跨語言支持: 支持與訓練數據集不同語言的推理,目前支持英語、日語和中文。
  4. WebUI工具: 集成工具包括聲音伴奏分離、自動訓練集分割、中文自動語音識別(ASR)和文本標注,協助初學者創建訓練數據集和GPT/SoVITS模型。

如果你是 Windows用戶(已在 win>=10上測試),可以直接通過預打包文件安裝。只需下載預打包文件,解壓後雙擊 go-webui.bat 即可啓動 GPT-SoVITS-WebUI。預訓練模型

GPT-SoVITS语音克隆AI,只需一分钟素材训练模型,效果堪比商用。一键安装,附Colab脚本 | TTS | RVC|GPT-SoVITS Colab

從 GPT-SoVITS Models 下載預訓練模型,並將它們放置在 GPT_SoVITS\pretrained_models 中。

對於中文自動語音識別(另外),從 Damo ASR ModelDamo VAD Model, 和 Damo Punc Model 下載模型,並將它們放置在 tools/damo_asr/models 中。

對於UVR5(人聲/伴奏分離和混響移除,另外),從 UVR5 Weights 下載模型,並將它們放置在 tools/uvr5/uvr5_weights 中。

數據集格式

文本到語音(TTS)注釋 .list 文件格式:

vocal_path|speaker_name|language|text

語言字典:

  • ‘zh’: Chinese
  • ‘ja’: Japanese
  • ‘en’: English

示例:

D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.


MS-Vid2Vid (Video-to-Video)高清視頻生成大模型

「MS- Video-to-Video」係一種深度學習模型,可以將一段視頻轉換成另一種風格、場景轉換、動作等操作。例如,可以將一段日本動畫轉換成中國水墨畫風格,或者將一段街頭表演轉換成動畫風格。

MS-Vid2Vid-XL 和 Video-to-Video 第一階段相同,都是基於隱空間的視頻擴散模型(VLDM),且其共享相同結構的時空UNet(ST-UNet),其設計細節延續我們自研 VideoComposer,具體可以參考其技術報告。


PromeAI 推出更高畫質 txt2video

PromeAI 十分類似 RunwayML。除一般 txt2img、txt2video(暫時完全免費)、img2video 功能,亦提供料多種創意模式:

AI Supermodel Generation – 上傳一張人體模型或業餘人像照片,馬上可建立多種風格和背景。目前版本支援個人真人照片或帶有臉部和四肢的照片。

Creative Fusion – 將草圖與藝術風格融合,創造出獨特且令人驚嘆的藝術品。而且可調整強度以控制影像與所選樣式之間的混合程度。

Background Diffusion – 自動移除背景並根據模板或文字產生理想的背景。而且您可以調整主要部分的大小和位置,以獲得更理想的效果。

Image Variation – 這是 img2img,產生具有相似風格、佈局、視角和感官體驗的圖像。而且您可以控制相似度。

Outpainting – 根據比例或尺寸擴展圖像內容。而且您可以調整原來相片的位置來控制擴展方向。 避免一次將面積擴大太多。

(more…)

Page 3 of 6
1 2 3 4 5 6