軟件 – Page 4 – Infer News

MS-Vid2Vid (Video-to-Video)高清視頻生成大模型

國產 ModelScope 模型

本項目MS-Vid2Vid由達摩院研發和訓練，主要用於提升文生視頻、圖生視頻的分辨率和時空連續性，其訓練數據包含了精選的海量的高清視頻、圖像數據（最短邊>720），可以將低分辨率的(16:9)的視頻提

「MS- Video-to-Video」係一種深度學習模型，可以將一段視頻轉換成另一種風格、場景轉換、動作等操作。例如，可以將一段日本動畫轉換成中國水墨畫風格，或者將一段街頭表演轉換成動畫風格。

MS-Vid2Vid-XL 和 Video-to-Video 第一階段相同，都是基於隱空間的視頻擴散模型(VLDM)，且其共享相同結構的時空UNet(ST-UNet)，其設計細節延續我們自研 VideoComposer，具體可以參考其技術報告。

Categories: Video, 工具, 新聞

Moore-AnimateAnyone

GitHub – MooreThreads/Moore-AnimateAnyone

Contribute to MooreThreads/Moore-AnimateAnyone development by creating an account on GitHub.

GitHub – MooreThreads/Moore-AnimateAnyone

Moore-AnimateAnyone 是一個開放源碼的專案，由 MooreThreads 創建與維護。此專案的目的是讓用戶能夠用簡便的方式來動畫化任何人物。

透過這個軟件，用戶可以將靜態的圖片或者是人物照片轉化成動態的動畫。它能讓角色栩栩如生，仿佛擁有了自己的情感和行動，這對於動漫創作者、游戲開發者或是任何需要虛擬人物動畫的創意工作者來說，都是一個非常有用的工具。

該平台的設計考慮到了易用性，即便是沒有編程經驗的人也可以輕鬆上手。用戶可以自定義角色的行為，並將它們應用於不同的娛樂或教育場景中。

此外，Moore-AnimateAnyone 專案鼓勵開源協作。這意味著任何有興趣的開發者都可以加入這個專案，通過貢獻代碼、文檔、反饋和維護等方式來完善這一工具。

Categories: 軟件

台灣-繁體中文 LLM v2，包括 7B 和 13B 模型

台灣傳統國語

Taiwan LLM 基於 Meta Llama 2 的全參數微調模型技術，融合台灣本土的文本資料，包括公開的百科、新聞、小說、雜誌以及社群討論等，涵蓋超過 200 億個繁體中文字，使大型語言模型能對台灣地區的問題回答得更精確

Taiwan-LLM 是一個基於 Meta/LLaMa-2 ，適用於繁體中文應用。

台灣-LLM v2.0 13B 對超過 300 億個標記進行了預訓練，並對超過 100 萬個傳統普通話指令跟踪對話進行了指令調整。

台灣-LLM v2.0 7B 對超過 300 億個標記進行了預訓練，並對超過 100 萬個傳統普通話指令跟踪對話進行了指令調整。

台灣-LLM v1.0 13B 對超過 50 億個標記進行了預訓練，並對超過 49 萬個傳統普通話對話進行了指令調整。

Categories: 軟件

Amphion 多功能聲頻 LLM

Amphion(/æmˈfaɪən/) 是一個用於音訊、音樂和語音生成的工具包

支持可重複的研究，並幫助初級研究人員和工程師開始音訊、音樂和語音生成研究和開發領域。

香港中文大學（深圳）、上海人工智慧實驗室和深圳大數據研究院聯合開發。

(more…)

Categories: 香港中文大學, 軟件

LM Studio 0.3.13

👾 LM Studio – Discover and run local LLMs

Find, download, and experiment with local LLMs

使用本地 LLM(Large Language Model) 的主要原因之一是隱私，LM Studio 就是為此而設計的。 LM Studio 不會收集數據，也不監視您的行為。

Categories: 軟件, 工具

現有的方法通常難以產生高保真度和細節一致的結果。擴散模型已經證明了它們產生高品質和逼真影像的能力，但當涉及到虛擬試穿等條件生成場景時，它們在實現控制和一致性方面仍然面臨挑戰。 Outfit Anybody 透過利用雙流條件擴散模型解決了這些限制，使其能夠熟練地處理服裝變形以獲得更逼真的結果。它的特點是可擴展性（調節姿勢和體型等因素）和廣泛的適用性，從動漫延伸到野外圖像。 Outfit Anybody 在不同場景中的表現強調了其實用性和對現實世界部署的準備。

Categories: 軟件

Gemini API – 正式推出

Google AI for Developers

使用 Gemini API，能快速開發並將想法轉化為程式碼來建立 AI 應用程式。

Gemini 是由 Google 開發的最新大型語言模型，它具有 2800 億個參數，比之前的 GPT-3 模型大 10 倍。Gemini 的主要特點之一是它可以處理更複雜的任務，例如：

推理： Gemini 可以使用其知識庫來回答問題並做出預測。例如，它可以回答有關歷史事件、科學概念或時事的問題。它還可以根據過去的數據預測未來的趨勢。
創造力： Gemini 可以生成文本、圖像和音樂。它可以寫詩、故事和劇本。它還可以創建逼真的圖像和音樂。
翻譯： Gemini 可以將文本從一種語言翻譯成另一種語言。它可以翻譯多種語言，包括英語、中文、法語、德語和西班牙語。
摘要： Gemini 可以將長篇文章或視頻總結成更短、更易於理解的格式。它可以幫助人們快速了解複雜的信息。

Gemini 與其他 GPT 模型的不同之處在於：

規模： Gemini 是目前最大的 GPT 模型，它具有 2800 億個參數，比之前的 GPT-3 模型大 10 倍。這使它能夠處理更複雜的任務。
多模態： Gemini 可以處理多種模態的數據，包括文本、圖像、音頻和視頻。這使它能夠生成更豐富、更逼真的內容。
因果推理： Gemini 可以進行因果推理，這意味著它可以理解事件之間的因果關係。這使它能夠做出更準確的預測和決策。

Gemini 是一個非常強大的語言模型，它具有廣泛的應用前景。它可以被用於改進搜索引擎、機器翻譯、內容生成和決策支持等領域。

(more…)

Categories: 軟件

Genmo 創意研究實驗室

簡單易用的多功能高質影像視頻

Make videos, 3D models, images, art and more with Genmo AI, your creative copilot.

Genmo 致力於建立跨模式創作和分享生成藝術的工具。我們正在推動生成模型能力的前沿。如今的免費平台只需單擊即可社交創作無限量的影片。 Genmo 目前處於測試階段，將來會添加更多內容。

免費版可生成最長 6 秒 2304 x 1280 的高清影片。

亦可控制鏡頭的運鏡方式

Replay v0.2 announcement: image-to-video, longer length, high resolution

Watch this video on YouTube

除此，Genmo 亦提供生成圖片，文字對話等。

Categories: Video, Image, 線上服務

SeamlessM4T v2- 即時語音翻譯模型

透過語音翻譯的多模態模型，讓世界更緊密地連結在一起

Meta : 最先進的語音和文字翻譯的基礎模型

無縫 M4T

Meta 三個月前公佈的 SeamlessM4T (Massively Multilingual and Multimodal Machine Translation model) ，目前已更新到 v2，於 GitHub 開放下載最新的源碼。SeamlessM4T v2 採用 UnitY2 架構的更新版本。與 SeamlessM4T v1 相比，此新模型在品質以及語音生成任務中的推理延遲方面有所改進。

M4T 是一體式大規模多語言和多模式的機器翻譯模型，可為近 100 種語言的語音和文字提供高品質翻譯。

SeamlessM4T 模型支援以下任務：

語音轉語音翻譯 (S2ST)
語音轉文字翻譯 (S2TT)
文字轉語音翻譯 (T2ST)
文本到文本翻譯 (T2TT)
自動語音辨識 (ASR)

(more…)

Categories: 文字轉語音, 軟件

HeyGen’s Avatar 2.0 – 兩分鍾生成個性化頭像視頻

釋放您的創造力 – 製作未來的影片。

創新的影片平台，利用生成式人工智慧的力量來簡化您的影片創作過程。

Categories: 軟件, 線上服務

Page 4 of 7

« Previous 1 2 3 4 5 6 7 Next »