Genmo 致力於建立跨模式創作和分享生成藝術的工具。 我們正在推動生成模型能力的前沿。 如今的免費平台只需單擊即可社交創作無限量的影片。 Genmo 目前處於測試階段,將來會添加更多內容。
免費版可生成最長 6 秒 2304 x 1280 的高清影片。

亦可控制鏡頭的運鏡方式

除此,Genmo 亦提供生成圖片,文字對話等。

Genmo 致力於建立跨模式創作和分享生成藝術的工具。 我們正在推動生成模型能力的前沿。 如今的免費平台只需單擊即可社交創作無限量的影片。 Genmo 目前處於測試階段,將來會添加更多內容。
免費版可生成最長 6 秒 2304 x 1280 的高清影片。
亦可控制鏡頭的運鏡方式
除此,Genmo 亦提供生成圖片,文字對話等。
從今天開始,Google Bard 將使用 Gemini Pro 的微調版本來進行更高級的推理、計劃、理解等。 這是 Bard 自推出以來最大的升級。 它將在 170 多個國家和地區提供英語版本,我們計劃在不久的將來擴展到不同的模式並支援新的語言和地點。
原生多模態(Natively Multimodel):Google Gemini 的突破
以往創建多模態大模型的方法,通常是先分別訓練文本、圖像、音頻等單一模態的模型,然後將它們拼接在一起。這樣的模型雖然在某些特定任務上表現不錯,不過面對更具概念性,或者複雜推理的任務,往往表現不太理想。
Gemini 提出了原生多模態的概念,即從一開始就對不同的模態進行整合訓練,然後用額外的多模態數據進行微調。這樣訓練出來的模型可以更好地理解不同模態之間的關係,從而提高在複雜任務上的表現。
Google 還將 Gemini 引入 Pixel。 Pixel 8 Pro 是第一款運行 Gemini Nano 的智慧型手機,它支援記錄器應用程式中的 Summarize 等新功能,並從 WhatsApp 開始推出 Gboard 中的智慧回覆功能,明年還將推出更多訊息應用程式。
在接下來的幾個月中,Gemini 將出現在我們更多的產品和服務中,例如搜尋、廣告、Chrome 和 Duet AI。
Google 已經開始在搜尋器中試驗 Gemini,它使用戶的搜尋生成體驗 (SGE) 更快,延遲減少了 40%,同時品質也提高了。
Meta 三個月前公佈的 SeamlessM4T (Massively Multilingual and Multimodal Machine Translation model) ,目前已更新到 v2,於 GitHub 開放下載最新的源碼。SeamlessM4T v2 採用 UnitY2 架構的更新版本。與 SeamlessM4T v1 相比,此新模型在品質以及語音生成任務中的推理延遲方面有所改進。
M4T 是一體式大規模多語言和多模式的機器翻譯模型,可為近 100 種語言的語音和文字提供高品質翻譯。
SeamlessM4T 模型支援以下任務:
這是個高質量視頻生成框架,使用級聯潛在擴散模型(Cascaded Latent Diffusion Models)進行文本到視頻(Text-to-Video)生成,是Vchitect視頻生成系統的主要組成部分。項目提供了使用PyTorch實現的LaVie的官方代碼。
您可以從GitHub頁面下載。通過文本描述,生成與文本相對應的視頻。項目還提供了預訓練模型和示例代碼,助您進行推理和生成自己的視頻。
LaVie是一個基於機器學習的視頻生成框架,它使用了一種稱為級聯潛在擴散模型(Cascaded Latent Diffusion Models)的技術。這種模型可以通過將文本描述轉化為視頻序列來實現文本到視頻的生成。
LaVie項目的GitHub頁面還提供了示例代碼和相關配置文件,可以幫助您更好地理解和使用該框架。您可以根據示例代碼進行自己的實驗和應用。
請注意,LaVie的使用可能需要具備一定的機器學習和深度學習知識,以及相應的計算資源。如果您對LaVie感興趣,建議您仔細閱讀項目的文檔和代碼,並根據需要進行相應的學習和實踐。
Stability 示範 :https://clipdrop.co/stable-diffusion-turbo
SDXL-Turbo 不使用 guidance_scale
或 negative_prompt
,因此我們停用它並設定 guidance_scale=0.0
。模型產生尺寸為 512×512 的圖像,但更高的圖像尺寸也可以。只需一個步驟就足以產生高品質的影像。
SDXL-Turbo 是SDXL 1.0 的精煉版本,經過即時合成訓練。SDXL-Turbo 基於一種稱為對抗擴散蒸餾 (ADD) 的新穎訓練方法(請參閱 技術報告),該方法允許在高影像品質下以 1 到 4 個步驟對大規模基礎影像擴散模型進行取樣。這種方法使用分數蒸餾來利用大規模現成的影像擴散模型作為教師訊號,並將其與對抗性損失相結合,以確保即使在一個或兩個取樣步驟的低步驟狀態下也能確保高影像保真度。
雖然 AppStore 上已有多個 Apps 以 Stable Diffusion 作為基楚應用,例如 Diffusion Bee, 但新版 Draw Things 可算是目前最齊功能、最接近 GitHub 上的 Automatic 1111 的 GUI 版,它甚至內建 ControlNet, 直接執行 SD 1.4, 1.5 及 XL Checkpoint 及 Lora 模型。
你亦可於 App 內直接下載上千個模型並自動轉換成支援 Apple 的 Core ML 引擎,優化執行 Transformer 架構模型。出圖速度比直接執行 Stable Diffusion WebUI 版更快。
#蘋果神經引擎
第一代 Apple 神經引擎 (ANE – Apple Neural Engine) 作為我們 2017 年旗艦機型 iPhone X 中 A11 晶片的一部分發布。它在半精度浮點數資料格式下的峰值吞吐量為 0.6 兆次浮點運算 (TFlops) ( float16 或FP16),並且它有效地支援了設備上的ML 功能,例如Face ID 和Memoji。
到 2021 年,第五代 16 核 ANE 的處理能力是原來的 26 倍,即 15.8 TFlops。神經引擎的可用性也從 2017 年的 iPhone 擴展到從 A12 晶片開始的 iPad,從 M1 晶片開始擴展到 Mac。Apple 神經引擎的演變。iPhone 13 Pro 上的 A15 Bionic 晶片上的 16 核神經引擎的峰值吞吐量為 15.8 teraflops,比 iPhone X 提升了 26 倍。
GeneFace是一個通用且高保真的音訊驅動3D說話人臉合成模型,該模型的官方 PyTorch 實現程式碼可以在 GitHub 上的 yerfor/GeneFace 存儲庫中找到(https://github.com/yerfor/GeneFace)。
GeneFace 的目標是生成具有良好的嘴唇同步和表情表達能力的說話人臉。該模型的推論流程非常直觀,並且能夠在不同音訊域中實現更好的嘴唇同步效果。您可以觀看 GeneFace 與以前基於 NeRF 的方法進行的清晰嘴唇同步比較的視頻,以更好地了解其效果。同時,您也可以訪問該項目的頁面以獲取更多詳細信息。
如果您想要快速開始使用 GeneFace,存儲庫中提供了預訓練模型和處理過的數據集。您可以按照存儲庫中的指南進行操作,進行模型推論或使用自己的目標人物視頻進行訓練。同時,存儲庫還提供了有關環境準備、數據集準備和模型訓練的詳細說明。
除了存儲庫中提供的 May.mp4 視頻外,GeneFace 還提供了其他 8 個目標人物視頻,這些視頻也是在實驗中使用的。您可以根據存儲庫中的指南,使用這些視頻進行自己的訓練。
互動式工作流程,其中人工智慧生成僅用作繪畫時的一種協同工具。
[英文] 詳細教學:
GitHub 專案專注中文語言模型,並提供相關的程式碼和文件。
這個專案的目的是讓你能夠在本地的 CPU 或 GPU 上進行中文語言模型的訓練和部署。LLaMA 是一種大型語言模型,而 Alpaca 則是一種輕量級語言模型。透過這些架構,您可以建立和訓練自己的中文語言模型,應用於各種自然語言處理任務,例如文本生成、機器翻譯、情感分析等。
在該專案的 GitHub 頁面上,您可以找到詳細的文件和程式碼示例,以協助您開始使用這些模型。您也可以在專案上進行提問和討論,與其他開發者交流經驗和想法。不管您是想進行語言模型的研究、實驗,或者應用到實際項目中,這個專案都提供了有價值的資源和支援。
專案在 GitHub 上托管,您可以自由查看、下載和貢獻程式碼,以及參與社群討論。