使用本地 LLM(Large Language Model) 的主要原因之一是隱私,LM Studio 就是為此而設計的。 LM Studio 不會收集數據,也不監視您的行為。
Outfit Anyone – 超高品質虛擬換衫
Gemini API – 正式推出
Gemini 是由 Google 開發的最新大型語言模型,它具有 2800 億個參數,比之前的 GPT-3 模型大 10 倍。Gemini 的主要特點之一是它可以處理更複雜的任務,例如:
- 推理: Gemini 可以使用其知識庫來回答問題並做出預測。例如,它可以回答有關歷史事件、科學概念或時事的問題。它還可以根據過去的數據預測未來的趨勢。
- 創造力: Gemini 可以生成文本、圖像和音樂。它可以寫詩、故事和劇本。它還可以創建逼真的圖像和音樂。
- 翻譯: Gemini 可以將文本從一種語言翻譯成另一種語言。它可以翻譯多種語言,包括英語、中文、法語、德語和西班牙語。
- 摘要: Gemini 可以將長篇文章或視頻總結成更短、更易於理解的格式。它可以幫助人們快速了解複雜的信息。
Gemini 與其他 GPT 模型的不同之處在於:
- 規模: Gemini 是目前最大的 GPT 模型,它具有 2800 億個參數,比之前的 GPT-3 模型大 10 倍。這使它能夠處理更複雜的任務。
- 多模態: Gemini 可以處理多種模態的數據,包括文本、圖像、音頻和視頻。這使它能夠生成更豐富、更逼真的內容。
- 因果推理: Gemini 可以進行因果推理,這意味著它可以理解事件之間的因果關係。這使它能夠做出更準確的預測和決策。
Gemini 是一個非常強大的語言模型,它具有廣泛的應用前景。它可以被用於改進搜索引擎、機器翻譯、內容生成和決策支持等領域。
(more…)AudioBox –
Apple 開放 MLX 機器學習 API
Awni Hannun 宣怖 Apple 正式開放 ML Framework 並於 GitHub 設立模型庫及應用介面範例。各種使用MLX 框架的獨立範例。
MNIST範例是學習如何使用 MLX 的良好起點。
一些更有用的例子包括:
- Transformer 語言模型訓練。
- 使用LLaMA或Mistral產生大規模文字。
- 使用Mixtral 8x7B 的專家混合 (MoE) 語言模型
- 使用LoRA進行參數高效率微調。
- 使用穩定擴散產生影像。
- 使用OpenAI 的 Whisper進行語音辨識。
- 使用BERT進行雙向語言理解
- 使用GCN對圖結構資料進行半監督學習。
Genmo 創意研究實驗室
Genmo 致力於建立跨模式創作和分享生成藝術的工具。 我們正在推動生成模型能力的前沿。 如今的免費平台只需單擊即可社交創作無限量的影片。 Genmo 目前處於測試階段,將來會添加更多內容。
免費版可生成最長 6 秒 2304 x 1280 的高清影片。

亦可控制鏡頭的運鏡方式

除此,Genmo 亦提供生成圖片,文字對話等。

Gemini AI – 2023-12-13 正式上線!
從今天開始,Google Bard 將使用 Gemini Pro 的微調版本來進行更高級的推理、計劃、理解等。 這是 Bard 自推出以來最大的升級。 它將在 170 多個國家和地區提供英語版本,我們計劃在不久的將來擴展到不同的模式並支援新的語言和地點。
原生多模態(Natively Multimodel):Google Gemini 的突破
以往創建多模態大模型的方法,通常是先分別訓練文本、圖像、音頻等單一模態的模型,然後將它們拼接在一起。這樣的模型雖然在某些特定任務上表現不錯,不過面對更具概念性,或者複雜推理的任務,往往表現不太理想。
Gemini 提出了原生多模態的概念,即從一開始就對不同的模態進行整合訓練,然後用額外的多模態數據進行微調。這樣訓練出來的模型可以更好地理解不同模態之間的關係,從而提高在複雜任務上的表現。
Google 還將 Gemini 引入 Pixel。 Pixel 8 Pro 是第一款運行 Gemini Nano 的智慧型手機,它支援記錄器應用程式中的 Summarize 等新功能,並從 WhatsApp 開始推出 Gboard 中的智慧回覆功能,明年還將推出更多訊息應用程式。
在接下來的幾個月中,Gemini 將出現在我們更多的產品和服務中,例如搜尋、廣告、Chrome 和 Duet AI。
Google 已經開始在搜尋器中試驗 Gemini,它使用戶的搜尋生成體驗 (SGE) 更快,延遲減少了 40%,同時品質也提高了。
SeamlessM4T v2- 即時語音翻譯模型
無縫 M4T
Meta 三個月前公佈的 SeamlessM4T (Massively Multilingual and Multimodal Machine Translation model) ,目前已更新到 v2,於 GitHub 開放下載最新的源碼。SeamlessM4T v2 採用 UnitY2 架構的更新版本。與 SeamlessM4T v1 相比,此新模型在品質以及語音生成任務中的推理延遲方面有所改進。
M4T 是一體式大規模多語言和多模式的機器翻譯模型,可為近 100 種語言的語音和文字提供高品質翻譯。
SeamlessM4T 模型支援以下任務:
- 語音轉語音翻譯 (S2ST)
- 語音轉文字翻譯 (S2TT)
- 文字轉語音翻譯 (T2ST)
- 文本到文本翻譯 (T2TT)
- 自動語音辨識 (ASR)
HeyGen’s Avatar 2.0 – 兩分鍾生成個性化頭像視頻
LaVie 高質量視頻生成框架
這是個高質量視頻生成框架,使用級聯潛在擴散模型(Cascaded Latent Diffusion Models)進行文本到視頻(Text-to-Video)生成,是Vchitect視頻生成系統的主要組成部分。項目提供了使用PyTorch實現的LaVie的官方代碼。
您可以從GitHub頁面下載。通過文本描述,生成與文本相對應的視頻。項目還提供了預訓練模型和示例代碼,助您進行推理和生成自己的視頻。
LaVie是一個基於機器學習的視頻生成框架,它使用了一種稱為級聯潛在擴散模型(Cascaded Latent Diffusion Models)的技術。這種模型可以通過將文本描述轉化為視頻序列來實現文本到視頻的生成。
LaVie項目的GitHub頁面還提供了示例代碼和相關配置文件,可以幫助您更好地理解和使用該框架。您可以根據示例代碼進行自己的實驗和應用。
請注意,LaVie的使用可能需要具備一定的機器學習和深度學習知識,以及相應的計算資源。如果您對LaVie感興趣,建議您仔細閱讀項目的文檔和代碼,並根據需要進行相應的學習和實踐。