大規模中文自然語言處理 nlp_chinese_corpus

語料庫將會不斷擴充。。。

一期目標:10個百萬級中文語料 & 3個千萬級中文語料(2019年5月1號)

二期目標:30個百萬級中文語料 & 10個千萬級中文語料 & 1個億級中文語料(2019年12月31日)

Update: 增加高質量社區問答json版(webtext2019zh),可用於訓練超大規模NLP模型;添加520萬翻譯語料(translation2019zh)。

1.維基百科(wiki2019zh)100萬個結構良好的中文詞條

2.新聞語料(news2016zh)250萬篇新聞,含關鍵詞、描述

3.百科問答(baike2018qa)150萬個帶問題類型的問答

4.社區問答json(webtext2019zh)410萬個高質量社區問答,適合訓練超大模型

5.翻譯語料(translation2019zh)520萬個中英文句子對

為什麼需要這個項目

中文的信息無處不在,但如果想要獲得大量的中文語料,卻是不太容易,有時甚至非常困難。在2019年初這個時點上,

普通的從業者、研究人員或學生,並沒有一個比較好的渠道獲得極大量的中文語料。筆者想要訓練一個中文的詞向量,

在百度和github上上搜索了好久,收穫卻很少:要麼語料的量級太小,要麼數據過於成舊,或需要的處理太複雜。

不知道你是否也遇到了這樣的問題?

我們這個項目,就是為瞭解決這一問題貢獻微薄之力。

Categories: 教學

Word2vec 模型構建的實踐過程

Categories: 教學

【LLaMA-Factory】開源語言模型微調專案

Categories: 教學

LM Studio 0.3.13

使用本地 LLM(Large Language Model) 的主要原因之一是隱私,LM Studio 就是為此而設計的。 LM Studio 不會收集數據,也不監視您的行為。

Categories: 工具, 軟件

Outfit Anyone – 超高品質虛擬換衫

現有的方法通常難以產生高保真度和細節一致的結果。 擴散模型已經證明了它們產生高品質和逼真影像的能力,但當涉及到虛擬試穿等條件生成場景時,它們在實現控制和一致性方面仍然面臨挑戰。 Outfit Anybody 透過利用雙流條件擴散模型解決了這些限制,使其能夠熟練地處理服裝變形以獲得更逼真的結果。 它的特點是可擴展性(調節姿勢和體型等因素)和廣泛的適用性,從動漫延伸到野外圖像。 Outfit Anybody 在不同場景中的表現強調了其實用性和對現實世界部署的準備。

Categories: 軟件

Gemini API – 正式推出

Gemini 是由 Google 開發的最新大型語言模型,它具有 2800 億個參數,比之前的 GPT-3 模型大 10 倍。Gemini 的主要特點之一是它可以處理更複雜的任務,例如:

  • 推理: Gemini 可以使用其知識庫來回答問題並做出預測。例如,它可以回答有關歷史事件、科學概念或時事的問題。它還可以根據過去的數據預測未來的趨勢。
  • 創造力: Gemini 可以生成文本、圖像和音樂。它可以寫詩、故事和劇本。它還可以創建逼真的圖像和音樂。
  • 翻譯: Gemini 可以將文本從一種語言翻譯成另一種語言。它可以翻譯多種語言,包括英語、中文、法語、德語和西班牙語。
  • 摘要: Gemini 可以將長篇文章或視頻總結成更短、更易於理解的格式。它可以幫助人們快速了解複雜的信息。

Gemini 與其他 GPT 模型的不同之處在於:

  • 規模: Gemini 是目前最大的 GPT 模型,它具有 2800 億個參數,比之前的 GPT-3 模型大 10 倍。這使它能夠處理更複雜的任務。
  • 多模態: Gemini 可以處理多種模態的數據,包括文本、圖像、音頻和視頻。這使它能夠生成更豐富、更逼真的內容。
  • 因果推理: Gemini 可以進行因果推理,這意味著它可以理解事件之間的因果關係。這使它能夠做出更準確的預測和決策。

Gemini 是一個非常強大的語言模型,它具有廣泛的應用前景。它可以被用於改進搜索引擎、機器翻譯、內容生成和決策支持等領域。

(more…)
Categories: 軟件

AudioBox –

Audiobox 是 Meta 的新音訊生成基礎研究模型。 集 TTS、聲效、音樂於一身。它結合使用語音輸入和自然語言文字提示來產生語音和聲音效果,從而可以輕鬆地為創建任何音訊。 Audiobox 模型系列亦包括專業模型 Audiobox Speech 和 Audiobox Sound,所有 Audiobox 型號都基於共享的自我監督模型 Audiobox SSL 構建。

馬上體驗 – 多種聲效創作故事

Categories: Audio, 線上服務

Apple 開放 MLX 機器學習 API

Awni Hannun 宣怖 Apple 正式開放 ML Framework 並於 GitHub 設立模型庫及應用介面範例。各種使用MLX 框架的獨立範例。

MNIST範例是學習如何使用 MLX 的良好起點。

一些更有用的例子包括:

Categories: 新聞

Genmo 創意研究實驗室

Genmo 致力於建立跨模式創作和分享生成藝術的工具。 我們正在推動生成模型能力的前沿。 如今的免費平台只需單擊即可社交創作無限量的影片。 Genmo 目前處於測試階段,將來會添加更多內容。

Replay v0.2 announcement: image-to-video, longer length, high resolution

除此,Genmo 亦提供生成圖片,文字對話等。

Categories: Image, Video, 線上服務

Gemini AI – 2023-12-13 正式上線!

從今天開始,Google Bard 將使用 Gemini Pro 的微調版本來進行更高級的推理、計劃、理解等。 這是 Bard 自推出以來最大的升級。 它將在 170 多個國家和地區提供英語版本,我們計劃在不久的將來擴展到不同的模式並支援新的語言和地點。

原生多模態(Natively Multimodel):Google Gemini 的突破

以往創建多模態大模型的方法,通常是先分別訓練文本、圖像、音頻等單一模態的模型,然後將它們拼接在一起。這樣的模型雖然在某些特定任務上表現不錯,不過面對更具概念性,或者複雜推理的任務,往往表現不太理想。

Gemini 提出了原生多模態的概念,即從一開始就對不同的模態進行整合訓練,然後用額外的多模態數據進行微調。這樣訓練出來的模型可以更好地理解不同模態之間的關係,從而提高在複雜任務上的表現。

Google 還將 Gemini 引入 Pixel。 Pixel 8 Pro 是第一款運行 Gemini Nano 的智慧型手機,它支援記錄器應用程式中的 Summarize 等新功能,並從 WhatsApp 開始推出 Gboard 中的智慧回覆功能,明年還將推出更多訊息應用程式。

在接下來的幾個月中,Gemini 將出現在我們更多的產品和服務中,例如搜尋、廣告、Chrome 和 Duet AI。

Google 已經開始在搜尋器中試驗 Gemini,它使用戶的搜尋生成體驗 (SGE) 更快,延遲減少了 40%,同時品質也提高了。

Google 谷歌 Gemini 碾压 GPT-4!人类最强 AI 模型问世,迈出 AGI 的第一步 | 回到Axton
Categories: 新聞

Page 45 of 54
1 43 44 45 46 47 54