從編解碼、詞嵌入開始,理解 Transformer 的注意力機制(Attention),及卷積神經網絡(CNN)
[embedyt] https://www.youtube.com/watch?v=GGLr-TtKguA[/embedyt]
Categories: 新聞
拍攝日期:2023/11/27主講人:梁伯嵩(聯發科技前瞻技術平台資深處長、國立臺灣大學資訊工程系與重點科技學院合聘客座教授)主持人:張登及(臺大人文社會高等研究院副院長、國立臺灣大學政治學系教授)講者簡介:梁伯嵩博士任職於聯發科技,擔任前瞻技術平台資深處長,並兼任臺灣大學資訊工程系與重點科技學院合聘客座教授
Grok-1 是一個參數量達到 3140 億的 AI 大語言模型,其規模超越了 OpenAI GPT-3.5 的 1750 億參數,是目前世界上最大的開源 LLM 大語言模型。馬斯克通過其旗下的 AI 公司 xAI 開發了這一模型
馬斯克旗下的 AI 創企 xAI 在2023 年11月推出了第一代大語言模型 Grok,其中 Grok-0 是最初的版本,擁有 330 億參數。隨後,經過數次改進,推出了Grok-1。這一過程中,xAI 採用了 Mixture-of-Experts(MOE)技術,並對模型進行了持續的優化和增強。
開源時間方面,馬斯克在 2024 年 3 月 17 日正式宣佈開源 Grok-1
新一代開源模型 ChatGLM3-6B 已發佈,擁有10B以下最強的基礎模型,支持工具調用(Function Call)、代碼執行(Code Interpreter)、Agent 任務等功能。