涵蓋 DeepSeek-R1及其衍生模型(例如R10、R1Z)的全面介紹,包含安裝設定、效能基準測試(與OpenAI模型相比),以及各種硬體環境下的除錯和最佳化方法。課程重點在於如何有效利用 DeepSeek-R1 進行文本生成和圖像處理等 AI 任務,並強調模型優化和降低運算成本的重要性,同時展望了AI模型未來的發展趨勢。
Cherry Studio 桌面 LLM 工具
DeepSeek Janus 多模態理解模型
Janus 系列多模態理解和生成模型。核心是三個模型:Janus、Janus-Pro 和 JanusFlow,它們都基於單一 Transformer 架構,實現了統一的多模態理解和生成。Janus-Pro 是 Janus 的進階版,透過優化訓練策略、擴展數據和提升模型規模,顯著提升了性能。JanusFlow 則結合了自迴歸語言模型和修正流模型,在效能和多功能性上取得平衡。該資源提供了模型下載、快速入門指南,以及使用 Python 進行多模態理解和圖像生成的程式碼範例,並提供了 Hugging Face 線上演示和本地 Gradio/FastAPI 演示的說明。 最後,還列出了相關論文的引用資訊。

Aider 終端編程工具
Aider 是一款命令列程式,能讓使用者透過大型語言模型 (LLM) 於終端進行程式碼配對編程。它直接在你的本地 Git 儲存庫中編輯程式碼,支援多種 LLM,例如 Claude 3.5 Sonnet、DeepSeek V3 和 GPT-4o 等,並能處理多種程式語言。 使用者可以提出新增功能、除錯、重構程式碼等需求,Aider 會自動編輯檔案並提交 Git 程式碼變更,大幅提升開發效率。此外,Aider 也提供圖像、網址輸入及語音輸入等功能,並在 SWE Bench 基準測試中獲得優異成績。 整體而言,Aider 旨在簡化程式碼開發流程,並提供一個直觀且高效的 AI 程式碼輔助工具。

Deepseek 的 5 個有趣實驗
作者進行五個關於 DeepSeek R1 以及其他模型(Claude 3.5、OpenAI)的實驗。
實驗一測試模型生成 3D 瀏覽器模擬程式碼的能力,結果 DeepSeek R1 成功完成;
實驗二結合 Claude 的功能與 DeepSeek R1 的推理機制,實現更複雜的資訊處理;
實驗三探討模型在一個數值猜測遊戲中的推理過程,展現了模型的思考步驟;
實驗四修改經典的河渡問題,測試模型是否能跳脫既有訓練資料的限制,DeepSeek R1和Claude成功解決,OpenAI則失敗;
實驗五則以情境題測試模型的連續推理能力,多個模型皆能得出正確結論。
整體而言,影片旨在展示大型語言模型的程式碼生成、工具使用、推理能力以及突破訓練資料限制的潛力,並分享作者對模型能力的觀察與思考。
DeepSeek R1 在 Pi 達每秒 200 個 token
VideoLLaMA3 影片理解模型
一個以視覺為中心的多模態基礎模型,用於圖像和影片理解。其核心設計理念是優先利用高品質的圖像文字數據,而非大規模的影片文字數據進行訓練。模型採用四階段訓練流程:視覺對齊、視覺語言預訓練、多任務微調以及影片中心微調。此外,VideoLLaMA3 的架構設計能根據影像大小動態調整視覺 token 數量,並在影片處理中減少冗餘的視覺 token,以提升效率和準確性。最終,VideoLLaMA3 在圖像和影片理解基準測試中取得了令人信服的成果。(HuggingFace)

實作 Gemini 實時語音 RAG 助手。
利用 Gemini 2.0 的多模態即時 API 來建立一個實時的語音 RAG 助手。RAG,也就是檢索增強生成,肯定是語言模型中最有價值的增強之一。透過上下文感知的回答,它被證明是處理有關最新資訊的問題或任務的有效方法。
由於 Gemini 的多模態即時 API 裡面沒有內建的文件檢索介面,影片將展示如何建立一個自訂的流程,來接收用戶的語音,從提供的文件中檢索內容,然後讓Gemini 以語音回覆。
生物運算將應用於 A.I. 領域
瑞士 FinalSpark 實驗室利用腦部類器官 (brain organoids) 開發生物電腦的最新進展。這些微小的球狀物,由約一萬個從幹細胞培養而成的腦神經元組成,被放置在培養器中並連接到電極,以便進行通訊和訓練。此研究屬於生物運算 (bio-computing) 或稱濕件 (wetware) 的領域,目標是創造比現今電腦更節能且高效的運算系統,並可能徹底改變人工智慧系統。
Google 正在模擬整個物理世界
谷歌最近的人工智慧計畫是模擬整個物理世界的系統,谷歌認為這是通往通用人工智慧的關鍵路徑,以及它如何與谷歌更廣泛的人工智慧策略相連,這當然包括 Gemini。
這是 Google DeepMind 一項突破性的 AI 計畫:建構模擬整個物理世界的系統,以朝向通用人工智能 (AGI) 邁進。該系統整合了多模態數據 (例如影片、音訊和機器人數據),用以模擬真實世界的物理規律,並將應用於機器人、遊戲和科學研究等領域。 這項計畫展現 Google 擴展 AI 模型以達到前所未有的智能和真實感的雄心壯志,並預期將對各產業帶來革命性的影響,加速 AGI 的實現。


