Top 0.1% AI Researchers – BYTES LLM Inputs

這是 AI 領域的「秘密突破」,僅有頂尖 0.1% 的研究者知曉:直接將原始位元組(raw bytes)輸入大型語言模型(LLMs),並使用代數拓撲(algebraic topology)分析,透過持久同調(persistent homology)揭示傳統模型無法察覺的隱藏資料結構。這可能改變 AI 處理多模態資料(如文字、影像、影片)的未來。

SECRET: Top 0.1% AI Researchers - BYTES LLM Inputs - Topology - Persistent Homology - Episode 1
(more…)
Categories: 編程, , 教學, 深度學習, Embedding

成為頂尖 0.1% AI 研究者的 1 項技能

1 SKILL To Become Top 0.1% AI Researcher

影片詳細介紹:1 SKILL To Become Top 0.1% AI Researcher – EP.7 – Making LLMs Take Bytes As Input

這是系列影片的第 7 集,聚焦於 AI 研究中的前沿技術:讓大型語言模型(LLMs)直接以位元組(bytes)作為輸入,繞過傳統的標記化(tokenization)限制。

影片的目標是引導觀眾一步步進行 AI 研究,探討如何在開放源碼社區中領先於像 OpenAI 或 xAI 這樣的巨頭。Vuk Rosić 強調,這項技術能讓模型更快、更高效,因為數位世界本質上就是由位元組組成。他分享自己的研究過程,包括想法構思、代碼解釋、實驗設計,並鼓勵觀眾 fork GitHub 儲存庫參與。影片中提到,Elon Musk 最近表示 xAI 將取代 tokenizer,這讓這項研究更具時效性。

(more…)

Categories: 編程, 教學

Archon:AI編程革命性操作系統

Archon 是一款為所有 AI 編程人量身打造,強調知識檢索、專案協作、即時上下文整合的開源編程操作系統,無論是個人或團隊都可極大提升 AI coding 助手的效能、協同與上下文管理力,非常適合想全面解鎖 AI 編程革命的人嘗試使用。

Introducing Archon - The Revolutionary Operating System for AI Coding
Categories: 開源, 編程

Qwen3-Coder: 超強 Coding 代理

Qwen3-Coder 是我們迄今為止最具代理性的程式碼模型。 Qwen3-Coder 提供多種規模,首先是其最強大的版本:Qwen3-Coder-480B-A35B-Instruct。這是一個擁有 480B 參數的混合專家模型,其中擁有 35B 個有效參數,原生支援 256K 個 token 的上下文長度,並透過外推方法支援 1M 個 token 的上下文長度,在編碼和代理任務中均創下了新的最高紀錄,與 Claude Sonnet 4 相當。

除此,Qwen 開源了一款用於代理程式編碼的命令列工具:Qwen Code。 Qwen Code 是從 Gemini Code 衍生而來,並經過了調整,添加了自訂提示符和函數呼叫協議,從而充分發揮 Qwen3-Coder 在代理程式編碼任務中的強大功能。

Categories: 開源, 編程, 模型

ART:特工強化訓練師

ART 是一個開源強化學習框架,它允許 LLM 從經驗中學習,從而提高代理的可靠性。 ART 提供了符合人體工學的框架,可將 GRPO 整合到任何 Python 應用程式中。

RULER(Relative Universal LLM-Elicited Rewards)透過使用 LLM-as-judge 自動評分代理軌跡,消除了手動設計獎勵函數的需要。只需在系統提示字元中定義您的任務,RULER 就會處理剩下的工作—— 無需標記資料、專家回饋或獎勵工程

Categories: 開源, 編程, 深度學習, 模型訓練

Kiro v0.1.0 – Vibe Coder

透過 Kiro,我們徹底革新了開發者與 AI 代理商的合作方式。我們率先推出了規範驅動開發 (spec-driven development),Kiro 將您的需求轉化為結構化的需求、設計和任務,然後由代理商執行。 Kiro 的代理鉤子 (agent hooks) 透過將任務委託給在背景執行的代理程式(例如更新文件、產生單元測試或最佳化程式碼以提高效能)來幫助您擴展工作。我們將 Kiro 視為真正的協作者,目標是讓 Kiro 幫助您交付強大的工程成果,同時助您成為更優秀的工程師。

Categories: 工具, 編程

Gemini CLI:您的開源 AI 代理

Google 推出了 Gemini CLI,一個免費的開源項目。它允許開發者透過自然語言指令在 Terminal 使用 Google 的 Gemini 2.5 Pro 模型。它可以編寫程式碼,亦能夠處理內容的生成、或者解決問題、甚至深入研究和任務管理等的多種任務。這個工具的設計目標是提升開發者在終端機中的工作效率,令 AI 成為日常工作流程的一部分。

Categories: 工具, 開源, 編程

TRAE 1.35 新版整合 MCP

Trae 令我放棄了 Cursor,放棄了 WindSurf,甚至 Cline 等等。因為它擁有更加直觀的操作介面,除了提供傳統的 IDE 功能,亦包括自動編寫代碼、項目管理、插件管理,同時,最新版本亦都直接整合了 MCP 同 MCP 市場。當然亦唔少得 AI Agent。

📢Breaking News TRAE.AI Just Added GAME CHANGING Features!
Trae 大更新!免費 AI IDE 終於支援 MCP,自訂智能體、強大模型 (GPT-4.1/Claude 3.7) 全面進化!
Categories: MCP, 編程, Vibe Coding

DeepEP 高速通信庫

DeepEP 是一個針對(MOE)和專家並行性(EP)的混合通信庫。它提供了高通量和低延遲的全 gpu 內核,它們稱之為 MOE 調度和組合。同時支持低精度的操作,包括 FP8。DeepSeek 公佈本星期將會是開放源碼週(OpenSourceWeek),並將會相繼推出五個開源軟件庫。他們昨日已經開放第一個代碼庫 FlashMLA。DeepSeek 今日繼續開放創新的底層架構 DeepEP,是首個用於 MoE 模型訓練和推理的 EP 通信庫 。

Categories: 編程,

DeepSeek-R1 深度學習模型的線上教學

涵蓋 DeepSeek-R1及其衍生模型(例如R10、R1Z)的全面介紹,包含安裝設定、效能基準測試(與OpenAI模型相比),以及各種硬體環境下的除錯和最佳化方法。課程重點在於如何有效利用 DeepSeek-R1 進行文本生成和圖像處理等 AI 任務,並強調模型優化和降低運算成本的重要性,同時展望了AI模型未來的發展趨勢。

DeepSeek-R1 Crash Course
Categories: 編程, 教學, 模型

Page 1 of 2
1 2