AI 代理才是真正的智慧

AI代理人運作的邏輯與人類極為相似: 感知(Perceive):理解環境與任務。 決策(Decide):由大型語言模型(LLM)推理與規劃。 行動(Act):執行指令、嘗試任務、回饋結果。 這樣的循環讓AI不再只是「輸入輸出」,而是能根據情境持續學習與調整。

AI 代理才是真正的智慧:AI Agent 究竟如何完成你的工作!?
Categories: 教學, Agent

認識 Token

Token 是什麼?
Token 是語言模型運算與計費的基本單位。模型會將輸入句子切分為 token,這些 token 可能是單字、子詞、甚至單一字元,每個 token 在模型內都有一個數字編號,模型實際運算都是在這些數值上進行。​

不同模型為什麼 token 計算不一樣?
每個模型的 tokenizer(分詞器)都有自己的 vocab(詞彙表)與切分規則。例如同一句「Hello world」經 OpenAI 的 tokenizer 會產生 3 個 token,但用 Google 或 Anthropic 服務則可能是 4 個或更多/更少,這取決於各家詞彙表設計與切分策略。​

Token 如何產生?
Tokenizer 首先會從語料訓練出一套詞彙表。簡易的做法如「字符級」切分,每一字元都是一個 token,這會造成 token 數暴增。進化的方法是將高頻出現的詞組合成較長的子詞(subword),減少 token 數,進而提升效率。​

罕見詞與特殊語言怎麼分詞?
像人名、亂碼、稀有單詞、冷門語言等若在語料中較少見,會被切成更多更小的 token。這代表使用模型處理中文、粵語、小語種或非主流程式語言時,token 數可能顯著增加,導致 API 成本上升。​

Most devs don't understand how LLM tokens work

Categories: 教學


NVidia Cosmos 重組光源

開源 Cosmos DiffusionRenderer 是一個視訊擴散框架,用於高品質影像和視訊的去光和重光。它是原始
DiffusionRenderer 的重大更新,在 NVIDIA 改進的資料管理流程的支持下,實現了顯著更高品質的結果。

最低要求
Python 3.10
NVIDIA GPU 至少配備 16GB VRAM,建議配備 >=48GB VRAM
NVIDIA 驅動程式和 CUDA 12.0 或更高版本
至少 70GB 可用磁碟空間
Relight Any Scene with AI: NVIDIA Research Unveils DiffusionRenderer

教學:

NVIDIA's new AI Just Made Any Video Relightable (DiffusionRenderer Demo)
Categories: 開源, 視頻模型, 教學, Linux, 影像處理


TRAE 2.0 SOLO 實測結果

TRAE 2.0 SOLO 是一款全自動AI編程助理,用戶只需用自然語言描述想法,AI便能自動編寫需求文檔(PRD)、規劃架構、設定技術棧,完成前後端編碼、資料庫連接,並部署至雲端。

整體而言,這是一款功能強大且易用的AI全能開發助手,幫助用戶用一句話完成從設計到部署的整個應用開發過程。

TRAE 2.0 SOLO Review: Zero Bugs AI Coding
Categories: 免費試用, 編程, 教學

Qwen-Image-Edit

Qwen-Image-Edit 是 Qwen-Image 的圖像編輯版本,基於20B模型進一步訓練,支持精准文字編輯和語義/外觀雙重編輯能力。它具備多項關鍵功能與技術優勢:

  • 精準文字編輯:支援中英文文字的增、刪、改,並能保留原始文字的大小、字體與樣式。這得益於 Qwen-Image 獨特的文字渲染能力被擴展至編輯任務。
  • 雙重語義/外觀編輯:不僅能進行風格轉換、物件增刪等視覺外觀編輯,也支援 IP 創作、物件旋轉等高層次語義編輯。這透過將輸入影像同時饋入 Qwen2.5-VL(語義控制)和 VAE 編碼器(外觀控制)實現。
  • 強大跨基準效能:在多個公開基準測試中,Qwen-Image-Edit 在編輯任務上取得了最先進(SOTA)成果。
This new AI image editor is a BEAST. Qwen Image Edit tutorial
Categories: 開源, 阿里巴巴, 教學, 影像模型, 影像處理

建立一個本機語音 AI 代理

影片展示了如何利用 FastRTC 建立一個免費且本地運行的語音 AI 代理。這個系統的關鍵優勢在於它無需昂貴的 GPU 即可在 CPU 上運行,並確保使用者資料的 100% 私密性。它結合了 FastRTC 作為即時通訊庫、Gemma 作為語言模型 (LLM) 和 Coqui 作為文本轉語音 (TTS) 引擎,全部皆為開源工具。儘管存在回應延遲和語音自然度等局限性,但此設定在隱私性、成本效益和易用性方面表現出色,尤其適用於語言練習、互動式日記和講故事等不需要即時回應的應用場景。

Build A Free & Local Voice AI Agent Using FastRTC
Categories: 教學

Top 0.1% AI Researchers – BYTES LLM Inputs

這是 AI 領域的「秘密突破」,僅有頂尖 0.1% 的研究者知曉:直接將原始位元組(raw bytes)輸入大型語言模型(LLMs),並使用代數拓撲(algebraic topology)分析,透過持久同調(persistent homology)揭示傳統模型無法察覺的隱藏資料結構。這可能改變 AI 處理多模態資料(如文字、影像、影片)的未來。

SECRET: Top 0.1% AI Researchers - BYTES LLM Inputs - Topology - Persistent Homology - Episode 1
(more…)
Categories: 編程, 教學, , 深度學習, Embedding

成為頂尖 0.1% AI 研究者的 1 項技能

1 SKILL To Become Top 0.1% AI Researcher

影片詳細介紹:1 SKILL To Become Top 0.1% AI Researcher – EP.7 – Making LLMs Take Bytes As Input

這是系列影片的第 7 集,聚焦於 AI 研究中的前沿技術:讓大型語言模型(LLMs)直接以位元組(bytes)作為輸入,繞過傳統的標記化(tokenization)限制。

影片的目標是引導觀眾一步步進行 AI 研究,探討如何在開放源碼社區中領先於像 OpenAI 或 xAI 這樣的巨頭。Vuk Rosić 強調,這項技術能讓模型更快、更高效,因為數位世界本質上就是由位元組組成。他分享自己的研究過程,包括想法構思、代碼解釋、實驗設計,並鼓勵觀眾 fork GitHub 儲存庫參與。影片中提到,Elon Musk 最近表示 xAI 將取代 tokenizer,這讓這項研究更具時效性。

(more…)

Categories: 編程, 教學

Page 1 of 13
1 2 3 13