教學 – Infer News

AI 代理才是真正的智慧

AI代理人運作的邏輯與人類極為相似：感知（Perceive）：理解環境與任務。決策（Decide）：由大型語言模型（LLM）推理與規劃。行動（Act）：執行指令、嘗試任務、回饋結果。這樣的循環讓AI不再只是「輸入輸出」，而是能根據情境持續學習與調整。

AI 代理才是真正的智慧：AI Agent 究竟如何完成你的工作！？

Watch this video on YouTube

Categories: 教學, Agent

認識 Token

Token 是什麼？
Token 是語言模型運算與計費的基本單位。模型會將輸入句子切分為 token，這些 token 可能是單字、子詞、甚至單一字元，每個 token 在模型內都有一個數字編號，模型實際運算都是在這些數值上進行。

不同模型為什麼 token 計算不一樣？
每個模型的 tokenizer（分詞器）都有自己的 vocab（詞彙表）與切分規則。例如同一句「Hello world」經 OpenAI 的 tokenizer 會產生 3 個 token，但用 Google 或 Anthropic 服務則可能是 4 個或更多/更少，這取決於各家詞彙表設計與切分策略。

Token 如何產生？
Tokenizer 首先會從語料訓練出一套詞彙表。簡易的做法如「字符級」切分，每一字元都是一個 token，這會造成 token 數暴增。進化的方法是將高頻出現的詞組合成較長的子詞（subword），減少 token 數，進而提升效率。

罕見詞與特殊語言怎麼分詞？
像人名、亂碼、稀有單詞、冷門語言等若在語料中較少見，會被切成更多更小的 token。這代表使用模型處理中文、粵語、小語種或非主流程式語言時，token 數可能顯著增加，導致 API 成本上升。

Most devs don't understand how LLM tokens work

Watch this video on YouTube

Categories: 教學

Suno AI V5 專業音樂製作

Suno AI V5 is INSANE – Suno Studio, MIDI Stems, New Remaster, Hooks

Suno AI V5 is INSANE - Suno Studio, MIDI Stems, New Remaster, Hooks

Watch this video on YouTube

Categories: 教學, 音樂

NVidia Cosmos 重組光源

開源 Cosmos DiffusionRenderer 是一個視訊擴散框架，用於高品質影像和視訊的去光和重光。它是原始
DiffusionRenderer 的重大更新，在 NVIDIA 改進的資料管理流程的支持下，實現了顯著更高品質的結果。

最低要求
Python 3.10
NVIDIA GPU 至少配備 16GB VRAM，建議配備 >=48GB VRAM
NVIDIA 驅動程式和 CUDA 12.0 或更高版本
至少 70GB 可用磁碟空間

Relight Any Scene with AI: NVIDIA Research Unveils DiffusionRenderer

Watch this video on YouTube

教學：

NVIDIA's new AI Just Made Any Video Relightable (DiffusionRenderer Demo)

Watch this video on YouTube

Categories: 開源, 視頻模型, 教學, Linux, 影像處理

Nano Banana 貼士

30 Nano Banana Issues FIXED! 30 Pro Tips You Can’t Afford to Miss 🚀

Categories: 免費試用, 教學, 影像模型, 影像處理

TRAE 2.0 SOLO 實測結果

TRAE 2.0 SOLO 是一款全自動AI編程助理，用戶只需用自然語言描述想法，AI便能自動編寫需求文檔（PRD）、規劃架構、設定技術棧，完成前後端編碼、資料庫連接，並部署至雲端。

整體而言，這是一款功能強大且易用的AI全能開發助手，幫助用戶用一句話完成從設計到部署的整個應用開發過程。

TRAE 2.0 SOLO Review: Zero Bugs AI Coding

Watch this video on YouTube

Categories: 免費試用, 編程, 教學

Qwen-Image-Edit

Qwen-Image-Edit 是 Qwen-Image 的圖像編輯版本，基於20B模型進一步訓練，支持精准文字編輯和語義/外觀雙重編輯能力。它具備多項關鍵功能與技術優勢：

精準文字編輯：支援中英文文字的增、刪、改，並能保留原始文字的大小、字體與樣式。這得益於 Qwen-Image 獨特的文字渲染能力被擴展至編輯任務。
雙重語義/外觀編輯：不僅能進行風格轉換、物件增刪等視覺外觀編輯，也支援 IP 創作、物件旋轉等高層次語義編輯。這透過將輸入影像同時饋入 Qwen2.5-VL（語義控制）和 VAE 編碼器（外觀控制）實現。
強大跨基準效能：在多個公開基準測試中，Qwen-Image-Edit 在編輯任務上取得了最先進（SOTA）成果。

This new AI image editor is a BEAST. Qwen Image Edit tutorial

Watch this video on YouTube

Categories: 開源, 阿里巴巴, 教學, 影像模型, 影像處理

影片展示了如何利用 FastRTC 建立一個免費且本地運行的語音 AI 代理。這個系統的關鍵優勢在於它無需昂貴的 GPU 即可在 CPU 上運行，並確保使用者資料的 100% 私密性。它結合了 FastRTC 作為即時通訊庫、Gemma 作為語言模型 (LLM) 和 Coqui 作為文本轉語音 (TTS) 引擎，全部皆為開源工具。儘管存在回應延遲和語音自然度等局限性，但此設定在隱私性、成本效益和易用性方面表現出色，尤其適用於語言練習、互動式日記和講故事等不需要即時回應的應用場景。

Build A Free & Local Voice AI Agent Using FastRTC

Watch this video on YouTube

Categories: 教學

Top 0.1% AI Researchers – BYTES LLM Inputs

這是 AI 領域的「秘密突破」，僅有頂尖 0.1% 的研究者知曉：直接將原始位元組（raw bytes）輸入大型語言模型（LLMs），並使用代數拓撲（algebraic topology）分析，透過持久同調（persistent homology）揭示傳統模型無法察覺的隱藏資料結構。這可能改變 AI 處理多模態資料（如文字、影像、影片）的未來。

SECRET: Top 0.1% AI Researchers - BYTES LLM Inputs - Topology - Persistent Homology - Episode 1

Watch this video on YouTube

(more…)

Categories: 編程, 教學, 庫, 深度學習, Embedding

成為頂尖 0.1% AI 研究者的 1 項技能

1 SKILL To Become Top 0.1% AI Researcher

Watch this video on YouTube

影片詳細介紹：1 SKILL To Become Top 0.1% AI Researcher – EP.7 – Making LLMs Take Bytes As Input

這是系列影片的第 7 集，聚焦於 AI 研究中的前沿技術：讓大型語言模型（LLMs）直接以位元組（bytes）作為輸入，繞過傳統的標記化（tokenization）限制。

影片的目標是引導觀眾一步步進行 AI 研究，探討如何在開放源碼社區中領先於像 OpenAI 或 xAI 這樣的巨頭。Vuk Rosić 強調，這項技術能讓模型更快、更高效，因為數位世界本質上就是由位元組組成。他分享自己的研究過程，包括想法構思、代碼解釋、實驗設計，並鼓勵觀眾 fork GitHub 儲存庫參與。影片中提到，Elon Musk 最近表示 xAI 將取代 tokenizer，這讓這項研究更具時效性。

(more…)

Categories: 編程, 教學

Page 1 of 13

1 2 3 … 13 Next »