Infer News

認識 Token

Token 是什麼？
Token 是語言模型運算與計費的基本單位。模型會將輸入句子切分為 token，這些 token 可能是單字、子詞、甚至單一字元，每個 token 在模型內都有一個數字編號，模型實際運算都是在這些數值上進行。

不同模型為什麼 token 計算不一樣？
每個模型的 tokenizer（分詞器）都有自己的 vocab（詞彙表）與切分規則。例如同一句「Hello world」經 OpenAI 的 tokenizer 會產生 3 個 token，但用 Google 或 Anthropic 服務則可能是 4 個或更多/更少，這取決於各家詞彙表設計與切分策略。

Token 如何產生？
Tokenizer 首先會從語料訓練出一套詞彙表。簡易的做法如「字符級」切分，每一字元都是一個 token，這會造成 token 數暴增。進化的方法是將高頻出現的詞組合成較長的子詞（subword），減少 token 數，進而提升效率。

罕見詞與特殊語言怎麼分詞？
像人名、亂碼、稀有單詞、冷門語言等若在語料中較少見，會被切成更多更小的 token。這代表使用模型處理中文、粵語、小語種或非主流程式語言時，token 數可能顯著增加，導致 API 成本上升。

Most devs don't understand how LLM tokens work

Watch this video on YouTube

Categories: 教學

OpenSpec 按規範寫代碼的革命工具

OpenSpec 是一套專為 AI 助手而設計的規格驅動開發（Spec-driven Development, SDD）工具，主要用於 AI 協同開發時，提前鎖定功能需求和規格，避免 AI 直接從對話生成不可控的實作。

OpenSpec: NEW Toolkit Ends Vibe Coding! 100x Better Than Vibe Coding (Full Tutorial)

Watch this video on YouTube

OpenSpec：让AI按规范写代码的革命工具 OpenSpec: The Revolutionary Tool That Makes AI Write Spec-Driven Code

Watch this video on YouTube

Categories: 開源, 編程

Ovi 生成視頻、對嘴音頻

Ovi 使用了專屬預訓練 5B 音頻分支，架構設計類似 WAN 2.2 5B，同時提供了 1B 融合分支，支持純文本或文本+圖片輸入，自動生成視頻、對嘴音頻，以及匹配場景的背景音效和音樂。

Finally, open-source AI video with SOUND! Ovi tutorial

Watch this video on YouTube

OVI ComfyUI Workflow: Image & Text-to-Video with Sound (2025) — Is It Better Than Veo 3?

Watch this video on YouTube

Categories: ComfyUI, 開源, 數字人

Tunee.ai 可直出 MV

Tunee.ai 是一款次世代 AI 音樂智能體服務，提供自然語言對話驅動的創作體驗，方便各類用戶用簡單描述、音頻、圖片等多模態方式生成、改編、混音、母帶、MV 甚至專輯封面。

This AI Makes Music From Anything!

Watch this video on YouTube

Categories: 免費試用, 音樂, 線上服務

Sora 2 in ComfyUI

Sora 2 in ComfyUI: Step-by-Step Free Workflow to Generate 15-Sec AI Video New

Categories: Sora, ComfyUI, 開源

VChain 推理時間視覺思維鏈

近期的影片生成模型已能產生流暢且具視覺吸引力的影片片段，但在結合複雜動態與連貫的事件因果上仍然面臨挑戰。如何準確建模隨時間變化的視覺結果與狀態，依然是核心難題。

相對而言，大型語言與多模態模型（如 GPT-4o）展現出強大的視覺狀態推理與未來預測能力。為了結合這些優勢，VChain 是一種新穎的「推理時間視覺思維鏈」框架。VChain 將多模態模型的視覺推理信號，注入影片生成過程中，以增強生成模型的推理一致性。

具體而言，VChain 包含一個專用管線，利用大型多模態模型生成一組稀疏的關鍵幀作為事件快照，並在這些關鍵時刻指導預訓練影片生成器進行稀疏推理時間調整。這種設計使調整過程高效、開銷極低，且無需密集監督。

VChain: Chain-of-Visual-Thought for Reasoning in Video Generation

Watch this video on YouTube

Categories: 開源, 視頻模型

Paper2Video 論文自動生成視頻系統

Paper2Video 能從輸入的論文（LaTeX源碼）、一張圖片和一段音頻，生成完整的學術報告視頻。集成了幻燈片生成、字幕生成、游標定位、語音合成、講者視頻渲染等多模態子模塊，實現一條龍的演示視頻製作流程。支持並行處理以提升視頻生成效率，推薦GPU為NVIDIA A6000（48G顯存）及以上。

需要設定 GPT-4.1 或 Gemini2.5-Pro 等大型語言模型 API Key，支持本地 Qwen 模型。

Categories: Gemini, 開源, 數字人, Python, 語音

Suno AI V5 專業音樂製作

Suno AI V5 is INSANE – Suno Studio, MIDI Stems, New Remaster, Hooks

Suno AI V5 - New Suno AI Studio, MIDI Export, New Remaster, Hooks

Watch this video on YouTube

Categories: 教學, 音樂

musubi-tuner 影像微調 (LoRA)

musubi-tuner 提供使用 HunyuanVideo、Wan2.1/2.2、FramePack、FLUX.1 Kontext 和 Qwen-Image 架構訓練 LoRA（低秩自適應）模型的腳本。

Qwen Image LoRA保姆级训练教程 | 秘密武器：一个LoRA，通吃image和edit模型，完美解决角色一致性！

Watch this video on YouTube

basic guide to Qwen-Image LoRA training

For fundamentals, you can watch the video, although reading the text will also help. This article is related to the Qwen-Image LoRA character Eva Q…

Categories: 開源, 模型訓練

GitHub Copilot CLI 正式發佈

GitHub Copilot 編碼代理的強大功能直接帶到您的終端。透過 GitHub Copilot CLI，您可以在本地與能夠理解您的程式碼和 GitHub 上下文的 AI 代理程式同步工作。

Categories: 開源, MCP, 編程, Vibe Coding, Mac, Win, Linux

Page 3 of 58

« Previous 1 2 3 4 5 … 58 Next »