Infer News

UniVA 全能型影片處理框架

一套開源、多代理的「全能型影片處理框架」UniVA，目的是將影片理解、分割、剪輯與生成等功能統合成自動化且可擴展的工作流程。

主要創新與架構

Plan-and-Act 雙代理架構：系統分成「規劃代理」與「執行代理」。規劃代理會解析用戶意圖，分解成結構化的多步影片處理任務；執行代理則利用模組化的工具伺服器（MCP-based servers）來完成分析、生成、剪輯、追蹤等步驟。
分層記憶機制：建立了全球知識、任務上下文與用戶偏好三層記憶，確保長時段推理、上下文連續性及代理間溝通，有助於符合用戶風格或偏好的一致性影片製作。
端到端全能影片工作流：支援任何條件（文字、圖片、影片等）進行生成 → 多輪剪輯 → 物件分割 → 合成等自由流程，而非單一模型侷限的功能。
模組化擴展生態系：架構原生支援加入新工具與模型，方便根據需求進行功能擴充，提升系統柔性與持續性開發。

Categories: 影像處理, 開源

ComfyUI Fusion LoRA 教學

ComfyUI Tutorial Fusion LoRA Easy Compositing

Categories: ComfyUI, 影像模型, 影像處理, 開源

视频也能 P Comfyui 最强视频工作流

视频也能P Comfyui最强视频工作流三连发

Categories: ComfyUI, 影像模型, 影像處理, 開源

AI 代理才是真正的智慧

AI代理人運作的邏輯與人類極為相似：感知（Perceive）：理解環境與任務。決策（Decide）：由大型語言模型（LLM）推理與規劃。行動（Act）：執行指令、嘗試任務、回饋結果。這樣的循環讓AI不再只是「輸入輸出」，而是能根據情境持續學習與調整。

AI 代理才是真正的智慧：AI Agent 究竟如何完成你的工作！？

Watch this video on YouTube

Categories: Agent, 教學

最近 AI 生成技術越來越流行應用 image to video，其中最常見的是駛用（first frame）和（last frame）作為提示（prompt）來引導 AI 模型產生更平滑的影片延續效果。令到生成的影片更加有連貫性。例如想由一個影片平滑過渡到另一個影片。ElFrame 正是專為這種工作流設計的簡單輔助工具，它專注影片快速提取最後一幀，用家能夠輕鬆攞到這些關鍵圖像作為後續 AI 生成的輸入。

ElFrame 是一個免費的（Video Frame Extractor），可以快速提取影片的任何一幀。這些提取出的圖像可以直接用於像 Wan 2.1 的 First-Last-Frame to Video 或者其他類似的 AI 工具（例如 Veo3、Luma Dream Machine、Runway ML），作為生成影片的邊界提示，減少生成過程的抖動和不連貫問題。順帶一提，呢個免費服務係由 OpenSpec 協助一邊睇戲一邊自動生成！

Categories: Image, 線上服務, 影像處理

Gemini CLI v0.9.0 互動式終端

Google 在最新的官方開發者更新中宣布，Gemini CLI v0.9.0 現已支援完整的「互動式終端命令」體驗，這是該工具迄今最大的架構升級之一。

主要更新特點

互動式命令支援：使用者現在可以直接在 Gemini CLI 內運行 vim 編輯器、top 系統監控、
git rebase -i 等互動性命令，而無需離開 CLI 環境。

Pseudo-terminal（PTY） 整合：CLI 現在透過 node-pty 函式庫啟動虛擬終端（pseudo-terminal）進程，讓作業系統識別該 session 為終端機應用，使應用可如原生環境般運行。

即時輸出串流：新增的 serializer 元件能持續擷取虛擬終端的畫面快照（包含文字、顏色、游標位置等），並即時串流回使用者端，呈現如「直播」般的互動視覺效果。

雙向通訊能力：CLI 支援將鍵盤輸入即時傳送至背景進程，並能隨視窗大小自動調整顯示區域，就像原生 shell 一樣。

增強的色彩輸出：輸出渲染引擎改進，能正確顯示彩色終端輸出，呈現更完整的命令列視覺效果。

快捷鍵焦點切換：可使用 Ctrl + F 專注於互動終端視窗。

安裝與升級方式

Gemini CLI v0.9.0 起預設啟用此互動式 shell，可透過下列指令升級至最新版本：

npm install -g @google/gemini-cli@latest

背後技術亮點

這項更新的核心在於引入 pseudo-terminal (PTY) 與 即時序列化/串流處理機制，構成完整的「可觀察、可輸入、可重繪」終端環境，使 Google 的 Gemini CLI 同時具備 AI 輔助與原生 shell 操作體驗。

Categories: 編程, 開源

認識 Token

Token 是什麼？
Token 是語言模型運算與計費的基本單位。模型會將輸入句子切分為 token，這些 token 可能是單字、子詞、甚至單一字元，每個 token 在模型內都有一個數字編號，模型實際運算都是在這些數值上進行。

不同模型為什麼 token 計算不一樣？
每個模型的 tokenizer（分詞器）都有自己的 vocab（詞彙表）與切分規則。例如同一句「Hello world」經 OpenAI 的 tokenizer 會產生 3 個 token，但用 Google 或 Anthropic 服務則可能是 4 個或更多/更少，這取決於各家詞彙表設計與切分策略。

Token 如何產生？
Tokenizer 首先會從語料訓練出一套詞彙表。簡易的做法如「字符級」切分，每一字元都是一個 token，這會造成 token 數暴增。進化的方法是將高頻出現的詞組合成較長的子詞（subword），減少 token 數，進而提升效率。

罕見詞與特殊語言怎麼分詞？
像人名、亂碼、稀有單詞、冷門語言等若在語料中較少見，會被切成更多更小的 token。這代表使用模型處理中文、粵語、小語種或非主流程式語言時，token 數可能顯著增加，導致 API 成本上升。

Most devs don't understand how LLM tokens work

Watch this video on YouTube

Categories: 教學

OpenSpec 按規範寫代碼的革命工具

OpenSpec 是一套專為 AI 助手而設計的規格驅動開發（Spec-driven Development, SDD）工具，主要用於 AI 協同開發時，提前鎖定功能需求和規格，避免 AI 直接從對話生成不可控的實作。

OpenSpec: NEW Toolkit Ends Vibe Coding! 100x Better Than Vibe Coding (Full Tutorial)

Watch this video on YouTube

OpenSpec：让AI按规范写代码的革命工具 OpenSpec: The Revolutionary Tool That Makes AI Write Spec-Driven Code

Watch this video on YouTube

Categories: 編程, 開源

Ovi 生成視頻、對嘴音頻

Ovi 使用了專屬預訓練 5B 音頻分支，架構設計類似 WAN 2.2 5B，同時提供了 1B 融合分支，支持純文本或文本+圖片輸入，自動生成視頻、對嘴音頻，以及匹配場景的背景音效和音樂。

Finally, open-source AI video with SOUND! Ovi tutorial

Watch this video on YouTube

OVI ComfyUI Workflow: Image & Text-to-Video with Sound (2025) — Is It Better Than Veo 3?

Watch this video on YouTube

Categories: ComfyUI, 數字人, 開源

Tunee.ai 可直出 MV

Tunee.ai 是一款次世代 AI 音樂智能體服務，提供自然語言對話驅動的創作體驗，方便各類用戶用簡單描述、音頻、圖片等多模態方式生成、改編、混音、母帶、MV 甚至專輯封面。

This AI Makes Music From Anything!

Watch this video on YouTube

Categories: 線上服務, 免費試用, 音樂

Page 10 of 65

« Previous 1 … 8 9 10 11 12 … 65 Next »