Infer News

100+ 看來與電影一模一樣的 AI 視頻

100+ AI Videos That Look EXACTLY Like Reality (Veo 3)

Watch this video on YouTube

Categories: 影像處理

WAN 2.1 VACE 模型的原生支援

1.3B 模型採用 Creative Commons 非商業授權，14B 模型則為 Apache 2 授權。

影片詳細展示如何在ComfyUI中下載、載入不同模型，根據顯存選擇合適的模型版本，並調整參數以優化生成效果（如步數、強度等）

ComfyUI現在原生支援WAN 2.1 VACE模型，提供1.3B（適合低顯存顯卡）和14B（適合高顯存顯卡）兩種模型。
多種 AI 影片生成工作流程：
- 文字轉影片（Text-to-Video）
- 圖像轉影片（Image-to-Video）
- 影片控制（Video Control）
- 影片外延（Video Outpainting）
- 首尾影格生成（First Frame/Last Frame）

Amazing AI Video Natively in ComfyUI - An Introduction to WAN VACE

Watch this video on YouTube

Categories: ComfyUI, txt2img, 影像模型, 影像處理, 數字人, 開源

你的工作將被AI搶走？

人工智慧與機器學習教授 Graham Morehead 回答網友對AI相關的熱搜問題！AI、AGI 和 ASI 之間有什麼區別？如果中國或美國率先實現超級人工智慧，將會產生什麼影響？AI會搶走人類的所有工作嗎？以上這些問題的解答都在本集影片中！

你的工作將被AI搶走？這些產業未來五年將受到衝擊？《雲端情人》的AI伴侶快實現了？如何防範AI竄改影片？人工智慧學教授回答網友對AI的熱搜問題！｜名人專業問答｜GQ Taiwan

Watch this video on YouTube

Categories: 新聞

Absolute Zero 是由清華大學主導的一項創新語言模型訓練方法。這個方法最顯著的特點是不再需要由人類提供的數據進行訓練，而是自動生成問題，然後嘗試自動解決問題來進行學習。過往的監督學習，或者強化學習，一般都是由人類設定目標進行監管，而 Absolute Zero 可以透過自我對弈機制。能夠在數學和程式設計的領域中自動提升推理能力。研究顯示，這種模型不僅在這些領域達到了最先進的性能，甚至超越了由人類策劃的數據去訓練的模型。

Categories: 模型訓練, 深度學習, 開源

nanoVLM 輕量級視覺語言模型 (VLM)

nanoVLM 是一種極簡輕量級的視覺語言模型 (VLM)，專為高效的訓練和實驗而設計。使用純 PyTorch 構建，整個模型架構和訓練邏輯大約需要 750 行程式碼。它將基於 ViT 的圖像編碼器（SigLIP-B/16-224-85M）與輕量級因果語言模型（SmolLM2-135M）相結合，形成了一個緊湊的 222M 參數模型。該模型使用來自 cauldron 資料集的 170 萬個樣本在單一 H100 GPU 上訓練約 6 小時後，在 MMStar 上實現了 35.3% 的準確率，這使其成為低資源 VLM 研究的強大基線。

Categories: 視覺模型, 開源

TRAE 1.35 新版整合 MCP

Trae 令我放棄了 Cursor，放棄了 WindSurf，甚至 Cline 等等。因為它擁有更加直觀的操作介面，除了提供傳統的 IDE 功能，亦包括自動編寫代碼、項目管理、插件管理，同時，最新版本亦都直接整合了 MCP 同 MCP 市場。當然亦唔少得 AI Agent。

📢Breaking News TRAE.AI Just Added GAME CHANGING Features!

Watch this video on YouTube

Trae 大更新！免費 AI IDE 終於支援 MCP，自訂智能體、強大模型 (GPT-4.1/Claude 3.7) 全面進化！

Watch this video on YouTube

Categories: MCP, Vibe Coding, 編程

FaceFusion 3.2.0 GPU 詳細安裝教程

💥 FaceFusion 3.2.0 更新不僅帶來了全新的GPU加速，還提升了不少效能與真實感！

🔍 新功能
1️⃣ YOLO NSFW過濾
2️⃣ 多GPU支援
3️⃣ FLAC音訊輸出
4️⃣ 臉部選擇增強

NEW FaceFusion 3.2.0 GPU Installation – Boost Realism & Performance Like Never Before!

Watch this video on YouTube

Categories: 影像模型, 教學, 開源

MCP vs A2A 技術比較

基本定義與原理 MCP（Model Context Protocol）模型上下文協議MCP 是一個由 Anthropic 開發的開放標準協議，目的是讓語言模型（LLM）或 AI 助手能標準化地連接到外部資料來源、工具與服務。可以把它想成是 AI 的「USB-C 接口」──讓 AI 模型可以即插即用地讀取即時資訊、存取資料庫、調用外部工具。MCP 的設計理念是解決資料孤島問題，讓 LLM 可以取得最新的、動態變化的資訊，提升回答的相關性與正確性。MCP 是雙向、模組化、安全的設計：每個外部服務是一個小型的 MCP 伺服器，只暴露必要的能力，並由 LLM 應用端（host）控制存取範圍。 A2A（Agent-to-Agent Protocol）代理對代理協議A2A 是 Google 在 2025 年推出的開放標準協議，專門設計來讓不同 AI 代理（Agent）之間能互相通訊、協作與委派任務。A2A 是 MCP 的補充：MCP 解決「模型接資料源」的問題，A2A 則解決「多個代理人互動」的問題。A2A 基於現有網路標準（HTTP、JSON、SSE），注重安全性與長時間任務協調，支援多種互動模式（文字、表單、音訊、影片）。每個 Agent 透過公開的「Agent Card」（JSON 格式）宣告自己的能力與 API，便於其他代理人發現與互動。架構、通訊機制與流程 MCP 架構 Client-Server 架構：LLM 應用（如 Claude Desktop、IDE 插件）是 […]

Categories: MCP

LTX-Video 0.96

LTX-Video 是第一個基於 DiT 的視訊生成模型，可以即時產生高品質的視訊。它可以以 1216×704 的分辨率生成 30 FPS 的視頻，比觀看這些視頻的速度還快。該模型在多樣化影片的大規模資料集上進行訓練，可以產生具有逼真和多樣化內容的高解析度影片。模型支援文字轉圖像、圖像轉影片、基於關鍵影格的動畫、影片擴充（正向和反向）、影片轉影片以及這些功能的任意組合。

Categories: 多模態模型, 影像模型, 影像處理, 視頻模型, 開源

SkyReels-V2 生成無限長度影片

Skywork 是一個創新的研究團隊，致力於推動法學碩士和多模式理解。它們的使命是透過視覺和語言開發並實現無縫互動的尖端模型和資料集來突破人工智慧的界限。模型支援文字到視訊（T2V） 和圖像到視訊（I2V） 任務，並且可以在同步和非同步模式下進行推理。

影片長度限制的突破：雖然像 LTXV 和 HuanYun 等模型在速度或品質方面表現出色，但它們通常限制生成約 5 到 10 秒的短片。Frame pack 可以生成高達 60 秒的高品質影片，但 60 秒是其最大長度。Skyreels V2 透過其稱為「擴散強制 (diffusion forcing)」的技術，可以讓您生成長達 60 秒甚至可能更長的影片。技術上，擴散強制模型可以透過不斷訓練一個擴散強制取樣器並在最後組合每個結果來無限延長影片長度。

Skyreels V2 - Best Video Model for High Quality Infinite Length

Watch this video on YouTube

Categories: 多模態模型, 影像模型, 推理引擎, 開源

Page 20 of 66

« Previous 1 … 18 19 20 21 22 … 66 Next »