Audio

用 Hermes Agent 自動跑 ComfyUI 影片流程

2026 年 8 月 2 日

由文字指令直接帶動整條 AI 內容製作流程，正是這段教學最吸引人的地方。影片示範 Hermes Agent 在 Windows 電腦上接手 ComfyUI 操作，把影像、語音與影片生成串成一套可執行工作流，減少人手逐步點擊介面的時間。

這類做法處理的，是多工具協作時常見的斷層：模型會生成內容，但流程仍要靠人逐格設定、切換節點、整理輸出。Hermes Agent 扮演的角色更接近可執行指令的 Agent，讓使用者用自然語言描述需求，再由它推動 ComfyUI 與相關模型完成步驟。

影片標題提到的 Krea 2、LTX 2.3、Qwen 與 Fish Audio，反映這條工作流並不只限於單一模型，而是把視覺、影片與音訊能力接在一起。重點不在單一模型參數，而在於怎樣把不同項目整合成可重複使用的自動化流程。

Hermes Agent 可在 Windows 環境控制 ComfyUI
工作流涵蓋影像、音訊與影片生成
輸入形式以簡單文字指令為主
涉及 Krea 2、LTX 2.3、Qwen、Fish Audio 等模型或服務

對內容創作者、想整理 AI 製作流程的人，這類教學特別有參考價值。它未必代表所有步驟都能完全免調整，但已清楚展示 Agentic 工作流如何把 ComfyUI 由節點工具，進一步變成可自動執行的製作中樞。

項目主頁

Categories: Qwen, Google, ComfyUI, Agentic, Video, Audio, AI productions, 安全, 教學, 視覺模型, 視頻模型, LTX

ACE-Data-0：以人為中心的環境式採集構建具身數據引擎

2026 年 8 月 1 日

家居環境入面嘅長時間活動，一直係具身 AI 最難補足嘅數據缺口。ACE-Data-0 聚焦嘅唔係幾秒鐘嘅單一步驟，而係一段完整家務流程點樣一路影響視角、身體動作、物件狀態、接觸訊號同聲音，令模型可以學到「同一件事點樣隨時間演變」。

項目背後用 Ambient Capture Engine（ACE），將真實住宅場景變成同步錄製系統，並且同時覆蓋 table-scale 同 room-scale 兩個尺度。重點唔止係拍到第一身畫面或者外部鏡頭，而係將 ego view、exo views、body motion、hand articulation、object state、audio 同 touch 對齊到同一時間線，整理成可訓練、可標註嘅 embodied AI 數據。

相比只提供單一視角影片、實驗室動作捕捉，或者只得短片段互動記錄嘅常見做法，ACE-Data-0 更著重完整性同連續性。它以 household goal 為單位記錄活動，參與者自然完成任務，過程可以跨房間、牽涉多個物件，亦會保留場景由初始狀態、中途改變到任務完成嘅完整軌跡，較適合研究長程規劃、狀態追蹤同記憶能力。

用同步多模態方式記錄真實家居活動，而唔係只截取短動作片段
同一事件內對齊視角、身體、手部、物件、聲音同接觸訊號
以目標導向活動收集數據，保留跨步驟、跨房間嘅連續變化
適合具身 agents、機械人感知與操作、長時序決策相關研究

現有資料清楚交代咗項目定位、捕捉方式同數據價值，亦提到已釋出技術報告同 Hugging Face dataset。適合先將它理解為一個面向具身 AI 數據收集嘅基礎設施項目，而唔係即時上手型工具。

項目主頁

Categories: Agentic, Video, Audio, Robotic, Dataset 數據集

Gemini Robotics 2 想令機械人動作更完整

2026 年 7 月 31 日

CSJxggUnu5m5TfompiXP2z7YLThhUvDn2 kBueCZv6HCEWWefUt WLzM6wxnTV1sTGqBbvmXDnOTB12W18NDr2NgFVXvHKCiTtjfXpyzuOYPJZXlg=w1440

機械人最難處理的，往往不是單一步驟，而是由看見環境、理解指令，到整個身體協調完成動作的連續過程。Gemini Robotics 2 聚焦的正是這個落差，嘗試把 whole body intelligence 帶入機械人，讓系統不只會辨識和規劃，還能更自然地連動身體控制。

Google DeepMind 把它放在 Gemini Robotics 這條 physical AI 路線之下，定位清楚偏向機械人操作與互動。相比只處理螢幕、語言或單一機械臂任務的做法，這個方向更重視整體行為是否連貫，包括感知、推理、用工具與跟環境互動能否接上同一套能力。

對研究機械人、embodied AI 同 VLA 工作流的人來說，這類項目最有參考價值的地方，在於它瞄準真實場景中的協調問題，而不是只展示單點能力。文章提供的內容仍屬簡介層面，未見完整評測細節、量化指標或部署條件，所以現階段較適合當成技術方向觀察，而不是直接當作可落地規格。

把機械人的感知、推理與身體動作放到同一條能力鏈
核心關注點是 whole body intelligence，而不只是語言或視覺理解
屬於 Gemini Robotics 系列，延伸 Google DeepMind 的 physical AI 佈局
現有公開資訊偏介紹性，性能與限制仍有待更多技術資料補充

整體來看，Gemini Robotics 2 反映出機械人模型正在由「識唔識做判斷」走向「能唔能夠完整做完一個動作」。對需要長步驟操作、工具使用與環境互動的場景，這種整合式能力會比單一模組升級更值得留意。

項目主頁

Categories: Google, Gemini, NanoBanana, Agentic, Video, Audio, 安全, Robotic, 世界模型, Skill 技能, VLA

MiniMax H3 頂級高清影片生成

2026 年 7 月 31 日

做影片內容時，最麻煩往往不只是「生成一段片」，而係點樣令角色、鏡頭起承轉合同參考素材保持一致。MiniMax H3 屬於多模態影片模型，處理的正正係呢類控制力需求：除咗 Text-to-Video，亦支援以首幀、尾幀、參考圖片、參考影片同音訊去引導生成結果。

對內容團隊、短片創作者同需要自動化出片流程的開發者而言，呢個項目的吸引力在於輸入方式夠彈性。你可以由一段 prompt 起步，也可以加入第一張或最後一張畫面去約束開場與收尾；當需要保留人物、動作、鏡頭風格、聲線或剪接節奏，則可改用 Reference Generation。

MiniMax Just Dropped a "Seedance Killer" with a Twist

Watch this video on YouTube

支援 Text-to-Video、First/Last-Frame Image-to-Video、Reference Generation
統一理解 text、image、video、audio，多種素材可混合輸入
輸出最高為 2K，片長 4 至 15 秒，只接受整數秒
參考輸入上限包括最多 9 張圖片、3 段影片、3 段音訊，混合檔案總數上限 12

規格上，MiniMax H3 支援常見長闊比，圖片、影片與音訊都有清晰的格式及大小限制，例如影片可用 H.264/AVC、H.265/HEVC，圖片可用 JPG、PNG、WEBP，音訊則支援 WAV、MP3。音訊不能單獨提交，必須配合圖片或影片一齊使用；而較大的素材更建議用 URL 方式傳入，避免 API request body 超出 64 MB。

現有資料集中在能力範圍、輸入限制同 API 使用方向，能夠幫你快速判斷適唔適合接入工作流。

項目主頁

Categories: API, Video, MCP, Image, Audio, 多模態模型, 視頻模型, 語音, MiniMax

SoulX-Singer 把零樣本歌聲合成

2026 年 7 月 26 日

做歌聲生成，最難往往唔係「唱到」，而係未見過的聲線仍然要自然、準音、像本人。SoulX-Singer正是朝住呢個矛盾而來的開源模型項目，重點放在 zero-shot singing voice synthesis：唔使為每位歌手再微調，都可以用參考聲線配合旋律或樂譜生成歌聲。

它的定位幾清楚：一邊照顧創作控制，一邊盡量保住音色身份。你可以用 melody-conditioned 的 F0 contour 控制音高走向，亦可以用 score-conditioned 的 MIDI notes 對齊節奏與音符；對於需要改詞、換語言、保留同一把聲去做 demo、作曲草稿或虛擬歌手內容的人，這種控制方式比只靠文字描述更實際。README 亦提供 Hugging Face 模型與線上示範，部署理解上屬於下載預訓練權重後做推理的典型流程。

同類做法常見取捨，是控制愈細，聲線就愈易散；複製音色愈強，跨語言和改詞後又可能變得生硬。SoulX-Singer把 timbre 與 content 盡量拆開處理，目標是讓 Cantonese、Mandarin、English 之間仍能維持歌手辨識度，這點比單純追求「像真」更有產品意味。項目另外還有從 SoulX-Singer 微調而來的 SoulX-Singer-SVC，處理 singing voice conversion，直接由原始歌聲音訊轉換成目標歌手風格，連歌詞或 MIDI 標註都可省去。

支援 F0 contour 與 MIDI 兩種控制，適合作曲草稿與精修流程
主打 zero-shot，未見過的歌手聲線都可生成，減少逐人微調成本
42,000+ 小時對齊人聲資料覆蓋 Mandarin、English、Cantonese
可做改詞編修與跨語言合成，同時維持音色一致性
另設 SoulX-Singer-SVC，補上 audio-to-audio 轉換場景

現有資料未完整列出量化指標細節，但項目已公開技術報告、arXiv 與示範頁，代表它不只停在概念展示。對音樂 AI 團隊、虛擬歌手內容製作、語音與歌聲研究者而言，SoulX-Singer吸引之處在於它把可控性、跨語言與免微調三件事放入同一條生成鏈，而限制則仍要留意倫理風險、聲線授權，以及最終作品是否需要後期混音補足細節。

GitHub · 模型

Categories: 開源, Audio, 模型, 聲效, 音樂

Wan Streamer v0.3：讓 AI 學懂「世界不變，只有事件在流動」

2026 年 7 月 17 日

A robot navigates a suburban neighborhood and drives a car through a sequence of events

玩過 AI 影片對話工具的人都會發現一個矛盾：模型可以跟你聊天，但一旦想做動作，畫面就容易卡頓、失憶，甚至換了一張臉。Wan Streamer v0.3 想解決的就是這個問題——它把影片分成兩件事來學，一件是「世界設定」（場景、角色、畫風、聲音這些要長期保持一致的東西），另一件是「事件流」（說話、動作、鏡頭移動、環境變化這些隨時間發生的事）。

這個拆法聽起來抽象，但對使用者來說，最直接的差別就是角色終於可以做自然語言描述的動作了。你打開鏡頭，模型會一邊跟你說話，一邊伸手拿起眼前的物件、轉向聲音來源、或者露出驚訝的表情，而且動作和對嘴的時序是學出來的，不是後製對齊的。延遲仍然維持在約 200 毫秒，解析度 640×368、幀率 25fps，即時互動不會被打斷。

從工作流角度看，這個版本最大的價值是把普通影片變成訓練素材：先建立世界，再沿時間軸學接下來會發生什麼。同一套能力日後可以遷移到漫遊探索、機器人控制等場景，而這次發佈聚焦在即時音視頻對話。

重點摘要：

拆解式學習：將「持續世界」與「事件流」分開建模，避免長對話中場景漂移
自由動作描述：支援用自然語言寫出動作（如拿取物件、轉向、變換姿勢），並與對話同步渲染
即時互動規格：640×368、25fps、約 200ms 模型側延遲，支援全雙工音視頻
普通影片即訓練素材：不需特殊標註，現成影片就能用於學習時間軸上的因果事件
可遷移架構：同一套預訓練能力可延伸至具身導航、漫遊等場景

對於做數位人、虛擬主播、互動敘事或即時陪聊的團隊，這個方向值得留意；對於只是想試試看的個人，現有 demo 已經足夠展示「角色真的在過日子，而不只是在回話」的差異。

項目主頁

Categories: Video, Audio, 多模態模型, 模型訓練, 語音, Robotic, 世界模型, Skill 技能

MultiRef-Compass：多模態影片不再各自為政

2026 年 7 月 17 日

同一段生成影片，畫面可能順眼、聲畫卻唔對位；角色外觀接近參考圖，指令跟從又未必準。MultiRef-Compass 抓住呢種常見落差，定位成一個開源評測工具包，處理 multi-reference multimodal video generation 的比較問題，重點唔係逐條片人手睇，而係用可重現的方法把不同模型放到同一把尺上量度。

它的取向相當明確：偏向研究比較，而唔係臨時檢查作品。項目用固定的 CSV 輸入欄位，接收文字、視覺參考、音訊參考同生成影片，再輸出 per_sample.csv、model_summary.csv、ranking.md 同 details.json。這種設計的好處，是團隊可以用同一批樣本反覆測不同模型；代價是流程較講究資料整理，較適合已有實驗管線的人。

跟只看單一分數的做法相比，MultiRef-Compass 把結果拆成四組共 14 個公開指標，包括 Basic Quality、Entity Fidelity、Audio-Video Consistency 同 Instruction Following。它同時混合 classical media-analysis pipelines、learned quality models、speaker embeddings，以及 multimodal language model judges，所以看到的不只是整體高低，仲會知道問題出在 anatomy、reference fidelity、voice timbre similarity，定係 temporal order。

用統一 schema 比較不同影片生成模型，較容易做橫向排名
保留 sample-level diagnosis，同時支援 model-level ranking
支援 text、visual-reference、audio-reference 三種條件一齊評測
著重公開 metric taxonomy，同類研究較易重現結果

現有資訊未見到完整安裝細節，但理解方式已很清楚：先準備符合欄位要求的 CSV manifest，再按指標群組跑評測後端。受益最大的，會是做多模態影片生成、聲畫對齊、角色一致性與指令跟從研究的團隊。相關能力圍繞 Visual Quality、Audio Quality、Entity Fidelity、Speech-Lip Synchronization、Voice Timbre Similarity 等指標展開；它未必幫你直接提升模型質素，卻能先把模型到底差在哪一環講清楚。

GitHub · 模型

Categories: 開源, Video, Audio, Embedding, 多模態模型, 視頻模型, 語音

LightMem-Ego：AI 眼鏡及手機的日常記憶系統

2026 年 7 月 14 日

LightMem-Ego 由 Zhejiang University、South China University of Technology、Central China Normal University 與 Lenovo Group Limited 共同開發。它瞄準的是手機與 AI 眼鏡長時間接收影像、聲音後，怎樣把零散片段變成可追問的日常記憶，屬於端到端 streaming multimodal memory system。

現有多模態助理多數擅長回答當下畫面或單次對話，但要回想剛才誰講過甚麼、物件放在哪裏、一天內發生過甚麼，就需要把連續經驗累積、整理和檢索。LightMem-Ego 的做法是把第一身 visual-audio streams 對齊到同一條時間線，再分成 Current memory、Short-term memory 和 Long-term memory，查詢時按問題動態路由到合適記憶層，並用 timestamped multimodal evidence 支撐答案。

工作流定位：連接 Rokid AI Glass Android app、browser frontend 和 online backend service。
主要用途：object finding、conversation recall、life summarization、routine discovery 和 hands-free wearable assistance。
核心取捨：不是只追求單次多模態理解，而是把輕量、持續累積和可檢索記憶放在中心。
部署理解： Quick Start 與 glasses + web deployment，但提供資料未列出完整安裝指令或模型配置細節。

對可穿戴裝置開發者、個人助理產品團隊來說，這個項目的價值在於它把擷取、時間線對齊、記憶分層和問答串成一條較完整的流程。它也較適合需要測試「長時間生活脈絡」的場景，而不是只做單張圖片問答或短語音轉錄。

性能與評估資料在提供內容中仍然有限，未見具體 benchmark 數字可引用。相關模型資料只提到 multimodal large language models 的背景，包括 OpenAI 與 Gemini；未明確指定 LightMem-Ego 後端必須使用哪一個固定模型。

GitHub · Paper

Categories: 開源, Gemini, OpenAI, Agentic, Audio, 多模態模型, 語音, 中國, Dataset 數據集, 框架

audio.cpp-webui：本地音訊 AI 一站式介面

2026 年 7 月 13 日

要同一部電腦處理 TTS、voice cloning、ASR 同音訊增強，最大阻力往往唔係模型本身，而係部署鏈太散。audio.cpp-webui 把這件事收斂成一個偏向本地部署的音訊推理框架＋WebUI 工具：核心沿用上游 0xShug0/audio.cpp，以 C++ 配合 ggml 執行，這個分支再補上完整任務介面同較友善的 Windows 啟動方式。

它的定位幾清楚：唔係只做單一模型展示，而係想用同一套 runtime 接住多類音訊工作流。你會見到它涵蓋 TTS、voice conversion、ASR、diarization、VAD、source separation，連 denoise、resampling、STFT/ISTFT 都內建，較接近「把多個音訊 AI 能力放入同一個本地工作台」，而唔係逐個 Python 項目分開跑。

本地语音 AI 终于统一了！实时对话、声音克隆、AI 翻唱8G 显存全跑通｜audio.cpp｜整合包

Watch this video on YouTube

跟常見 Python 參考路徑相比，這個項目的取向是用原生執行環境換取更穩定的部署體驗同速度，代價是功能節奏仍然受上游整合進度影響，而且部分高階流程像 JSON pipeline 仍屬 experimental。效能數字是它最值得留意的一環：多條 TTS 路徑在 CUDA 上可比 Python reference paths 快 1.8x 至 5.0x，端到端延遲可降低 45% 至 80%；README 亦列出 VibeVoice 1.5B 能在 18.2 分鐘生成 93.9 分鐘 podcast。

可用 webui.bat 啟動 Gradio WebUI，本地網址是 http://127.0.0.1:7860
支援按需載入模型、模型切換、下載模型、上傳或錄製 reference voice
內建進階參數控制，同頁可見執行狀態與錯誤訊息
較適合想在 Windows 或本地 CUDA 環境整合多種音訊任務的人員與小團隊

相關模型與路線目前集中在多種本地音訊模型家族，文中點名 VibeVoice 1.5B，整體則圍繞現代 audio models 的統一推理。對內容製作、語音原型、內部工具驗證，甚至要把多步驟流程包成固定操作的人來說，它補上的並非新奇功能，而是把本來零散的模型執行方式整理成較可重用、較易維護的本地項目基礎。

GitHub

Categories: 開源, NVIDIA, 文字轉語音, Audio, 工具, Clone, Python, 語音

[技術文章] Gemma 4：更快更慳算力的多模態開放模型

2026 年 7 月 8 日

Google 正式發佈 Gemma 4 技術報告文章：

當模型要同時處理文字、圖片同音訊，常見做法多數靠獨立 encoder 加上大型語言模型組合；能力雖然完整，但記憶體佔用、推理速度同長上下文成本都容易變重。Gemma 4 Technical Report 針對的正是呢個矛盾：唔只追求更強表現，亦想把多模態理解、推理能力同計算效率放到同一條路線上處理。

Gemma 4 屬於 open-weight、natively multimodal language models，涵蓋 dense 同 Mixture-of-Experts（MoE）架構，規模由 2.3B 到 31B。報告最值得留意的對比，在於作者唔再只沿用「更大模型加外掛模組」呢種固定範式，而是加入 thinking mode，令模型先產生 reasoning trace 再回答；同時用長上下文優化、KV cache sharing，以及在 12B 版本引入 unified, encoder-free architecture，把 raw audio 同 image patches 直接投影到 LLM embedding space。

呢種設計帶來的好處幾實際：一方面，長上下文下的記憶體壓力有機會減輕，報告提到 global KV cache footprint 最多可減 37.5%；另一方面，模型亦提供用 quantization-aware training（QAT）訓練的量化版本，盡量在不明顯犧牲品質下減少參數記憶體佔用同延遲。另有 autoregressive multi-token prediction（MTP）drafter head，配合 speculative decoding 提升解碼速度。

支援文字、圖片、音訊，多個型號覆蓋不同硬件需求
以 thinking mode 加強數學、編程等重推理任務
透過 p-RoPE、KV cache sharing 等方法改善長上下文效率
12B 型號採用 encoder-free 路線，減少獨立 encoder 帶來的記憶體碎片化

性能方面，報告指 Gemma 4 在 STEM、多模態同長上下文 benchmark 有明顯進步，亦在 Arena 等 human-rated tasks 接近更大型的 frontier open models。原始資料未提供安裝步驟或完整使用流程，但已清楚交代模型系列的核心取向：用較可控的成本，換取更接近前沿水準的多模態推理能力，並以 Apache 2.0 授權開放。

Paper

Categories: Google, Gemini, Image, Audio, Embedding, 多模態模型, 模型, 模型訓練, Dataset 數據集

Page 1 of 3

1 2 3 Next »