JoyAI-VL-Interaction 把影像助手變主動

JoyAI-VL-Interaction overview

現時多數視覺語言模型仍然沿用 turn-based 問答範式:用戶問一句,模型答一句;就算放進視像通話或直播介面,底層仍是被動回應。JoyAI-VL-Interaction 直接挑戰這個做法,改成持續觀看、按秒判斷要沉默、回應,還是把難題交給背景模型處理,目標是把 VLM 從「被問先答」推向即時互動。

這是一個多模態模型可部署系統項目,想解決的不是普通問答,而是「畫面中的關鍵一刻不會等人發問」這個問題。技術報告提到它是 8B vision-first 模型,支援 real-time video-language interaction,並配合 time-aligned interaction data、training recipe 與完整系統,重點放在時間感、主動觸發與持續在線。

如果你想理解它是否適合自己,最容易的測試場景是把 webcam、直播畫面或監控串流接入,觀察它會否在有事件時主動開口,而不是每次都等指令。這種模式較適合直播助理、居家提醒、遠端看護、商務示範,甚至要一邊看影像一邊調用 API 或 agent 的流程。

  • 核心改動是由問答式互動,轉向 watch-and-do 式互動
  • 模型每秒自行決定沉默、回應或 delegation
  • 系統可接駁 ASR、TTS、memory、API 與其他 agent
  • 報告稱可長時間處理連續影片,延遲維持在 sub-second
  • 人工評分比較中,對 Doubao 與 Gemini 的質量與時機掌握都有明顯優勢

創新位不只在模型本身,也在整個開放堆疊一起釋出:模型、數據、訓練方法與部署系統放在同一個項目脈絡,方便研究者與開發者沿原路線延伸。相關模型與組件包括背景大模型、API、agent,以及文中對比的 Doubao、Gemini;若完整開源內容如期提供,這個項目會對即時多模態互動研究有相當高參考價值。

GitHub: https://github.com/jd-opensource/JoyAI-VL-Interaction

項目:https://joyai-vl-video-future-academy-jd.github.io/JoyAI-VL-Interaction/

Categories: 開源, 字節跳動, Gemini, OpenAI, 文字轉語音, Agentic, API, Video, Image, 工具, AI productions, IDE, 多模態模型, 模型, 模型訓練, 視頻模型, 語音

MiniMax Hub:本機優先的多模態創作工作站

MiniMax Hub

MiniMax Hub 是一個 Multimodal Creative Agent,定位像 AI 創作工作站,不只是聊天工具。它把 Copy Generation、Image Creation、Video Editing、Audio & Voiceover、Auto Packaging 與 Multi-format Export 整合在同一個流程,讓用家由想法到成片可在一處完成。

它支援 macOS 與 Windows 下載,輸入簡報、文字想法,或直接加入本機素材後,主代理會先理解創作目標,再做 Smart task decomposition,之後交由多個 agents 並行處理文案、視覺與音訊。用家仍可手動選模型,亦會在關鍵節點收到確認,避免流程完全黑箱。

這個項目在於把創作流程保存成可重用的 Skills。系統會隨工作過程累積你的做法與風格,之後可重複套用;如果需要,也可從 MiniMax Skills Market 啟用現成 Skills 或外掛。對經常製作短劇、電商內容、品牌 TVC 與廣告素材的團隊來說,這類流程重用能力相當實用。

  • 本機優先設計,頁面明確指出 local files stay on your machine
  • 單一畫布整合腳本、分鏡、影片、音樂與剪輯流程
  • 支援資產管理與 batch generation,可一次產出多個版本
  • 代理會自動分解任務,並在關鍵步驟要求人工確認
  • 可把工作流程沉澱成 Skills,逐步累積個人或團隊方法

MiniMax Hub較著重工作流編排與創作協作,而不是單一模型能力展示。網站未列出具體性能分數或公開評測結果,因此較適合把它理解為面向內容製作的本地化 AI 工具平台。文中未提供明確模型清單,只提到會自動匹配最合適模型。

項目: https://hub.minimax.io/

Categories: Agentic, Video, Image, Audio, 軟件, AI productions, Mac, Win, 多模態模型, 模型, 視覺模型, 視頻模型, 語音, 音樂, Skill 技能

OmniVideo-100K:增強影音推理訓練數據集

Framework Overview

現時不少影音問答資料建立流程,普遍沿用「video-caption-QA」範式:先把影片切成短片段,再分開寫視覺與音訊描述,最後生成 QA。論文作者認為這種做法容易出現 modality bias、temporal misalignment,同一角色在不同片段亦可能描述不一致,令問題多數只圍繞局部事件,難以考驗長時間跨度的 audio-visual reasoning。

OmniVideo-100K 是一個 Dataset 數據集,目標是為 Multimodal Large Language Models (MLLMs) 提供較完整的影音推理訓練材料。它提出兩個核心機制:Entity-Anchored Video Scripting 先把原始影片整理成結構化 script,包括摘要、主要實體清單,以及帶時間戳的分段音畫描述;Clue-Guided QA Generation 則先抽取跨片段、跨模態線索,再生成較複雜的問答。

這種設計的關鍵,不在於題目數量大,而在於先整理證據鏈再出題。對比舊方法把長文本理解和 QA 合併成一步,OmniVideo-100K 把線索挖掘獨立出來,較有機會產生涉及因果、未來預測與假設推理的題目,而不只是問畫面中「見到乜」。

如果你想測試這個項目,可以先留意 Hugging Face 上的 OmniVideo-100K 與人手驗證的 OmniVideo-Test,看看資料結構是否適合自己的訓練流程;做研究的人則可直接比較模型在外部 benchmark 的變化。論文提到,VITA-1.5、Qwen2.5-Omni-7B、Qwen3-Omni-30B 經此資料集微調後,在 OmniVideo-Test 最多提升 20.59%,在 Daily-Omni、JointAVBench 也有最多 12.64% 增幅,同時盡量保留在 Video-MME 這類一般影片 benchmark 的能力。

  • 針對舊式「video-caption-QA」流程的三個痛點:modality bias、temporal misalignment、敘事不連貫
  • 用 structured scripts 加 entity list,補回跨片段指代一致性與聲音來源對應
  • 任務覆蓋 10 類,包括 FGP、STD、CU、CP、SA、ESO、SM、CR、FP、HR
  • 適合做影音理解、跨模態推理、指令微調資料研究的人參考
  • 相關模型包括 VITA-1.5、Qwen2.5-Omni-7B、Qwen3-Omni-30B

整體來看,這個項目的價值在於它不只新增一批資料,而是重寫影音 QA 資料的組織方法。若你關心的不是單張畫面問答,而是影片內角色、聲音、事件先後與推論之間的連結,OmniVideo-100K 會比一般自動合成資料集更有研究參考價值。

Categories: 開源, Qwen, Video, Audio, 工具, AI productions, 多模態模型, , 模型, 模型訓練, 語音, Dataset 數據集

Bernini:影片生成與編輯的新路線

Bernini

Bernini 是一個影片生成與編輯框架,核心是把 MLLM-based semantic planner 與 DiT-based renderer 組合起來,處理一般影片擴散模型常見的內容漂移、指令跟從不穩定,以及長片段規劃鬆散等問題。從定位看,它不是單純再堆大模型,而是先做語意規劃,再交由生成器落實畫面。

這個項目的關鍵想法,在於「Latent Semantic Planning」:先在潛在空間安排語意,再做 video diffusion。對非研究背景讀者來說,可以理解為先寫分鏡草稿,再逐格畫面化,這比直接由文字一步到位生成影片,更有機會保持故事連貫和編輯意圖一致。

如果想試,較合理的切入點是影片編輯任務,例如風格轉換、字幕或水印移除、局部修改,再觀察輸出有沒有跟足指令。倉庫列出的環境偏高階,建議準備 CUDA 12.4、Python 3.11.2,以及 torch==2.5.1+cu124、diffusers==0.35.2、accelerate==0.34.2、transformers==4.57.3;若有 H100、H800、H200 可配合 FlashAttention-3,其他 CUDA GPU 則退回 FlashAttention-2 或 PyTorch SDPA。

Bernini 在 video editing 的表現進入部分主流 closed-source commercial models 的第一梯隊,評分來自其自建 arena,以人工盲選、Bradley-Terry score 及 pairwise win-rate matrix 彙整。這類結果有參考價值,但暫時主要反映編輯場景;若你關心更複雜的人物生成,官方也提到 1.3B 的 Bernini-R 在簡單任務接近 14B 版本,面對複雜任務仍有差距。

Bernini: Latent Semantic Planning for Video Diffusion
  • 核心組成是 MLLM-based semantic planner + DiT-based renderer
  • 已公開 Bernini-R 權重,包含 1.3B 版本
  • 適合研究影片生成、影片編輯流程,或想比較規劃式生成方法的人
  • 硬件門檻偏高,Multi-GPU sequence parallel 亦需要 Open-VeOmni
  • 相關模型可先留意 Bernini-R-1.3B-Diffusers,以及文中提到的 14B 變體

整體來看,Bernini 最有價值的地方不是「再一個影片模型」,而是把規劃與渲染拆開處理,令可控性成為主要賣點。若你想找可直接在普通電腦輕鬆跑的項目,它未必合適;但如果你重視研究方向、編輯質素與系統設計,這個項目相當值得細看。

GitHub: https://github.com/bytedance/Bernini

Categories: 開源, 字節跳動, 影像模型, 影像處理, 模型, 視覺模型, 視頻模型, 語音, 框架

Lip Forcing:把唇形同步推進即時串流

Hero image preview

Lip Forcing 是一個針對 video-to-video(V2V)lip synchronization 的研究項目,重點是把 diffusion 模型原本昂貴的推理流程,大幅壓縮到適合即時串流使用。它希望在保留人物身份、頭部姿勢與背景一致性的同時,令口型更準確貼合目標音訊。

現有 diffusion-based 唇形同步方法畫質和聲畫對齊表現不錯,但通常要看完整段影片、再經過很多次 denoising steps,速度和延遲都難以配合直播翻譯、virtual avatars、interactive agents 這類場景。Lip Forcing 改用 autoregressive diffusion,把影片分段逐塊生成,並把 50-step teacher 壓縮成 two-step streaming student,減少計算負擔。

對 lip-sync 任務,本身不是單純套用通用加速技巧。作者指出 CFG 會在 reference fidelity 與 synchronization 之間出現取捨,並據此設計出 Sync-Window DMD、two-step inference schedule,以及以 SyncNet 為基礎的 reward,目標是在少步數下仍維持可用的唇形同步效果。

兩個 student 模型都由 14B teacher 蒸餾而來。1.3B student 可達 31 FPS,速度比同規模 bidirectional model 快 17.6 倍;14B student 則比 teacher 快 39.8 倍,並維持相近的 reference fidelity。兩個版本的 time-to-first-frame 都低於 1 毫秒,顯示它特別適合低延遲串流情境。

  • 支援即時串流,最高可達 31 FPS
  • 每個 chunk 只需 two denoising steps,毋須 inference-time CFG
  • 採用 autoregressive diffusion,降低全序列注意力帶來的成本
  • 針對 lip synchronization 設計蒸餾方法,不是一般加速改裝
  • 適合 live translation、virtual avatars、interactive agents 等場景

如果你關注的是即時嘴型同步、低延遲影片生成,或想了解 few-step autoregressive diffusion 如何落地到影音任務,這個項目相當有參考價值。文中可確認引用與比較的技術脈絡包括 Computer-use agents、CUAs、LoRA、OSWorld 以外的影音生成方向;就本頁內容可明確列出的模型,主要是 14B audio-conditioned bidirectional video diffusion teacher、1.3B student、14B student,以及 SyncNet。

Paper: https://arxiv.org/pdf/2606.11180

Categories: 開源, 模型, 語音

LWS:聽寫說三通道:語音模型也能即時寫出程式碼?

Listen-Write-Speak tri-channel legend

一般語音大型語言模型只能說出口頭回應,許多文字擅長的工作(例如編寫程式、條列分析、逐步推理)在即時對話中往往被犧牲。Listen-Write-Speak(LWS)正是針對這個瓶頸而設計,它讓單一自回歸大型語言模型同時處理三個通道:持續聆聽使用者音訊、即時生成可見的文字、並行輸出語音回應,三者共享同一個因果注意力脈絡。

這是模型、框架,還是什麼? LWS 是一個完整的語音模型項目,包含推理服務、Triplex/LWS runtime、前端展示以及測試,並非單純的網頁展示殼層。它建基於 OpenBMB 的 MiniCPM-o-4_5,再透過 Token Schema 機制在不改動模型架構的前提下,把文字輸出提升為第一公民的通道。

創新之處在於打破了「文字只是隱藏中間狀態」的慣例:寫入螢幕的內容不再只是語音的草稿,而是可被檢視、可被複製、可被審核的正式輸出。這對於需要邊說邊整理思緒的場景特別有幫助,例如教學、編程輔助、會議摘要。

性能與評估方面,項目在 VoiceBench AlpacaEval 達到 4.72 分,書寫與語音一致性為 92.6%,並在 Full-Duplex-Bench 與多語言 URO-Bench 都有穩定表現,顯示三通道並行並未犧牲即時反應。

適合的對象包括研究語音介面的開發者、需要可審核對話紀錄的團隊,以及對全雙工(full-duplex)互動有興趣的 AI 工程師。如想測試,可透過 ModelScope 下載基座模型 OpenBMB/MiniCPM-o-4_5 與 LWS 資產後運行推理服務與前端展示。

重點摘要

  • 三通道並行:聆聽、可見書寫、語音輸出共享一個因果注意力脈絡
  • 文字優先:寫入內容是第一公民輸出,不再是隱藏草稿
  • 無需改架構:透過 Token Schema 在標準自回歸 LLM 上實現
  • 完整開源 runtime:包含推理服務、runtime 與前端,非單純展示
  • 多項基準驗證:在 Full-Duplex-Bench、VoiceBench、URO-Bench 均有報告數據

GitHub: https://github.com/zly-idleness/lws_demo

項目: https://royalzhang.com/project/lws-page/

Categories: 開源, 編程, 語音

Boson AI 開源 4B 參數語音模型 Higgs Audio v3 速覽

Og image

bosonai/higgs-audio-v3-tts-4b 是由 Boson AI 在 Hugging Face 上開源的一款文字轉語音(Text-to-Speech, TTS)模型,整個模型約有 40 億(4B)個參數。這個項目主打多語言語音合成,並可根據少量參考音訊複製說話者的聲線,亦支援多輪對話式的語音生成,常用於 AI 配音、對話機械人、有聲內容製作等場景。

模型以 transformers 框架發佈,頁面具備 chat_template_jinja 範本,方便整合到現有的對話系統中。開發者可以直接透過 Hugging Face Transformers 載入 tokenizer 和模型,並依官方範例程式碼生成 wav 音檔,整體流程對熟悉 Python 的使用者而言並不複雜。

Higgs Audio v3 TTS: Beyond Reading, Toward Real Speech

這個項目主要處理傳統 TTS 難以兼顧「自然對話感」與「聲線多樣性」的痛點。模型能根據文字內容自動調整語氣、停頓與情緒,讓合成結果更貼近真人發聲。

重點摘要:

  • 規模與定位:約 40 億參數的開源 TTS 模型,定位為輕量而功能完整的語音方案。
  • 核心功能:支援文字轉語音、聲線複製(voice cloning)以及多輪對話語音生成。
  • 多語言支援:可處理多種語言的合成任務,適合跨語言應用。
  • 使用門檻:需要 Python 環境與 Hugging Face Transformers 基礎知識,建議配備 GPU 以獲得順暢體驗。
  • 整合彈性:內建 chat template,方便接駁到聊天機械人或多輪對話流程。

這個項目較適合從事 AI 語音應用、虛擬助手、有聲書或遊戲配音的開發者與研究人員。如追求極低部署成本,亦可考慮使用雲端 GPU 或 Hugging Face Inference Endpoints 來運行。

項目: https://huggingface.co/bosonai/higgs-audio-v3-tts-4b

Categories: 開源, 數字人, 語音

Audio-Interaction:讓 AI 像真人一樣即時聽與回應

Audio-Interaction teaser

Audio-Interaction 是一款由南洋理工大學(NTU)、新加坡國立大學(NUS)及香港中文大學(CUHK)共同研發的全開源音訊語言模型,屬於新一代的 Audio Interaction Model(音訊互動模型)。它以一個始終運行的感知—決策—回應循環(perceive-decide-respond loop)為核心,能即時聆聽環境聲音與指令,並自行判斷何時應該開口回應。

傳統的大型音訊語言模型大多只支援離線處理,而現有的串流模型一般只能做單一任務,例如即時語音辨識(streaming ASR)或語音聊天。Audio-Interaction 以單一架構同時覆蓋離線與即時任務,把辨識、翻譯、對話等不同功能統一在同一條串流中。這意味著開發者只需要一套模型,就能應付多種音訊互動場景。

這個項目的核心創新在於其訓練流程 SoundFlow。它能把短音訊片段拼接成長互動資料,並以「塊級決策訓練」(chunk-level decision training)配合歷史回顧與語意感知的靜音處理,讓模型學會「該不該說話」。在推論階段,SoundFlow 採用異步 FIFO 推論(asynchronous FIFO inference),使首幀延遲降低約 4.5 倍,帶來更流暢的即時體驗。

使用時,開發者可以直接從官方頁面取得技術報告與程式碼,並透過微信群組加入社群討論。該項目亦提供了即時試聽 Demo,可與 OpenAI 的 gpt-realtime 及字節跳動的 Seeduplex 進行同條件比較,在重複聲響計數、咳嗽辨識及音樂風格判斷等場景中,Audio-Interaction 能逐輪輸出有意義的回應。

Audio-Interaction 重點摘要:

  • 統一架構:以單一模型同時支援離線與即時音訊任務,涵蓋辨識、翻譯及對話。
  • 感知—決策—回應循環:模型自行判斷回應時機,貼近真實人機互動節奏。
  • SoundFlow 訓練流程:結合資料拼接、塊級決策訓練與靜音感知,提升即時判斷能力。
  • 低延遲推論:異步 FIFO 推論使首幀延遲降低約 4.5 倍。
  • 完全開源:提供技術報告、程式碼及即時試聽 Demo,方便研究與應用。

這個項目特別適合從事語音 AI、對話系統及多模態互動研究的開發者與團隊,能為需要即時音訊理解的產品,例如智能助手、會議記錄、聽障輔助等,提供一個統一且靈活的基礎模型。

項目: https://xzf-thu.github.io/Audio-Interaction/

Categories: 開源, 香港中文大學, 模型, 模型訓練, 語音

Mega-ASR:嘈雜環境下更穩定的語音辨識

Mega-ASR Logo

Mega-ASR 是一個針對野外場景而設的語音辨識項目,重點放在「環境愈差,結果仍然可用」。一般模型在雜音、回音、收音距離遠,甚至傳輸中斷時,常會出現漏句、亂寫內容或直接沒有輸出;這個項目正是為了解決這類問題而來。

它的做法不是只靠單一噪音增強,而是把真實世界常見的聲學干擾拆成 7 類基本條件,再組合成 54 種複合場景,用約 260 萬筆訓練樣本去磨練模型。論文亦提到兩個關鍵方法:A2S-SFT 與基於 DG-WGPO 的強化學習,目標是令模型由聲音訊號一路更穩定地對應到語意,特別加強嚴重失真下的語意恢復與局部關鍵字重建。

想試這個項目,最直接是查看其 Hugging Face 權重、技術報告,以及配套的 Voices-in-the-Wild-2M 資料集和 Voices-in-the-Wild-Bench 基準。對開發語音輸入、會議轉錄、客服錄音整理,或戶外收音產品的人來說,這類資源比單看示範更有參考價值,因為可以用同一套基準比較不同模型在惡劣環境下的表現。

  • 針對雜音、遠場、遮擋、回音、錄音瑕疵、電子失真與傳輸掉包而訓練
  • 特色是減少 hallucination、空白輸出與整句遺漏
  • 提供模型權重、資料集與基準,方便延伸評估
  • 相關模型可留意 Qwen3-ASR-1.7B,以及 README 提到的其他開源與閉源強模型比較

表現方面,公開資料指出它在多個惡劣條件基準上優於先前強模型,例如在 VOiCES R4-B-F 與 NOIZEUS Sta-0 的錯誤率均有明顯下降;在複合聲學場景下,亦錄得超過 30% 的相對錯誤率改善。不過這些結果主要來自論文與項目提供的評估,使用時仍要看語言種類、音訊長度和部署資源是否配合你的場景。

整體來看,Mega-ASR 最值得留意的,不是它把乾淨語音分數推高多少,而是它把語音辨識帶回更接近現場的問題:收音差、環境亂、訊號不完整時,系統還能否交出可信文本。對需要「穩定比完美更重要」的項目,這個方向相當有吸引力。

GitHub: https://github.com/xzf-thu/Mega-ASR

Paper: https://arxiv.org/pdf/2605.19833

Categories: 開源, 模型, 語音, 上海人工智慧實驗室


Page 1 of 3
1 2 3