LangChain

FunASR 工業級語音辨識：支援廣東話

2026 年 7 月 19 日

如果你做過語音相關項目，大概率遇過呢種情況：開源模型散落喺唔同倉庫、部署方式各異、要接入 Agent 仲要自己寫 WebSocket 中間層。FunASR 就係針對呢類工程痛點嘅工業級語音識別工具包，屬於開源框架，由阿里達摩院維護，提供統一 Python 接口，將 ASR、VAD、標點恢復、說話人分離、情感偵測同音訊事件辨識串成一條流水線。

旗艦模型 Fun-ASR-Nano 係基於 LLM 嘅解碼架構，覆蓋中、英、日三語以及中文方言群組；針對 31 種語言嘅場景可以用 Fun-ASR-MLT-Nano-2512；鍾意多語言又有 LLM 解碼能力嘅，亦有 Qwen3-ASR（52 種語言、0.6B/1.7B 參數）。如果想要更輕量、非自迴歸嘅選擇，Paraformer 同 SenseVoice 仍係穩陣起點，前者適合生產線串流，後者額外送情感同音訊事件標籤。

funasr-server 一行指令就可以拉起 OpenAI 相容嘅轉寫 API，本地聽返 localhost:8000，配合 vLLM 仲可以做到 2-3 倍 LLM 解碼加速同 tensor parallel 批次推理。Agent 整合係另一個重點：MCP Server 可以直接接入 Claude 或 Cursor，OpenAI API 接口又同 LangChain、Dify、AutoGen 無縫對齊。最近幾個版本（v1.3.18 至 v1.3.22）就專門執緊 SRT/字幕分段、長時 WebSocket 連線、verbose_json 回傳呢啲工程細節。

要留意嘅取捨係：Fun-ASR-Nano 需要 GPU；新環境第一次 import funasr 已唔再強行依賴 PyTorch，但用 AutoModel 仍然要先裝 torch。FunASR 比較適合需要私有語音 API、字幕生成、長會議轉寫、或想將語音能力塞入 Agent 工作流嘅團隊開發者。

重點摘要：

統一 Python 接口整合 ASR、VAD、標點、說話人分離、情感偵測
Fun-ASR-Nano 旗艦模型支援 31 種語言及中文方言，Fun-ASR-MLT-Nano 覆蓋更廣
funasr-server 提供 OpenAI 相容 API，搭配 vLLM 可達 2-3 倍加速
內建 MCP Server 支援 Claude/Cursor，亦可接入 LangChain、Dify、AutoGen
近期版本持續優化字幕分段、WebSocket 長連線、verbose_json 回傳等工程細節

以下是其對粵語支持的詳細信息：

UniASR模型：這是一個專為粵語設計的語音識別模型，能夠處理簡體中文的粵語語音識別任務。
ITN模型：用於對粵語語音識別結果進行擬文本正則化後處理，以提高識別結果的準確性。
VAD模型：語音端點檢查模型，用於檢測長語音片段中有效語音的起止時間點，這對於粵語方言的語音識別同樣重要。
訓練語料：為了提高模型的準確性和適用性，通常會使用大量的粵語語料進行訓練，以便模型能夠更好地理解和識別粵語中的特有詞彙和表達方式。
離線功能：Funasr提供了離線語音識別模型，這意味著即使在沒有網絡連接的情況下，也能夠進行粵語語音識別。

項目主頁 · GitHub

Categories: 開源, Qwen, NVIDIA, Agentic, API, MCP, IDE, LangChain, Python, 語音, Dataset 數據集

WAPO：穩定 RLVR 訓練時的損失函數項目

2026 年 6 月 18 日

這是一個強化學習訓練工具項目，核心是為 Reinforcement learning with verifiable rewards（RLVR）加入多種損失函數，用來改善語言模型訓練時容易出現的崩潰問題。作者指出，傳統 GRPO 類方法雖然常見，但在 off-policy 更新下仍可能因梯度動態而失穩，所以這個 fork 直接把研究中的新損失實作進 vf.RLTrainer，方便對照測試。

項目內保留了 grpo、gspo、dr_dapo 等基線，並新增 wapo。其中 wapo 只針對正向回報的 rollout 更新，配合單向截斷與分組歸一化，思路比一般對稱 clip 更保守，目標是減少把模型推向錯誤方向的更新。

這個項目的新意不在於重新訓練一個模型，而是重新整理「哪些樣本值得被強化」這件事。論文提出的 gradient perspective 也把 token 層面的穩定性拆開分析，對想研究訓練動態的人很有參考價值。

適合以下人使用：
– 做 language model RLVR 研究的人
– 想比較 GRPO、GSPO、DR-DAPO、WAPO 差異的人
– 需要在數學推理或 multi-hop QA 做穩定性實驗的人
– 想沿用 vf.RLTrainer 再加自訂 loss 的開發者

性能方面，附帶的 arXiv 內容表示，WAPO 在數學推理與 multi-hop QA benchmark 上可提升訓練穩定性，並在多個模型家族上達到或超過基線。相關模型或方法包括 RLVR、GRPO、GSPO、DR-DAPO 與 WAPO。

GitHub： https://github.com/layer6ai-labs/wapo

Paper： https://arxiv.org/pdf/2606.16154

Categories: 開源, Qwen, 工具, LangChain, LangGraph, Python, 模型, 模型訓練, 深度學習

ScrapeGraphAI 開啓智能數據抓取新時代！

2024 年 12 月 31 日

用AI重塑數據提取方式！ScrapeGraphAI + LangChain + LangGraph 打造最強文章採集和寫作AI智能體！讓內容創作更簡單!

ScrapeGraphAI颠覆传统网络爬虫技术！用AI重塑数据采集方式！支持ollama本地部署！LangChain+LangGraph打造最强全自动文章采集和内容创作AI智能体！让内容创作更简单！

Watch this video on YouTube

Categories: 工具, LangChain, LangGraph, 教學