開源 – Page 2 – Infer News

OpenClaw （原名Clawdbot）

本週，網路上掀起了一股搶購 Mac mini 的熱潮，人們紛紛購買 Mac mini 來運行 Moltbot（原名Clawdbot）。 Moltbot 是一款開源的、可自行託管的AI代理，旨在充當個人助理。

Clawd 誕生於2025年11月－這是「Claude」加上「爪子」的巧妙雙關。一切都完美無缺，直到Anthropic的法務團隊禮貌地要求我們重新考慮。好吧，這很合理。

Moltbot 這個名字是接下來誕生的，它是在凌晨5點與社區成員在 Discord 上進行一場混亂的頭腦風暴後選定的。蛻皮象徵成長－龍蝦脫殼蛻皮，最終長成更大的生物。這個名字寓意深刻，但念起來卻不太順口。

OpenClaw 就是我們的最終歸宿。這次，我們做了充分的準備：商標檢索結果清晰無誤，網域名稱已購買，遷移程式碼也已編寫完成。

短短48小時內，OpenClaw 在 GitHub 上就獲得了 12.3 萬顆星。彼得·斯坦伯格（Peter Steinberger）的周末計畫一度成為史上成長最快的開源人工智慧工具——直到安全研究人員檢查了其程式碼並發出警報。 OpenClaw 是一款開源的個人人工智慧助手，可在本地運行並連接到 WhatsApp、Slack、Discord和 iMessage 等應用程式。在2026年1月29日至31日期間，OpenClaw從默默無聞一躍成為擁有超過10萬顆星的開源人工智慧助理。開發者們欣喜若狂，終於可以擁有自己的人工智慧助手，而無需再從雲端服務供應商租用。然而，思科和 IBM 的安全專家卻稱之為 “一場噩夢”，並警告稱其存在API金鑰洩漏、提示注入攻擊和企業資料外洩的風險。

Categories: Agent, 開源

LingBot-world 高保真世界模型

LingBot-World 是一個專為交互式世界模型設計的開源框架。其核心 LingBot-World-Base 致力於提供高保真模擬與精准控制、且邏輯一致的模擬環境。該模型由一個可擴展數據引擎（Scalable Data Engine）驅動，通過從大規模遊戲環境中學習物理規律與因果關係，超越了傳統的被動式視頻合成，實現了與生成世界的交互。

LingBot-World 告別了隨機的“幻覺”式生成。它支持精細化的、由動作驅動的生成（action-conditioned generation），能夠精確響應用戶指令，渲染出高質量且符合物理真實感的動態場景。

Categories: 視頻模型, 開源, 世界模型

Moltbot = Clawdbot

Clawdbot 已於 2026 年 1 月 27 日更名為 Moltbot，因為 Anthropic 因商標相似（Claude）而要求變更。原 Clawdbot 是個人 AI 助理工具，支援多平台運行，現轉為 Moltbot，GitHub 移至 moltbot/moltbot，舊 clawdbot 組織重定向至新名稱。軟體功能、程式碼與使用方式完全相同，僅品牌與帳號變更（吉祥物從 Clawd 改為 Molty）。

Categories: Agent, 開源

Clawdbot 安裝指南

Clawdbot AI 私人助理

這是一份 Clawdbot 安裝指南。Clawdbot 是目前最熱門的開源個人 AI 助手，在 GitHub 已獲得超過 10K 星標。

Categories: Agent, 教學, 開源

Qwen3‑TTS 開源語音合成

Qwen3‑TTS 由阿里雲的 Qwen 團隊開發的開源語音合成系列模型，專注於提供穩定、富有表現力，且能即時生成語音的功能。整個專案的核心目的在於讓開發者與使用者能夠自由設計語音、快速複製已有聲音，並且能根據指令調整語調、情感與說話速度。相較於市面上其他解決方案，Qwen3‑TTS 同時支援十種主要語言以及多種方言音型，涵蓋中文、英文、日文、韓文、德文、法文、俄文、葡文、西文、意譲等，能讓應用跨語系、跨文化的需求更容易實現。

在技術架構上，Qwen3‑TTS 研發了自己的 Qwen3‑TTS‑Tokeniser‑12Hz 編碼器，這個編碼器能把音訊壓縮成 12.5 Hz 的多本級碼，既保留語义內容，也捕捉細節的聲音特徵。這種設計讓模型在合成音訊時可以使用較輕量的因果卷積網路直接重建波形，降低了運算成本與延遲。相較於傳統的「語言模型＋DiT」流程，Qwen3‑TTS 完全貫通端到端的離散多本碼結構，省去了資訊瓶頸與串聯錯誤的問題，提升了整體的生成效率與品質。

模型本身分為四個主要版本，分別是 1.7 B 以及 0.6 B 兩個大小的基礎模型、以及兩個具備語音設計與客製音色功能的變體。小型版（0.6 B）版的模型在三秒內即可完成從使用者提供的音檔進行快速複製，亦可作為微調（Fine‑Tuning）其他模型的起點；較大的 1.7 B 版則在保留上述功能的同時，提供更多語音樣式與更細膩的情感控制。所有模型都已發布在 GitHub 與 ModelScope 平台，並以 Apache‑2.0 授權，讓社群可自由使用、修改。

開發者只需要安裝 qwen‑tts 套件或使用 vLLM 等推理框架，就能自動下載對應的權重模型。若網路環境較為受限，官方提供了手動下載的指令，可讓使用者把模型權重下載到本機資料夾。更重要的是，Qwen3‑TTS 具備即時流式合成的能力，只要輸入一個字符，就能在 97 毫秒以內產出第一段語音，這使得它非常適合即時對話、虛擬助理或直播互動等需要低延遲的應用情境。模型同時支援多種語音控制方式，例如依照文字說明生成特定音色、根據自然語言描述調整語調與情感，甚至在同一段文字中混合多種音色，形成獨特的聲音組合。

總體而言，Qwen3‑TTS 不僅提供高品質的語音合成，更在多語系支援、流式生成、指令式語音控制與開源授權上提供了完整且可直接使用的解決方案。無論是想要在產品中加入自然的語音回覆、想要快速製作示範音檔、或是需要進行語音克隆與客製化設計的研究者，都能從這個開源項目中快速取得所需的工具與模型，並且能輕鬆將其整合到自己的開發流程中。

Categories: 阿里巴巴, Qwen, 語音, 開源

RBench and RoVid-X 機器人影片生成

RoVid‑X 號稱是目前最大規模的機器人影片生成開源資料集，約 400 萬 clips，覆蓋 1300+ skills / tasks，解析度達 720p，同時支援多樣機器人形態與多樣文字描述。RoVid‑X 主要解決現有 SOTA video diffusion / transformer 模型，在一般影片生成指標上不錯，但面對需要「因果一致、物理連貫」的機器人操作影片時，常出現物理錯誤、目標物體消失/瞬移、關節極限違反等問題。

RBench 旨在評估面向機器人的視訊生成的表現。它評估任務層面的正確性和視覺保真度。雖然RBench為識別這些缺陷提供了必要的視角，但要實現物理上的真實性，還需要超越評估層面，解決高品質訓練資料嚴重短缺的問題。基於這些，他們引入了一個改進的四階段數據管道，由此誕生了 RoVid-X——迄今為止最大的開源機器人視頻生成數據集，涵蓋數千個任務，並富含全面的物理屬性標註。這項協同的評估和資料生態系統為視訊模型的嚴格評估和可擴展訓練奠定了堅實的基礎，加速了具身人工智慧向通用智慧的演進。

Categories: 影像模型, 視頻模型, 開源, Robotic

Paper2Rebuttal 反駁智能體框架

REBUTTALBENCH 是第一個將反駁生成重新定義為以證據為中心的規劃任務的多智能體框架。此方法解決了目前直接處理文字方法的局限性，這些方法常常導致臆想、忽略批評意見以及缺乏可驗證的依據。我們的系統將複雜的回饋分解為原子級關注點，透過將壓縮摘要與高保真文本合成來動態建構混合上下文，並整合一個自主的外部搜尋模組來解決需要外部文獻的問題。至關重要的是，REBUTTALAGENT 在撰寫反駁方案之前會產生一個可檢查的回應計劃，確保每個論點都明確地錨定在內部或外部證據之上。我們在提出的 REBUTTALBENCH 上進行的驗證過程表明，REBUTTALAGENT 在覆蓋率、忠實度和策略一致性方面均優於強大的基線系統，為同行評審過程提供了一個透明且可控的輔助工具。下圖總結了我們的工作，並比較了我們的方法與以往的方法。

REBUTTALBENCH 是一個多智能體框架，旨在將反駁過程轉化為結構化且可檢查的工作流程。系統在撰寫最終文本之前會產生與證據相關的中間產物，以確保輸出結果的可靠性和可控性。如下圖所示，該架構將複雜的推理過程分解為多個專業智能體，並配備輕量級檢查器。這種設計突顯了關鍵決策點，使作者能夠保留對策略立場和最終措辭的責任。此流程首先將稿件提煉成結構化的摘要，並提取審查者關注的原子性問題，以確保長期推理的穩定性。在這些關注點的指導下，系統透過從稿件中檢索高保真度的摘錄，並利用網路搜尋添加可驗證的外部文獻，建構證據包。工作流程最後產生一個明確的回應計劃，概述論點和證據鏈接，作者可以透過人機協作機制對其進行完善，之後系統將產生正式的反駁信。

REBUTTALBENCH 使用 LLM 作為評判員的評分標準，從相關性（R 分數）、論證品質（A 分數）和溝通品質（C 分數）三個方面，以 0-5 分制對回覆進行評估。下方的詞雲和高頻詞直方圖突出了評審員反覆關注的幾個方面，例如清晰度、新穎性和可重複性，這些也正是評分標準所明確針對的。

Categories: Agent, 編程, 開源

醫療 SAM3 省卻重新標註

Medical‑SAM3 目標是做一個類似 SAM/Segmentation Foundation 的醫療版，但是真正「通用」到多器官、多疾病、多成像模態（CT、MRI、超音波等），並且支持多種互動式 prompt。

動機在於現有醫療分割模型普遍是單任務 / 單器官 / 單模態，泛化到新醫院、新機器或新部位時效果差，需要大量重新標註。Medical‑SAM3 想以大規模預訓練 + prompt-conditioning 來解決這個問題。因此在新的檢查方式或少數族群資料面前能跨機構使用。

Medical‑SAM3 基於多個公開醫療影像資料集進行大規模預訓練與評估，涵蓋多器官、多模態和多中心資料，以求提升 domain shift 下的泛化能力。

Categories: 香港理工大學, Medical醫學, 開源

PersonaPlex 全雙工對話語音模型

PersonaPlex 是一款即時、全雙工的語音對話模型，它透過基於文字的角色提示和基於音訊的語音訓練來實現角色控制。該模型結合了合成對話和真實對話進行訓練，能夠產生自然、低延遲且角色一致的語音互動。 PersonaPlex 是基於 Moshi 架構和權重。

NVIDIA PersonaPlex: Natural Conversational AI With Any Role and Voice

Watch this video on YouTube

Categories: NVIDIA, 教學, 語音, 開源

GLM-4.7-Flash 在 Mac 上的測試及比較

GLM-4.7-Flash 是 Zhipu AI 最新發布的 30B 參數 MoE 模型（3B 活躍參數），專為高效本地運行與程式碼生成設計，在同尺寸模型中達到開源 SOTA 效能。

影片使用 Inferencer app 在 M3 Ultra Mac Studio (512GB RAM) 測試 GLM-4.7-Flash 的 MLX 量化版本，比較未量化與 Q4/Q5/Q6/Q8 效能。未量化版生成 5000 個 token 的 3D 太陽系程式（含滑鼠互動），優於 Qwen3-Coder 30B (1700 token) 與 Neotron。

量化後 Q5/Q6 版維持高品質輸出（56 token/s，24-27GB 記憶體），適合 32GB 系統；批次處理 4 個提示達 120 token/s 總吞吐量，但記憶體升至 140GB。量化指標顯示 Q6 perplexity 1.23、token accuracy 96.65%，僅輕微發散，證明品質接近基模。

Let's Run GLM-4-7-Flash - Local AI Super-Intelligence for the Rest of Us | REVIEW

Watch this video on YouTube

量化級別	Perplexity	Token Accuracy	記憶體使用 (GB)	Token/s (單一批次)
Base	1.22	100%	60	–
Q5.5	1.25	94.5%	24	56
Q6.5	1.23	96.7%	27	56
Q8.5	1.23	97.8%	34	50

Categories: 模型, 開源

Page 2 of 19

« Previous 1 2 3 4 … 19 Next »