JetBrains 推出 Mellum 2：專為即時推論而生的輕量語言模型

Mellum 2 是 JetBrains 推出的一系列輕量級語言模型，設計目標是讓 AI 推論過程更快、更省資源。相較於一般大型語言模型龐雜的體積，Mellum 走的是精簡路線，能在保持表現的同時，大幅降低回應時間，這對於需要即時互動的應用來說相當關鍵。

Mellum 2 是開放權重的 120 億參數混合專家 (MoE) 語言模型，每個詞元有 25 億個活躍參數。

這項目主要解決一個核心問題：如何在不犧牲太多準確度的前提下，讓語言模型的回應速度快到可以整合進日常工具中。例如 IDE（Integrated Development Environment，整合式開發環境）內的自動補全、程式碼提示等功能，往往需要模型在幾十毫秒內就給出結果，傳統大型模型很難做到這一點。

Mellum 2 的主要創新在於針對低延遲推論（ultra-low-latency inference）進行了架構與訓練流程的最佳化，讓模型在邊緣裝置或本地端環境也能順暢運行。JetBrains 將其定位為「real-world AI workloads」，意思是它不是只為研究而生的模型，而是真正要部署到生產環境的工具。

這套模型最適合的場景包括：需要即時回應的開發工具、需要本地端 AI 能力的企業應用，以及對成本敏感的批次處理任務。開發者可以透過 JetBrains 提供的資源將 Mellum 整合到自己的系統中，而無需依賴雲端的大型模型服務。

以下是 Mellum 2 的重點摘要：

輕量架構：模型體積小，適合在本地端或資源有限的環境運行。
低延遲推論：針對即時回應需求設計，回應速度遠快於一般大型語言模型。
生產導向：專為實際部署與整合而打造，非純研究用途。
JetBrains 背書：由 IDE 領域知名團隊推出，與開發者工具生態有良好銜接。

整體而言，Mellum 2 代表了語言模型走向「小而快」的趨勢，讓更多場景能以合理成本享受到 AI 帶來的便利。

項目： https://www.jetbrains.com/mellum/