oMLX：把 Mac 變成本地 LLM 控制台

oMLX 是一個針對 Apple Silicon 的本地 LLM 推理工具，也是帶有圖形介面與 CLI 的伺服器管理項目。它主要解決的不是「能不能跑模型」，而是怎樣在 Mac 上較穩定地管理多個模型、保留 KV cache，並減少重複計算帶來的等待時間。

這個項目的取向很明確：用選單列介面處理常見操作，再配合終端機與 Apple Shortcuts 控制同一個服務。安裝路線亦相當直接，macOS 用戶可透過 .dmg 安裝，另有 Homebrew 方式；日志位置、背景服務與 CLI shim 都已交代，對需要長時間開著本地模型的人較友善。

Finally, The CORRECT Way to Run Local AI on a Mac

Watch this video on YouTube

它和一般本地 LLM server 的差異，在於分層 KV cache 設計。oMLX 把常用內容留在 RAM 的 hot tier，不夠位時再轉去 SSD 的 cold tier，並以 safetensors 格式保存；即使伺服器重啟，遇到相同前綴內容仍可重用快取，這對長對話、編程輔助和工具調用尤其有價值。

只需點擊一下，即可直接從管理面板設定 OpenClaw、OpenCode、Codex、Hermes Agent、Copilot 和 Pi。無需手動編輯配置。

支援 hot tier（RAM）與 cold tier（SSD）分層快取
可自動以 LRU 方式卸載較少使用的模型
管理介面可手動 load／unload 模型
提供選單列操作、CLI 與 Apple Shortcuts 整合
適合需要長上下文與多模型切換的 Mac 工作流程

現有資訊提到 continuous batching、context limits 與基準測試頁面，但 README 片段未列出具體數字，所以性能判斷宜保持審慎。可確定的是，它較適合在本地做持續開發、配合 Claude Code 一類工具，並集中管理「常駐小模型＋按需切換大模型」的團隊或個人環境；相關模型方面，內容明確提到 everyday models、heavier models，以及可選的 GLM-5.2、MiniMax M3 原生 custom kernels 支援。

GitHub