GLM-4.7-Flash 在 Mac 上的測試及比較

GLM-4.7-Flash 是 Zhipu AI 最新發布的 30B 參數 MoE 模型(3B 活躍參數),專為高效本地運行與程式碼生成設計,在同尺寸模型中達到開源 SOTA 效能。​​

影片使用 Inferencer app 在 M3 Ultra Mac Studio (512GB RAM) 測試 GLM-4.7-Flash 的 MLX 量化版本,比較未量化與 Q4/Q5/Q6/Q8 效能。未量化版生成 5000 個 token 的 3D 太陽系程式(含滑鼠互動),優於 Qwen3-Coder 30B (1700 token) 與 Neotron。

​量化後 Q5/Q6 版維持高品質輸出(56 token/s,24-27GB 記憶體),適合 32GB 系統;批次處理 4 個提示達 120 token/s 總吞吐量,但記憶體升至 140GB。​量化指標顯示 Q6 perplexity 1.23、token accuracy 96.65%,僅輕微發散,證明品質接近基模。

Let's Run GLM-4-7-Flash - Local AI Super-Intelligence for the Rest of Us | REVIEW
量化級別PerplexityToken Accuracy記憶體使用 (GB)Token/s (單一批次)
Base1.22100%60
Q5.51.2594.5%2456
Q6.51.2396.7%2756
Q8.51.2397.8%3450
Categories: 模型, 開源