GLM-4.7-Flash 是 Zhipu AI 最新發布的 30B 參數 MoE 模型(3B 活躍參數),專為高效本地運行與程式碼生成設計,在同尺寸模型中達到開源 SOTA 效能。
影片使用 Inferencer app 在 M3 Ultra Mac Studio (512GB RAM) 測試 GLM-4.7-Flash 的 MLX 量化版本,比較未量化與 Q4/Q5/Q6/Q8 效能。未量化版生成 5000 個 token 的 3D 太陽系程式(含滑鼠互動),優於 Qwen3-Coder 30B (1700 token) 與 Neotron。
量化後 Q5/Q6 版維持高品質輸出(56 token/s,24-27GB 記憶體),適合 32GB 系統;批次處理 4 個提示達 120 token/s 總吞吐量,但記憶體升至 140GB。量化指標顯示 Q6 perplexity 1.23、token accuracy 96.65%,僅輕微發散,證明品質接近基模。
Let's Run GLM-4-7-Flash - Local AI Super-Intelligence for the Rest of Us | REVIEW
| 量化級別 | Perplexity | Token Accuracy | 記憶體使用 (GB) | Token/s (單一批次) |
|---|---|---|---|---|
| Base | 1.22 | 100% | 60 | – |
| Q5.5 | 1.25 | 94.5% | 24 | 56 |
| Q6.5 | 1.23 | 96.7% | 27 | 56 |
| Q8.5 | 1.23 | 97.8% | 34 | 50 |