Qwythos-9B GGUF 技術拆解

這個模型之所以值得注意，主要是因為它把推理能力、超長上下文、以及本地部署友好性結合在一個 9B 級別的模型裡。它是基於 Qwen3.5-9B 的全參數推理模型，並用 5 億多條 Claude Mythos / Claude Fable traces 做後訓練，還支援 1M context、vision 和 function calling 。

Hugging Face empero-ai/Qwythos-9B-Claude-Mythos-5-1M 的 GGUF 量化版本屬於 quantized 形式，而非原始訓練權重。它的主要用途是在 llama.cpp、Ollama、LM Studio 等 GGUF 執行環境中部署一個支援推理、視覺輸入、function calling 與長上下文的 9B 模型；其表現超越 base Qwen3.5-9B，但這一層關係屬於上游模型說明。

Qwythos-9B 是 full-parameter reasoning model，經過超過 5 億 tokens 的 Claude Mythos / Claude Fable traces 後訓練，並使用 Empero AI 內部 rethink 工具生成 chain-of-thought。能力上支援 1,048,576 tokens（1M context），透過 YaRN rope-scaling 預設開啟；同時標示為 image-text-to-text、multimodal、vision、agentic，表示它不只是文字聊天模型。

v2 已要求重新下載，原因包括 tokenizer metadata 對 Qwen3.5 GGUF runtimes 的修正、chat template 更新，以及新增 -MTP- 版本。已列出的一般版本包括：Qwythos-9B-Claude-Mythos-5-1M-Q4_K_M.gguf（5.24 GiB，官方建議預設）、Q5_K_M（6.02 GiB）、Q6_K（6.85 GiB）、Q8_0（8.87 GiB）與 BF16（16.69 GiB）；頁面亦提到 vision projector smoke-tested，但截取內容未見 mmproj 檔名。

Q4_K_M 是最適合起步的量化級別，容量較低，而且頁面直接標成 recommended default
Q5_K_M / Q6_K 較適合想提高品質、又想控制記憶體佔用的部署
Q8_0 接近 near-lossless，較適合重視輸出穩定度的情境
-MTP- 檔案是為 llama.cpp MTP draft speculation 準備，一般相容性則以普通檔名版本較穩陣

與一般只做指令微調的同類模型相比，這個項目強調三點：一是 1M context 已預設可用，二是 native function calling 依照 Qwen3.5 spec，三是 v2 連 chat template 都針對 tool calling 與 OpenCode-style agent loops 修正。限制亦很清楚：完整訓練細節與評測數字需要回到 base model card 查看，而這個頁面主要是量化分發頁；使用時亦要留意舊版 GGUF 檔名已被替換，否則 chat template 與 runtime 相容性可能受影響。

項目主頁