框架 – InferNews

mv-split 是一個用來產生圖片的研究型專案，核心是名為 MVSplit-DiT 的超深層模型，整體深度達 1000 層。它不是一般即裝即用的圖片工具，而是較適合想測試新一代生成架構、比較效能，或者重現論文結果的人使用。

實際使用上，流程算清晰：先準備模型權重、FLUX.2 的自編碼器，以及 Qwen3 文字編碼器，之後透過 sample.py 輸入提示詞、指定輸出資料夾，就可以生成圖片。它亦支援從範例提示詞清單逐行抽樣、隨機抽樣，甚至一次過跑完整批提示，方便做測試和比較。

這個專案最值得留意的地方，是它同時提供 Triton 核心加速與 PyTorch 後備路徑。換句話說，就算機器沒有 Triton，理論上仍可運行；只是對於 1000 層這種深度，README 已明確提醒 CPU 雖可作後備，但實際上並不實用，較合適的環境仍是 PyTorch 2.x 配合 CUDA。

採用超深層 DiT 架構，定位偏研究與高階實驗
以 Triton 核心加速多個關鍵運算，同時保留 PyTorch 後備
可直接用自訂提示詞、提示詞檔案或批次方式生成圖片
會輸出 PNG 圖片及 metadata.jsonl，方便記錄實驗結果

從設計來看，它的主要創新不只在「層數夠深」，亦包括把多個底層運算元件拆得相當明確，例如 RoPE、RMSNorm、QK-Norm 和 SwiGLU 都有獨立實作，顯示作者很重視推論路徑的效率與可替換性。這種做法對一般用家未必直接有感，但對開發者或研究者來說，代表更容易針對效能瓶頸做調整。

最適合的應用場景，包括生成模型研究、推論效能測試、比較 Triton 與 PyTorch 後備表現，以及重現論文方法。若你只是想簡單輸入一句文字就穩定出圖，這個專案的門檻會偏高；但若你需要一個結構清楚、可觀察推論細節的實驗平台，它就相當有參考價值。相關模型方面，需配合 FLUX.2 AutoEncoder 與 Qwen/Qwen3-0.6B 文字編碼器。

Source: https://github.com/erwold/mv-split

SCOPE 係一個面向複雜圖片生成嘅研究型框架，核心做法唔係單靠一次過輸入長提示詞，而係先將要求拆成可追蹤嘅「語義承諾」，例如人物、物件、關係、限制同未確定資訊。之後每個步驟都圍繞同一份結構化規格運作，減少中途遺漏要求嘅情況。

實際使用上，呢個專案比較似一套流程引擎，而唔係即開即用嘅圖片 App。使用者需要準備 Python 3.10+、設定運行環境，並按需要接駁圖片生成、驗證同搜尋等後端服務；如果想跑完整代理式工作流程，亦需要 Codex CLI。

佢最值得留意嘅創新，在於將「生成失敗咗邊一項」具體化。SCOPE 唔係見結果唔理想就整張圖重來，而係透過驗證同修補階段，集中處理未解決或違反咗嘅承諾，令後續動作更有方向，對多角色、多約束、知識密集型提示尤其重要。

以結構化規格保存提示要求，而唔係只靠一段文字
將檢索、推理、生成、驗證、修補串成可追蹤流程
適合研究同評測複雜圖片生成效果
內含配置範例、CLI 工具同 Gen-Arena 評估相關實用程式

如果你係研究人員、工程團隊，或者正測試高要求圖像任務，SCOPE 會比一般單步生成流程更有分析價值。相反，若你只係想快速出圖，呢個專案門檻會較高，因為它重點係流程控制、可驗證性同評估，而唔係簡化操作介面。

整體來講，SCOPE 展示咗一個幾清晰嘅方向：當提示變得愈來愈複雜，單靠模型「自己理解」未必足夠，最好有一套能夠持續記錄、檢查同修正要求嘅機制。以官方資料所見，佢亦配合 Gen-Arena 呢類基準做評估，令成效唔只停留喺示範圖片層面。

Source: https://github.com/nopnor/SCOPE

mv-split：千層級圖像生成實驗，效能與相容性兼顧

SCOPE：複雜圖片生成，點樣更少走樣？