
把低清、模糊的影片即時變成清楚版本,一直是擴散式(diffusion-based)影片修復(VR, Video Restoration)模型的痛點:畫質漂亮,卻慢得跑不動。SwiftVR 是一個以單步生成(one-step generative)路線設計的串流修復框架,主打把高解析度延遲壓到可即時播放的範圍,同時保持擴散模型的視覺品質。
為何能跑得這麼快? 項目作者從兩個瓶頸下手。第一是空間注意力在高解析度下的二次方成本:SwiftVR 引入 MFSWA(Mask-free shifted-window self-attention),把每個空間窗口預先重排成稠密張量,讓每次注意力呼叫都走標準的 SDPA(Scaled Dot-Product Attention)路徑,省掉遮罩、循環位移、稀疏 kernel,吞吐量比全注意力教師模型提升約 1.62×。第二個瓶頸是傳統 3D VAE 解碼太笨重:他們改用一個輕量級的 ReAE(Restoration-aware Autoencoder),與 DiT(Diffusion Transformer)聯合在像素空間微調,讓分塊解碼不再卡住流水線。
數字上多誇張? 同一個權重檔,在單張 H100 上,QHD(2560×1440)24 幀約 31 FPS、4K(3840×2160)約 14 FPS,而所有比較的擴散式 VR baseline 在 4K 都 OOM(Out-of-Memory,記憶體溢位)。換到消費級的單張 RTX 5090,1080p 可達約 26 FPS,達到即時串流門檻,且全程不需重寫 kernel 或重新訓練。所有推理走預設 PyTorch SDPA 與 bfloat16。
誰適合關注? 需要為直播、視訊會議、老片修復平台做即時前處理的研究員與工程師;對 DiT、串流推理、邊緣部署有興趣的開發者;以及想找一個 open-source 起點、把生成式 VR 推上消費硬體的團隊。
與同類相比的相對位置: 對照組 DOVE、SeedVR2-3B、FlashVSR-Tiny 在 QHD 下分別約 0.85、1.39、9.61 FPS,SwiftVR 約 31.32 FPS,速度差距明顯。論文亦宣稱在無參考感知品質指標上具競爭力,但具體分數請以原論文表格為準。
重點摘要:
- 單步生成路線:放棄多步擴散,以一步生成換取低延遲。
- MFSWA 注意力:把窗口預聚集成稠密張量,繞過稀疏 kernel。
- ReAE 解碼器:取代 3D VAE,解放分塊解碼的瓶頸。
- 因果分塊串流:無滾動 KV、快取即可限制時間軸成本。
- 消費級硬體可達即時:RTX 5090 1080p 約 26 FPS,H100 一路到 4K。








