NVIDIA

NVIDIA FastGen 平行解碼的加速擴散生成訓練

2026 年 7 月 31 日

由 NVIDIA 團隊主導，Weili Nie、Julius Berner、Chao Liu 與 Arash Vahdat 是署名作者，核心貢獻者亦包括 Weili Nie、Julius Berner、Chao Liu。這個項目放在 NVlabs 名下，定位很明確：它不是單一生成模型，而是用 PyTorch 建成的訓練框架，集中處理 diffusion models 的加速與蒸餾，讓影像與影片生成可以用較少步數完成推理，同時保留大規模訓練能力。

與一般只提供某一種加速技巧的研究代碼不同，FastGen 把 consistency models、distribution matching distillation、self-forcing、KD 等方法放進同一套結構，並且覆蓋 T2I、I2V、V2V 多種任務。這種設計的價值，在於研究團隊可以在相近配置與資料流程下比較不同蒸餾路線，而不是每試一種方法就重砌整套訓練管線。

基本理解方式：代碼庫包含 datasets、methods、networks、trainer 與 scripts，顯然以訓練、推理、評測三部分分開整理；環境方面建議用 Docker，也保留 conda 安裝路線，並支援 W&B 記錄。不過公開資訊未有列出完整 quick start 細節、現成模型清單或基準成績，現階段較像面向研究與工程團隊的基礎框架，而不是開箱即用的消費級生成工具。

Prompt:
4 NFE PDD on Wan2.1 14B: A joyful child, 
with a big smile and arms spread wide, 
swings energetically on a rusty old swing set in a sunlit backyard. The swing set, with peeling paint and creaking chains, 
contrasts against the vibrant green grass and blooming flowers surrounding it. 

The child's laughter echoes as they swing higher and higher, 
their feet barely touching the ground at the bottom of each arc.
 
The scene is captured from a low angle, 
emphasizing the height of the swings, 
with the sun casting a warm glow over everything.
Medium shot focusing on the child and the swing set.

屬於框架型項目，處理的是 diffusion models 如何更快生成，而不只是再訓練一個新模型
支援 ≥10B 參數的大規模訓練，較適合有多卡資源的團隊
任務涵蓋 T2I、I2V、V2V，對跨模態生成研究較有吸引力
方法層同時納入 consistency models、distribution matching distillation、self-forcing 等路線，方便做橫向比較

配合 NVIDIA 研究頁面的 FastGen-PDD 脈絡來看，這個項目也像是承載後續加速生成方法的底座，尤其面向 image 和 video generation 的 parallel decoding distillation。對想建立自家快速生成訓練流程、測試不同蒸餾策略，或者需要把大型 diffusion 項目整理成可維護代碼庫的團隊，FastGen 的參考價值高；但想直接下載即用、立刻看到完整評測結論的人，現有公開資料仍然偏少。

項目主頁 · GitHub · Paper

Categories: 開源, NVIDIA, Video, Image, Python, txt2img, 視頻模型, 語音

LTX-2.3 Black-Magic 黑暗補景 LoRA

2026 年 7 月 31 日

拍到過暗片段時，最直接嘅痛點係一加光就爆雜訊、細節仍然唔見。LTX-2.3-Black-Magic-LoRA 明確建基於 Lightricks/LTX-2.3，以 adapter 形式提供 IC-LoRA，定位唔係忠實還原訊號，而係替黑位內容做具時間連貫性嘅生成式重建，所以更接近 video-to-video 視覺特效模型，而唔係傳統 low-light enhancement。

取捨亦講得好清楚：當原始畫面資訊太少，模型會「推斷」暗處可能有咩，而唔係保證還原真實場景。呢種做法對氣氛鏡頭、夜景、舞台火光、森林或室內昏暗片段有吸引力，因為畫面觀感會比單純提亮更自然；但用喺證據保存、監控取證或要求真實性的工作，就要非常審慎。

項目提供嘅技術資訊相對精簡。已知它使用 diffusers，pipeline tag 係 video-to-video，模型檔案列出 black-magic-ic-lora-450.safetensors，而名稱中標示對應 LTX-2.3 22B。不過頁面截圖內容未見上下文長度、GGUF 格式量化、mmproj、llama.cpp、Ollama、LM Studio、MTP draft speculation、v2 更新紀錄、檔名變更或 chat template 說明，代表呢頁並唔係本地 LLM 部署型模型卡，相關部分無法確認。

基礎模型已明示為 Lightricks/LTX-2.3，關係為 adapter，而唔係完整重訓主模型。
能力核心係 shadow reconstruction，重建暗部觀感，唔等於忠實還原原始訊號。
標籤集中在 ltx-video、low-light、generative-video、vfx、lighting，用途相當聚焦。
已知檔案只有 black-magic-ic-lora-450.safetensors。

同一般曝光修正最大分別，在於接受「畫面不夠資料時需要生成補完」呢個前提。使用者應該將它視為風格化且偏後期製作取向嘅影像模型；想改善觀感、保住影片連續性，它有明確價值，但要用作真實場景還原，頁面本身已經劃清界線。

項目主頁 · 模型

Categories: 開源, NVIDIA, Video, Image, Python, 視覺模型, LTX

Sol-Attn：免訓練稀疏注意力影片生成加速達 2.1 倍

2026 年 7 月 30 日

影片生成模型愈來愈強，但推理速度依然是開發者和創作團隊最常卡住的地方。NVIDIA Research 提出的 Sol-Attn，正正針對這個矛盾：它把「訓練用嘅成本」同「推理時嘅效率」分開處理，讓預訓練模型無須重新訓練就可以直接加速。

Sol-Attn 屬於免訓練（training-free）嘅稀疏注意力機制，做法是動態計算一個 query 相關嘅閾值，即場篩走低貢獻嘅注意力區塊，同時把未選中嘅分數重用做近似補償，整個過程喺一次 online-softmax 內完成。換句話講，它毋須事先計好一張路由表，亦唔會直接丟棄被跳過嘅區塊，因此能保留長尾分佈對最終畫面嘅影響。

喺 Wan 2.1、Hunyuan 1.5、LTX 2.3、Bernini 等多個主流模型上，Sol-Attn 都做到約 2 倍嘅速度提升，同時畫質幾乎唔受影響。若配合 Sol-Engine 中其他加速技巧，仲可以推到 5 倍嘅端到端加速。對於要跑長影片、做後製編輯，或者本地有限顯示卡環境嘅使用者來說，呢個幅度算係幾實用嘅改進。

對比以往「離線先揀一次、再丟棄」嘅做法，Sol-Attn 最大嘅差異在於即場判斷同重用機制。讀者如果本身就喺度搵方法縮短生成等待時間，又唔想額外花資源微調模型，呢套方案值得留意。

項目主頁 · GitHub

Categories: NVIDIA, Video, Image, 模型訓練, 視頻模型, LTX

FilmOps 將電影語言拆成可分析標籤

2026 年 7 月 28 日

一段影片好不好，不一定只靠整體觀感判斷；鏡頭遠近、構圖、機位、色調同運鏡，往往先係影響觀感的核心。FilmOps 正正瞄準呢個缺口：它不是一般影片生成模型，而是一套開源 operator suite，用來把影片畫面映射成結構化的 cinematographic labels，處理的是電影語言難以被細緻分析與量化的問題。

現有影片 benchmark 多數集中在 general perceptual quality、text alignment 或 temporal smoothness，對專業 cinematographic language 仍然偏粗略；general-purpose MLLMs 又難以穩定辨認 film-specific attributes，而 aesthetic predictors 這類領域模型面對 cinematic content 亦有明顯 domain gap。FilmOps 的取向很清楚：不用單一大模型包辦所有判斷，而是把六個維度拆開，按任務特性分配不同 backbone，令 shot scale、composition、camera angle、color & tone、character layout 同 camera movement 可以分別處理。

它的價值在於更像一套分析管線，而不是只給你一個總分。項目覆蓋 55 個以上子類別，分類定義對齊 Film Art、ASC Manual、Cinematography: Theory and Practice，亦經過 practitioner 驗證；加上 modular architecture，可以獨立用單一 operator，或者走 unified pipeline。對要做影片生成評測、鏡頭標註、資料整理，甚至研究 FilmBench 呢類 cinematic benchmark 的團隊，這種拆解方式會比泛用多模態評分更有解釋力。

屬於開源工具／模型組合，重點是把影片拆成電影語言標籤，而不是直接生成影片
六個 operator 採用 task-specific backbone，包含 DINO ViT-B/14、BEiT Base、ResNet-18、InternVL3-14B
支援 live-action、3D animation、2D animation 同 stylized content，強調 cross-genre consistency
已交代基本部署條件，包括 Python、PyTorch、CUDA 與 ffmpeg，也提供 unified pipeline 與 checkpoints 準備方向

現有資料只明確指出它在所有維度都勝過 general-purpose MLLMs，但細節主要放在論文。配套的 FilmBench 亦用同一套 Cinematic Language 思路建立 benchmark，並聲稱 evaluator 在模型排名上與人工評分高度一致，說明 FilmOps 並非只為展示而做，而是服務整個影片評測流程。不過它始終偏向分析與標註基建，想直接拿來做完整產品，仍要自行處理 checkpoints 下載、推理資源，並接受部分 operator 對 CUDA 與較重模型的依賴。

GitHub · Paper

Categories: 開源, 阿里巴巴, Gemini, NVIDIA, 3D, AI productions, Python, 動畫, 多模態模型, 語音, Dataset 數據集

Sana 把高解像生成壓到快 100 倍

2026 年 7 月 26 日

高解像圖片同影片生成最常見的卡位，不是效果做不到，而是算力、延遲同部署成本太難接受。NVlabs/Sana 屬於生成模型代碼庫，集中處理這個矛盾：在維持高解析輸出的前提下，把訓練與推理做得更省、更快，並且一路延伸到圖片、影片、世界模型等多條分支。

這個項目唔係單一模型，而是一個家族。SANA 主打最高到 4K 的 text-to-image，README 直接給出「比 Flux-12B 細 20 倍、快 100 倍」的定位；SANA-1.5 進一步處理訓練期與推理期的 compute scaling；SANA-Sprint 則把重點放在 one/few-step 生成，官方數字提到 H100 上 1024px 圖片可做到 0.1 秒級。取向很清楚：不是一味追最大模型，而是用效率換取更可部署的生成流程。

影片部分同樣值得留意。SANA-Video 與 SANA-Video 2.0 把焦點放在 720p 長序列生成，做法上用 hybrid linear attention 配合 Attention Residuals，目的是減少 full-softmax attention 的成本，同時盡量保住畫質與長序列表達能力。公開資料提到 SANA-Video 2.0 在單張 H100 上，720p/5 秒影片可做到 13.06 秒，VBench 總分 84.30，也強調比 Wan 2.2 14B 有大幅速度優勢，但這類數字仍要連同硬件、步數與設定一齊理解。

同一庫內含 SANA、SANA-1.5、SANA-Sprint、SANA-Video、SANA-WM、SANA-Streaming、Sol-RL
提供完整 training 與 inference pipeline，唔止展示模型效果
可透過官方 demo、Hugging Face、ComfyUI 整合去理解生成表現與部署方向
重點不是極限參數量，而是高解像生成的速度、成本同可擴展性

部署與測試路線相對清晰：已有官方文件、網頁 demo、Hugging Face 集合，亦見到 ComfyUI、SGLang、Replicate 等接點，代表它較適合研究團隊、影像工作流開發者，以及想把高解像生成放進產品流程的人。 SANA-WM 的 2.6B controllable world model、6-DoF camera control，同 Sol-RL 的加速收斂能力，則顯示這個項目不只做靜態出圖，而是朝更完整的生成系統推進。

項目主頁 · GitHub

Categories: 開源, NVIDIA, ComfyUI, Stable Diffusion, Video, Image, AI productions, txt2img, 模型訓練, 世界模型

GraphVid 把圖生影片拆解成圖節點關係圖

2026 年 7 月 26 日

PLAN-Lab（伊利諾伊大學厄巴納-香檳分校）開源的 GraphVid 採用 Diffusers 框架，用 Stable Diffusion 類的 Diffusion Pipeline 配 bfloat16 精度載入，適用於 CUDA 與 Apple MPS 裝置。這個名稱裡的「Graph」不是社群網絡圖，而是把影片拆成多個關鍵畫面節點，再用一張小型關係檔 graph.pth（約 118 MB）描述節點之間如何銜接——模型先理解這些畫面該怎樣排序與過渡，再交由 transformer、VAE 等模組逐段生成。

頁面沒有公開 base model 來源，也沒有說明訓練資料或評測指標，因此難以判斷它的整體品質，只能從架構面推測它把控制粒度從「逐幀文字描述」轉移到「節點拓樸」。使用 DiffusionPipeline.from_pretrained 配合 torch_dtype=torch.bfloat16，屬於現今影片擴散模型常見的省記憶體做法。

從模型卡提供的程式碼範例可見，GraphVid 直接接受文字 prompt 即可生成畫面，毋須手動編排節點，這層抽象對一般使用者比較友善；進階用家則可透過 graph.pth 微調節點關係，控制運鏡節奏。整個 gvc_ckpt_folder 容量約 64.3 GB，包含 scheduler、text_encoder、tokenizer、transformer、VAE 等標準組件，搭配 Hugging Face 提供的 Colab / Kaggle 範例即可快速試跑。

關係圖驅動：以 graph.pth 定義畫面節點與時序關係，再交由擴散模型生成影片。
Diffusers 相容：透過 DiffusionPipeline 載入，支援 bfloat16 與 CUDA / MPS。
Apache-2.0 授權：可自由下載研究與再分發，但頁面未提供量化版本。
硬體需求高：完整 checkpoint 約 64.3 GB，建議使用高階 GPU。
缺乏評測數據：原始頁面沒有提供基準分數或與其他影片模型的直接比較，採用前宜自行測試。

若以本地消費級 GPU 試跑，建議先把 torch_dtype 設為 bfloat16，並留意 VRAM 是否足以容納 transformer 與 VAE 的權重；想進一步壓縮，可留意社群後續是否釋出量化或 LoRA 版本。

項目主頁

Categories: 開源, Google, NVIDIA, Stable Diffusion, Image, Python, 教學, 蘋果, 框架

eeg-difflogic：邊緣 EEG 分類改用邏輯電路

2026 年 7 月 26 日

Workflow for EEG classification using differentiable logic gate networks

這份項目對準的是要在邊緣裝置即時分析 EEG 的場景，核心矛盾很直接：傳統神經網絡雖然準，但浮點運算和記憶體開銷會拖慢部署。它屬於研究型工具／框架，處理的是把 Differentiable Logic Gate Networks (Diff-Logic) 用在 EEG 分類，並在推理階段編譯成 Boolean circuits，以 bitwise CPU operations 跑得更輕。

作者同時看了兩類任務：臨床失智分類與情緒辨識。前者用 Power Spectral Density (PSD)，後者用 Differential Entropy (DE)，再配合 fold-wise Min-Max normalization、thermometer encoding 和多層 differentiable logic gates，最後把學到的 soft gates 硬化成可執行的布林電路。

和 Multi-Layer Perceptrons (MLPs) 及 Binarized Neural Networks (BNNs) 比起來，這個項目不追求單純堆大模型，而是用 iso-parameter evaluation 去看同等參數量下的表現與效率。論文報告在 dementia screening 上 Diff-Logic 拿到 80.2% Macro F1，較 MLP 高 6.8%；在 emotion recognition 上 MLP 準度略有優勢，但部署到 NVIDIA Jetson Orin Nano 單核心 CPU 時，延遲高 2.3 倍、模型體積大 14 倍。

推理路徑清楚：先訓練，再轉成 Boolean circuits 做 inference
適合關心低延遲、低記憶體、能在 edge device 跑的 EEG 系統
評測覆蓋 CN vs. AD、CN vs. FTD，以及三類情緒辨識資料集
在較大規模下，Diff-Logic 的推理時間幾乎保持不變
這個項目最有價值的地方，不在於取代所有 EEG 模型，而是在資源受限環境下提供另一條更貼近硬件的路線

GitHub · Paper

Categories: 開源, NVIDIA, Medical醫學, 模型, 框架, Dataset 數據集

CrisperWhisper 把語音逐字稿變成可控制輸出

2026 年 7 月 26 日

Repository image for nyrahealth/CrisperWhisper

做會議紀錄、訪談整理或臨床語音分析時，最大落差往往唔係辨識到幾多字，而係系統究竟寫出「講咗乜」定「本來想表達乜」。CrisperWhisper 屬於開源語音辨識模型項目，核心價值係將 verbatim 同 intended 兩種轉錄模式變成可明確控制的輸出，令逐字稿唔再受訓練資料風格左右。

呢個取向同一般 speech-to-text 系統好唔同。常見做法會不一致地刪走 filler、重複、停頓同 cut-off，CrisperWhisper 2.0 就刻意保留呢啲語音細節，或者按需要輸出整理後版本；同一段錄音可以得出兩份用途完全不同嘅文本。對做 TTS 資料整理、醫療或研究訪談分析、需要精準字幕時間碼嘅團隊，呢種分流比單純追求可讀性更有用。

項目另一個關鍵位係時間對齊同長音訊處理。它提供 word-level timings，讀稿語音平均邊界誤差約 30 ms，對話語音約 41 ms；長音訊則用 conditional continuation 避免一般分段轉錄常見嘅重複漏字。README 亦提到推理端基於 CTranslate2，配合 speculative decoding，同時減輕 Whisper 常見 looping-hallucination 問題，方向明顯係朝住 production inference。

verbatim 與 intended 兩種模式分開控制，適合同一錄音對應不同工作流
支援 multilingual，覆蓋多數 Whisper 支援語言
可用 Verbatimize 依據音訊加乾淨文本補回真實語氣詞與口誤
長音訊轉錄著重連續性，減少 chunk 邊界造成嘅錯漏
Nyra Verbatim Speech Benchmark 以 disfluency F1 等指標衡量保真能力

安裝與部署方向相對清晰：模型可經 PyPI、Hugging Face 同文件使用，推理路線圍繞 CTranslate2 runtime，而唔係只停留喺研究展示。要留意嘅取捨亦好直接，當你要的是可讀、可發布文本，intended 模式更合適；當你要保留猶豫、重複、笑聲同語音事件，verbatim 模式先真正發揮價值。呢個項目唔係單靠更高 WER 成績去吸引人，而係重新界定逐字稿應否忠於說話表面形式，並且用 benchmark 將呢件事量化。

項目主頁 · GitHub · 模型

Categories: 開源, NVIDIA, 文字轉語音, Medical醫學, 模型, 語音, Dataset 數據集

FunASR 工業級語音辨識：支援廣東話

2026 年 7 月 19 日

如果你做過語音相關項目，大概率遇過呢種情況：開源模型散落喺唔同倉庫、部署方式各異、要接入 Agent 仲要自己寫 WebSocket 中間層。FunASR 就係針對呢類工程痛點嘅工業級語音識別工具包，屬於開源框架，由阿里達摩院維護，提供統一 Python 接口，將 ASR、VAD、標點恢復、說話人分離、情感偵測同音訊事件辨識串成一條流水線。

旗艦模型 Fun-ASR-Nano 係基於 LLM 嘅解碼架構，覆蓋中、英、日三語以及中文方言群組；針對 31 種語言嘅場景可以用 Fun-ASR-MLT-Nano-2512；鍾意多語言又有 LLM 解碼能力嘅，亦有 Qwen3-ASR（52 種語言、0.6B/1.7B 參數）。如果想要更輕量、非自迴歸嘅選擇，Paraformer 同 SenseVoice 仍係穩陣起點，前者適合生產線串流，後者額外送情感同音訊事件標籤。

funasr-server 一行指令就可以拉起 OpenAI 相容嘅轉寫 API，本地聽返 localhost:8000，配合 vLLM 仲可以做到 2-3 倍 LLM 解碼加速同 tensor parallel 批次推理。Agent 整合係另一個重點：MCP Server 可以直接接入 Claude 或 Cursor，OpenAI API 接口又同 LangChain、Dify、AutoGen 無縫對齊。最近幾個版本（v1.3.18 至 v1.3.22）就專門執緊 SRT/字幕分段、長時 WebSocket 連線、verbose_json 回傳呢啲工程細節。

要留意嘅取捨係：Fun-ASR-Nano 需要 GPU；新環境第一次 import funasr 已唔再強行依賴 PyTorch，但用 AutoModel 仍然要先裝 torch。FunASR 比較適合需要私有語音 API、字幕生成、長會議轉寫、或想將語音能力塞入 Agent 工作流嘅團隊開發者。

重點摘要：

統一 Python 接口整合 ASR、VAD、標點、說話人分離、情感偵測
Fun-ASR-Nano 旗艦模型支援 31 種語言及中文方言，Fun-ASR-MLT-Nano 覆蓋更廣
funasr-server 提供 OpenAI 相容 API，搭配 vLLM 可達 2-3 倍加速
內建 MCP Server 支援 Claude/Cursor，亦可接入 LangChain、Dify、AutoGen
近期版本持續優化字幕分段、WebSocket 長連線、verbose_json 回傳等工程細節

以下是其對粵語支持的詳細信息：

UniASR模型：這是一個專為粵語設計的語音識別模型，能夠處理簡體中文的粵語語音識別任務。
ITN模型：用於對粵語語音識別結果進行擬文本正則化後處理，以提高識別結果的準確性。
VAD模型：語音端點檢查模型，用於檢測長語音片段中有效語音的起止時間點，這對於粵語方言的語音識別同樣重要。
訓練語料：為了提高模型的準確性和適用性，通常會使用大量的粵語語料進行訓練，以便模型能夠更好地理解和識別粵語中的特有詞彙和表達方式。
離線功能：Funasr提供了離線語音識別模型，這意味著即使在沒有網絡連接的情況下，也能夠進行粵語語音識別。

項目主頁 · GitHub

Categories: 開源, Qwen, NVIDIA, Agentic, API, MCP, IDE, LangChain, Python, 語音, Dataset 數據集

KeyFrame-Compass：關鍵幀尺度評測

2026 年 7 月 17 日

KeyFrame-Compass benchmark domains and examples

KeyFrame-Compass 是一個用來評測 keyframe-conditioned video generation 的基準項目，重點在於檢查模型能否同時跟住文字提示同一組按順序排列的 keyframes 生成影片。對做影片生成的人來說，這類測試最有價值的地方，是它不只看成片好不好看，還會追問畫面有沒有真係按要求出現、順序有沒有走樣。

這個項目把評測拆成兩層：一層看 keyframe execution，包括關鍵畫面存在、視覺還原、時間順序、定位、持續性同回應唯一性；另一層看 overall video quality，會用 evidence-grounded MLLM（Multimodal Large Language Model, MLLM）判斷，加上專門的感知模型去量度視覺質素、時間連貫性、指令遵從同音訊表現。這種分法比單純比對整體分數更清楚，因為它能分辨出模型係「畫得靚」定「跟得準」。

官方提供 386 個案例，涵蓋三個應用領域，亦分有 multi-shot 同 one-take 片段，配合四種 keyframe 密度。安裝上需要 Linux、Conda 或 Mamba、NVIDIA GPU，同埋可用的 VLM API；倉庫亦提供 envs、assets 同 all 三種設定模式，方便只建環境、只拉資產，或者一次過做完整驗證。

把影片生成的「跟畫面」同「成片質感」分開量度，結果較容易解讀
支援不同 keyframe 密度，較適合比較模型對控制力的穩定度
適合做影片生成模型、研究原型或產品 demo 的質量驗證
需要 GPU 同外部 VLM API，部署門檻唔算低
相關模型類別可歸到 Video、視覺模型、多模態模型、模型、工具

GitHub

Categories: 開源, Gemini, NVIDIA, API, Video, 工具, Linux, 多模態模型, 模型, 視覺模型, 視頻模型

Page 1 of 7

1 2 3 … 7 Next »