NVIDIA

MedPMC 把醫學圖文資料做成可訓練基座

2026 年 7 月 14 日

Repository image for Yale-BIDS-Chen-Lab/MedPMC

做醫學多模態模型，最難往往不是再堆一個新架構，而是先整理到可用的圖文資料。MedPMC 屬於Dataset 數據集加模型訓練程式碼項目，核心價值是把 PubMed Central (PMC) 文獻中的醫學圖片與文字抽取、清理，再接上訓練與評估流程，處理的是醫學 vision-language 資源長期分散、難重現的問題。

目前最值得留意的是 MedPMC Dataset 首個版本，提供約 1,100 萬組 medical image-text pairs；同時亦有基於 MedPMC-11M 訓練的 MedPMC-CLIP。這種做法與不少只放模型權重、或只交出資料連結的項目不同，它把 dataset curation、preprocessing、model training、evaluation 放在同一個代碼庫，較適合研究團隊沿住同一條流程再做微調或重跑實驗。

部署與測試的理解方式很直接：資料集與模型都已放到 Hugging Face，現階段較像給研究者先下載資料、檢查抽樣品質、再接入自家訓練管線。README 未提供很完整的操作文件，dataset viewer 亦未必可直接預覽，所以短期內它比較偏向有 Python 與資料處理能力的團隊，而不是即開即用的線上服務。

約 1,100 萬組來自 PMC 的醫學圖文配對，是項目現時最重要資產
連同 MedPMC-CLIP 一併釋出，方便由資料走到模型驗證
重點不在花巧介面，而在可重現的資料整理與訓練流程
文件仍在補完中，benchmarks 與更多 training recipes 尚待發布

以現有資訊看，MedPMC 的強項是規模與研究流程整合，限制則是文件與基準結果仍未齊備，暫時較難單靠公開頁面判斷模型表現上限。對醫學 AI、視覺模型、RAG 前處理，或需要建立醫學圖文檢索基座的團隊來說，這個開源項目已有不錯參考價值；相關模型現時可確認的是 MedPMC-CLIP。

項目主頁 · GitHub · 模型

Categories: 開源, NVIDIA, Image, Medical醫學, Python, RAG, 多模態模型, 模型訓練, 視覺模型, Dataset 數據集

ReChannel：用生成模型做密集預測

2026 年 7 月 14 日

一張 RGB 圖像想同時拿到深度、surface normal、matting 同 referring segmentation，通常意味住要換幾套模型；ReChannel偏偏反其道而行，將預訓練 text-to-image DiT 的空間 token 直接改作密集預測讀出。這不是完整訓練流程釋出，而是偏向 inference／質性展示的 GitHub 項目，定位很清楚：展示 FLUX-Klein 骨幹除咗生圖，亦可以做 pixel-space dense prediction。

它的類型更接近研究型模型讀出方法＋推理示範工具，實際解決的是「可否沿用生成模型已有的空間表示，避免為每個密集任務重建一套重型解碼器」。做法上，骨幹維持 frozen，只為每個任務加 LoRA，再配一個 token-local linear head；標量任務頭部大約 33K 參數，surface normals 約 99K，沒有 convolution、沒有 upsampling，也沒有 target-side VAE decoder。

同類方法很多會把功夫放在額外解碼器或多尺度結構，ReChannel的取向剛好相反：盡量把空間結構留在 DiT token field 內，最後只做通道重映射。這種設計夠輕，但取捨亦直接，現有儲存庫沒有完整 benchmark pipeline，姿態估計亦未放入最小示範，所以更適合用來理解方法潛力，而非直接拿來做嚴格橫向比較。

支援單張圖片推理，可輸出 depth、normal、matting、refseg，refseg 需要輸入文字描述
依賴 CUDA GPU，首次執行會自動下載 black-forest-labs/FLUX.2-klein-base-4B 與對應 LoRA、線性頭權重
depth、normal、matting 會保留長寬比並可用 horizontal-flip TTA；refseg 固定在 512² 單次前向
已公開的是 demo/inference 版本，不是論文表格所用的完整評測流程

受益最大的人，會是研究 dense prediction、生成模型再利用、或者想測試 LoRA 能否把同一骨幹轉成多任務視覺讀出的團隊。相關模型核心是 black-forest-labs/FLUX.2-klein-base-4B，再疊加每任務 LoRA adapters；對想研究生成模型表示能否外借到視覺理解工序的人，這個項目相當值得留意。

GitHub

Categories: 開源, 香港科技大學, NVIDIA, Stable Diffusion, Image, txt2img, 影像處理, Dataset 數據集

PanoWorld 把 360 影片生成拉回真實場景

2026 年 7 月 14 日

做 360° 影片生成，最易穿崩的往往不是單幀畫質，而是鏡頭轉了一大圈之後，場景記憶是否仍然連貫。PanoWorld屬於世界模型兼影片生成模型，針對全景 world model 的 long-range memory 問題，目標是生成更符合空間幾何與物理一致性的 panoramic video。

這個項目的取向幾明確：不是單純追求更短時間出片，而是利用 omnidirectional representations 的 rotation-equivariant 特性，將旋轉視為隱含幾何變換，再把相機軌跡簡化成固定朝向下的平移。核心做法包括 Dense Panoramic Ray-Conditioning (DPRC) 與 Geometry-aware Memory Augmentation (GMA)，並建基於 Wan2.2 backbone 的 triple-stream DiT，處理當前動作建模與長程記憶。

現階段公開資訊較適合做推理測試與結果驗證，訓練代碼仍未釋出。環境要求也不算輕：Linux（已測 Ubuntu 22.04）、CUDA 12.8 以上、Python 3.10，並需要至少 20GB VRAM 的 CUDA GPU；README 亦提供 demo assets，可先用來跑 inference，觀察 81-frame 與 161-frame panoramic video 的生成表現。

重點放在 long-range memory，而非只提升單段片段觀感
可生成 81-frame、161-frame 的 panoramic video
評測依託 World360，涵蓋真實全景無人機片段與 AirSim360 模擬資料
官方表示在 World360 上明顯勝過其他方法，但目前公開細節以展示頁與推理資源為主

受益最明顯的，會是做 360 內容生成、沉浸式視覺、無人機視角模擬，或研究世界模型長時序一致性的團隊。它未必是最容易部署的項目，但定位很清楚：當一般 video model 在大範圍空間變化與光照變化下容易失憶，PanoWorld正面處理這個痛點，並且連同 World360 一起把評測場景拉近真實世界。

項目主頁 · GitHub

Categories: 開源, NVIDIA, Video, 3D, Linux, Python, 影像處理, 視頻模型, 世界模型, Dataset 數據集, 清華大學

audio.cpp-webui：本地音訊 AI 一站式介面

2026 年 7 月 13 日

要同一部電腦處理 TTS、voice cloning、ASR 同音訊增強，最大阻力往往唔係模型本身，而係部署鏈太散。audio.cpp-webui 把這件事收斂成一個偏向本地部署的音訊推理框架＋WebUI 工具：核心沿用上游 0xShug0/audio.cpp，以 C++ 配合 ggml 執行，這個分支再補上完整任務介面同較友善的 Windows 啟動方式。

它的定位幾清楚：唔係只做單一模型展示，而係想用同一套 runtime 接住多類音訊工作流。你會見到它涵蓋 TTS、voice conversion、ASR、diarization、VAD、source separation，連 denoise、resampling、STFT/ISTFT 都內建，較接近「把多個音訊 AI 能力放入同一個本地工作台」，而唔係逐個 Python 項目分開跑。

本地语音 AI 终于统一了！实时对话、声音克隆、AI 翻唱8G 显存全跑通｜audio.cpp｜整合包

Watch this video on YouTube

跟常見 Python 參考路徑相比，這個項目的取向是用原生執行環境換取更穩定的部署體驗同速度，代價是功能節奏仍然受上游整合進度影響，而且部分高階流程像 JSON pipeline 仍屬 experimental。效能數字是它最值得留意的一環：多條 TTS 路徑在 CUDA 上可比 Python reference paths 快 1.8x 至 5.0x，端到端延遲可降低 45% 至 80%；README 亦列出 VibeVoice 1.5B 能在 18.2 分鐘生成 93.9 分鐘 podcast。

可用 webui.bat 啟動 Gradio WebUI，本地網址是 http://127.0.0.1:7860
支援按需載入模型、模型切換、下載模型、上傳或錄製 reference voice
內建進階參數控制，同頁可見執行狀態與錯誤訊息
較適合想在 Windows 或本地 CUDA 環境整合多種音訊任務的人員與小團隊

相關模型與路線目前集中在多種本地音訊模型家族，文中點名 VibeVoice 1.5B，整體則圍繞現代 audio models 的統一推理。對內容製作、語音原型、內部工具驗證，甚至要把多步驟流程包成固定操作的人來說，它補上的並非新奇功能，而是把本來零散的模型執行方式整理成較可重用、較易維護的本地項目基礎。

GitHub

Categories: 開源, NVIDIA, 文字轉語音, Audio, 工具, Clone, Python, 語音

ABot-World 把互動世界模型帶上桌面 GPU

2026 年 7 月 11 日

影片生成做到流暢並不罕見，但能一邊接收操作、一邊把世界延伸落去，門檻就高得多。ABot-World定位屬於模型加示範工具，核心處理的是 action-conditioned world rollout：用戶輸入動作之後，系統持續生成可探索的世界，而唔係播完就停的被動片段。

呢個項目的取向相當鮮明：它唔係先追求超高畫質，而是把「可互動、可持續、可在單張桌面顯示卡跑起來」放到前面。官方公開的數字是單張 NVIDIA RTX 5090 可在 720P、16 FPS、1.2 秒延遲、19GB GPU 記憶體下運行，配合 LongForcing training 減少 scene lock-in，令 rollout 期間可以擴展新場景同動態，唔使靠 prompt switching 硬接續。

測試方式算直接：項目已提供本地 gradio demo，同時有線上版 ABot World Studio；想自己部署，它在 Ubuntu 22.04、CUDA 13.3、NVIDIA RTX 5090 環境驗證過，並要先下載 ABot-World-0-5B-LF checkpoint。換句話說，現階段較適合把它理解成高階桌面 GPU 上的研究型互動系統，而唔係一般消費級硬件都能順手跑的輕量工具。

幾個重點值得留意：
– ABot-World-0-5B-LF 已公開，屬於 causal student model
– 互動重點在連續探索，不是固定長度 video generation
– 本地推理與線上 playground 都已提供，驗證路徑清楚
– Bidirectional Teacher Model 仍未釋出，生態暫時未算完整

適合研究 world model、interactive video generation、Agentic 模擬環境，或者想為遊戲原型與具身智能測試場景找參考的團隊。現階段的吸引力在於它把「無限 rollout」和「單桌面 GPU 即時推理」放到同一個項目內。

項目主頁 · GitHub · 模型

Categories: 開源, 阿里巴巴, Google, NVIDIA, Agentic, Video, Linux, 模型訓練, 視頻模型, 世界模型, 蘋果

Qwen3.6 全新的動態 NVFP4 量化器

2026 年 7 月 10 日

想喺自己電腦上跑到規模較大的多模態模型，最大卡位通常唔係功能，而係記憶體同速度。Qwen3.6 屬於阿里巴巴的新一代多模態 hybrid-thinking 模型系列，重點在於用相對可控的硬件需求，處理 agentic coding、vision 同 chat 等工作。

現有資料提到兩個主力型號：Qwen3.6-27B 同 35B-A3B。前者可在約 18GB 記憶體配置下運行，後者約需 22GB 至 23GB 左右，並支援 256K context 及 201 種語言。對想喺本地做長內容理解、跨語言對話，或者配合工具調用工作流的人來說，這個取向幾實用。

相比只講「可量化、可本地跑」的常見做法，Unsloth 這邊更著重點樣揀到速度與準確度較平衡的版本。Qwen3.6 GGUFs 採用 Unsloth Dynamic 2.0，會按真實使用資料做 calibration，並把重要 layers upcast；另外新推出的 NVFP4 quants 主打在 GPU 上帶來約 2.5 倍更快速度，MTP 則標示可把 inference 再加快 1.4 至 2.2 倍，同時不犧牲準確度。

適合本地部署多模態模型，兼顧編碼、視覺與對話
27B、35B-A3B 記憶體需求相對克制，較易在個人設備起步
GGUF 格式配合 Unsloth Dynamic 2.0，重點是量化後仍保持可用表現
NVFP4 與 MTP 主要改善推理速度，幫助減少等待時間

使用上仍有幾點要留意：總可用記憶體最好高於下載的量化模型大小，否則雖然可經 llama.cpp 用 SSD/HDD offloading 繼續運行，但推理會慢得多；文件亦明確提醒不要使用 CUDA 13.2，以免輸出異常。整體來看，這不是單純把 Qwen3.6 搬到本地，而是把「跑得動、跑得快、精度仍可接受」這幾個取捨整理得更清楚。

所引用的模型列表：Qwen3.6-27B、Qwen3.6-35B-A3B。

項目主頁 · 模型

Categories: 開源, 阿里巴巴, Qwen, NVIDIA, Agentic, API, MCP, Medical醫學, Python, 多模態模型, 模型, 教學, 編程, Anthropic, OpenClaw

LongE2V 把事件流變成穩定長影片

2026 年 7 月 10 日

事件相機資料本身又稀疏又碎，畫面一拉長，很多方法不是紋理發糊，就是前後段落開始飄。LongE2V 走的是研究型模型／框架路線，目標不是只修一段短片，而是把 sparse event streams 轉成較穩定的長影片，並且同時處理 reconstruction、prediction 同 frame interpolation。

同類做法常見兩條路：一類用 regression methods，速度直接但容易損失細節；另一類雖然有 generative models 的畫質優勢，長序列又容易出現 temporal drift。LongE2V 把 pre-trained video diffusion priors 拉進 event-based video 任務，再加上 Autoregressive Unrolling、Adaptive Context Switching，以及插幀用的 Reencoding Alignment with Cross Residual Correction，核心取向很清楚：接受系統更複雜，換取較長時間的一致性同感知品質。

部署環境以 Python 3.10 為基礎，Linux 加 NVIDIA GPU，同時依賴整理好嘅資料結構；訓練要每段 sequence 準備 images/.png、voxels/.npz 同 cogvlm_prompts.txt，推理前亦要確保 voxel 檔名、數量同資料夾完全對齊，因為多一個或少一個 voxel 檔，都會改變事件切塊方式，直接影響訓練同推理結果。

重點整理如下：
– 同一套框架覆蓋 reconstruction、prediction、frame interpolation，減少每個任務各自維護一套模型的割裂情況
– reconstruction / prediction 以 ECD、MVSEC、HQF 為主，interpolation 用 BS-ERGB 同 HQF
– 空事件區間會寫入 zero voxels，避免時序長度對不上
– --reverse-time --reverse-polarity 產生的 voxels_reverse 只供 interpolation 測試使用，唔需要帶入 reconstruction、prediction 或訓練
– 在 real-world benchmarks 上優於多個 state-of-the-art 方法，並強調 temporal coherence 同 zero-shot generalization

相關模型包括 E2VID、FireNet、ET-Net、SPADE-E2VID、SSL-E2VID、HyperE2VID、VDM-EVFI、CBMNet-Large 同 TLXNet+。LongE2V 較適合做事件相機、視覺生成、機械感知或學術重現的團隊參考；它吸引之處在於把三類任務收進同一個 video diffusion framework，但代價是資料前處理要求嚴格、硬件門檻偏高，整體更像面向研究與實驗室工作流。

項目主頁 · GitHub · Paper

Categories: 開源, NVIDIA, Video, Linux, Python, 模型, 框架

Video-Oasis 想重做影片理解評測

2026 年 7 月 10 日

高分未必代表模型真係睇得懂影片，呢個項目正正針對呢個落差。Video-Oasis 屬於資料集與評測項目，重點不是再加一份題庫，而是重新檢查現有 video benchmark 到底有幾多題目真的需要 visual grounding 與 temporal reasoning，避免模型只靠文字線索、單幀畫面或靜態背景就答中。

普遍做法是把不同影片問答 benchmark 直接合併比較，作者認為這種固定範式忽略了「是否真係需要影片」這個前提。Video-Oasis 先整理 14 個 benchmark、24,416 個 QA samples，再用共享的 visual 與 temporal criteria 審視題目，結果指出約 55% 樣本可被 non-video shortcuts 解開，之後再萃取出 11,033 個較具代表性的 Video-Native 挑戰。

它和同類 benchmark 最大分別，在於不是追求覆蓋更多題型，而是先清理評測污染。官方資料提到五類 video-native challenges 才是核心難點，而現時模型在這部分表現仍然偏弱，最佳模型 Gemini-2.5 Pro 只有 46.7%，接近 chance 25.63% 之上不遠，說明這套評測更能拉開「答得中」與「真理解」之間的差距。

涵蓋 14 個 benchmark，任務由 perception 延伸到 reasoning，片段長度由幾秒到數小時
以 shared visual and temporal criteria 重新審核題目，不是單純拼接舊 benchmark
約 55% QA samples 可用 non-video shortcuts 解答，真正 video-native 部分約佔 45%
評測流程建基於 lmms-eval，並支援透過 huggingface_hub 下載模型
README 已提供資料下載、影片修復與目錄整理方式，但完整程式碼仍標示為 coming soon

部署理解上，它較像一個研究型 benchmark workflow：你要先準備 Python 3.12、CUDA-compatible GPUs、torch、vllm 0.11.0 與 transformers 4.57.0，再下載各 benchmark 影片、用 ffmpeg 腳本修復損毀檔案，之後透過內建 lmms-eval 跑 vqa_total 或 v_oasis 任務。現階段較適合做模型評測、研究比較，或者幫團隊檢查自家 video model 是否只是在 benchmark 上「識考試」，未必適合作為即裝即用的應用工具。

項目預設支援可由 huggingface_hub 下載的模型，示例提到 Eagle2.5-8B；成績說明中則點名 Gemini-2.5 Pro 為目前最佳表現者。整體來看，Video-Oasis 最有價值的地方不是再造一個排行榜，而是把影片理解評測裡最容易被忽略的捷徑問題公開化，令後續模型比較更可信。

項目主頁 · GitHub · Paper

Categories: 開源, Gemini, NVIDIA, Video, AI productions, Python, 視覺模型, 視頻模型, Dataset 數據集

CineMobile 點樣把電影運鏡搬上手機

2026 年 7 月 10 日

由 Wan 2.1 架構的 teacher model 壓縮而來，CineMobile 針對 image-to-video diffusion 而設，重點唔係追求最大全能，而係讓 bullet time、dolly zoom、slow motion 這類電影感鏡頭可以在手機晶片上跑得動。對一般使用者來說，最大差異是它把原本偏向雲端或高階 GPU 的生成流程，縮短到可在行動裝置完成的級別。

技術路線分三步走：先用 distillation-guided pruning 保留關鍵影片生成能力，再把壓縮後模型結合 diffusion distillation 與 reinforcement learning，進一步做成 4-step generator，最後再用 hybrid post-training quantization 把整體模型壓到 1 GB 以下。這組做法直接對準兩個瓶頸：DiTs 參數太大，以及多步去噪太慢。

頁面提供的數字相當具體。相比採用 Wan 2.1 architecture 的 teacher model，CineMobile 可帶來 40× 生成加速；生成 49-frame、480p 影片時，在 NVIDIA H200 GPU 的每步 denoising latency 為 0.6 秒，在 MediaTek Dimensity 8400 Ultimate 5G 平台約為 20 秒，峰值記憶體使用量為 1.8 GB。這代表它雖然仍有明顯等待時間，但已進入手機可接受的範圍。

基礎來源可確認與 Wan 2.1 架構有關，但頁面未見完整 base model 款式或 checkpoint 名稱
核心優化包括 pruning、distillation、reinforcement learning 與 post-training quantization
目標輸出為 49-frame、480p 的 cinematic camera motion 影片
重點能力在於連續運鏡，同時維持 subject identity 與 scene consistency

Hugging Face 暫未提供可直接下載量化檔的模型頁，未提供 GGUF、mmproj、llama.cpp、Ollama、LM Studio、chat template 或 v2 檔名更新資訊，亦無法判斷是否支援 MTP draft speculation。

項目主頁 · Paper

Categories: NVIDIA, Video, Image, AI productions, LLaMa, Ollama, 模型訓練, 視頻模型

ARDY 讓 3D 角色動作可即時受控

2026 年 7 月 10 日

一邊輸入文字、一邊指定角色要去邊、幾時抬手或者身體要擺成咩姿勢，系統仍然可以即時生成自然動作；ARDY瞄準的正正是呢種互動式 3D human motion generation 場景。呢類能力對動畫、模擬同 humanoid robotics 都重要，因為傳統離線方法雖然控制精準，但速度未必跟得上互動需求；純即時方法又常常在語意理解、長距離目標同約束服從度上打折扣。

ARDY 採用 autoregressive diffusion model，同時配合 hybrid representation，把角色移動軌跡相關的 root features 同 latent body embedding 結合。咁樣做的用意很直接：一方面保留對路徑與朝向的明確控制，另一方面維持生成模型學習複雜全身動作時的效率與彈性。配合 two-stage autoregressive transformer denoiser，同一套框架可以處理 online text prompting，亦能接住較長時間範圍的 kinematic constraints。

它支援的約束方式幾完整，包括 root paths、waypoints、full-body keyframes，以及 sparse joint positions/rotations，亦可混合使用。更重要的是，約束唔一定只限當前生成視窗，較遠將來的目標都可以先講定，令角色更容易朝長程目標連續行動，而唔係每幾步就失去方向。

支援 online text-to-motion generation，可即時改提示詞
可加入 root paths、waypoints、full-body keyframes 同 sparse joint constraints
兼顧即時反應、動作品質同長距離控制
面向動畫、模擬、humanoid robotics 等互動工作流

資料提到，ARDY 以大型 motion capture dataset 訓練，並直接用文字標籤與來自真實姿勢抽樣的 kinematic constraints 作條件，令模型原生學會受控生成。研究團隊亦展示了互動式 demo，涵蓋動態文字控制、關鍵幀約束、路徑跟隨同即時 locomotion control；定位上，它較適合需要邊調邊看結果的內容製作與研究場景。

項目主頁 · 模型

Categories: NVIDIA, Video, 軟件, 3D, Embedding, 動畫, 提示詞, 模型訓練, Robotic, 世界模型, 框架, Dataset 數據集, VLA

Page 2 of 7

« Previous 1 2 3 4 … 7 Next »