模型 – Page 4 – InferNews

MOSS-Transcribe-Diarize：多人長音訊一站式轉錄

2026 年 7 月 11 日

會議、訪談、podcast 呢類長音訊，最麻煩唔係單純變成文字，而係要一路保留時間碼、一路分清楚邊個講緊。MOSS-Transcribe-Diarize 屬於音訊理解模型，集中處理長篇多人語音轉錄同 speaker diarization，輸出已經連同時間戳同講者標籤，例如 [S01]、[S02]，比起先做 ASR 再另外接 diarization，流程更完整。

呢個項目的取向相當鮮明：它唔係把幾個系統串連，而係用 end-to-end 方式一次過完成 transcription、speaker diarization、timestamps，連 acoustic event awareness 都納入同一模型。好處係輸出格式更統一，段落對位較自然；代價則是你要接受它的整體輸出設計，而唔係自由替換其中一段模組。

目前公開的是 MOSS-Transcribe-Diarize 0.9B，定位為開源 SOTA 模型；另有更強的 MOSS-Transcribe-Diarize Pro，但會以 API 形式提供。部署路線算清楚，倉庫已列出 Python 用法、自訂 prompt 與 hotwords、用 vLLM 或 SGLang Omni 提供服務，亦有 Subtitle Web App，表示它不只適合研究測試，也可朝內容整理、字幕製作同語音工作流整合發展。

把 ASR 與 speaker diarization 合併，減少多階段對齊誤差
直接輸出帶時間戳的文字流，適合字幕、會議紀錄、訪談整理
支援長篇、多講者、較混亂的真實錄音場景
0.9B 已開源，Pro 版本主打更高整體表現並將經 API 提供

受惠最大的會係做會議紀錄、媒體轉寫、客服通話分析同教育內容整理的團隊，因為他們最在意的往往不是單句辨識，而是整段內容可否穩定交付。現有資料提到它屬於 SOTA 等級，也有獨立 Evaluation 章節，但未見完整數字細節一併列出；能夠確認的是，相關模型目前包括 MOSS-Transcribe-Diarize 0.9B 與 MOSS-Transcribe-Diarize Pro，前者著重開源可用性，後者走更高性能與 API 存取路線。

GitHub · 模型

Categories: 開源, API, Python, 模型, 語音

Qwen3.6 全新的動態 NVFP4 量化器

2026 年 7 月 10 日

想喺自己電腦上跑到規模較大的多模態模型，最大卡位通常唔係功能，而係記憶體同速度。Qwen3.6 屬於阿里巴巴的新一代多模態 hybrid-thinking 模型系列，重點在於用相對可控的硬件需求，處理 agentic coding、vision 同 chat 等工作。

現有資料提到兩個主力型號：Qwen3.6-27B 同 35B-A3B。前者可在約 18GB 記憶體配置下運行，後者約需 22GB 至 23GB 左右，並支援 256K context 及 201 種語言。對想喺本地做長內容理解、跨語言對話，或者配合工具調用工作流的人來說，這個取向幾實用。

相比只講「可量化、可本地跑」的常見做法，Unsloth 這邊更著重點樣揀到速度與準確度較平衡的版本。Qwen3.6 GGUFs 採用 Unsloth Dynamic 2.0，會按真實使用資料做 calibration，並把重要 layers upcast；另外新推出的 NVFP4 quants 主打在 GPU 上帶來約 2.5 倍更快速度，MTP 則標示可把 inference 再加快 1.4 至 2.2 倍，同時不犧牲準確度。

適合本地部署多模態模型，兼顧編碼、視覺與對話
27B、35B-A3B 記憶體需求相對克制，較易在個人設備起步
GGUF 格式配合 Unsloth Dynamic 2.0，重點是量化後仍保持可用表現
NVFP4 與 MTP 主要改善推理速度，幫助減少等待時間

使用上仍有幾點要留意：總可用記憶體最好高於下載的量化模型大小，否則雖然可經 llama.cpp 用 SSD/HDD offloading 繼續運行，但推理會慢得多；文件亦明確提醒不要使用 CUDA 13.2，以免輸出異常。整體來看，這不是單純把 Qwen3.6 搬到本地，而是把「跑得動、跑得快、精度仍可接受」這幾個取捨整理得更清楚。

所引用的模型列表：Qwen3.6-27B、Qwen3.6-35B-A3B。

項目主頁 · 模型

Categories: 開源, 阿里巴巴, Qwen, NVIDIA, Agentic, API, MCP, Medical醫學, Python, 多模態模型, 模型, 教學, 編程, Anthropic, OpenClaw

Canvas360 把全景生成拉回可用水平

2026 年 7 月 10 日

最值得留意嘅地方，在於佢唔只想生成一張闊圖，而係想處理 360 度全景最常見嘅破綻：左右邊界接唔上、透視變形唔自然、補圖後空間結構散開。Canvas360 屬於影像生成框架，建基於 FLUX，處理嘅係 text-to-panorama image generation，同時延伸到 inpainting、outpainting、editing 同 style transfer 呢類全景工作流。

現有做法多數先把全景當成一般平面圖片生成，再靠後處理減少接縫；作者認為呢種範式忽略咗 panoramic projection 本身嘅幾何特性，所以容易喺邊界、深度關係同局部結構出現錯位。Canvas360 用 two-stage framework 重組呢件事：先做 geometry-aware pretraining，引入 parallel RGB-depth pretraining，再配合 continuous position encoding、circular latent padding 同 per-block feature synchronization，將 360 度連續性直接放入模型學習過程。

同類項目相比，Canvas360 嘅取向唔係單純追求更華麗嘅畫面，而係優先修正全景生成最影響可用性嘅一致性問題。項目亦補上 Canvas360Dataset，提供 1M paired panoramic samples，支援 style transfer、inpainting、outpainting 同 editing，反映作者唔止做單一模型改良，仲想連訓練資料結構一併補強。

核心定位係 FLUX-based framework，主打 text-to-panorama image generation 同全景補全
關鍵方法包括 geometry-aware pretraining、continuous position encoding、circular latent padding
已公開 inference code 同 training code，但 model weights 與 online demo 仍然未釋出
需要 base model black-forest-labs/FLUX.1-dev，並可配合自備 LoRA 跑生成或下游任務
相關比較對象包括 PanFusion、SMGD、PAR、WorldGen、HunyuanWorld、DiT360，以及 FLUX.1-Kontext-dev、FLUX.2-dev、Qwen-Image-Edit

測試同現階段較接近研究型項目而唔係即開即用服務。儲存庫已提供 inference.py 同 inference_downstream.py，代表你可以在本地環境配好 PyTorch、依賴套件、FLUX.1-dev 存取權同 LoRA 後，直接驗證文字生成全景，或者試全景補圖與延展；不過權重未公開，所以現時更適合研究團隊、全景影像工具開發者，或者想研究 360 度生成方法嘅人先行閱讀同跟進。現有介紹強調結果比多個舊方法更少接縫瑕疵、結構更清晰，但儲存庫內容未見完整量化指標表，判斷性能仍要等論文與權重進一步公開後先更穩陣。

項目主頁 · GitHub · Paper

Categories: 開源, 字節跳動, Stable Diffusion, Image, Python, 影像模型, 模型, 模型訓練, 視覺模型, 清華大學, 框架, Dataset 數據集

LongE2V 把事件流變成穩定長影片

2026 年 7 月 10 日

事件相機資料本身又稀疏又碎，畫面一拉長，很多方法不是紋理發糊，就是前後段落開始飄。LongE2V 走的是研究型模型／框架路線，目標不是只修一段短片，而是把 sparse event streams 轉成較穩定的長影片，並且同時處理 reconstruction、prediction 同 frame interpolation。

同類做法常見兩條路：一類用 regression methods，速度直接但容易損失細節；另一類雖然有 generative models 的畫質優勢，長序列又容易出現 temporal drift。LongE2V 把 pre-trained video diffusion priors 拉進 event-based video 任務，再加上 Autoregressive Unrolling、Adaptive Context Switching，以及插幀用的 Reencoding Alignment with Cross Residual Correction，核心取向很清楚：接受系統更複雜，換取較長時間的一致性同感知品質。

部署環境以 Python 3.10 為基礎，Linux 加 NVIDIA GPU，同時依賴整理好嘅資料結構；訓練要每段 sequence 準備 images/.png、voxels/.npz 同 cogvlm_prompts.txt，推理前亦要確保 voxel 檔名、數量同資料夾完全對齊，因為多一個或少一個 voxel 檔，都會改變事件切塊方式，直接影響訓練同推理結果。

重點整理如下：
– 同一套框架覆蓋 reconstruction、prediction、frame interpolation，減少每個任務各自維護一套模型的割裂情況
– reconstruction / prediction 以 ECD、MVSEC、HQF 為主，interpolation 用 BS-ERGB 同 HQF
– 空事件區間會寫入 zero voxels，避免時序長度對不上
– --reverse-time --reverse-polarity 產生的 voxels_reverse 只供 interpolation 測試使用，唔需要帶入 reconstruction、prediction 或訓練
– 在 real-world benchmarks 上優於多個 state-of-the-art 方法，並強調 temporal coherence 同 zero-shot generalization

相關模型包括 E2VID、FireNet、ET-Net、SPADE-E2VID、SSL-E2VID、HyperE2VID、VDM-EVFI、CBMNet-Large 同 TLXNet+。LongE2V 較適合做事件相機、視覺生成、機械感知或學術重現的團隊參考；它吸引之處在於把三類任務收進同一個 video diffusion framework，但代價是資料前處理要求嚴格、硬件門檻偏高，整體更像面向研究與實驗室工作流。

項目主頁 · GitHub · Paper

Categories: 開源, NVIDIA, Video, Linux, Python, 模型, 框架

TESSERA 把全年衛星影像壓成地表嵌入圖

2026 年 7 月 10 日

做地表分類、樹冠高度預測，或者想先整理一塊區域的衛星時序資料，卡位通常出在雲遮、感測器差異同時間序整理。TESSERA 屬於地球觀測 foundation model，核心做法係把一年份 Sentinel-1 同 Sentinel-2 觀測壓成 10m 解析度、逐像素的 representation（embedding）map，讓後續任務直接食用較穩定的特徵，而唔使每次由原始影像重新清洗。

TESSERA 同常見只做 cloud-free composite 或單時點特徵抽取唔同。作者明顯想保留 temporal-spectral 訊息，將不規則觀測、光學與雷達資料一齊編碼，所以它較像先建好一層通用地表表示，再交畀分類、回歸或視覺化項目使用；代價係流程唔算輕量，現階段亦仍然係 alpha，對外存取有限。

部署流程分成資料預處理、推理、再把輸出的分塊結果拼回最終 representation map；輸入會包括 ROI 的 TIFF、Sentinel-1/2 的起止日期，而且目前 downsample rate 只支援 1，即維持 10m 解析度。README 亦提到要先看完整教學，並涉及 Docker 與一定硬件需求，較適合有遙感或資料工程能力的團隊測試。

把全年 Sentinel-1 與 Sentinel-2 壓成逐像素 embedding，而唔係只輸出單次影像結果
適合接駁土地分類、樹冠高度預測、表示視覺化等下游任務
目前偏研究與內部測試階段，外部使用門檻仍然存在
10m resolution、TIFF 輸入、按時間範圍抽取資料，工作流相對完整但較重

相關模型 TESSERA 前身為 BTFM；延伸資料亦顯示 TESSERA v2 研究緊 pixel-wise EO foundation models 點樣擴展，並包含 0.5B、1B，以及訓練中的 2B 模型，再蒸餾成較細的 student。當中 21M 參數的 distilled 版本主打 embeddings-as-data 部署，仲提供 MATRYOSHKA representations，16 維前綴已可保留大部分 128 維表現。對想長期經營遙感特徵底座的團隊，呢個方向比逐任務重訓更有吸引力。

項目主頁 · GitHub · Paper

Categories: 開源, NVIDIA, Embedding, 模型, Dataset 數據集

CrossViewTokenFusion：乳房 X 光雙視角分類新路線

2026 年 7 月 10 日

Repository image for PartAI-Projects/CrossViewTokenFusion

臨床判讀乳房 X 光唔會只望單一角度，但不少多視角方法仍然偏向把特徵提早合併，或者只做一次 cross-attention，結果容易把 view-specific 線索同共享資訊混埋。CrossViewTokenFusion 屬於醫學影像分類模型／研究原型，針對 dual-view mammography classification，重點係讓 CC 與 MLO 兩個視角以 token 為單位逐步交換資訊，而唔係一開始就粗略融合。

項目建基於 frozen MedSigLIP vision model，採用兩階段流程：先做 deep prompt learning 適配，再做 cross-view token-based fusion。作者批評既有 multi-view learning 常見的 feature-level aggregation 同 single-stage cross-attention 互動太淺，於是改用 dedicated fusion tokens 作為中介，透過 cross-attention 在多個 transformer 深度反覆傳遞雙向訊息，之後再把 fusion tokens 放回 token sequence 繼續細化。

部署要求先準備 VinDr-Mammo 或 CMMD（Chinese Mammography Database），再做 preprocessing、stage 1 訓練、stage 2 訓練，最後載入 checkpoint 測試。

它比較適合做醫學影像研究、醫療 AI 團隊驗證多視角融合設計，未見到直接面向臨床系統的封裝介面。

舊範式多數用 feature-level aggregation 或單層 fusion；這個項目改為 multi-depth token 互動
以 frozen vision transformer backbone 配合 prompt learning，取向係少改主幹、多做適配
公開資料集包括 VinDr-Mammo 同 CMMD，方便學術重現與橫向比較
VinDr-Mammo BI-RADS classification 達到 50.40% F1-score、0.8090 AUC
相比 dual-view fusion baseline，二分類設定下 AUC 提升 0.10

它的價值係重新定義雙視角點樣溝通：保留各自結構，再用 fusion tokens 逐層傳遞互補證據。

GitHub · Paper

Categories: 開源, Medical醫學, 多模態模型, 模型, 模型訓練, 視覺模型

SciReasoner 想把科學推理拉回結構本身

2026 年 7 月 10 日

只看文字去判斷蛋白質功能、分子反應性或材料性質，經常會漏掉真正關鍵的空間結構。SciReasoner屬於多模態 scientific foundation model，針對的正是這個落差：把 protein structures、3D molecules、crystals、sequences、formulas 同 text 轉成可對照的 structure-aware evidence tokens，再用來做 scientific QA、prediction、classification 同 generation/design。

與科學資料先「文字化」再交畀大型語言模型處理的做法不同。作者明確押注 native structural reasoning，保留 Foldseek 3Di、ConfSeq、SLICES 呢類結構編碼，令模型唔係淨係讀描述，而係可以沿住 residues、fragments、conformers 甚至晶體配位環境去推理；官網展示的 traces 亦反映出，項目希望連推理路徑都可以檢查，而唔只係輸出答案。

GitHub 上的 models 同 demo 仍標示為 coming soon。換句話說，眼前較合理的理解方式係先把它當成研究型項目：閱讀 benchmark、看案例 traces，判斷它是否適合生物資訊、化學資訊或材料 AI 團隊之後的評測與整合方向，而唔係即刻下載部署到生產流程。

在 86 個評測任務入面，67 個做到 state-of-the-art，對比 generalist LLM baselines 有 75 個任務表現最好
與已發表的 specialist 方法相比，在 33 組比較入面有 26 組持平或更好
範圍唔只化學，亦覆蓋 proteins、DNA/RNA、small molecules、3D molecular structures 同 inorganic crystals
traces 可檢查，雙盲專家評分中，與 DeepSeek-V4-Pro 相比有 98% 判斷屬 preferred 或 comparable

相關模型方面，SciReasoner以 Qwen3-14B 初始化，再對齊 domain-native structural vocabularies。對需要跨蛋白質、核酸、分子同材料做統一推理介面的團隊，呢個方向幾有吸引力；限制同樣明顯，因為公開模型與可直接測試的 demo 尚未提供，現階段更適合當成值得追蹤的研究項目，而唔係可即用工具。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, 香港, 香港中文大學, DeepSeek, 3D, Medical醫學, 多模態模型, 模型, 中國, Dataset 數據集, 南京大學

LingBot-World 2.0 把互動世界拉長

2026 年 7 月 10 日

最值得留意的，不是單純生成影片，而是它嘗試把世界模型做成可持續互動的系統：畫面不只要動，還要在長時間互動下維持一致，並且跟得上即時操作。LingBot-World 2.0，也叫 LingBot-World-Infinity，定位上屬於模型項目，處理的是互動式世界生成容易愈玩愈散、反應又唔夠快的問題。

同類做法很多時偏向短片段展示，或者重視視覺效果多於操作連續性；這個版本反而把焦點放在「interaction horizon」拉長，同時保住輸出穩定度。它亦加入 agentic harness，由 pilot agent 規劃角色行為、director agent 補出新環境元素，方向上更接近可演進的遊戲式世界，而唔只係被動播放內容。

現階段最容易理解的試法，是先經 Reactor 的 Web 版本或 LingGuang 的流動平台體驗即時版；README 亦提供 Hugging Face 與 ModelScope 上的模型頁面。官方說明指出，平台版本方便試玩，但完整能力仍以官方設置為準，換句話說，公開體驗較適合感受互動節奏，未必等同完整表現。

支援長時間互動，主打 unbounded interaction horizon
提供即時變體，官方稱可驅動 720p、60 fps 影片串流
動作與事件更豐富，包括攻擊、射箭、施法、射擊等互動
以 pilot agent 與 director agent 分工，推進角色與場景演化

現有資料未見完整基準表或系統化對比結果，性能描述主要來自項目方公開說明，所以較適合把它視為一個展示取向鮮明的前沿模型。相關模型目前可見的是 lingbot-world-v2-14b-causal-fast；而從 Robbyant 整體路線來看，它亦與 LingBot-Vision、LingBot-Depth、LingBot-VLA、LingBot-Video 等項目一起指向 embodied AI 與世界模型的長線布局。

項目主頁 · GitHub · 模型

Categories: 開源, Agentic, Video, 多模態模型, 模型, 世界模型, VLA

DeepSeek-V4-Flash 本地 GGUF 版

2026 年 7 月 10 日

最值得先講的是，它明確基於 deepseek-ai/DeepSeek-V4-Flash 製作，屬於面向本地部署的 GGUF 量化版本，處理的是大型語言模型喺本機執行時常見的記憶體壓力與部署門檻。頁面同時提醒要配合最新版本的 llama.cpp 或 Unsloth Studio，否則 DeepSeek-V4 可能無法正確運行，代表它對推論框架版本有一定依賴。

Unsloth 把焦點放喺量化後仍盡量保持原模型表現，並提到改良了 DeepSeek-V4 的 chat jinja template，經過超過 4000 段對話測試後，效果與官方 baseline 等效。對使用者來說，呢點比單看可唔可以載入更重要，因為同一個模型換咗模板後，回答風格、工具調用格式甚至思考開關行為都可能出現明顯差異。

檔案資訊方面，頁面清楚列出 UD-Q8_K_XL 屬於 full precision lossless 的建議選項，大小約 162GB，而且只比 Q4 的 UD-Q4_K_XL 大 7GB。描述亦提到 3-bit 可喺 110GB Mac、RAM 或 VRAM 配置運行，full precision lossless 則需要大約 168GB RAM；不過目前提供內容未見完整 GGUF 檔名清單、各量化級別大小、mmproj 附加檔案或上下文長度細節，因此無法逐一確認。

已確認 base model 是 deepseek-ai/DeepSeek-V4-Flash
建議使用最新 llama.cpp 或 Unsloth Studio
UD-Q8_K_XL 約 162GB，主打 lossless
3-bit 版本可面向約 110GB 記憶體配置
chat template 經 4000+ 對話測試，目標貼近官方 baseline

同類模型比較上，呢個項目的差異不在重新訓練，而在於 GGUF 量化封裝、Unsloth Dynamic 2.0 量化方法，以及對 DeepSeek-V4 對話模板的修正。頁面提到 Unsloth Dynamic 2.0 準確度優於其他主流 quants，但未附上完整對比分數； v2 更新內容、檔名變更、MTP draft speculation 支援、Ollama 與 LM Studio 的具體載入方式，現有資料只足以確認支援方向，未足以逐項下定論。

項目主頁 · 模型

Categories: 開源, DeepSeek, Mac, Ollama, 模型

[技術文章] Gemma 4：更快更慳算力的多模態開放模型

2026 年 7 月 8 日

Google 正式發佈 Gemma 4 技術報告文章：

當模型要同時處理文字、圖片同音訊，常見做法多數靠獨立 encoder 加上大型語言模型組合；能力雖然完整，但記憶體佔用、推理速度同長上下文成本都容易變重。Gemma 4 Technical Report 針對的正是呢個矛盾：唔只追求更強表現，亦想把多模態理解、推理能力同計算效率放到同一條路線上處理。

Gemma 4 屬於 open-weight、natively multimodal language models，涵蓋 dense 同 Mixture-of-Experts（MoE）架構，規模由 2.3B 到 31B。報告最值得留意的對比，在於作者唔再只沿用「更大模型加外掛模組」呢種固定範式，而是加入 thinking mode，令模型先產生 reasoning trace 再回答；同時用長上下文優化、KV cache sharing，以及在 12B 版本引入 unified, encoder-free architecture，把 raw audio 同 image patches 直接投影到 LLM embedding space。

呢種設計帶來的好處幾實際：一方面，長上下文下的記憶體壓力有機會減輕，報告提到 global KV cache footprint 最多可減 37.5%；另一方面，模型亦提供用 quantization-aware training（QAT）訓練的量化版本，盡量在不明顯犧牲品質下減少參數記憶體佔用同延遲。另有 autoregressive multi-token prediction（MTP）drafter head，配合 speculative decoding 提升解碼速度。

支援文字、圖片、音訊，多個型號覆蓋不同硬件需求
以 thinking mode 加強數學、編程等重推理任務
透過 p-RoPE、KV cache sharing 等方法改善長上下文效率
12B 型號採用 encoder-free 路線，減少獨立 encoder 帶來的記憶體碎片化

性能方面，報告指 Gemma 4 在 STEM、多模態同長上下文 benchmark 有明顯進步，亦在 Arena 等 human-rated tasks 接近更大型的 frontier open models。原始資料未提供安裝步驟或完整使用流程，但已清楚交代模型系列的核心取向：用較可控的成本，換取更接近前沿水準的多模態推理能力，並以 Apache 2.0 授權開放。

Paper

Categories: Google, Gemini, Image, Audio, Embedding, 多模態模型, 模型, 模型訓練, Dataset 數據集

Page 4 of 29

« Previous 1 2 3 4 5 6 … 29 Next »