Step3-VL-10B 輕量但超級視覺模型

Step3-VL-10B 是一款輕量級開源基礎模型,旨在重新定義緊湊高效與前沿多模態智能之間的權衡。儘管僅有 10B 參數,Step3-VL-10B 在視覺感知、複雜推理和人類對齊方面表現卓越。

該模型在 10B 規模以下的模型中始終表現最優,並能媲美甚至超越規模大 10×–20× 的開源模型(如 GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B)以及頂級閉源旗艦模型(如 Gemini 2.5 Pro、Seed-1.5-VL)。

Demo: 根據表格推導”STEPFUN”的莫爾斯編碼

Thinking Process

用户现在需要把每个字母转换成莫尔斯电码,先看每个字母在表中的编码。首先分解"STEPFUN"每个字母:S、T、E、P、F、U、N。

S:看右边第三列第一个,S是···(三个点)。(一个短横)
T:第三列第二个,T是-。
E:左边第一列第五个,E是·(一个点)。
P:中间列(J到R)中P对应的符号是·--·点、短横、短横、点)。
F:最左侧列第六行,F的符号是··-·(两个点、一个短横、一个点)。
U:最右侧列第三行,U的符号是··-(两个点、一个短横)。
N:中间列(J到R)第五行,N的符号是-·一个短横、一个点)。
再将每个字母的编码按顺序拼接(字母间用空格分隔更清晰),"STEPFUN"的莫尔斯电码为:··· - · ·--· ··-· ··- -·

Final Answer
··· - · ·--· ··-· ··- -·

Step3-VL-10B 的成功源於兩大核心設計:高質量多模態語料庫的統一預訓練(1.2T tokens)與規模化多模態強化學習(超過 1,400 次 RL 迭代),並引入 Parallel Coordinated Reasoning (PaCoRe) 實現並行視覺探索的證據聚合。

Categories: 推理引擎, 視覺模型, 開源

CoF-T2I 漸進式視覺推理模型

CoF-T2I 模型透過漸進式視覺細化,將 CoF 推理整合到 T2I 生成過程中,其中中間幀作為顯式推理步驟,最終幀作為輸出。為了建立這種明確生成過程,CoF-T2I 建立了CoF-Evol-Instruct 資料集,該資料集包含從語義到美學的 CoF 軌跡,用於建模生成過程。為了進一步提高品質並避免運動偽影,CoF-T2I 對每一幀都進行了獨立編碼。實驗表明,CoF-T2I 的性能顯著優於基礎視訊模型,並達到了具有競爭力的水平。

Categories: 影像處理, 推理引擎, 視覺模型, 開源



VisionThink 智慧高效視覺語言模型

VisionThink 利用強化學習自主學習減少視覺 token。與傳統的高效 VLM 方法相比,這方法在
微粒度基準測試(例如涉及 OCR 相關任務的基準測試)上取得了顯著的提升。

由香港中文大學,香港大學,科技大學大聯合開發

VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning
Categories: 香港大學, 香港中文大學, 香港科技大學, 推理引擎, 模型, 深度學習, 視覺模型, 開源


SkyReels-V2 生成無限長度影片

Skywork 是一個創新的研究團隊,致力於推動法學碩士和多模式理解。它們的使命是透過視覺和語言開發並實現無縫互動的尖端模型和資料集來突破人工智慧的界限。模型支援文字到視訊(T2V) 和圖像到視訊(I2V) 任務,並且可以在同步和非同步模式下進行推理。

影片長度限制的突破:雖然像 LTXV 和 HuanYun 等模型在速度或品質方面表現出色,但它們通常限制生成約 5 到 10 秒的短片。Frame pack 可以生成高達 60 秒的高品質影片,但 60 秒是其最大長度。Skyreels V2 透過其稱為「擴散強制 (diffusion forcing)」的技術,可以讓您生成長達 60 秒甚至可能更長的影片。技術上,擴散強制模型可以透過不斷訓練一個擴散強制取樣器並在最後組合每個結果來無限延長影片長度。

Skyreels V2 - Best Video Model for High Quality Infinite Length
Categories: 多模態模型, 影像模型, 推理引擎, 開源

BFS-Prover 自動定理證明

最佳優先搜尋 (BFS Best-First Tree Search) 是一種樹狀搜尋演算法,它透過優先從機率最高的節點來運作,屬於簡單和效率演算法,但普遍認為對於證明定理並不是最理想的方法。 BFS-Prover 挑戰了傳統觀點,
提出一種可擴展的專家疊代框架,主要包含了三個創新點:一是策略性數據過濾,二是利用編譯回饋進行直接偏好優化 (DPO) Direct Preference Optimization,三是長度正規化。

Categories: 推理引擎, 模型, 開源

DeepSeek NSA 原生稀疏注意力

2025 年 2 月 16 日,DeepSeek 提出了一種名為「原生稀疏注意力」(NSA)
Natively trainable Sparse Attention 的新型注意力機制,目的是解決長傳統注意力機制運算量過大的問題。NSA 透過結合分層式 Token 壓縮與硬體加速設計,達成既能有效處理長文本,又不會顯著增加運算負擔的目標。其核心創新點在於演算法與硬體協同優化,保持甚至超越完整注意力模型的性能。實驗證明,NSA 在多項基準測試中表現出色,並且在解碼、前向傳播和反向傳播階段都顯著加速。

【人工智能】DeepSeek再发新研究成果NSA | 原生稀疏注意力机制 | 梁文锋参与 | 超快长上下文训练 | 十倍速度提升 | 动态分层 | 粗粒度压缩 | 细粒度选择 | 滑动窗口
Categories: 推理引擎, 新聞

VideoLLaMA3 影片理解模型

一個以視覺為中心的多模態基礎模型,用於圖像和影片理解。其核心設計理念是優先利用高品質的圖像文字數據,而非大規模的影片文字數據進行訓練。模型採用四階段訓練流程:視覺對齊、視覺語言預訓練、多任務微調以及影片中心微調。此外,VideoLLaMA3 的架構設計能根據影像大小動態調整視覺 token 數量,並在影片處理中減少冗餘的視覺 token,以提升效率和準確性。最終,VideoLLaMA3 在圖像和影片理解基準測試中取得了令人信服的成果。(HuggingFace)

Categories: 多模態模型, 影像處理, 推理引擎, 模型, 開源

Page 1 of 2
1 2