MiniMax-01 閃電注意力機制模型

MiniMax 公司釋出開源 MiniMax-01 系列大型語言模型,包含文字模型 MiniMax-Text-01 和視覺多模態模型MiniMax-VL-01。其核心採用了創新大規模的「Lightning Attention」機制,這是一種新型注意力機制,能有效處理長達 400 萬個 token 的超長上下文,遠超其他領先模型,同時在效能上與全球頂尖模型持平。模型的開源旨在推動 AI Agent 時代的發展,並透過高效的架構和訓練方法,提供具有競爭力的 API 服務。MiniMax 也強調了其模型在長上下文理解任務中的優異表現以及其在實際應用場景中的領先地位。

想了解更多關於這模型可參考這報告詳細闡述了模型架構、計算優化策略 (包括訓練和推論階段的並行策略和通訊計算重疊技術)、預訓練數據的構建和處理方法、以及安全性和對齊訓練等方面的工作。 實驗結果顯示 MiniMax-01 在多項基準測試中取得了領先或相當的成果,並公開釋出模型權重和 API,旨在推動大型語言模型的發展。

4 Million Context Unlocked: China's NEW AI Breakthrough!!
Categories: 多模態模型, 模型

Google 推出 PaliGemma 2 視覺語言模型

一個強大的視覺語言模型。它基於 Gemma 2 模型,新增了視覺處理能力,並提供多種模型尺寸和解析度以供選擇,用家可根據任務需求調整。PaliGemma 2 的亮點包括更長的內容生成能力,以及在化學辨識、樂譜辨識等領域的領先表現。

PaliGemma 2 是一個強大的視覺語言模型,PaliGemma 的進階版本,主要差異在於其效能提升與功能擴展。以下列出兩者之間的主要差異:

  • 擴展性:PaliGemma 2 提供多種模型尺寸(3B、10B、28B 參數)和解析度(224px、448px、896px),能針對不同任務優化效能。
  • 詳細描述能力:PaliGemma 2 不僅能識別影像中的物件,更能產生詳細且符合情境的影像描述,包含動作、情緒和場景的整體敘述。
  • 擴展應用領域:研究顯示,PaliGemma 2 在化學式辨識、樂譜辨識、空間推理和胸部 X 光報告生成方面表現出色。
  • 易於升級:PaliGemma 2 設計為 PaliGemma 的直接替換,大多數任務都能立即獲得效能提升,且不需要大幅修改程式碼。
  • 易於微調:PaliGemma 2 的彈性使其能針對特定任務和數據集進行微調,讓使用者可以根據自身需求客製化其功能。

此外,PaliGemma 2 增強了視覺能力。您可以在 Hugging Face 上找到預訓練模型和程式碼,並透過詳細的說明文件和範例筆記本將這些工具整合到您的專案中。

Categories: 影像處理, 多模態模型, 模型, Medical醫學

METAGENE-1 病原體檢測模型

METAGENE-1 是一個由南加州大學、Prime Intellect 和核酸天文台的研究人員合作開發的 70 億參數大型語言模型,它專注於分析來自廢水的 DNA 和 RNA 序列。 這個模型利用超過 1.5 兆個鹼基對的數據進行預訓練,其目標是建立一個能捕捉人類微生物組全貌的模型,以促進疫情監控、病原體檢測和新興健康威脅的早期預警。 METAGENE-1 在病原體檢測和宏基因組嵌入基準測試中取得了最先進的性能,但研究團隊也強調了在發佈更大更強大的基因組模型之前,進行嚴格的安全評估的重要性。 其開源釋出旨在促進病原體檢測和生物監控研究。

Scientists Just Released Something That Could Change Medicine FOREVER (Metagene -1)
Categories: 模型, Medical醫學

DeepSeek-V3 國產超強模型

DeepSeek-V3 的架構,包含創新的多標記預測 (MTP) 目標函數和無輔助損失的負載平衡策略,以及基於Multi-Head Latent Attention (MLA) 和 DeepSeekMoE 的高效能設計。

DeepSeek-V3 是一種強大的專家混合 (MoE) 語言模型,總參數為 671B,每個令牌啟動 37B。為了實現高效的推理和經濟高效的訓練,DeepSeek-V3 採用了多頭潛在註意力(MLA)和 DeepSeekMoE 架構,這些架構在 DeepSeek-V2 中得到了徹底的驗證。在 14.8 兆個多樣化的高品質 Token 上對 DeepSeek-V3 進行預訓練,然後進行監督微調和強化學習階段,以充分利用其能力。綜合評估表明,DeepSeek-V3 的性能優於其他開源模型,並且達到了與領先的閉源模型相當的性能。儘管性能出色,DeepSeek-V3 僅需要 2.788M H800 GPU 小時即可完成完整訓練。此外,它的訓練過程非常穩定。在整個訓練過程中,沒有遇到任何不可恢復的損失高峰或執行任何回滾。

【人工智能】DeepSeek V3 53页技术报告快速解读 | 性能表现卓越 | 架构创新 | MLA | MoE架构 | DualPipe | 预训练 | 超参数设置 | MTP | 后训练
Categories: 開源, 模型


Genesis 生成式物理引擎

Genesis 是一個強大的、通用物理引擎,旨在為機器人和更廣泛的應用程式(如具身 AI 和物理 AI)提供服務。它不僅是一個輕量級且超快速的模擬平台,擁有易於使用的 Python 介面和逼真的渲染系統,更是一個生成式數據引擎,能根據自然語言提示生成各種模態的數據,例如物理準確的影片、機器人策略、以及複雜的 3D 場景和角色動作。其核心是從零開始重建的物理引擎,結合多種物理求解器,並由上層的生成式代理框架進一步增強,實現數據生成的自動化。目前已公開發布物理引擎和模擬平台的原始碼,生成式框架將逐步推出。 Genesis 的目標是大幅提升模擬效率和數據生成能力,促進機器人學及相關領域的研究與發展。

MAC ImageWIN Image

Categories: 開源, 3D, 模型

MMAudio 自動配音效模型

Categories: Audio, 聲效, 模型

DiffSensei 客製化漫畫

結合擴散的圖像生成和多模態大型語言模型 (MLLM)

DiffSensei 效能超越現有模型,代表在漫畫生成領域的重大進展,實現了文本可調整的角色客製化,並公開程式碼、模型和數據集。

DiffSensei 使用遮罩交叉注意力來整合角色特徵,實現精確的版面控制,並透過 MLLM 調整角色特徵以符合面板的文字提示,從而靈活調整角色的表情、姿勢和動作。研究團隊也公開了一個大型數據集 MangaZero,包含大量漫畫頁面和標註面板,以支援此任務。實驗結果顯示。

Categories: 模型

TRELLIS 3D 高品質三維模型

輸出的 3D 型以 Mixamo 加入 Rigging 教學

Best Free 3D Model Generator AI in 2025 - Free & Open Source 3D AI Models are Here!
Categories: 開源, 3D, 模型

LayoutLM 文件理解和資訊提取

Categories: 教學, 模型

Page 4 of 8
1 2 3 4 5 6 8