MiniMax-01 閃電注意力機制模型

MiniMax 公司釋出開源 MiniMax-01 系列大型語言模型,包含文字模型 MiniMax-Text-01 和視覺多模態模型MiniMax-VL-01。其核心採用了創新大規模的「Lightning Attention」機制,這是一種新型注意力機制,能有效處理長達 400 萬個 token 的超長上下文,遠超其他領先模型,同時在效能上與全球頂尖模型持平。模型的開源旨在推動 AI Agent 時代的發展,並透過高效的架構和訓練方法,提供具有競爭力的 API 服務。MiniMax 也強調了其模型在長上下文理解任務中的優異表現以及其在實際應用場景中的領先地位。

想了解更多關於這模型可參考這報告詳細闡述了模型架構、計算優化策略 (包括訓練和推論階段的並行策略和通訊計算重疊技術)、預訓練數據的構建和處理方法、以及安全性和對齊訓練等方面的工作。 實驗結果顯示 MiniMax-01 在多項基準測試中取得了領先或相當的成果,並公開釋出模型權重和 API,旨在推動大型語言模型的發展。

4 Million Context Unlocked: China's NEW AI Breakthrough!!
Categories: 多模態模型, 模型

Google 推出 PaliGemma 2 視覺語言模型

一個強大的視覺語言模型。它基於 Gemma 2 模型,新增了視覺處理能力,並提供多種模型尺寸和解析度以供選擇,用家可根據任務需求調整。PaliGemma 2 的亮點包括更長的內容生成能力,以及在化學辨識、樂譜辨識等領域的領先表現。

PaliGemma 2 是一個強大的視覺語言模型,PaliGemma 的進階版本,主要差異在於其效能提升與功能擴展。以下列出兩者之間的主要差異:

  • 擴展性:PaliGemma 2 提供多種模型尺寸(3B、10B、28B 參數)和解析度(224px、448px、896px),能針對不同任務優化效能。
  • 詳細描述能力:PaliGemma 2 不僅能識別影像中的物件,更能產生詳細且符合情境的影像描述,包含動作、情緒和場景的整體敘述。
  • 擴展應用領域:研究顯示,PaliGemma 2 在化學式辨識、樂譜辨識、空間推理和胸部 X 光報告生成方面表現出色。
  • 易於升級:PaliGemma 2 設計為 PaliGemma 的直接替換,大多數任務都能立即獲得效能提升,且不需要大幅修改程式碼。
  • 易於微調:PaliGemma 2 的彈性使其能針對特定任務和數據集進行微調,讓使用者可以根據自身需求客製化其功能。

此外,PaliGemma 2 增強了視覺能力。您可以在 Hugging Face 上找到預訓練模型和程式碼,並透過詳細的說明文件和範例筆記本將這些工具整合到您的專案中。

Categories: Medical醫學, 多模態模型, 影像處理, 模型

Whisk – Google Deepmind 新整合

Google Labs 宣佈了幾個重要更新。除影片生成外,Whisk 最受矚目!

Google 推出了Veo 2 和 Imagen 3 的改良版本,分別在影片和圖片生成方面達到業界頂尖水準,並整合到 VideoFX 和 ImageFX 工具中。 此外,一個名為 Whisk 的新工具也正式亮相,它允許使用者以圖片作為提示,結合 Imagen 3 和 Gemini 的技術,創造出獨特的影像。 文章最後還介紹了這些工具的應用範圍以及未來發展計畫,例如在 YouTube Shorts 和 Vertex AI 上的整合。 整體而言,文章旨在展示Google在AI影像與影片生成技術上的最新進展,以及其對提升使用者創造力和拓展應用場景的努力。

Categories: 多模態模型, 影像處理, 新聞


Ollama3.2-vision 本地部處教學

影片示範使用 OLAMA 平台,離線運行 Llama 3.2 vision 模型。重點在於說明如何使用終端機或 Open Web UI 與圖片互動,以及運用 Python 和 JavaScript SDK 建立應用程式。影片涵蓋基本設定到進階應用程式開發,並提供詳細程式碼範例,協助 Llama 3.2 vision 模型進行圖像識別和描述等任務,展現消費級硬體上的強大能力。

Llama 3.2 Vision + Ollama: Chat with Images LOCALLY

MAC ImageWIN Image

Categories: LLaMa, Ollama, 多模態模型

Motion Prompting 可控影像模型

Categories: 多模態模型, 影像處理, 新聞



Ollama+Llama3.2-vision多模態模型實現監控

ollama支持Llama3.2-vision多模态大模型轻松实现监控找人!重磅分享:详细讲解提示词工程+视觉大模型实现视频目标查找!无需高端显卡,本地运行流畅,完美解决视频目标搜索难题,附赠完整源码

Ollama 支持 Llama3.2-vision 多模態大模型,輕鬆實現監控找人!詳細講解提示詞工程 + 視覺大模型實現視頻目標查找!無需高端顯卡,本地運行流暢,完美解決視頻目標搜索

Categories: 多模態模型, 教學


Page 3 of 4
1 2 3 4