MiniMax-01 閃電注意力機制模型

MiniMax 公司釋出開源 MiniMax-01 系列大型語言模型,包含文字模型 MiniMax-Text-01 和視覺多模態模型MiniMax-VL-01。其核心採用了創新大規模的「Lightning Attention」機制,這是一種新型注意力機制,能有效處理長達 400 萬個 token 的超長上下文,遠超其他領先模型,同時在效能上與全球頂尖模型持平。模型的開源旨在推動 AI Agent 時代的發展,並透過高效的架構和訓練方法,提供具有競爭力的 API 服務。MiniMax 也強調了其模型在長上下文理解任務中的優異表現以及其在實際應用場景中的領先地位。

想了解更多關於這模型可參考這報告詳細闡述了模型架構、計算優化策略 (包括訓練和推論階段的並行策略和通訊計算重疊技術)、預訓練數據的構建和處理方法、以及安全性和對齊訓練等方面的工作。 實驗結果顯示 MiniMax-01 在多項基準測試中取得了領先或相當的成果,並公開釋出模型權重和 API,旨在推動大型語言模型的發展。

4 Million Context Unlocked: China's NEW AI Breakthrough!!

Google 推出 PaliGemma 2 視覺語言模型

一個強大的視覺語言模型。它基於 Gemma 2 模型,新增了視覺處理能力,並提供多種模型尺寸和解析度以供選擇,用家可根據任務需求調整。PaliGemma 2 的亮點包括更長的內容生成能力,以及在化學辨識、樂譜辨識等領域的領先表現。

PaliGemma 2 是一個強大的視覺語言模型,PaliGemma 的進階版本,主要差異在於其效能提升與功能擴展。以下列出兩者之間的主要差異:

  • 擴展性:PaliGemma 2 提供多種模型尺寸(3B、10B、28B 參數)和解析度(224px、448px、896px),能針對不同任務優化效能。
  • 詳細描述能力:PaliGemma 2 不僅能識別影像中的物件,更能產生詳細且符合情境的影像描述,包含動作、情緒和場景的整體敘述。
  • 擴展應用領域:研究顯示,PaliGemma 2 在化學式辨識、樂譜辨識、空間推理和胸部 X 光報告生成方面表現出色。
  • 易於升級:PaliGemma 2 設計為 PaliGemma 的直接替換,大多數任務都能立即獲得效能提升,且不需要大幅修改程式碼。
  • 易於微調:PaliGemma 2 的彈性使其能針對特定任務和數據集進行微調,讓使用者可以根據自身需求客製化其功能。

此外,PaliGemma 2 增強了視覺能力。您可以在 Hugging Face 上找到預訓練模型和程式碼,並透過詳細的說明文件和範例筆記本將這些工具整合到您的專案中。


Ollama 結構化的輸出方案

「structured-outputs」,主要展示如何利用 OpenAI 和 Ollama 這兩個大型語言模型平台,以結構化的輸出方式驗證數獨遊戲的有效性。程式碼包含一個測試架構,示範如何使用不同的模型(例如 OpenAI 的 gpt-4o-mini 和 Ollama 的 phi4)以及相應的執行指令。專案目前只有 Python 程式碼,並有簡潔的 README 檔說明使用方法,但缺乏更詳細的專案描述和資源連結,星星數和關注度也都很低。 核心目的在於展示結構化輸出的應用,並提供 OpenAI 和 Ollama 的實作範例。

Ollama Structured Outputs with Phi4 is KILLER - Get Started NOW!!

METAGENE-1 病原體檢測模型

METAGENE-1 是一個由南加州大學、Prime Intellect 和核酸天文台的研究人員合作開發的 70 億參數大型語言模型,它專注於分析來自廢水的 DNA 和 RNA 序列。 這個模型利用超過 1.5 兆個鹼基對的數據進行預訓練,其目標是建立一個能捕捉人類微生物組全貌的模型,以促進疫情監控、病原體檢測和新興健康威脅的早期預警。 METAGENE-1 在病原體檢測和宏基因組嵌入基準測試中取得了最先進的性能,但研究團隊也強調了在發佈更大更強大的基因組模型之前,進行嚴格的安全評估的重要性。 其開源釋出旨在促進病原體檢測和生物監控研究。

Scientists Just Released Something That Could Change Medicine FOREVER (Metagene -1)

NVidia Sana – 高速生成高解析度模型

NVidia Lab(NVlabs) Sana 是一個高效的文字轉圖像模型,其核心設計包含高效的編碼器-解碼器架構 (DC-AE)、線性擴散變換器 (Linear DiT)、僅解碼器的文字編碼器,以及 高效的訓練和採樣方法 (Flow-DPM-Solver),讓它能快速生成高解析度 (最高 4096×4096) 的高品質圖片。相較於其他大型擴散模型,Sana 模型體積小,速度快,甚至可在 16GB 的筆電 GPU 上執行,生成 1024×1024 解析度的圖片只需不到一秒鐘。文件中包含了模型的架構說明、效能數據、使用方法(包含使用 Hugging Face Diffusers 的方式)、訓練方法以及未來的發展方向等資訊。

NVIDIA SANA In ComfyUI - 100 Times Faster Than Flux And Render 4K Images

Comfy-WaveSpeed 高速圖像生成

Comfy-WaveSpeed 目標是為 ComfyUI 圖像生成工具提供全面、靈活且快速的推論優化方案。核心功能包含動態快取機制(First Block Cache),能透過重用先前計算結果來加速運算,以及增強版的 torch.compile,用以提升模型編譯效率。 專案目前仍在開發中(WIP),支援多種模型,例如 FLUX 和 LTXV,並提供使用教學和示範工作流程。 整體而言,Comfy-WaveSpeed 旨在提升 ComfyUI 的圖像生成速度,同時盡可能維持圖像品質。

以下影片是提升 ComfyUI 效能的教學,重點在於加速 AI 影像與影片生成的流程。教學內容涵蓋 Comfy WaveSpeed 的安裝設定、PyTorch 和 CUDA 的記憶體優化技巧、GGUF量化和模型快取的步驟指南,以及使用 Hunyuan Videos 和 Flux 展示效能提升的實例。 其目標在於幫助使用者解決 AI 生成任務中常見的漫長生成時間和記憶體瓶頸問題,並透過 Purge VRAM 等方法確保系統穩定運行。

ComfyUI WaveSpeed Hunyuan Video - Optimize for Any Local AI Video Generate!

90分鐘看明白人工智能和神經網絡

【漫士科普】90分鐘深度!一口氣看明白人工智能和神經網絡的講稿節目,由一位清華大學姚班人工智能博士生「漫士」主講。影片以淺顯易懂的方式,從 1956 年的達特茅斯會議——人工智能的起源——開始,循序漸進地解釋人工智能、機器學習和神經網絡的基本原理和發展脈絡。講稿涵蓋了三大 AI 流派:符號主義、聯結主義和機器學習,並深入淺出地闡述了感知機、多層感知機、卷積神經網絡、殘差網絡和 Transformer 等模型的演進,以及梯度下降和反向傳播算法在訓練神經網絡中的核心作用。 最後,影片探討了人工智能的泛化能力、局限性以及對就業市場的潛在影響,並鼓勵觀眾積極學習,適應AI時代的變化。 總體而言,這段文字旨在普及人工智能相關知識,幫助零基礎觀眾理解這項前沿技術的來龍去脈。

【漫士科普】90分钟深度!一口气看明白人工智能和神经网络#人工智能 #神经网络

Roo-Cline – 編程 Agent

一個基於 Cline 的自主編碼代理程式,主要功能是在你的 IDE 內自動化程式碼撰寫和編輯。它能創建、編輯檔案、執行命令、使用瀏覽器等,但每一步都需要使用者明確授權,確保安全。Roo-Cline 在 Cline 的基礎上增加了許多實驗性功能,例如拖拽圖片到聊天視窗、刪除聊天訊息、以及支援多種模型和API等。文件同時強調了所有風險由使用者承擔,並提供了安裝、使用和貢獻的詳細說明,以及一個在Visual Studio Marketplace上的下載連結。

告别Token消耗!用Roo Cline开发项目专属MCP Server,让AI编程不再烧钱,Claude app化身编程IDE,一次配置永久省钱!最强编程AI智能体!Roo Cline超越Cline

Nvidia 透露了人工智慧的下一步

介紹 Nvidia 如何利用 物理AI (Physical AI) 推動自動駕駛和機器人領域的發展。Nvidia 認為,繼生成式AI (Generative AI) 和代理AI (Agent AI) 之後,物理AI 將是AI 的下一個前沿,這需要建立像大型語言模型那樣的「世界基礎模型」(World Foundation Model)。 Nvidia 的 Cosmos 平台正是用於建立此模型,透過生成大量逼真的合成數據來訓練物理AI 模型,克服真實世界數據收集成本高昂的問題。 Isaac Groo 平台則進一步提供工具和框架,加速機器人開發,並與 Omniverse 平台整合,打造數位孿生(Digital Twin) 以模擬和優化各種場景,例如工廠和倉庫的物流作業,以及自動駕駛汽車的測試。 整體而言,這段文字闡述 Nvidia 如何利用其技術棧,從數據生成、模型訓練到應用部署,全面推動物理AI 的發展,並預測其在自動駕駛和機器人領域的巨大潛力。

Nvdia CEO Just Revealed The NEXT STEP In AI....

Pinokio 3.0.26 A.I. 瀏覽器更新

更新主要圍繞著使用者介面客製化、錯誤處理機制改進、以及新增多項功能三個面向。 更新包含了自定義首頁和應用程式頁面樣式、更友善的藍屏錯誤顯示及除錯API、預設整合 uv 命令和磁碟空間重複數據刪除功能,以及新增 JSON API (包含json.getjson.setjson.rm)提升資料操作效率。此外,還加入了瀏覽器自動化功能 (整合 Playwright),應用程式設定精靈簡化環境變數設定,Huggingface API 整合方便模型下載,以及新的檔案系統 API (fs.openfs.cat)和檔案瀏覽器整合。最後,也修復了一些錯誤,例如特定埠衝突問題和Mac系統相容性問題。 整體而言,此更新增強了Pinokio的易用性、穩定性和功能性。

Pinokio 3.0.26 版本 10 點主要更新:

  1. 自訂使用者介面 (UI):使用者可以客製化首頁、應用程式頁面的 CSS 樣式,以及終端機的顯示方式。具體來說,可以透過建立 index.ejs 檔案來客製化首頁,並使用自訂 CSS 來設定應用程式頁面的樣式。
  2. 改進的錯誤畫面:當發生錯誤時,Pinokio 會顯示藍色畫面,並提供更具體、相關的錯誤訊息,而不是像以往一樣顯示模糊的 “ENOENT file not found”。
  3. Shell 中斷點 API:使用者可以在 shell.run 中指定模式,讓程式在特定模式發生時中斷,或忽略某些特定的錯誤訊息。
  4. 內建 UV 工具:Pinokio 預設包含 uv 工具,可以直接在 Pinokio 的 Shell 中使用 uv 命令。此外,uv 還支援通過 fs.link 進行磁碟空間重複資料刪除。
  5. 磁碟使用量顯示:Pinokio 會顯示每個應用程式佔用的磁碟空間大小,這有助於使用者管理磁碟空間。
  6. JSON API:新增 json.get、json.set 和 json.rm 等 JSON API,讓使用者可以讀取、設定和刪除 JSON 檔案中的屬性。json.get 可以將 JSON 檔案載入到本地變數,json.set 可以設定 JSON 檔案的屬性,而 json.rm 則可以移除 JSON 檔案中的屬性。
  7. 瀏覽器自動化:Pinokio 預設包含 Playwright,使用者可以使用 kernel.playwright API 來編寫 JavaScript 程式碼,以自動與應用程式互動。
  8. 應用程式設定精靈:每個腳本現在都有一個可選的 pre 屬性,使用者可以設定腳本執行前必須設定的環境變數。如果環境變數未設定,則會顯示精靈畫面,讓使用者填寫這些變數。
  9. Huggingface API:Pinokio 現在包含一個腳本 API,可以直接透過 JSON-RPC 呼叫來與 huggingface-cli 互動。使用者可以使用 hf.download 方法來下載 Hugging Face 模型,例如:{ “method”: “hf.download”, “params”: { “path”: “app/models”, “_”: [“adept/fuyu-8b”, “model-00001-of-00002.safetensors”], “local-dir”: “fuyu” } }.
  10. 新的檔案系統 API:新增 fs.open、fs.cat 等檔案系統 API,fs.open 可以開啟檔案或檔案總管,而 fs.cat 可以印出檔案內容。此外,使用者也可以在 pinokio.js 選單中使用 fs: “view” 或 fs: “open” 屬性來開啟檔案或檔案總管。


Page 11 of 48
1 9 10 11 12 13 48