Google 推出 PaliGemma 2 視覺語言模型

一個強大的視覺語言模型。它基於 Gemma 2 模型,新增了視覺處理能力,並提供多種模型尺寸和解析度以供選擇,用家可根據任務需求調整。PaliGemma 2 的亮點包括更長的內容生成能力,以及在化學辨識、樂譜辨識等領域的領先表現。

PaliGemma 2 是一個強大的視覺語言模型,PaliGemma 的進階版本,主要差異在於其效能提升與功能擴展。以下列出兩者之間的主要差異:

  • 擴展性:PaliGemma 2 提供多種模型尺寸(3B、10B、28B 參數)和解析度(224px、448px、896px),能針對不同任務優化效能。
  • 詳細描述能力:PaliGemma 2 不僅能識別影像中的物件,更能產生詳細且符合情境的影像描述,包含動作、情緒和場景的整體敘述。
  • 擴展應用領域:研究顯示,PaliGemma 2 在化學式辨識、樂譜辨識、空間推理和胸部 X 光報告生成方面表現出色。
  • 易於升級:PaliGemma 2 設計為 PaliGemma 的直接替換,大多數任務都能立即獲得效能提升,且不需要大幅修改程式碼。
  • 易於微調:PaliGemma 2 的彈性使其能針對特定任務和數據集進行微調,讓使用者可以根據自身需求客製化其功能。

此外,PaliGemma 2 增強了視覺能力。您可以在 Hugging Face 上找到預訓練模型和程式碼,並透過詳細的說明文件和範例筆記本將這些工具整合到您的專案中。

Categories: 影像處理, 多模態模型, 模型, Medical醫學

Ollama 結構化的輸出方案

「structured-outputs」,主要展示如何利用 OpenAI 和 Ollama 這兩個大型語言模型平台,以結構化的輸出方式驗證數獨遊戲的有效性。程式碼包含一個測試架構,示範如何使用不同的模型(例如 OpenAI 的 gpt-4o-mini 和 Ollama 的 phi4)以及相應的執行指令。專案目前只有 Python 程式碼,並有簡潔的 README 檔說明使用方法,但缺乏更詳細的專案描述和資源連結,星星數和關注度也都很低。 核心目的在於展示結構化輸出的應用,並提供 OpenAI 和 Ollama 的實作範例。

Ollama Structured Outputs with Phi4 is KILLER - Get Started NOW!!
Categories: 工具, 開源, 教學, Ollama

METAGENE-1 病原體檢測模型

METAGENE-1 是一個由南加州大學、Prime Intellect 和核酸天文台的研究人員合作開發的 70 億參數大型語言模型,它專注於分析來自廢水的 DNA 和 RNA 序列。 這個模型利用超過 1.5 兆個鹼基對的數據進行預訓練,其目標是建立一個能捕捉人類微生物組全貌的模型,以促進疫情監控、病原體檢測和新興健康威脅的早期預警。 METAGENE-1 在病原體檢測和宏基因組嵌入基準測試中取得了最先進的性能,但研究團隊也強調了在發佈更大更強大的基因組模型之前,進行嚴格的安全評估的重要性。 其開源釋出旨在促進病原體檢測和生物監控研究。

Scientists Just Released Something That Could Change Medicine FOREVER (Metagene -1)
Categories: 模型, Medical醫學

NVidia Sana – 高速生成高解析度模型

NVidia Lab(NVlabs) Sana 是一個高效的文字轉圖像模型,其核心設計包含高效的編碼器-解碼器架構 (DC-AE)、線性擴散變換器 (Linear DiT)、僅解碼器的文字編碼器,以及 高效的訓練和採樣方法 (Flow-DPM-Solver),讓它能快速生成高解析度 (最高 4096×4096) 的高品質圖片。相較於其他大型擴散模型,Sana 模型體積小,速度快,甚至可在 16GB 的筆電 GPU 上執行,生成 1024×1024 解析度的圖片只需不到一秒鐘。文件中包含了模型的架構說明、效能數據、使用方法(包含使用 Hugging Face Diffusers 的方式)、訓練方法以及未來的發展方向等資訊。

NVIDIA SANA In ComfyUI - 100 Times Faster Than Flux And Render 4K Images
Categories: 新聞

Comfy-WaveSpeed 高速圖像生成

Comfy-WaveSpeed 目標是為 ComfyUI 圖像生成工具提供全面、靈活且快速的推論優化方案。核心功能包含動態快取機制(First Block Cache),能透過重用先前計算結果來加速運算,以及增強版的 torch.compile,用以提升模型編譯效率。 專案目前仍在開發中(WIP),支援多種模型,例如 FLUX 和 LTXV,並提供使用教學和示範工作流程。 整體而言,Comfy-WaveSpeed 旨在提升 ComfyUI 的圖像生成速度,同時盡可能維持圖像品質。

以下影片是提升 ComfyUI 效能的教學,重點在於加速 AI 影像與影片生成的流程。教學內容涵蓋 Comfy WaveSpeed 的安裝設定、PyTorch 和 CUDA 的記憶體優化技巧、GGUF量化和模型快取的步驟指南,以及使用 Hunyuan Videos 和 Flux 展示效能提升的實例。 其目標在於幫助使用者解決 AI 生成任務中常見的漫長生成時間和記憶體瓶頸問題,並透過 Purge VRAM 等方法確保系統穩定運行。

ComfyUI WaveSpeed Hunyuan Video - Optimize for Any Local AI Video Generate!
Categories: ComfyUI, 教學, 影像處理

90分鐘看明白人工智能和神經網絡

【漫士科普】90分鐘深度!一口氣看明白人工智能和神經網絡的講稿節目,由一位清華大學姚班人工智能博士生「漫士」主講。影片以淺顯易懂的方式,從 1956 年的達特茅斯會議——人工智能的起源——開始,循序漸進地解釋人工智能、機器學習和神經網絡的基本原理和發展脈絡。講稿涵蓋了三大 AI 流派:符號主義、聯結主義和機器學習,並深入淺出地闡述了感知機、多層感知機、卷積神經網絡、殘差網絡和 Transformer 等模型的演進,以及梯度下降和反向傳播算法在訓練神經網絡中的核心作用。 最後,影片探討了人工智能的泛化能力、局限性以及對就業市場的潛在影響,並鼓勵觀眾積極學習,適應AI時代的變化。 總體而言,這段文字旨在普及人工智能相關知識,幫助零基礎觀眾理解這項前沿技術的來龍去脈。

【漫士科普】90分钟深度!一口气看明白人工智能和神经网络#人工智能 #神经网络
Categories: 教學

Roo-Cline – 編程 Agent

一個基於 Cline 的自主編碼代理程式,主要功能是在你的 IDE 內自動化程式碼撰寫和編輯。它能創建、編輯檔案、執行命令、使用瀏覽器等,但每一步都需要使用者明確授權,確保安全。Roo-Cline 在 Cline 的基礎上增加了許多實驗性功能,例如拖拽圖片到聊天視窗、刪除聊天訊息、以及支援多種模型和API等。文件同時強調了所有風險由使用者承擔,並提供了安裝、使用和貢獻的詳細說明,以及一個在Visual Studio Marketplace上的下載連結。

告别Token消耗!用Roo Cline开发项目专属MCP Server,让AI编程不再烧钱,Claude app化身编程IDE,一次配置永久省钱!最强编程AI智能体!Roo Cline超越Cline
Categories: 編程

Nvidia 透露了人工智慧的下一步

介紹 Nvidia 如何利用 物理AI (Physical AI) 推動自動駕駛和機器人領域的發展。Nvidia 認為,繼生成式AI (Generative AI) 和代理AI (Agent AI) 之後,物理AI 將是AI 的下一個前沿,這需要建立像大型語言模型那樣的「世界基礎模型」(World Foundation Model)。 Nvidia 的 Cosmos 平台正是用於建立此模型,透過生成大量逼真的合成數據來訓練物理AI 模型,克服真實世界數據收集成本高昂的問題。 Isaac Groo 平台則進一步提供工具和框架,加速機器人開發,並與 Omniverse 平台整合,打造數位孿生(Digital Twin) 以模擬和優化各種場景,例如工廠和倉庫的物流作業,以及自動駕駛汽車的測試。 整體而言,這段文字闡述 Nvidia 如何利用其技術棧,從數據生成、模型訓練到應用部署,全面推動物理AI 的發展,並預測其在自動駕駛和機器人領域的巨大潛力。

Nvdia CEO Just Revealed The NEXT STEP In AI....
Categories: 新聞

Pinokio 3.0.26 A.I. 瀏覽器更新

更新主要圍繞著使用者介面客製化、錯誤處理機制改進、以及新增多項功能三個面向。 更新包含了自定義首頁和應用程式頁面樣式、更友善的藍屏錯誤顯示及除錯API、預設整合 uv 命令和磁碟空間重複數據刪除功能,以及新增 JSON API (包含json.getjson.setjson.rm)提升資料操作效率。此外,還加入了瀏覽器自動化功能 (整合 Playwright),應用程式設定精靈簡化環境變數設定,Huggingface API 整合方便模型下載,以及新的檔案系統 API (fs.openfs.cat)和檔案瀏覽器整合。最後,也修復了一些錯誤,例如特定埠衝突問題和Mac系統相容性問題。 整體而言,此更新增強了Pinokio的易用性、穩定性和功能性。

Pinokio 3.0.26 版本 10 點主要更新:

  1. 自訂使用者介面 (UI):使用者可以客製化首頁、應用程式頁面的 CSS 樣式,以及終端機的顯示方式。具體來說,可以透過建立 index.ejs 檔案來客製化首頁,並使用自訂 CSS 來設定應用程式頁面的樣式。
  2. 改進的錯誤畫面:當發生錯誤時,Pinokio 會顯示藍色畫面,並提供更具體、相關的錯誤訊息,而不是像以往一樣顯示模糊的 “ENOENT file not found”。
  3. Shell 中斷點 API:使用者可以在 shell.run 中指定模式,讓程式在特定模式發生時中斷,或忽略某些特定的錯誤訊息。
  4. 內建 UV 工具:Pinokio 預設包含 uv 工具,可以直接在 Pinokio 的 Shell 中使用 uv 命令。此外,uv 還支援通過 fs.link 進行磁碟空間重複資料刪除。
  5. 磁碟使用量顯示:Pinokio 會顯示每個應用程式佔用的磁碟空間大小,這有助於使用者管理磁碟空間。
  6. JSON API:新增 json.get、json.set 和 json.rm 等 JSON API,讓使用者可以讀取、設定和刪除 JSON 檔案中的屬性。json.get 可以將 JSON 檔案載入到本地變數,json.set 可以設定 JSON 檔案的屬性,而 json.rm 則可以移除 JSON 檔案中的屬性。
  7. 瀏覽器自動化:Pinokio 預設包含 Playwright,使用者可以使用 kernel.playwright API 來編寫 JavaScript 程式碼,以自動與應用程式互動。
  8. 應用程式設定精靈:每個腳本現在都有一個可選的 pre 屬性,使用者可以設定腳本執行前必須設定的環境變數。如果環境變數未設定,則會顯示精靈畫面,讓使用者填寫這些變數。
  9. Huggingface API:Pinokio 現在包含一個腳本 API,可以直接透過 JSON-RPC 呼叫來與 huggingface-cli 互動。使用者可以使用 hf.download 方法來下載 Hugging Face 模型,例如:{ “method”: “hf.download”, “params”: { “path”: “app/models”, “_”: [“adept/fuyu-8b”, “model-00001-of-00002.safetensors”], “local-dir”: “fuyu” } }.
  10. 新的檔案系統 API:新增 fs.open、fs.cat 等檔案系統 API,fs.open 可以開啟檔案或檔案總管,而 fs.cat 可以印出檔案內容。此外,使用者也可以在 pinokio.js 選單中使用 fs: “view” 或 fs: “open” 屬性來開啟檔案或檔案總管。

Categories: 新聞

ComfyUI 桌面應用程式 v0.4.5

一個能獨立執行的 ComfyUI 版本,內含 ComfyUI、ComfyUI_frontend、ComfyUI-Manager 和 uv 等元件,並自動安裝 Python 庫。同時詳細說明了不同作業系統(Windows、macOS、Linux)下的安裝路徑、檔案結構,以及開發者設定和建置流程,包含 Python版本、Node.js 和 Yarn 的安裝與使用,以及如何使用 comfy-cli 工具安裝 ComfyUI 資源和相依套件。此外,它也提及了錯誤回報機制,強調只收集未處理例外和原生程式崩潰的堆疊追蹤,不會傳送個人資料、工作流程或日誌,並使用 Sentry 進行錯誤報告。核心目的是提供 ComfyUI 桌面應用的安裝、設定、開發和發佈指南,著重於跨平台相容性和開發環境的建置。

Categories: ComfyUI, 影像處理

Page 17 of 54
1 15 16 17 18 19 54