開源 – Page 13 – Infer News

DeepSeek & Crawl4AI 爬蟲！

這影片教你如何使用 DeepSeek AI 和 Crawl4AI 驅動網頁爬蟲，甚至無需編寫任何程式，就能輕鬆地從任何網站收集結構化數據。影片同時亦展示了一個實際案例，講解點樣為公司尋找潛在客戶，包括地址、企業名稱和聯絡方式等資訊，然後將數據匯入試算表進行整理和分析。

Scrape Any Website for FREE & NO CODE Using DeepSeek & Crawl4AI! (Opensource)

Watch this video on YouTube

Categories: 軟件, 工具, 開源

Transformer Lab 桌面 LLM 工作台

Transformer Lab 是個免費的開源 LLM 工作平台，方便進行微調、評估、匯出和測試，並支援唔同的推理引擎和平台。Transformer Lab 適用於擁有 GPU 或 TPU 的電腦，亦支援 MLX 的 M 系列的蘋果電腦。主要功能包括下載開源模型、智能聊天、計算嵌入、創建和下載訓練數據集、微調和訓練 LLM、以及使用 R A G 與文件互動。

MAC Image

Categories: 軟件, 工具, RAG, 開源

ComfyUI Sonic 音訊對應到嘴型(Lipsync)

Sonic 不單將音訊對應到嘴型，而是更全面理解音訊的內容和情感，進而產生更自然、更加生動的人像動畫。可以配合 ComfyUI_Sonic 使用。項目亦包括 Realtalk 即時同逼真的音訊驅動人臉生成技術。新增 frame number 選項，可以控制輸出影片的長度。亦可基於音頻長度。

Categories: ComfyUI, 影像處理, 數字人, 開源

YuE 支持粵語的開源音樂模型

YuE 是一套開源的音樂基礎模型，專為歌詞生成完整歌曲而設計。這個名為 “lyrics2song” 的任務極具挑戰性，因為它需要處理音樂的長時序特性、音樂的複雜性、歌詞的語意，並運用語意增強的音訊雙符記技術、歌詞鏈式思考以及三階段訓練等創新方法，成功生成長達五分鐘的歌曲，並在多種音樂風格和語言中展現了令人印象深刻的結果。（支持生成塑料粵語歌）

GitHub – alisson-anjos/YuE-exllamav2-UI

Contribute to alisson-anjos/YuE-exllamav2-UI development by creating an account on GitHub.

YuE - Local Music Generation with Audio Prompts - FOSS - 6GB VRAM!

Watch this video on YouTube

Categories: 模型, 開源, 音樂

Page Assist 瀏覽器擴充功能

Page Assist 是一個瀏覽器外掛，透過 Ollama 於本機運行 AI 模型，Page Assist 提供了一個十分完善的 Ollama介面。Page Assist 強調不會收集個人資料，十分注重隱私。專案是由 MIT 授權。

Categories: Embedding, Ollama, 模型, 開源

OpenHealth 專案是一個開源的 AI 健康助理，作者描述自己五年來花費超過十萬美元、看過三十多位醫生，卻無法確診自體免疫疾病的痛苦過程。受到這個經歷的啟發，他開發了一個開源 AI 工具，可以幫助人們分析自己的醫療記錄，從不同的醫院提取並整理數據，並藉由 AI 模型進行分析，找出潛在的疾病。這個工具的目的是解決醫療資訊分散的問題，讓患者能夠更全面地了解自己的健康狀況，並提供給醫生參考，但作者也強調，此工具僅為輔助診斷，不能取代專業醫療人員的判斷。

Categories: 工具, Medical醫學, 開源

DeepSeek-VL2-small 視覺模型

DeepSeek-VL2-small 是 DeepSeek-VL2 的小型版本，混合專家 (MoE) 視覺語言模型，旨在提升 DeepSeek-VL 的視覺效能。此模型在視覺問答、光學字元辨識和文件理解等多種任務上展現了卓越的能力。DeepSeek-VL2-small 擁有 28 億(2.8b)個參數，在效能上可與現有的其它開源模型競爭，甚至超越它們。模型的程式碼採用 MIT 許可證，模型本身的使用則受到 DeepSeek 模型許可證的約束，允許商業用途。

Categories: DeepSeek, 影像處理, 開源

DeepRAG 思考式檢索增強生成

DeepRAG 的框架旨在解決大型語言模型（LLMs）在事實性知識上的不足，特別是它們容易產生幻覺的問題。DeepRAG 的核心思想是將檢索增強生成（RAG）視為一個馬可夫決策過程（MDP），使其能夠更策略性地進行檢索。透過分解式查詢，DeepRAG 可以動態決定是否要檢索外部知識或依賴模型自身的參數化推理，最終提升檢索效率和答案準確性。文中包含相關研究推薦、引用模型/數據集/Spaces 的情況以及論文收藏數量等資訊。

Categories: RAG, 開源

TokenVerse – Google 最新圖像處理

TokenVerse 提出一種基於預訓練文字轉圖像擴散模型的多概念個人化方法。它利用模型中的調製空間 (modulation space)，從單張圖片中解開複雜的視覺元素和屬性，並能無縫地組合來自多張圖片的概念。不同於現有方法在概念類型或廣度上的限制，TokenVerse 能處理多張圖片的多種概念，包含物件、配件、材質、姿勢和光線等。核心方法是透過優化，為每個文字嵌入 (text embedding) 學習一個獨特的調製向量調整 (modulation vector adjustment)，這些向量代表個人化的方向，可用於產生結合所需概念的新圖像。最後，論文展示了 TokenVerse 在具有挑戰性的個人化情境中的有效性，並突顯其優勢。

Categories: 影像處理, 模型, 開源

DreamCatalyst 三維編輯架構

DreamCatalyst 是一個新穎的三維編輯架構，它改進了現有基於分數蒸餾採樣(SDS) 的方法，解決了訓練時間長和結果品質低的問題。DreamCatalyst 的關鍵在於將 SDS 視為三維編輯的擴散逆向過程，而不像現有方法那樣單純地蒸餾分數函數，使得更好地與擴散模型的採樣動態相協調。結果，DreamCatalyst 大幅縮短了訓練時間，並提升編輯品質，在速度和品質上都超越現有最先進的神經輻射場(NeRF) 和三維高斯散點(3DGS) 編輯方法，展現其快速且高品質的三維編輯能力。

Categories: 3D, 影像處理, 模型, 開源

Page 13 of 15

« Previous 1 … 11 12 13 14 15 Next »