Infer News

Stable Virtual Camera 3D 擴散模型

Stability AI 最新發佈的研究預覽模型「Stable Virtual Camera」是一個創新的多視角擴散模型，無需複雜的 3D 建模，就能夠將 2D 圖像轉換成為具有真實深度和透視感的沉浸式 3D 影片。同時，它亦提供了靈活的 3D 攝影機控制，用家可以自定攝影軌跡，而預設的 14 種動態攝影機路徑包括 360°、雙紐線、螺旋、移動推拉、平移和滾動等等。並且能夠由一張或者最多 32 張的圖片生成長達 1000 frames 的連貫影片。這模型目前以非商業授權，主要作為學術研究。而相關的論文、模型權重和程式碼都已經公開下載。其它 Stability 3D 模型

Categories: 開源, 3D, 影像處理, 多模態模型

MedRAX 肺片推理 Agent

MedRAX 是個專為胸部 X 光影像 (俗稱肺片) 所設計的醫療推理 Agent。它的主要功能是將 X 光分析工具 C X R，以多模態整合成為一個統一的模型框架，它可以處理複雜的醫療查詢而無需要額外的訓練。為了驗證它的能力，開發團隊透過一個名為 Chest Agent Bench 的綜合評估基準測試，包括 7 個不同類別的 2,500 個醫療查詢。而最終實驗結果顯示 Med RAX 在性能上超越了同類型的模型。

Categories: Medical醫學, OpenAI, Agent

gptme CLI AI 私人助理

gptme 是一個私人的 AI 助理，透過終端的命令行 C L I，就可以叫系統執行一系列的工作，例如編輯檔案、執行程式、瀏覽網站、資料分析。我們亦可以透過自然語言去執行 Linux Shell 的指令，意思係話，我們不再需要死記指令來操作系統。佢甚至可以通過 AI 視覺進行互動教學。

Categories: 開源, Agent

DeepHermes 3 內置推理的 LLM 模型

DeepHermes 3 Preview 是世界上第一批能夠將推理和正常 L L M 模式整合的模型之一。它包括高級的代理能力、更好的角色扮演、推理、能夠保持十分長的上下文連貫性對話。而且只要簡單的系統提示詞，就可以即刻啟動推理能力 Reasoning。

Categories: 開源, 模型

Python UV 取代 pip

Python UV 是一個以 Rust，編寫的高效能 Python 套件管理器和安裝程式。它能夠簡化 Python 的開發，同時負責管理標準函式庫(Standard Library)，或者安裝虛擬環境等等。影片詳細講解了點樣利用 UV 進行完整的開發流程，並且強調 UV 在簡化和統一開發環境方面的優勢。

用uv管理Python的一切！

Watch this video on YouTube

Categories: 工具, Python

MCP 模型上下文協議

MCP (模型上下文協議) 是一個開放的協議，由 Anthropic 公司發起。它的主要目的是為了更方便大型語言模型整合外部資料。過去，當 AI 系統需要依賴外部資料的時侯，由於不同的資料來源可能有不同的格式和協議，令到 AI 應用程式開發者需要花費大量的精力來處理這些碎片化的系統整合問題，透過採用 MCP，開發者可以更專注於構建更智慧、更具擴展性的 AI 解決方案。

MCP 模型上下文協議

Categories: MCP

RAG 智能升級

影片介紹如何用 LangGraph、Agentic RAG、Nano-GraphRAG 和 Claude 3.7 Sonnet 製作一個具備推理能力的代理 Agent。作者透過展示了使用不同的工具，令 AI 模型能夠使用計算機、字典和搜尋引擎來增強 AI 模型的能力。

RAG Intelligent Upgraded: Agentic RAR + Nano-GraphRAG + Claude 3.7 Sonnet (Oxford Univ)

Watch this video on YouTube

Categories: 開源, LangGraph, RAG

最先進的文本嵌入模型 gemini-embedding-exp-03-07

Embedding 文字嵌入，意思是將文字轉換為有意義的向量數值。其主要目的是為了讓 A.I. 開發者能夠利用這些向量，實現更精準的語義搜尋，即使查詢與文本內容的詞彙不完全相同也能找到相關資訊。

Google 宣布推出一個新的實驗性 Gemini 文字嵌入模型，稱為 gemini-embedding-exp-03-07。這個模型繼承了語言和細微語境的理解，適合廣泛的應用。這個新模型超越了 Google 之前的最先進模型，並在多語言文本嵌入基準測試（MTEB）中名列前茅，同時還提供了更長的輸入長度等新功能。目前已經可以透過 Gemini API 開始使用。

Categories: Gemini, Embedding, 新聞

Phantom 跨模態影片生成框架

Phantom 是字節跳動最新的影片生成框架，主要是可以生成主體一致性(Subject-to-Video)的影片。Phantom 會嚴格保留由用家提供的參考影像特徵，同時亦會根據提供的提示詞，創造出生動同連貫的影片。這個技術不單止可以用於單一主體，亦能夠同時處理多個主體之間的互動。透過跨模態對齊的訓練方式，Phantom 確保生成的影片內容既符合文字指令，亦能夠精準呈現參考影像中的主體。

Categories: 開源, 影像處理, 多模態模型

olmOCR：PDF 文件轉換

olmOCR 是一個開發的開源工具包，可以將 PDF 文件轉換為適合大型語言模型作為訓練用途，或者用作創建線性文本數據集。olmOCR 可以相當準確提取 PDF 中的文字內容，表格、及方程式，甚至能夠準確識別手寫內容。

Categories: 開源, 視覺模型

Page 15 of 58

« Previous 1 … 13 14 15 16 17 … 58 Next »