新聞 – Page 9 – Infer News

台灣本土版語言模型 – Taiwan LLM 是怎麼煉成

在訓練大型語言模型有多燒錢？一文學到：標榜最有台灣味的 Taiwan-LLM 語言模型，是以 Meta LLaMA 2 為基礎的全參數微調模型，大幅提升繁體中文能力並融入台灣文化。

標榜最有台灣味的 Taiwan-LLM 語言模型，是以 Meta LLaMA 2 為基礎的全參數微調模型，大幅提升繁體中文能力並融入台灣文化。

Categories: 新聞

隨著 LLaMA3 的發布，人們對能夠在本地可靠運行（例如，在筆記型電腦上）的代理產生了濃厚的興趣。在這裡，我們展示如何使用 LangGraph 和 LLaMA3-8b 從頭開始建立可靠的本地代理。我們將 3 篇高級 RAG 論文（Adaptive RAG、Corritive RAG 和 Self-RAG）的想法結合到一個控制流程中。我們在本地使用本地向量儲存 c/o @nomic_ai 和 @trychroma、用於網路搜尋的 @tavilyai 以及透過 @ollama 運行 LLaMA3-8b。

(英)rag/langgraph_rag_agent_llama3_local.ipynb

Build resilient language agents as graphs. Contribute to langchain-ai/langgraph development by creating an account on GitHub.

Reliable, fully local RAG agents with LLaMA3

Watch this video on YouTube

Categories: 新聞

Ollama 向量嵌入模型

Embedding models · Ollama Blog

Ollama 提供了嵌入模型，可以輕鬆生成用于搜索和檢索增強生成（ RAG ）應用程序。

Embedding models 是一種專門用於生成向量嵌入的模型：長數組數字，代表給定文本序列的語義含義。生成的向量嵌入數組然後可以存儲在數據庫中，該數據庫將它們作為一種方式進行比較，以搜索具有相似含義的數據。

Embedding models 的工作原理是將文本分解為單詞或短語序列，然後為每個單詞或短語分配一個向量。這些向量通常是高維的，可以捕獲單詞或短語的語義含義。例如，單詞“國王”和“女王”可能具有相似的向量，因為它們都與皇室有關。

Embedding models 有許多應用，包括：

自然語言處理 (NLP)：Embedding models 可用於提高 NLP 任務的性能，例如機器翻譯、文本分類和情感分析。
信息檢索 (IR)：Embedding models 可用於提高 IR 系統的性能，例如搜索引擎和推薦系統。
計算機視覺 (CV)：Embedding models 可用於將圖像表示為向量，這可以提高 CV 任務的性能，例如圖像分類和對象檢測。

Embedding models 是一種強大的工具，可用於提高各種任務的性能。它們是 NLP、IR 和 CV 等領域的重要研究領域。

Categories: 新聞

Botpress – ChatGPT 聊天機器人 AI 平台

(英)Botpress | the Generative AI platform for ChatGPT Chatbots

使用 Botpress 更快地建立 ChatGPT 聊天機器人。由 OpenAI 最新的 LLM 和 GPT 提供支援的直覺式建置體驗。免費開始使用

Categories: 新聞

Rivet 強大的整合開發環境 (IDE) 和函式庫

Rivet 是一個功能強大的整合開發環境 (IDE) 和函式庫，旨在使用基於圖形的視覺化介面建立 AI 代理程式。本指南將為您概述 Rivet 的功能，並引導您了解其各種特性和功能。

(英) Rivet

An open-source AI programming environment using a visual, node-based graph editor

Categories: 新聞

Patchscopes – Google 的自然語言統一框架

Patchscopes 是由 Google AI 研究人員提出的一個統一框架，用於以自然語言檢查大型語言模型 (LLM) 的隱藏表示。它利用 LLM 自身的能力來解釋其內部表示，並解決了先前解釋性方法的許多缺點。

Patchscopes 的工作原理是將來自源提示的表示“修補”到目標提示的推理過程中的特定層中。源提示旨在引導 LLM 執行要檢查的計算，而目標提示旨在鼓勵提取該計算的結果。例如，要檢查 LLM 如何表示“首席執行官”這個詞，可以將表示“首席執行官”的表示修補到目標提示中的“？”令牌上，並觀察 LLM 生成什麼輸出。

(英)Patchscopes: A unifying framework for inspecting hidden representations of language models

Patchscopes 是一個新框架，旨在透過利用法學碩士固有的語言能力為其內部隱藏表示提供直觀、自然的語言解釋，統一以前解釋法學碩士內部運作的各種方法。

Patchscopes 具有以下優點：

它可以統一許多先前解釋性方法，並克服了這些方法的許多缺點。
它可以檢查 LLM 的早期層，這些層通常難以用其他方法檢查。
它具有很強的表達力，可以針對各種問題進行定制。

Patchscopes 已被用於回答有關 LLM 的各種問題，包括：

LLM 如何表示單詞和短語？
LLM 如何進行推理？
LLM 如何生成文本？
LLM 如何受到偏見的影響？

Patchscopes 是一個強大的工具，可用於解釋 LLM 的行為並提高其透明度。它有可能在 LLM 的開發和應用中發揮重要作用。

以下是一些關於 Patchscopes 的其他資源：

Categories: 新聞

比較LlamaIndex 與 LangChain (AI) 框架

(英) LlamaIndex vs LangChain: A Comparison of Artificial Intelligence (AI) Frameworks

在快速發展的人工智慧框架領域，出現了兩個傑出的參與者：LlamaIndex 和 LangChain。兩者都提供了增強大型語言模型 (LLM) 效能和功能的獨特方法，但它們迎合了開發人員社群略有不同的需求和偏好。此比較旨在深入研究它們的關鍵功能、用例和主要差異，以幫助開發人員根據其專案需求做出決定。 LlamaIndex LlamaIndex 是一個專門的工具，可以增強資料和 LLM 之間的交互作用。它的優勢在於簡化索引和檢索過程，這對於專注於以搜尋為導向的應用程式的開發人員特別有用。

Categories: 新聞

未來的神經網絡訓練：超參數擴展 μ-Transfer

超參數擴展 μ-Transfer 轉移

MarkTechPost 報導：大型神經網絡模型喺自然語言處理和電腦視覺中佔主導地位，但它們的初始化和學習速率通常依賴於啟發式方法，導致研究和模型大小之間嘅不一致。 μ參數化（μP ）提出咗呢啲參數嘅縮放規則，促進咗由小型模型到大型模型嘅零樣本超參數轉移。然而，儘管μP具有潛力，但其廣泛採用受到實現複雜性、眾多變化和錯綜複雜嘅理論基礎嘅阻礙。儘管缺乏關於μP喺大尺度上有效性嘅經驗證據，但引發了對超參數保留以及與解耦權重衰減等現有技術兼容性嘅擔憂。

Categories: 新聞

統一神經網絡設計與範疇理論

按此看原文 – MarkTechPost

在深度學習中，設計神經網路架構的統一框架一直是個挑戰，也是最近研究的焦點。早期的模型是透過它們必須滿足的約束或它們執行的操作順序來描述的。這種雙重方法雖然有用，但缺乏一個有凝聚力的框架來無縫整合這兩種觀點。

研究人員解決了缺乏能夠解決約束規範及其在神經網路模型中實現的通用框架的核心問題。他們強調，目前的方法，包括關注模型約束的自上而下的方法和詳細說明操作序列的自下而上的方法，無法提供神經網路架構設計的整體視圖。這種脫節的方法限制了開發人員針對他們處理的獨特資料結構設計高效且客製化的模型的能力。

來自 Symbolic AI、愛丁堡大學、Google DeepMind 和劍橋大學的研究人員介紹了一種理論框架，該框架透過在 2 類參數映射中評估的單子將約束規範與其實現結合起來。他們提出了一種基於範疇論的解決方案，旨在為神經網路設計創建一種更整合和連貫的方法。這種創新方法概括了神經網路設計的多樣性，包括循環神經網路（RNN），並提供了理解和開發深度學習架構的新視角。透過應用範疇論，該研究捕捉了幾何深度學習 (GDL) 中使用的約束，並擴展到更廣泛的神經網路架構。

所提出的框架的有效性透過其恢復 GDL 中使用的約束的能力得到強調，展示了其作為深度學習通用框架的潛力。 GDL 使用群論視角來描述神經層，透過保持對稱性在各種應用中展現了前景。然而，當面對複雜的資料結構時，它會遇到限制。基於範疇論的方法克服了這些限制，並提供了一種用於實現不同神經網路架構的結構化方法。

這項研究的中心正在應用範疇論來理解和創建神經網路架構。這種方法可以創建與其處理的資料結構更緊密結合的神經網絡，從而提高這些模型的效率和有效性。該研究強調了範疇論作為神經網路設計工具的普遍性和靈活性，為神經網路模型中約束和操作的整合提供了新的見解。

總之，本研究引入了一個基於類別論的突破性框架，用於設計神經網路架構。透過彌合約束規範與其實現之間的差距，該框架提供了一種全面的神經網路設計方法。範疇論的應用不僅恢復並擴展了 GDL 等框架中使用的約束，也為開發複雜的神經網路架構開闢了新的途徑。

Categories: 新聞

如何使用 LangChain 構建 LLM – 初學指南

(英)如何使用 LangChain 構建 LLM – 初學指南

大型語言模型（ LLM ）係非常強大嘅通用推理工具，喺各種情況下都好有用。但是，使用LLM會帶來與構建傳統軟件不同嘅挑戰：*調用往往係長時間運行嘅，並且會流式傳輸生成嘅輸出

从编解码和词嵌入开始，一步一步理解Transformer，注意力机制(Attention)的本质是卷积神经网络(CNN)

Watch this video on YouTube

Categories: 新聞

Page 9 of 15

« Previous 1 … 7 8 9 10 11 … 15 Next »