Agentic Archives - Page 3 of 14

Wan Streamer：即時生成影音互動模型

2026 年 6 月 26 日

Wan Streamer v0.1 是一款由阿里巴巴（通義萬相/Wan 團隊）開發的原生流式端到端基礎模型，專為即時、低延遲、全雙工的音視頻互動而設計。它把語言、音訊、影像同時作為輸入與輸出，全部整合在單一 Transformer 之中，並以 block-causal attention 協調增量式生成。

現有即時互動系統普遍存在的延遲與不同步難題。純語音方案雖然回應快，但沒有可見的影像輸出；音視頻方案則多由 ASR、語言模型、TTS、動畫模組拼接而成，每個邊界都會疊加延遲，而且很少有系統公開端到端時延數字。Wan Streamer 把整個流程重新設計為可流式架構，包括因果編解碼器、block-causal attention、低延遲多模態 token 排程，在 25 fps 下最短流式單元可達 160 毫秒。

與常見做法的最大差異在於「端到端」與「同步影音輸出」。模型側延遲約 200 毫秒，加入 350 毫秒雙向網絡延遲後，總互動延遲約 550 毫秒，可支援亞秒級全雙工通訊。同時輸出語音與影片內容，而非分別由不同模組拼接，這是它最值得留意的特點。模型覆蓋聽、看、思考、說話、生成影像回應五種能力，適用於需要即時數字人、互動助理、虛擬陪伴等低延遲場景。

重點摘要：

由阿里 Wan/通義萬相團隊研發，定位為即時互動基礎模型
單一 Transformer 同時處理語音、影像、文字輸入與輸出
模型側延遲約 200 毫秒，總互動延遲約 550 毫秒
支援 25 fps 串流，最短流式單元 160 毫秒
與拼接式方案相比，延遲更低且影音輸出真正同步

項目主頁： https://wan-streamer.com/

Categories: 阿里巴巴, Agentic, 多模態模型, 模型, 數字人, 視頻模型, 語音

Semantic Browsing：用樹狀圖掌控 AI 生圖的多樣性

2026 年 6 月 26 日

Semantic Browsing 是一篇發表於 ECCV 2026 的學術項目，由 Tel Aviv University 的 Sara Dorfman、Maya Vishnevsky、Omer Dahary、Or Patashnik 與 Daniel Cohen-Or 共同開發。它針對文字生成圖像模型在重複取樣時容易「語意塌縮」、產出過於雷同的問題，提出一套可控多樣性的工作流程。

這套方法的核心做法，是把多樣性從像素層級搬到文字層級。系統會先用多智能體（multi-agent）流程把使用者的提示擴寫成結構化的場景 JSON，記錄物件、屬性、互動與整體場景設定，再從中找出提示中未明確指定、但合理的變化軸心。每一次分支都對應一個明確的語意決定，例如角色、構圖或風格的差異，最終形成一棵可瀏覽的場景樹。

與一般常見做法相比，這個項目最值得留意的差異在於：變化不是來自隨機噪聲，而是來自可解讀的語意約束。樹狀結構讓使用者可以沿著特定分支往下探索，同時保留先前已固定的條件，方便在設計空間中做有意識的導覽。

重點摘要：

開發團隊：Tel Aviv University 的 Sara Dorfman、Maya Vishnevsky、Omer Dahary、Or Patashnik 與 Daniel Cohen-Or。
核心方法：以多智能體流程把提示展開為結構化 JSON 場景樹。
可控多樣性：每個分支對應一個明確的語意決定，而非隨機變化。
適用情境：概念設計、視覺探索、需要比較多個語意詮釋的創作流程。
目前狀態：程式碼尚未公開，僅釋出 arXiv 論文與項目頁。

使用方法詳細教學：

準備提示：先寫好一段文字提示，例如「A poster featuring animals」，提示中可以刻意留白部分細節，讓系統有空間展開變化。
進入項目頁：前往 Semantic Browsing 的官方網頁（saradorfman1.github.io/SemanticBrowsing-webpage/），等待互動介面載入。
送出提示並生成根節點：系統會先推論出一個初始場景詮釋，作為場景樹的根節點。
瀏覽與選擇變化軸心：介面會列出可變化的語意面向，例如角色、構圖、風格等，每個面向都會顯示目前值與替代選項。
展開分支：選定一個面向並挑選替代值後，系統會呼叫多智能體流程，在保留先前約束的前提下產生新的子節點與對應圖像。
沿著分支深入探索：可以重複步驟四與五，沿著感興趣的路徑繼續往下展開，逐步建立一棵專屬的設計樹。
匯出或記錄結果：若需要保留特定分支，可記下該節點的場景 JSON 或截圖，作為後續迭代或團隊溝通的依據。

由於程式碼尚未釋出，目前只能透過項目頁的示範介面體驗流程；待官方開源後，便能整合進 ComfyUI、Stable Diffusion 等本地生圖工作流。對於從事概念設計、視覺探索，或需要比較多個語意詮釋的創作者與研究人員來說，這套方法提供了一條比隨機抽樣更可控的探索路徑。

項目主頁： https://saradorfman1.github.io/SemanticBrowsing-webpage/

Paper： https://arxiv.org/pdf/2606.23679

Categories: 開源, ComfyUI, Stable Diffusion, Agentic, Image, 影像處理, 模型, 教學, 視覺模型

ReMMDBench-Agent 驗證多模態假資訊

2026 年 6 月 26 日

Repository image for DANG-ai/ReMMDBench-Agent

開發團隊來自上海交通大學、上海人工智慧實驗室、清華大學、中南大學，以及中國電子科技集團第十五研究所，核心作者把 ReMMDBench 同 ReMMD-Agent 一起公開，方向很明確：用較接近真實網絡帖文的方式，檢查圖文混合內容中的 misinformation。這個 GitHub 項目屬於研究原型加評測代碼集合，主要用來重現三個 multimodal misinformation detection agent 系統在 ReMMDBench 上的結果，並比較它們怎樣做判斷。

現有做法常把多模態假資訊檢測收窄成單圖、二分類，或者一次過把整段文字與圖片丟給模型判斷；作者認為這種 fixed-pass 判斷方式難以處理長敘事、多張圖片、跨語言與部分真實內容。這個項目因此提出一套以 ReMMDBench 為核心的 agentic 驗證路線：Baseline 1 是 3-stage MMD-Agent，Baseline 2 是 MCTS-based 5-verdict + 8-taxonomy agent，而主系統 ReMMD-Agent 則用 atomic decomposition、RAG（Retrieval-Augmented Generation）與 multi-expert judge，把結論建立在可追蹤的證據狀態上。

跟同類方法相比，ReMMD-Agent 的取向不是只追求一次答中，而是先把帖文拆成 atomic claims、image observations、text-image bindings，再檢索 multimodal evidence，之後重用 persistent memory，減少重複工具呼叫。這種設計的取捨很清楚：流程更長、配置更多，但換來較好的可解釋性，也更適合處理 five-way L1 veracity labels、8 個 L2 distortion labels，以及 multilingual multi-image 場景。

安裝與測試思路也相當具體。三個子項目各自有 requirements.txt、設定檔與啟動腳本；要先把資料根目錄指向 ReMMDBench，再在 .yaml 或 .env 內填入模型端點與金鑰佔位內容，之後可先用 mmd-agent/test_qwen.py 這類健康檢查確認後端可回應，再跑各自的 evaluation scripts。倉庫已附上 Qwen-family 後端的保存結果與 artifacts，包含 Qwen 4B、9B、27B，亦明確標示 temperature = 0.0、LLM caching 與預建 RAG index，方便重現 headline numbers，而不必由零開始建立整套流程。

主系統：ReMMD-Agent，核心結構是 atomic decomposition + RAG + multi-expert judge
對照系統：3-stage MMD-Agent 與 MCTS-based t2-agent，方便看不同 agent 設計的取捨
資料與標註：ReMMDBench 有 500 samples、2,756 images、5-way L1 與 8 類 L2 標籤
相關模型：Qwen-family 4B / 9B / 27B；首頁亦提到 GPT-5.2 曾用於 leaderboard
較適合的情境：研究團隊、事實查核流程設計者、多語內容審核與 agent benchmark 比較

性能方面，倉庫重點是重現論文中三套系統在 500-sample ReMMDBench 的結果，而不是提供一個即裝即用的線上服務。它較適合拿來做 benchmark 驗證、分析不同 agent pipeline 的表現，或者研究 evidence reuse 對多模態判斷有幾大幫助；要直接放進產品，仍要自行補回資料接入、服務封裝與更穩定的推理基建。

GitHub： https://github.com/DANG-ai/ReMMDBench-Agent

項目主頁： https://dang-ai.github.io/ReMMD/

Categories: Qwen, Agentic, API, Image, 工具, 線上服務, Python, RAG, 多模態模型, 安全, 庫, 深度學習, 視覺模型, 中國, 上海人工智慧實驗室, 框架, 清華大學

MobileForge：手機 GUI Agent 訓練新路線

2026 年 6 月 26 日

MobileForge 是一個用來調整 mobile GUI agents 的研究型訓練框架。它主要解決手機操作代理往往要靠人工寫任務、示範或獎勵標籤，成本高又難快速轉去新 App 的問題。

常用做法 human-written tasks、demonstrations 或 reward labels 去訓練，作者認為這種固定範式有兩個限制：生成的任務未必貼近目標 App，rollout 只得到稀疏成敗訊號，也很難轉成可重用的步驟級學習訊號。MobileForge 的處理方式是把目標 App 的真實互動交給 MobileGym，先做探索、抽取 executable curricula，再用 HiFPO 把 hints、hierarchical trajectory feedback 和 step-level GRPO training 串成一個不用任務標註的調整流程。

這個取向不是單靠更大模型硬推成績，而是重新整理資料來源與訓練單位：任務來自 target-app interaction，回饋不只看最後成功與否，還會拆成 outcome labels、process feedback 和 corrective hints。代價也很明顯，整個流程依賴真實 Android app 互動環境，部署與測試較像研究實驗管線，而不是裝好即用的消費級工具。

根據項目較合理的理解方式是：先取用作者釋出的 codebase、HuggingFace models、datasets 與 benchmark results，再在 Android 任務環境重跑 exploration、rollout、training、evaluation 幾個部分。它較適合做 mobile agent 研究、行動自動化、GUI policy optimization 的團隊，也適合想比較 annotation-free adaptation 與傳統人工標註流程差異的人。

類型定位：研究型框架，核心是 annotation-free adaptation
方法骨幹：MobileGym 負責探索與任務生成，HiFPO 負責回饋轉訓練訊號
已公開模型：GUI-Owl-1.5-8B、Qwen3-VL-8B 的 MobileForge 版本
結果重點：GUI-Owl-1.5-8B 在 AndroidWorld 達到 67.24% Pass@1、77.59% Pass@3；MobileWorld 為 41.03% SR
取捨：減少人工標註依賴，但需要較完整的互動環境與實驗流程支持

MobileForge 同時展示 in-domain AndroidWorld adaptation 與 out-of-domain MobileWorld GUI-only generalization，表示它不只是在單一資料分佈內調參。對想建立可遷移手機代理能力的團隊來說，這個項目提供的價值不只是模型 checkpoint，還包括一套如何把真實 App 操作痕跡轉成訓練循環的具體方法。

GitHub： https://github.com/kwai/MobileForge

項目主頁： https://mobile-forge.github.io/

Model： https://huggingface.co/collections/lgy0404/mobileforge-models

Categories: 開源, 阿里巴巴, Qwen, Agentic, 工具, 模型, 模型訓練, 清華大學, 框架, Dataset 數據集

Qwen-AgentWorld：用語言模型模擬七大代理環境的世界模型

2026 年 6 月 26 日

Qwen-AgentWorld 是阿里 Qwen 團隊開源的語言世界模型（Language World Model），屬於模型與訓練框架類項目，核心任務是透過長鏈思維推理模擬代理（agent）在七大領域的環境動態，並為代理強化學習提供可擴展、可控的模擬環境。

現有做法普遍把世界模型視為代理訓練完成後的「後加配件」（post-hoc add-on），僅在需要時才引入環境模擬能力，這種範式限制了模擬品質與遷移效果。Qwen-AgentWorld 的差異在於從 CPT 階段起就把環境建模作為訓練目標，透過 CPT 注入環境知識、SFT 啟動下一狀態預測推理、RL 以混合獎勵機制銳化模擬保真度，最終在超過 1000 萬條真實互動軌跡上完成訓練。

這個項目同時釋出 Qwen-AgentWorld-35B-A3B（MoE 架構，總參數 350 億、激活 30 億、256K 上下文）以及 AgentWorldBench 評測基準，後者涵蓋 Tool Decathlon、Terminal-Bench 1.0/2.0、OSWorld-Verified 等九個基準，從五個維度以真實標籤評分世界模型品質。團隊亦提出兩種互補應用範式：作為解耦的環境模擬器支援大規模代理 RL，或作為統一代理基礎模型，以世界模型預訓練作為下游代理任務的暖身步驟。

重點摘要：

七大統一領域：MCP、Search、Terminal、SWE、Android、Web、OS，首次由單一語言模型覆蓋。
原生世界模型：環境建模從 CPT 階段即為訓練目標，非後加適配。
可泛化模擬器：支援零樣本遷移到分布外環境（如 Claw Agent），並允許可控擾動與虛構世界構建。
代理基礎模型：單輪非代理軌跡上的 LWM RL 暖身，可遷移至多輪工具調用代理任務。
開源權重與基準：模型權重與 AgentWorldBench 均於 Hugging Face 與 ModelScope 釋出。

部署方面，模型可透過 Hugging Face 模型 ID 直接下載，或在無法存取 HF Hub 的環境下透過 ModelScope 配合 SGLang、vLLM 等框架載入。對於需要大量代理 RL 訓練數據的團隊，這個項目提供了一條以模擬取代部分真實環境互動的路徑，有助降低成本並提升可控性。

GitHub： https://github.com/QwenLM/Qwen-AgentWorld

Paper： https://arxiv.org/pdf/2606.24597

Categories: 開源, 阿里巴巴, Qwen, Agentic, MCP, 模型, 模型訓練, 深度學習, 世界模型, 框架

Google AI Studio’s Interactions API

2026 年 6 月 26 日

Gemini Interactions API 是實驗性 API，可讓開發人員使用 Gemini 模型建構生成式 AI 應用程式。Gemini 是 Google 最強大的模型，打從設計之初就具有多模態的特質。可歸納內容，完美解讀、操作及結合語言、圖片、音訊、影片和程式碼等不同類型的資訊。您可以使用 Gemini API 處理各種用途，例如：跨文字和圖片進行推論、生成內容、對話式代理程式、摘要和分類系統等。

這是一個供開發者使用的 API，屬於 Google AI Studio 的 Interactions API。它的主要用途，是用一個統一介面去操作 Gemini models 與 agents，方便把模型回應、工具呼叫和代理人流程放在同一套工作流內處理。

和一般逐步拼接多個端點的做法相比，較值得留意的是它主打「統一」：同時面向模型和 agents，減少來回切換不同介面的負擔。這對要做多步驟互動、工具協調、或需要把 AI 行為包成穩定流程的團隊會更實用。

統一處理 Gemini models 與 agents
適合原型、整合與工作流測試
方便把模型回應與工具呼叫串接
較適合開發者與 agent 應用場景

項目主頁： blog.google

Categories: Google, Gemini, OpenAI, Agentic, API, 軟件, 工具, AI productions, 模型, 編程

PhoneBuddy：訓練手機代理的雙路徑做法

2026 年 6 月 25 日

PhoneBuddy 是一個開放式 phone-use agent 訓練研究項目，也是面向手機操作代理的模型訓練配方。它主要解決的問題，是讓代理不只會看畫面點擊與輸入，還能同時從真實手機執行回饋與可重設、可驗證的模擬環境中持續改進。

現有 mobile agents 常被當成 GUI controller 來訓練或評測：看螢幕、點擊、輸入、滑動，再重複下一步。PhoneBuddy 指出，單靠真實 App reinforcement learning（RL）雖然更貼近真機，但成本高、難重設、驗證麻煩；只靠 PhoneWorld 風格的 mock-app RL 又較易擴展，卻未必完全反映真實手機情境，所以它採用 real-app RL 加 mock-app RL 的混合路線。

這個取向的重點，不是單純把資料加多，而是把兩種訊號分工：真實執行提供 realism，模擬環境提供 resettable 與 verifier-backed tasks。根據公開頁面，PhoneBuddy-4B 在 Real+Mock RL 後，AndroidWorld 成功率達 83.2%，比只做 real-app RL 平均高 5.0；不過 cross-app 任務只有 18.0，反映跨 App 長流程仍是明顯短板。

現階段較適合把它理解成研究原型加公開模型，而不是完整可即裝即用產品。公開資訊顯示已有 Hugging Face 模型，包括 PhoneBuddy-4B、PhoneBuddy-4B-RealApp 與 PhoneBuddy-0.8B；但 code release、evaluation documentation 仍在補，dataset 亦未公開，所以目前較合理的測試方式，是先比較不同 checkpoint 的能力定位，再配合 PhoneWorld、PhoneHarness、PhonePrivacy、PhoneSafety 這條研究線一併理解。

核心差異：把 real-app RL 的真實性，與 mock-app RL 的可驗證擴展性結合
已公開模型：PhoneBuddy-4B、PhoneBuddy-4B-RealApp、PhoneBuddy-0.8B
公開成績：AndroidWorld 83.2%，平均比 real-app RL only 高 5.0
主要限制：cross-app 表現偏低，資料集未公開，程式與評測文件仍未齊備
較適合人群：研究 Computer-use agents（CUAs）／手機代理、做 agent training、benchmark 或安全與私隱分析的團隊

想了解「手機代理怎樣訓練得更像真機、又不至於每次都要真人手動重置環境」，PhoneBuddy 的判斷相當清晰：真實世界負責可信度，模擬世界負責規模。它未必已經提供完整部署流程，但作為 open phone-use agents 的訓練方向，取捨、限制和下一步研究空間都表達得很明確。

GitHub： https://github.com/PhoneBuddyAI/phonebuddy

項目主頁： https://phonebuddyai.github.io/

項目： https://huggingface.co/PhoneBuddyAI/PhoneBuddy-4B

Categories: 開源, Qwen, 香港, 香港中文大學, 騰訊, Gemini, OpenAI, Agentic, 安全, 模型, 模型訓練, 中國, Dataset 數據集

SkillHarness：幫 CUA 學得更安全

2026 年 6 月 25 日

Repository image for YurunChen/SkillHarness

這是一個研究原型，現時 GitHub 儲存庫主要提供 SkillHarness 論文 PDF。它要解決的是 Computer-Use Agents（CUAs）在動態電腦介面中學習與重用技能時，容易受 prompt injections、彈窗與環境變化影響，令已學到的技能變得危險或不穩定。

現有做法多數沿用「從成功軌跡抽取可重用技能」這個範式，常見表達形式包括函式或 API，但作者認為這類方法預設環境是 static and safe。SkillHarness 改用 safety-constrained interaction process 去看待技能的學習與使用，核心不是多學幾個技能，而是先判斷哪些技能在當下情境仍然安全。

論文提出兩個辨識度很高的設計：一是 skill boundary，用 multi-source supervision signals 從互動軌跡中找出 safe skills；二是 selective skill reuse，按當前情境拆解任務，只啟動部分技能，而不是整包照搬。這種取向的代價，是系統設計會比單純收集成功軌跡更複雜，但換來的是在動態環境下更穩定的行為。

現有儲存庫未附程式碼，所以暫時不能直接部署或重跑實驗；較合理的理解方式，是先把它當成一套 CUA 安全技能框架來讀。若之後作者釋出實作，最需要觀察的會是它怎樣接入代理的軌跡資料、怎樣建立 safety constraints，以及能否在 OSWorld 一類電腦操作基準以外維持效果。

類型屬於框架／研究論文項目，重點在安全技能學習，不是即裝即用工具
主要批評舊方法依賴 static and safe environment 假設，放到動態場景會學到不安全技能
論文聲稱 learned skills 的 unsafe rate 降低 57.1%，並提升動態環境下的 execution stability
較適合研究 Computer-Use Agents、代理安全、桌面自動化與長流程任務的團隊留意
相關脈絡模型與方法包括 Computer-Use Agents（CUAs）、Voyager、ASI，以及以函式／API 形式封裝技能的路線

GitHub： https://github.com/YurunChen/SkillHarness

Paper： https://arxiv.org/pdf/2606.20636

Categories: 開源, Agentic, API, 工具, 安全, 庫, 模型, Skill 技能, 框架

DataClaw0 想把雜亂多模態資料變成可訓練資產

2026 年 6 月 25 日

這是一個面向多模態資料整理的研究原型兼框架，核心是用 Agentic Data Tailoring 把原始串流資料重組成有結構、可驗證、可直接用於訓練的 supervision。它要解決的不是「再做一次標註」，而是長影片、GUI traces、embodied trajectories 與 editing sequences 太雜亂、資訊密度不均，令人和模型都難以有效吸收。

現有做法多數依賴 passive annotation paradigms，用 heuristic rules 或 general VLMs 被動加標籤；作者認為這類方式成本高、內容單調，亦抓不到原始資料入面的 procedural logic。DataClaw0 改用「Bottom-up Factual Anchors → Top-down Semantic Synthesis」兩段式流程，先抽取較確定的 factual anchors，再按意圖生成結構化語意，重點在於它不是只描述內容，而是按 downstream objective 重寫資料。

模型層面，項目提出 DataClaw-9B，並以 Supervised Fine-Tuning（SFT）加 rule-driven Group Relative Policy Optimization（GRPO）做對齊；部署上分成 unified Omni model 的 DataClaw-O，以及分領域 Experts 的 DataClaw-E。這種取向的取捨很明顯：Omni 較方便統一處理多域資料，Experts 則較可能在特定場景保留更細緻的領域表達。

現階段先看論文與案例再判斷是否值得追蹤，因為 code、model weights、dataset 和 DataClaw-val benchmark 仍未正式釋出。已公開資訊顯示，它的評測不只看生成是否通順，還會檢查 JSON validity，以及 schema-aware 的 Field、Semantic、Sequence 指標，並再用 video generation、real-world VQA、GUI navigation 的下游 post-training 效果驗證資料整理是否真的有用。

項目類型：研究原型／資料整理框架，重點是把原始多模態串流轉成意圖對齊的訓練資料
主要差異：不是被動標註，而是主動 refinement，並保留 schema-conformant、verifiable 輸出
相關模型：DataClaw-9B、DataClaw-O、DataClaw-E，訓練結合 SFT 與 rule-driven GRPO
適合情境：做多模態 post-training、GUI agents、VQA、影片或 embodied 資料整理的團隊

如果你關心的是建立資料引擎，而不只是找一個模型做推理，DataClaw0 比一般 VLM 標註流程更有方向性。限制也很直接：目前公開內容以論文與項目頁案例為主，能否重現效果、部署成本多高、不同領域泛化有多穩，仍要等正式釋出的資料與基準再作判斷。

GitHub： https://github.com/vancyland/DataClaw0

項目主頁： https://czjdsg.github.io/MakeAnyData/#cases

Paper： https://arxiv.org/pdf/2606.21337

Categories: 開源, Qwen, Gemini, Agentic, Video, 工具, IDE, 多模態模型, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 視頻模型, Dataset 數據集, 框架

MemSlides 把簡報生成變成可記憶代理

2026 年 6 月 22 日

MemSlides hierarchical memory and localized revision overview

不少簡報生成工具仍然走 one-shot source-to-slides conversion：丟一份材料進去，整份投影片一次生成，之後每次修改又大範圍重做。MemSlides 把問題改寫成 stateful authoring process，核心不是單次輸出，而是記住你是誰、這一輪想改甚麼，以及過往哪些工具操作較可靠。

這是一個 Agent Framework，目標是解決 personalized slide generation 與 multi-turn local revision 兩個常見痛點。它把記憶拆成 user profile memory、working memory、tool memory：前者保存跨工作重覆出現的偏好，中段記住當前簡報的限制與暫時要求，後者則保留工具鏈執行經驗，方便之後做相似修改時少走彎路。

跟同類做法相比，最需要留意的是它不主張每次收到新意見就重生整副 deck，而是做 scoped slide-local revision，只更新受影響的最小區域。這種取向的好處是修改更穩定，較易保留原本好的內容；代價是整體品質會依賴記憶管理與局部編輯判斷是否準確。

從倉庫資訊看，這個項目較適合研究 presentation agents、企業內部簡報自動化，或要反覆為不同角色產出版本的團隊。倉庫亦提供 Docker Hub、網站、示範影片與論文連結，理解方式可先看 demo，再決定用容器部署還是按 Python 3.11 與 Node 20 的環境自行搭建；不過公開資訊未見完整量化基準，現階段較像研究型框架，而非已標準化的產品方案。

把簡報生成由一次性輸出改成有狀態的寫作流程
分層記憶是重點：user profile memory、working memory、tool memory
修改時傾向局部修補，不是整份重生成
適合需要 persona-aware 內容、反覆修訂、多人協作的情境
相關元素包括 presentation agents、multi-turn revision、localized editing、tool-chain execution

GitHub： https://github.com/huohua325/Memslides

項目主頁： https://memslides.github.io/

Categories: 開源, Agentic, 工具, IDE, Python, Python NLP, 庫, 清華大學, 框架

Page 3 of 14

« Previous 1 2 3 4 5 … 14 Next »