框架 Archives - Page 4 of 13

TVEdit：文字與點拖軌跡合一的圖片編輯項目

2026 年 6 月 18 日

TVEdit 是一個圖像編輯項目，目標是解決「只靠文字講意思，或者只靠拖點講位置」都不夠準的問題。以往文字指令較易表達語意，但難控制空間；點拖軌跡可以指位置，卻容易令語意變得含糊，所以作者把兩者合併成 Text-Vision Co-Instructed Image Editing。

這項目的做法是用一個文本與視覺指令配對資料集來訓練，資料超過 23K 筆，來源與動態影片有關。再配合 TV-Edit 框架，把拖曳或點選等視覺指令轉成更有語意的控制表示，然後接到預訓練編輯骨幹上，例如 Qwen-Image-Edit。

它能同時處理「想改成什麼」與「要改到哪裡」，而不是只偏重其中一邊。作者另外建立了 TV-Edit-Bench，專門看語意忠實度、空間對齊同畫面一致性，這比一般只看最終效果的做法更能反映模型有沒有真正聽懂指令。

先載入 Qwen-Image-Edit，再配 TV-Edit 權重，之後在 Gradio 介面上上傳圖片、畫出軌跡、輸入文字指令，再調 CFG 同步數生成結果。若有加速 LoRA，步數可以大幅減少，適合想快速試驗互動式編輯的人。

結合文字語意與點拖軌跡，令空間控制更細
用 23K+ 配對資料補足跨模態指令訓練
TV-Edit-Bench 同時看語意、位置、畫面一致性
目前已提供推理程式、模型權重同網頁示範
適合做互動式圖片編輯、研究評測或模型整合

GitHub： https://github.com/PolyU-VCLab/TVEdit

Paper： https://arxiv.org/pdf/2606.16767

Categories: 開源, 阿里巴巴, Qwen, 香港理工大學, Agentic, MCP, Image, RAG, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 框架

LoopCoder-v2 是一個基於 Parallel Loop Transformers（PLT）的程式碼模型系列，目標是解決「推理步數愈多，成本與表現未必同步上升」的問題。傳統 Looped Transformers 會透過重複共享區塊去增加 latent computation，但每多一輪都會拉高延遲和 KV-cache 記憶體；PLT 則用 Cross-Loop Position Offsets（CLP）和 Shared-KV Gated Sliding-Window Attention（G-SWA）把成本壓低，讓迴圈數變成可以調整的設計參數。

這個項目直接拆解「多跑幾輪到底值不值得」。作者用 gain–cost 角度分析 loop count：額外一輪可以帶來表示更新，但 CLP 也會引入位置不匹配的成本；兩邊一對比，就能解釋為何 LoopCoder-v2 在很多情況下是兩輪最好，而不是愈多愈好。這種分析方式比單看分數更有參考價值，因為它把效果升降和內部機制連在一起。

從結果看，LoopCoder-v2 的 7B 版本在多個程式相關測試都有明顯改善，尤其是 SWE-bench Verified 由 43.0 升到 64.4，Multi-SWE 由 14.0 升到 31.0，Terminal-Bench 亦有提升。相反，三輪或四輪時分數明顯回落，表示這個項目不是單純靠「加更多計算」換表現，而是存在一個較清晰的最佳點。作者亦用 hidden-state dynamics、attention evolution 和 output distribution shift 去佐證第二輪帶來主要增益，之後的輪次多數只會增加冗餘。

如果你想找的是可直接跑的模型，這個項目提供了 Hugging Face 上的 7B 權重，能透過 Transformers 載入後做文本生成或程式碼任務測試。適合關注 code generation、code reasoning、agentic software engineering、tool-use 的人，也適合想研究 test-time compute scaling、模型推理效率，或想比較 loop count 對表現影響的讀者。

主要類型是模型研究項目，同時包含評測與推理分析
核心結論是：兩輪通常是最佳平衡點，三輪以上可能反而拖低表現
CLP 令平行迴圈可行，G-SWA 則把 KV-cache 成本維持在近乎固定水平
7B 版本在 SWE-bench Verified、Multi-SWE、Terminal-Bench、BFCL 等測試都有較完整結果
適合用來分析程式碼模型、代理式任務，以及測試階段算力分配

GitHub： https://github.com/CSJianYang/LoopCoder

Paper： https://arxiv.org/pdf/2606.18023

Categories: 開源, Agentic, 軟件, 工具, AI productions, Python, RAG, 模型, 編程, 框架

Ponytail：幫 AI Agent 減少大量的程式碼

2026 年 6 月 18 日

Ponytail 是一個針對 AI Agent 的工具型項目，核心作用不是取代模型，而是替模型加上一套固定判斷規則，令它在寫程式前先問自己：這段東西是否真的需要存在、標準函式庫能否處理、平台本身有沒有現成功能。它想解決的問題很直接，就是不少 AI Agent 會把簡單任務寫得太重，順手加框架、包裝層、額外抽象，最後程式碼變多、回應變慢，成本也上升。

這個項目已相當成熟。它把「少寫不是偷懶，而是保留必要部分」變成一條清晰階梯：先跳過不需要的東西，再優先用 stdlib、原生平台功能、已安裝依賴，最後才自己寫最少可行實作。這種設計對 AI Agent 特別有效，因為模型常見問題不是完全不懂，而是太願意補很多你未必需要的東西。Ponytail 等於把資深工程師那種「先刪再寫」的習慣，包成可重複套用的規則。

如果你想試它，先找幾類容易被模型寫得過火的小任務，例如日期輸入、debounce、rate limiter、簡單驗證或 CSV 處理。倉庫資料顯示，它支援 Claude Code、Codex、GitHub Copilot CLI、Gemini CLI、OpenCode、OpenClaw 等多種環境，亦即它不是綁死單一平台，而是瞄準「那些 AI Agent」的日常編碼流程。對於經常要用 Agent 產生前端小功能、工具腳本、日常後端邏輯的人，這類規則比再換一個新模型更實際。

在 Claude API 的基準測試中，官方列出每項任務程式碼可減少 80% 至 94%，延遲快 3 至 6 倍，成本下降 42% 至 75%。不過這些結果有清楚前提，只能代表特定模型與提示方式下的中位數表現，並非所有模型都一定受惠；倉庫亦明言像 GPT-5.5 這類較簡潔的推理模型，規則注入與思考步驟本身可能抵消節省效果。這種寫法反而增加可信度，因為它沒有把 benchmark 包裝成放諸四海皆準的勝利宣言。

重點不是生成更多程式，而是限制 AI Agent 只寫任務真正需要的部分
支援多個 Agent 宿主，包括 Claude Code、Codex、Gemini CLI、OpenClaw 等
提供 /ponytail-review、/ponytail-audit、/ponytail-debt 等指令，方便檢查過度工程化
benchmark 數據亮眼，但倉庫已提醒不同模型、提示長度與回合數會影響結果
適合經常叫 AI Agent 寫工具碼、介面小功能、重複邏輯的人

Ponytail 的創新在於它把工程判斷流程產品化，讓 AI Agent 先經過一道「有沒有更省、更原生、更少依賴」的篩選。這令它比較像一個行為約束層，而不是新模型或框架。相關模型與環境方面，倉庫內容直接提到 Claude 的 Haiku、Sonnet、Opus，也提到 GPT-5.5，並覆蓋 Codex、Gemini CLI、Antigravity CLI、GitHub Copilot CLI 等代理工具鏈。若你想要的不是更花巧的生成能力，而是更穩定地避免 AI Agent 過度設計，這個項目有很明確的價值；若你的工作本身需要大量自訂架構與長鏈依賴，它未必會永遠選出你最喜歡的答案，但至少會迫使模型先證明「為何需要寫那麼多」。

GitHub： https://github.com/DietrichGebert/ponytail

Categories: 開源, 微軟, Gemini, OpenAI, Agentic, API, 工具, AI productions, IDE, 庫, 模型, Anthropic, OpenClaw, 框架, Skill 技能

Memento：把長片段角色一致性補回來

2026 年 6 月 17 日

Memento 是一個影片生成框架，重點解決長篇、多鏡頭故事影片中角色外觀容易前後不一致的問題。傳統做法多半只顧下一段鏡頭看起來合理，Memento 則把「能否從記憶重建角色」當成身份是否被保留的檢查方式。

它的做法是把全局故事描述、每個 shot 的文字提示，連同歷史記憶一起送入生成流程，逐鏡頭自回歸地產生影片。使用時可準備對應格式的 JSON 故事腳本，再配合提供的權重與基礎模型做推理；項目也支援訓練與輸出完整影片。

GitHub： https://github.com/ernie-research/Memento

項目： https://ernie-research.github.io/Memento/

Categories: 開源, Agentic, Video, 庫, 模型, 模型訓練, 視頻模型, 框架, 百度

PhoneHarness：重新量度手機代理能力

2026 年 6 月 17 日

PhoneHarness 是一個混合動作的手機代理評測框架與基準，解決只靠 GUI 點按去評分、卻量不到真實副作用的問題。論文指出，手機任務往往需要在 GUI、CLI 與 structured tools 之間切換，單看最後畫面會漏掉很多關鍵步驟。

它的做法是把行動路由、GUI 委派和可追蹤執行記錄放進同一個流程。當任務有明確可執行路徑時，系統會優先走 CLI 或 MCP 完成；只有必要時才交由 GUI worker 透過截圖互動，令評測更貼近真正手機工作流。

這個項目的新意在於把「能否完成」和「是否留下可驗證證據」綁在一起。JSONL traces 和 HTML viewer 令失敗可以被拆成模型推理、GUI 對齊、環境、工具或 verifier 不一致幾類，方便找出問題來源，而不是只見到一個分數。

論文中的 PhoneHarness Bench 在 annotated evaluation split 上取得 75.0% pass rate，較最強的非 PhoneHarness 設定高 12.9 個百分點。這表示它不只是測試介面操作，還在測試代理怎樣選擇動作面，對做手機自動化、裝置測試、或需要可審計流程的團隊都幾有參考價值。

混合支援 GUI、CLI、MCP tools，適合手機工作流評測
優先 deterministic 路由，減少不必要的畫面操作
可追蹤 traces，方便定位錯誤來源
適合研究 phone agents、裝置自動化與安全副作用檢查

相關模型／基準可一併留意：PhoneHarness、PhoneHarness Bench、AndroidWorld、AppAgent、Mobile-Agent-v2、MobileAgentBench、AndroidLab。

GitHub： https://github.com/PhoneHarness/PhoneHarness

項目： https://phoneharness.github.io/

Categories: 開源, Agentic, MCP, 軟件, 工具, 安全, 模型, 框架

VisualClaw：會進化的視覺代理

2026 年 6 月 17 日

現時不少 vision-language agents 主要靠固定提示、整段影片送入模型，或者一次性工具調用去完成任務；作者認為這種 fixed scaffold 容易令延遲、成本同提示長度一齊上升，而且部署後幾乎唔會自己累積經驗。VisualClaw 因而提出一個 modular multimodal agent system，夾在 Claude Code、Codex、OpenClaw 同上游 LLM providers 之間，加入 retrieved memory、skill bank、self-evolution、video processing 同 evaluation hooks。

這個項目屬於框架兼工具型基建，重點唔係再訓練一個新模型，而係幫 Computer-use agents、tool-using vision-language agents 更有效處理影片、工作空間同多輪任務。配套的 VisualClawArena 則是獨立 benchmark/data release，收錄 200 個 scenario，要求代理真正在 workspace 內用影片證據、文件、動態更新與 executable checks 解題，補回一般 video-QA benchmark 對工具使用情境測試不足的缺口。

把它當成 gateway proxy，用熟悉的 OpenAI 或 Anthropic 相容介面接到現有 agent workflow，再逐步打開 skills、memory、video cascade 等模組。對已經在用 Claude Code 或 Codex 的團隊，這種接法尤其實用，因為毋須由零重寫整個代理流程。

核心結構清楚：gateway design 加上 pre/post hooks，方便在提示前後插入技能、記憶與評測。
創新位具體：以 hybrid encoding 處理 streaming video，配合 cascaded gate、keyframe context、hot/cold top-k injection，目標是壓低成本而保留關鍵視覺證據。
會累積經驗：self-evolution 會根據失敗回合與成功記憶更新 skill bank，唔係每次都由同一套靜態提示開始。
評測唔只看答對：VisualClawArena 把多輪問題、影片、workspace 操作同評估輸出綁埋一齊，更接近真實代理任務。

在 4 個 video-QA benchmarks、2 個 VLMs（Gemini 3 Flash、GPT-5.2）上，VisualClaw 對 full-frame upload 的每題 API 成本平均可減 98%，相對 offline uniform 8 frame baseline 亦再降 25.9%，同時多數設定下準確率有提升。到 VisualClawArena，配合 Codex（GPT-5.5）與 Claude Code（Sonnet 4.6）等 backend，macro accuracy 分別提升 2.9% 同 3.2%；如果你關心的是可插拔代理基建、多模態工作流，或者想為 live vision 與影片任務加上可持續進化能力，這個項目比單純模型包裝器更有研究同落地價值。

GitHub： https://github.com/UCSC-VLAA/VisualClaw

項目： https://ucsc-vlaa.github.io/VisualClaw/

Categories: 開源, Gemini, OpenAI, Agentic, API, Video, 工具, AI productions, IDE, Mac, Vibe Coding, 多模態模型, 模型, 模型訓練, 編程, Anthropic, OpenClaw, 清華大學, 框架, Skill 技能

BadWorld：如何解決癱瘓視覺世界模型的未來推演

2026 年 6 月 17 日

視覺世界模型（Visual World Models, VWMs）能從一張起始圖片，根據使用者動作序列合成出互動式的未來影片。現有做法多數沿用文字生成圖像或文字生成影片的對抗攻擊範式，但這類方法通常假設有固定的參考輸出或可取得的未來幀標籤。BadWorld 的作者指出，攻擊 VWMs 面對兩道根本限制：攻擊者根本拿不到真實的未來影片當作監督訊號，也無法預測使用者接下來會輸入什麼動作，因此傳統攻擊範式無法直接套用。

為此，團隊提出 BadWorld 框架，屬於一種安全研究工具，專門用來壓力測試自回歸式世界模型的時序穩健性。它繞過「需要未來監督」這道牆，採用自監督的速度擾動攻擊（self-supervised velocity attack），直接破壞模型早期的去噪動力學；同時，為了讓攻擊在未知動作下仍然有效，設計了軌跡自適應雙層優化（trajectory-adaptive bi-level optimization），主動挖掘困難的動作序列以鍛造「對動作無感」的擾動。

從測試結果來看，視覺上幾乎無法分辨的對抗圖片，能可靠觸發後續推演的災難性退化，出現去噪不完全、結構崩塌、控制訊號前後不一致等現象。這些發現對準備把世界模型應用於自動駕駛、機器人等安全關鍵場景的開發者是一記警鐘，同時也提供了一種可操作的隱私保護機制。

如果想自行驗證，可以針對 Matrix-Game-2.0 與 Astra 兩款開源世界模型測試。Matrix-Game-2.0 需約 32GB 顯示記憶體，Astra 則需 80GB，環境需要搭配 FlashAttention 與 NVIDIA Apex 等加速庫，並從 Hugging Face 下載預訓練權重。

屬於安全研究工具，針對視覺世界模型做對抗壓力測試。
突破傳統攻擊需「未來監督」的限制，採自監督速度擾動。
透過軌跡自適應雙層優化，鍛造對未知動作仍有效的擾動。
已在 Matrix-Game-2.0 與 Astra 上展示結構性崩潰。
對自駕、機器人、遊戲模擬等安全關鍵部署具警示意義。

GitHub： https://github.com/LinghuiiShen/BadWorld

Paper： https://arxiv.org/pdf/2606.16519

Categories: 開源, 香港, 香港理工大學, NVIDIA, Video, Image, 工具, 安全, 庫, 模型, 模型訓練, 深度學習, 世界模型, 清華大學, 框架

當 AI 程式助手遇上滿山數據：CoDA-Bench 想考甚麼？

2026 年 6 月 16 日

現有針對 AI 程式代理（AI coding agents）的評測，大致分為兩類：一類專注於軟件工程任務（例如 SWE-Bench、Terminal-Bench），只考驗代碼本身；另一類專注於數據分析能力（例如 DS-1000、DA-Code、DataSciBench），卻把所需數據直接攤在桌面，等着代理去讀。中國人民大學數據實驗室團隊指出，這種把「代碼」與「數據」分開評估的範式，與真實開發場景脫節——現實中的工程師，往往要在堆滿雜亂檔案的環境中，自己摸索出哪些數據有用，再寫代碼處理它們。

為此他們提出 CoDA-Bench（Code and Data-intensive Benchmark），屬於 benchmark 類型的評測框架。它建構了一個基於 Kaggle 生態的 Linux 沙盒，每個任務環境平均包含約 980 個檔案，總共 1,009 道題目橫跨 31 個主題社區，要求代理先在語意相近的眾多檔案中大海撈針，再整合異質資料、撰寫分析代碼，產出最終答案。

團隊測試了多款頂尖代理後發現，即使表現最好的系統，成功率也只有 61.1%，暴露出現有模型在「數據發現」與「代碼執行」之間缺乏有效銜接。這個缺口正好為下一代研究指明方向：未來的代理不只要會寫代碼，更要懂得在雜亂的檔案系統中自行導航。

如果你從事 Agentic AI 研發、數據分析自動化，或想測試 LLM 在複雜環境中的推理與編程整合能力，這套開源 benchmark 提供了一個貼近現實的試金石。完整題目已釋出於 HuggingFace，評估則可透過 Docker 一鍵執行。

重點摘要：
– 修正舊範式：突破 SWE-Bench 與 DS-1000 把代碼與數據分開考的做法，統一在同一環境內評測。
– 真實規模沙盒：每題約 980 個檔案，模擬 Kaggle 上雜亂而龐大的真實數據環境。
– 雙重能力整合：同時考驗資料探索、檔案導航、跨格式整合與代碼生成四個面向。
– 成績慘淡：頂尖代理在完整題集上僅約 61.1% 成功率，顯示仍有明顯改進空間。
– 完整開源：包含 1,009 道題目、31 個社區數據（約 43 GB），以及 Docker 評測流程。

GitHub： https://github.com/ruc-datalab/CoDA-Bench

Paper： https://arxiv.org/pdf/2606.15300

Categories: 開源, Agentic, 軟件, AI productions, Linux, Vibe Coding, 模型, 編程, 中國, 清華大學, 框架, Dataset 數據集

BRDFusion：物理與生成模型合體，城市街景逆向渲染新框架

2026 年 6 月 16 日

現有的城市場景逆向渲染方法長期面臨兩難：基於物理的渲染（physically-based rendering）雖然能嚴格遵守光學物理，但在重建與渲染階段容易產生雜訊與破圖；生成式模型（generative models，例如 DiffusionRenderer）能產出逼真影像，卻難以精準控制光源，例如車燈這類局部照明往往被忽略。BRDFusion 正是針對這個 trade-off 而設計的混合框架。

這個項目屬於研究型框架，目標是把多視角城市影片分解為幾何（法線、深度）、材質（albedo、roughness、metallic）與 HDR 環境光源，並支援新視角重照明、夜景模擬與動態物件插入等下游應用。具體做法上，它先用物理模型取得明確且一致的場景屬性，再借助生成式先驗（generative priors）緩解優化過程中的歧義；前向渲染時，物理模型負責可控渲染，生成模型則負責去噪與修補瑕疵。

測試方面，作者提供預處理資料集與預訓練權重，研究人員可直接下載並透過 tools/run_pipeline.py 跑推理與評估；硬體需求偏高，建議使用 NVIDIA RTX A6000，RTX 4090 在記憶體允許下可執行部分階段，但 Gen. Render 階段可能突破 24 GB 限制。資料集與評估影片亦同步發佈於 Hugging Face，方便重現結果。

這個項目的創新之處在於把「物理一致性」與「生成式品質」放在同一條管線中互補，而非二選一。對從事自動駕駛模擬、遊戲或影視場景重建的研究團隊而言，這是一個值得關注的方向。

重點摘要

混合範式：物理渲染負責可控性，生成模型負責修補瑕疵，突破單一方法的極限。
完整分解：輸出幾何、材質與 HDR 光源，支援新視角、夜景與物件插入。
高硬體需求：建議 RTX A6000，4090 僅能跑部分階段。
完整開源資源：程式碼、預訓練權重、資料集與評估影片均已公開。
適用場景：自動駕駛模擬、城市數位孿生、影視級場景編輯。

GitHub： https://github.com/shigon255/BRDFusion

Categories: 開源, NVIDIA, Stable Diffusion, Video, Image, 工具, 影像模型, 影像處理, 模型, 模型訓練, 深度學習, 視覺模型, Meta, 清華大學, 框架

ARGAR 直指 AI 審稿可被包裝操控

2026 年 6 月 16 日

現時不少 AI reviewer 評測，默認接受論文的摘要、敘事結構與貢獻陳述，並直接輸出分數或意見；ARGAR 指出這種固定範式未必真正在看科學內容，而可能被 presentation-level content 牽動。作者因此提出 ARGAR（Adversarial Repackaging Gaming AI Review），用 adversarial repackaging 把「內容不變、包裝改寫」變成可反覆驗證的測試流程。

這個項目較像一個研究框架加實驗工具，而不只是單一資料集；它要解決的，是 AI reviewer 有沒有被 narrative structure、abstract 與 contribution statements 系統性影響。核心做法是 closed-loop iterative search：每一輪根據 AI reviewer feedback 改 LaTeX 文字與結構，再比較新版與 baseline 的審稿結果，但 scientific content held fixed。

若想測試它的思路，最合適是先看 round N/source、round N/reviews、judge result.json 和 attack log.json。這樣可以直接觀察同一篇論文在科學內容不變下，經過不同包裝後，AI review 怎樣波動，也能看清每一輪修改決策如何形成。

類型定位：研究框架兼工具，用來檢驗 AI reviewer 是否容易被論文包裝影響
方法重點：只改 abstract、framing、contribution statements、narrative structure，不改 scientific content
輸出結構：保留每輪 LaTeX source、review 結果、pairwise judge 比較與跨輪 attack log
適合場景：AI safety、LLM evaluation、學術審稿自動化研究
限制提醒：項目明確反對把結果用於真實投稿操控，定位是 controlled experiments

創新之處在於它不是討論「AI 審稿準不準」的籠統問題，而是把舊範式拆開，專門測 presentation attack 對評分的影響。從儲存庫資料看，這種設計也方便研究者重播整個攻擊過程，比只看最終分數更有分析價值。

性能數字在這份儲存庫摘要未完整展開，因此不宜代作者下結論；不過評測設計本身已很有辨識度，因為它加入 pairwise judge 與多輪 review 作比較。相關模型方面，項目透過 LiteLLM 路由不同 LLM provider，可接 OpenAI、Anthropic、AWS Bedrock 等 reviewer model、attack model 與 judge model，亦配合 ICLR、NeurIPS、ICML 風格的 review generation。

GitHub： https://github.com/xyimatvoid/ARGAR

Paper： https://arxiv.org/pdf/2606.09813

Categories: 開源, OpenAI, Agentic, 工具, Content Creator, AI productions, IDE, 安全, 庫, 模型, Anthropic, AGI, 清華大學, 框架, Dataset 數據集

Page 4 of 13

« Previous 1 2 3 4 5 6 … 13 Next »