開源 – InferNews

Reasonix：DeepSeek AI 編碼 agent，用 cache-first 降低長會話嘅 token 成本

2026 年 8 月 2 日

Reasonix 是 DeepSeek 一個面向桌面及終端的 AI coding agent，核心價值唔係花巧介面，而係將長會話裡不斷累積的上下文成本壓低。它適合要一路改檔、一路試工具、一路追問模型的人，特別是團隊日常做修補、重構同埋持續迭代時，對 token 成本同回合延遲都會有明顯感受。

Reasonix 主打 cache-first loop，令 prompt 前綴保持 byte-identical，配合 DeepSeek 的 prefix cache 去提升長會話命中率。項目同時提供 CLI/TUI、桌面端、local browser UI，同埋支援 ACP-compatible editor integration，部署方式亦算直接：CLI 可用 npm 安裝，桌面版則有 macOS、Windows、Linux 套件可選。

Deepseek's ~OFFICIAL Code: RIP Claude,Codex! This is CRAZY GOOD!

Watch this video on YouTube

Reasonix 唔係純粹包住模型嘅殼，而係圍繞工具呼叫修正、成本控制同 sandbox 權限去設計。/plan 會先要求模型規劃，再進入實作；MCP（Model Context Protocol, MCP）亦作為一等入口，方便把外部工具合入同一個 registry。這種做法較適合重視可控性、可追蹤性，亦需要長時間跑 session 的開發流程。

要留意嘅係，呢條 TypeScript 線已經進入 maintenance mode，主力開發搬去 Go rewrite，同步文件亦指向 main-v2 同 migration guide。現時更合理嘅理解方式，係將佢視為一個仍可用但已凍結方向的終端編碼 agent 版本，重點價值在 cache 效率、工具整合與成本壓縮，而唔係追求最新功能擴張。

長會話下，prefix cache 命中率可維持在 90%+，輸入 token 成本可明顯下降
同一套引擎可喺 CLI/TUI、桌面端、Web UI 同編輯器接入使用
/plan、權限控制同 workspace sandbox 一齊限制工具呼叫，取向偏向可控
適合經常改碼、反覆驗證、又在意推理成本嘅個人或團隊

項目主頁 · GitHub

Categories: 開源, DeepSeek, Agentic, MCP, Linux, Mac, Vibe Coding, 編程

beautify-github-readme：GitHub README 也可以做成精美首頁

2026 年 8 月 2 日

Beautify GitHub README: help visitors understand a repository at first glance.

讀者未打開程式前，往往先被 README 決定去留；beautify-github-readme 正正針對呢一步，屬於一個 README 設計與寫作 Skill，重點唔係美化排版，而係令訪客一眼睇明項目做乜、成果去到邊、應該點開始理解。

佢同常見 README 範本最大分別，在於唔追求統一風格。呢個方法會由項目自身延伸出字體、配色、構圖同證據展示，連 opening screen 都強調真實輸出，而唔係抽象口號。README 入面列出八個公開儲存庫案例，涵蓋 AI 產品、設計資源、研究與開源庫，證明佢不只是概念展示。

重點唔係套版：每個 README hero 都按項目內容重新設計
強調真實證據：用實際 UI、圖示、地圖、角色圖或 dashboard 截圖說明能力
適合公開展示型項目：尤其係要吸引首次訪客、招募協作者或交代成果脈絡嘅團隊
門檻在內容整理：要先有清楚成果、流程同視覺素材，效果先會成立

部署方式比較似參考方法而唔係可直接安裝嘅工具套件；你應該將佢理解成一套可複用的表達框架，再按自己項目改寫。對獨立開發者、開源維護者同想提升 GitHub 展示面的團隊尤其有幫助，因為佢補強咗「功能存在，但讀者三秒內睇唔明」呢個常見卡位。

限制亦相當明顯：佢未提供量化成效、A/B 測試結果或者自動化生成流程，價值主要來自案例說服力，而唔係可驗證指標。當你已經有一定內容資產，同時希望 README 更似產品入口而不只是說明文件，呢個項目比一般範本更值得參考。

GitHub

Categories: 開源, 編程, Skill 技能

Montara 本地優先影片工作台

2026 年 8 月 2 日

做影片流程最麻煩，往往唔係生成一段畫面，而係素材、剪接決定、旁白、輸出格式同後續修改散落喺唔同工具。

Montara 就係朝住呢個痛點而來：一個本地優先嘅開源影片製作工具／框架，用 Timeline IR 做唯一時間軸來源，將規劃、編輯、渲染同交接串返埋。

它吸引嘅地方，在於先處理「冇雲端都要交到片」呢個現實限制。就算零 API keys，仍可經 FFmpeg 走本地 fallback 輸出可觀看 MP4，連字幕卡、語音路徑同部分媒體都預留咗本地方案；有裝 Remotion 就做 native smoke，冇裝亦會退回 FFmpeg，呢種設計比起只展示理想雲端流程嘅項目踏實得多。

同類做法常見係綁死某個生成服務或者某款剪片介面，Montara 反而把 provider 放成可插拔層，會建立 request、做 redaction、支援 dry-run 同 live-audit，但付費雲端呼叫要明確開啟。代價亦好清楚：它而家最成熟嘅係時間軸驗證、編輯操作、渲染路徑、editor bridge 匯入匯出，同埋真實 MP4 渲染與 post-render QA；README 亦講明長片規模仍屬 roadmap，唔係所有電影級工作流都已全面驗證。

Timeline IR 把場景計劃、剪接決定、匯入 editor cut 同生成素材收斂成一份 JSON
本地路線完整，FFmpeg 係通用底線，部分 video/image/speech/music 有 fallback
可匯出 EDL、OTIO、FCPXML，方便轉去 Premiere、Resolve、Final Cut 繼續做
provider 機制重視審計與可驗證性，適合要保留流程紀錄嘅團隊較受惠嘅會係想把 AI 生成同傳統後期接埋嘅內容團隊、要保留本地控制權嘅創作者，或者打算讓 agent 參與影片流水線嘅開發者。

Montara 已經唔止係 demo 級拼裝，因為它把「可編輯來源」、「真實渲染結果」同「可交畀剪輯軟件接手」放埋同一條線；不過想追求高度成熟嘅長篇製作，仍要留意目前覆蓋範圍主要集中喺已測試嘅 renderer 同橋接能力。

GitHub

Categories: 開源, Agentic, API, Video, 影像處理, 框架, LTX

PerceptionBench：Moonshot AI 教你測試 MLLM 視覺盲點

2026 年 8 月 2 日

不少 Multimodal Large Language Models（MLLMs）表面上回答完整，但錯誤未必來自推理，往往早在「看圖」那一步已經出現。PerceptionBench 就是一個評測資料集兼 benchmark，專門把視覺感知拆成最細單元，檢查模型究竟係讀錯字、看漏關係，還是出現 perception-related hallucination（Hallu）。

它的價值，在於不再用一個總分掩蓋問題。團隊先分析 42 個現有 benchmarks 的失敗案例，再整理出一套錯誤分類，當中視覺感知分支包含十種 atomic perceptual capabilities，之後用這個框架建立 3,000 條經驗證題目，每題只測一種能力，答案亦刻意保持簡短而明確，盡量避免把推理或背景知識混入結果。

對做模型評估、資料標註或多模態產品調校的人來說，這個項目最有用的地方，是你可以更早定位問題源頭。它不是教你部署模型的工具，而是用來比較模型能力輪廓的尺；資料已放上 Hugging Face，程式碼亦公開，較適合拿來跑 benchmark、重現論文結果，或者把自家模型放入同一套題目做橫向比較。

以 3,000 條 verified questions 測十種 atomic visual perception 能力
題目刻意隔離單一能力，減少推理與知識干擾
共評測 16 個 frontier MLLMs，使用統一 prompts
沒有模型準確率超過 60%，Hallu 表現平均最弱
相近總分之下，不同模型的能力分佈可以差很遠

所有題目都採用開放式短答案，再由 GPT-oss-120B 依參考答案判分，官方指它與人工審核在 300 個樣本上的一致率達 99.7%。這類設計未必等同真實產品場景，但很適合做能力層面的診斷；當你想知道模型到底「唔識答」還是「睇錯圖」，PerceptionBench 提供的資訊比一般綜合排行榜更有分析價值。

GitHub

Categories: 開源, 多模態模型, Dataset 數據集, Kimi

DeepSeek-V4-Flash-0731：輕量化 Agent 模型追上大模型

2026 年 8 月 2 日

要兼顧回應速度、部署成本同 Agentic 能力，DeepSeek-V4-Flash-0731 走的是「較少啟動參數換取高效任務表現」的路線。頁面已清楚寫明它與 DeepSeek-V4-Flash-DSpark 採用相同模型結構，並且附帶 speculative decoding module，所以它不只是一般聊天模型，而是明顯朝工具使用、自動化操作與程式任務優化的版本。

它屬於 DeepSeek-V4-Flash 官方正式發布版，取代 preview 版本，並強調 agentic capabilities 有明顯提升。模型卡同時指出它的模型結構與 DeepSeek-V4-Flash-DSpark 一致，代表推理流程很可能圍繞主模型加速草稿模組來設計。

效能數字是最值得留意的部分。它在 Terminal Bench 2.1、NL2Repo、Cybergym、DeepSWE、Toolathlon-Verified、Agents’ Last Exam、AutomationBench Public 等基準上，普遍明顯高於 DeepSeek-V4-Flash（Preview），部分項目亦超過 DeepSeek-V4-Pro（Preview）。這種進步集中在 terminal 操作、程式庫理解、資安演練、軟件修復同工具鏈任務，反映它更像為 Computer-use agents、程式代理與自動化流程而調整，而不只是追求一般問答分數。

與 DeepSeek-V4-Flash-DSpark 同結構，並附帶 speculative decoding module
官方正式版取代 preview，重點提升 agentic capabilities
多個 Agent／編碼基準明顯優於 DeepSeek-V4-Flash（Preview）
啟動參數較少，但表現可與部分強勢閉源模型接近

部署資訊方面，內容只提供一則討論帖，提到可用兩台 DGX Spark 配合 ghcr.io/bjk110/vllm-spark:unholy-fusion-prod-ready 作最少設定部署；但模型頁面片段未列出上下文長度、GGUF 格式量化檔、mmproj、檔案大小、chat template 注意事項或 v2 檔名變更，因此不能推斷 llama.cpp、Ollama、LM Studio 的支援細節，也不能提供 Q4_K_M 一類量化建議。現有資料較適合把它理解成一個偏向高效率 Agent 任務的 DeepSeek 模型發布，而不是本地 GGUF 部署導向的模型。

模型

Categories: 開源, DeepSeek, Agentic, LLaMa, Ollama, 模型

See2Think 驗證多模態模型有冇「睇圖再諗」

2026 年 8 月 1 日

See2Think — Do Multimodal Models Really Use Intermediate Visual States?

見到模型會畫線、裁圖、標記物件，很多人自然會當它「有睇過先答」。See2Think屬於基準測試加診斷框架，焦點不是只看最後答啱幾多，而是拆開檢查中間視覺狀態有冇被真正用到、渲染是否忠實，以及後續推理有冇因此改變，這點對多模態模型（Multimodal Models）尤其關鍵。

它的核心設計分成兩部分：See2ThinkBench 收錄 1,200 條 visually dependent 問題，涵蓋 2D structured reasoning、3D scene reasoning 同 real-world visual reasoning；另一部分是 Visual Action-of-Thought（VAoT）流程，會把文字思路、structured visual actions、rendered states 同之後的推理串連起來。這種做法比單看 final-answer accuracy 更有診斷力，因為可以分辨模型是在「做出圖像」還是在「依賴圖像」。

同類研究常停留在結果分數，See2Think較著重受控比較。它設有 CoT、NoRender、Full、WrongRender 等 matched comparisons，又會檢查 render-benefit、corrupted-feedback sensitivity，以及 process judging 裡的 relevance、faithfulness、uptake，換句話說，不只問模型答得對不對，還會問中間那一步是否相關、是否被正確執行、以及模型有沒有吸收回來的視覺資訊。

適合研究多模態推理、agent 行為分析、視覺工具鏈設計的團隊
強項在於把「中間圖像是否有用」變成可觀察、可干預的測試問題
覆蓋圖表、幾何、符號結構、3D 空間關係到真實圖片場景
GitHub 已公開程式與 quick start 線索，但論文仍標示為 coming soon，細部實驗設定仍要以後續正式文件核對

對模型評估要求較細緻的情境，這個項目很有參考價值；想拿它直接當應用工具就未必是同一回事。它更像研究型基礎設施，幫團隊判斷多模態系統的推理鏈是否可信，而不是單純追求更高答題分數。

項目主頁 · GitHub

Categories: 開源, 香港科技大學, Agentic, 3D, 多模態模型, Dataset 數據集, 上海人工智慧實驗室

OpenRSI 實現 AI 可控的自我進化流程

2026 年 8 月 1 日

OpenRSI(Recursive Self-Improvement) 唔係單獨放出一個模型，而係把「AI improving AI」拆成可以執行、量度同重現的整套機械學習工程流程。它屬於開源研究框架加模型組合，核心想處理的是：點樣令 AI 不只寫程式，而係能夠持續改良建立 AI 的方法本身。

OpenRSI 由 OpenMLE 同 Frontis-MA1 連動組成。OpenMLE 負責提供可驗證任務環境、執行回饋、RL 與 evolutionary search；Frontis-MA1 則是一個 post-trained AI4AI model，圍繞 Draft、Improve、Debug、Crossover 四種程式演化操作運作，將訓練到的能力接到長步驟搜尋流程之中。呢種做法的取捨很明顯：它追求可重跑與可評測，所以系統較完整，也比只放模型權重的項目更講究環境與任務設計。

項目較適合研究 Agentic workflow、Machine Learning Engineering、自動化實驗搜尋，或者想分析 execution-grounded learning 點樣落地的團隊。資料已列出 Hugging Face 模型、GGUF 衍生版本、Tasks 同 SFT traces，亦有專屬 project page；但目前公開資訊著重系統構成與結果展示，README 摘錄未完整交代詳細安裝步驟，部署前仍要配合原始倉庫與外部連結自行核對。

OpenMLE 提供 gym、RL、Evo 等完整堆疊，不只是一組 benchmark
Frontis-MA1 把 operator learning 同 long-horizon search 接埋，重點在可執行研究循環
公開內容包括模型、任務資料集、SFT traces，同時照顧訓練與評測重現
提供 GGUF 格式在本地執行推理 的衍生版本，方便不同部署路線

效能方面，項目頁面列出 Frontis-MA1 在 MLE-Bench Lite 由 39.39 提升到 71.21，設定為每個 task 12 小時、單張 RTX 4090 並限制 12 GB VRAM，成績高於 GPT-5.5 + Codex。呢個結果反映它強項在於把執行回饋、後訓練同演化搜尋接成一個閉環；不過現階段它仍主要面向 Machine Learning Engineering，較像一個為 RSI 研究而建的開放實驗平台，而唔係通用型開發工具。

項目主頁 · GitHub · 模型

Categories: 開源, Agentic, 模型, Dataset 數據集, 清華大學

OpenRSI 想把 AI 研發流程變成可執行系統

2026 年 8 月 1 日

OpenMLE 提供 gym、RL、Evo 等完整堆疊，不只是一組 benchmark
Frontis-MA1 把 operator learning 同 long-horizon search 接埋，重點在可執行研究循環
公開內容包括模型、任務資料集、SFT traces，同時照顧訓練與評測重現
提供 GGUF 格式在本地執行推理 的衍生版本，方便不同部署路線

項目主頁 · GitHub · 模型

Categories: 開源, Agentic, 模型, Dataset 數據集, 清華大學

VideoCoCo 先用代碼演物理再出片

2026 年 8 月 1 日

一段影片要做到「似真」並不只靠畫面細緻，動作因果同物理變化站唔站得住腳更關鍵。VideoCoCo屬於視頻生成管線，處理的正是這個問題：先用 code as a chain-of-thought 寫出物理草稿，再把中性白模影片轉成寫實結果，減少模型直接由像素猜測運動時常見的失真。

VideoCoCo 不是一步生成最終影片，而是先由 code agent 產生 Blender 可執行模擬，輸出灰白、近似 clay render 的 proxy video，讓形狀、透明度、變形、遮擋與運動先承載物理意義，之後再檢查這段草稿是否符合 physical plan，最後才用編輯指令把 proxy restyle 成 photorealistic video。這種雙階段流程換來較強的可控性，但也代表整體鏈路比單段式生成更長，對中間草稿品質有依賴。

目前 GitHub 已放出五個 Agent Skills、batch inference 腳本、對上游 OmniWeaving 的 patch，以及 Hugging Face 上的 tuned transformer；另有 8 組 hand-checked 的 video-to-video triplets 可用來理解資料格式與輸入輸出關係。README 停在 Inference 章節開頭，未見完整安裝與執行細節，所以現階段較適合把它視為可檢查流程設計與推理組件的研究型項目，而不是即裝即用的成品。

先做物理草稿，再做寫實化，把運動因果同畫面風格拆開處理
以 Blender 可執行代碼承載 process-level CoT，重點不在文字解釋，而在可驗證的模擬結果
toy dataset 只有 8 個案例，涵蓋 buoyancy、melting、surface tension、boiling 等現象，較像格式樣本
已提供 tuned transformer、inference 腳本與 OmniWeaving patch，但公開資訊未足以完整重建部署流程

受益最大的會是研究 Agentic video generation、多步驟 controllable generation，或者想把物理先驗帶入視頻模型工作流的團隊。現有資料未見完整量化指標或大規模評測結果，優勢主要來自方法設計與中介表示的可檢查性；想判斷生成穩定度與泛化能力，仍要等更完整實驗或自行測試。

項目主頁 · GitHub

Categories: 開源, Agentic, Video, 視頻模型, Dataset 數據集, Skill 技能

RefCaptioner：參考圖綁定對應影片字幕

2026 年 8 月 1 日

RefCaptioner grounds local caption phrases to relevant reference images while rejecting distractors.

做影片描述時，最易出錯唔係句子寫得唔夠長，而係講到某個人、物件或角度時，無法交代文字究竟對應邊張參考圖。RefCaptioner屬於影片字幕生成模型項目，集中處理 multi-reference image-grounded video captioning：一邊保留細節與事實準確度，一邊將局部描述同候選參考圖明確綁定。

RefCaptioner 不只是把所有參考圖塞入輸出，而係會挑選真正有用的圖，將對應片語加上 <Image_N> 標籤，遇到同一主體的不同視角又會做分組，影片根本無出現的內容就直接略過。呢種設計減少錯配同誤導，比起只追求流暢字幕，更著重可核對性。

技術上，RefCaptioner用兩段式 post-training。先以 capability-preserving SFT 學會 grounded caption 格式，同時盡量保留一般 captioning 能力；之後再用 Hierarchical Coverage-Discounted GRPO（HCD-GRPO）同時優化 factual-caption 分支與 multi-reference grounding 分支，並加入 deterministic guards，避免產生格式錯誤或指向不存在圖片的標籤。

提供官方 inference pipeline、SFT 資料準備、HCD-GRPO 訓練同 MRVBench evaluation pipeline
已公開論文與模型權重，亦有 Data Format、Training、Evaluation 文件可跟進
環境分成主環境與 GRPO 專用 veRL/vLLM 環境，代表訓練流程較完整但配置亦較講究
適合做影片理解、資料標註、多鏡頭人物敘述同需要檢查圖文對應的研究團隊

部署與測試：推理、SFT、評估共用主環境，GRPO 另設一套環境，並且要對指定 veRL 版本套用 patch，反映佢較偏研究型工作流，而唔係下載即用的小工具。效能數字在提供的內容未見完整展開，但既然已附 MRVBench evaluation pipeline，至少表示作者有把「字幕寫得對」同「圖文對得準」分開檢驗，較適合重視可解釋輸出的團隊採用。

GitHub · 模型

Categories: 開源, Agentic, Video, Image, 影像模型, 模型, 模型訓練

Page 1 of 66

1 2 3 … 66 Next »