工具 – InferNews

DeepSeek-V4-Flash 公測版重點更新

2026 年 7 月 31 日

想用同一個 API 入口處理寫碼、自動化操作同工具調用，2026-07-31 呢次更新最值得留意。DeepSeek-V4-Flash 正式版已經開放 API 公測，調用方式維持不變，只要把模型名稱設為 deepseek-v4-flash，就可以切換到最新版本，對現有接入項目來講改動相對少。

今次更新的重點唔係介面改版，而係 Agent 能力明顯加強。官方列出的 Terminal Bench 2.1、NL2Repo、Cybergym、DeepSWE、Toolathlon verified 同 Automation Bench (Public) 等基準分數，都指向同一件事：V4-Flash 針對 Coding Agent、終端操作、工具使用同全棧開發場景做咗強化，而且公開測試成績已經高過 V4-Pro-Preview。

技術上，DeepSeek-V4-Flash-0731 的模型結構、尺寸都同 DeepSeek-V4-Flash-Preview 一致，更新集中在後訓練，意味住提升主要來自調整模型行為，而唔係換咗一個更大架構。它同時原生支援 Responses API 格式，亦有針對 Codex 做適配，對已經圍繞 API 建立 Agent 工作流的團隊會更易接入。

幾個重點可以直接整理如下：
– deepseek-v4-flash 已可直接使用正式版 API 公測
– API 調用方式不變，現有項目遷移成本較低
– Agent 能力是今次更新核心，涵蓋 coding、terminal 同 tool use
– Responses API 已原生支援，並針對 Codex 做咗適配
– 今次只更新 V4-Flash API，DeepSeek-V4-Pro API 以及 APP/WEB 端模型未有改動

使用上亦要留意邊界。現有資料有提供模型名、相容格式同基準測試結果，但未見更完整的安裝步驟、下載方式或者端到端接入流程；另外，官方亦講明今次並未更新 DeepSeek-V4-Pro API。對想盡快把 Agent 能力接入現有產品的人，V4-Flash 呢次公測比較像一次低改動、偏向工作流升級的更新。

項目主頁

Categories: DeepSeek, Agentic, API, 工具, Vibe Coding, 模型, 編程

Gemini Spark 登陸香港：AI 代你長時間跟進工作

2026 年 7 月 29 日

最易理解 Gemini Spark 的方式，是把它看成一個會在背景持續運作的 Agentic AI 助手：你先交代目標，它再慢慢把零散工序接起來，處理那些花時間、又不想不停重複提示的工作。Google 已在香港推出這項服務，定位很清楚，就是幫用家把日常行政與資料整理自動化。

它接上的重點，不是單次問答，而是整段工作流。Gemini Spark 運行於 Google 的雲端基礎設施，能原生連接 Workspace 工具，例如 Gmail 和 Docs，毋須另外設定，就可以整理混亂的電郵往來、彙整行業消息、從舊文件抽資料做後續安排，甚至進行網上資料搜集、比較選項與完成預訂。

Google 提到，系統以 tasks、custom skills 和 schedules 這類機制去安排工作，讓用家用自然語言交代規則、例行事項與時間觸發條件，毋須寫程式。另一個分別在於，它不會因為你闔上手提電腦或鎖上手機就停下來，背景流程仍可繼續運作，較適合需要長時間跟進的文書與研究工作。

支援背景持續執行，不用反覆重新提示
可原生連接 Gmail、Docs 等 Workspace 工具
能處理資訊整理、排程準備、網上研究與預訂類工作
高風險動作前會先要求明確同意

控制權仍然留在用家手上。Google 表示，Gemini Spark 會按照用家指示運作，用家可決定何時啟用，以及容許它接觸哪些應用程式；遇到交易或發送電郵等高風險操作，系統亦會先徵求明確授權。現時香港由 Google AI Ultra 訂閱用家率先使用，Google AI Pro 用家的開放時間會在未來數星期逐步擴展。

項目主頁

Categories: 香港, Google, Gemini, Agentic, 工具, 提示詞, 編程, 框架, Skill 技能

OpenWorker – Andrew Ng 開發桌面 AI 龍蝦

2026 年 7 月 26 日

對好多打工仔嚟講，最大嘅困擾唔係 AI 唔夠聰明，而係佢只識得「答問題」而唔識得「做完件事」。OpenWorker 嘅切入點正正喺呢度：佢定位係一個會跑喺你電腦上面嘅 AI 同事，可以幫你整理 calendar、寫 follow-up email、甚至自動出一份 customer brief，最後畀你一份可以直接開嚟用嘅文件，唔係一串對話。

OpenWorker 由 Andrew Ng（吳恩達）相關團隊推出，引擎建基於佢哋自己開發嘅 Python 開源庫 aisuite，呢個庫提供統一嘅 chat-completions API 以及支援工具調用（tool calling）、MCP 等功能。簡單講，OpenWorker 唔係從零寫起嘅 wrapper，而係將 aisuite 包成一個真正面向桌面用戶嘅應用，並且喺原本 aisuite 倉庫入面開發咗一段時間之後，先搬出嚟獨立成 repo。

目前支援 macOS（Apple Silicon）以及 Windows 10/11，用家可以貼上自己嘅 API key 去用 OpenAI、Anthropic、Google Gemini、DeepSeek、Kimi、Qwen、Mistral 等模型，亦可以經 Ollama 完全本地跑開源模型。所有嘢都喺本機行，只有用家授權嘅 model call 或者連接工具先會接觸到網絡。對於注重私隱或者公司政策唔畀數據出 cloud 嘅人，呢個係一個幾實際嘅選擇。

OPENWORKER: The Free AI Desktop Agent That Isn't Locked to One Model

Watch this video on YouTube

佢亦內建 25+ 個整合，包括 GitHub、Slack、Jira、Notion、Linear、HubSpot、Outlook、Gmail、Google Calendar 等，亦支援任何可以經 MCP（Model Context Protocol）接駁到嘅工具。最令筆者欣賞嘅係佢嘅審批機制：寫訊息、發送郵件、執行 shell 指令呢類「對外有影響」嘅動作，全部都要先經你確認先至會執行，唔會自己靜靜雞撳掣。

以下係幾個用家會比較關心嘅重點：

定位係桌面 AI 同事，目標係交到「成品」而唔止係聊天回覆，例如 HTML brief、Markdown 報告、排好嘅 calendar 更新等。
完全開源、MIT 授權，由 Andrew Ng 團隊開發，引擎建基於佢哋嘅 aisuite 開源庫。
模型自選，支援多間主流 cloud provider，亦可以經 Ollama 完全本地執行開源模型。
重視私隱，對話、token、API key 都儲喺本機 secret store，唔需要登入亦可以用。
MCP + 審批機制，所有對外動作（發訊息、執行指令）都會先問過你先做，減低「AI 自行撳掣」嘅風險。

如果你係一個人或者小型團隊，想搵一個可以幫你「跑手」而唔係淨係「傾偈」嘅 AI 工具，又唔想將公司敏感資料送去閉源服務，OpenWorker 算係一個值得試嘅選擇。佢而家仲喺 open beta，官方表示會自動更新、不斷執吓啲 bugs，畀用家提交 issue。適合想認真將 AI 融入日常工作流、對私隱同可控性有要求嘅人。

項目主頁 · GitHub

Categories: 開源, Qwen, Google, Gemini, DeepSeek, OpenAI, API, MCP, 工具, Mac, Ollama, Python, Anthropic, 蘋果, Kimi

Film space：用 iPhone 走出 AI 鏡頭路徑

2026 年 7 月 18 日

拍 AI 風格化影片時，最難控制的往往唔係畫風，而係鏡頭點樣郁、人物點樣企。Film space 把呢個問題拆得幾務實：它屬於 3D 預演工具，用 iPhone ARKit 把你真實行走時的裝置移動，轉成可錄製的虛擬鏡頭路徑，之後再交畀 Seedance 2.0 呢類工具做 AI style transfer 參考。

它的定位唔係直接生成影片，也唔係完整剪接系統，而係補上 AI video workflow 入面最易失真的一段：先用虛擬 studio 做 blocking，再用手機走一次鏡頭。相比純文字提示詞或者只靠模型自己猜運鏡，Film space 換來的是更清楚的鏡頭方向感；代價是你需要親身拿住 iPhone 進行錄製，而且目前明顯偏向單機、裝置端流程。

部署方式：整個流程在裝置上完成，建議橫向畫面使用，錄好的片段會存入相簿，再帶去後續生成工具。場景編排包括棋盤地板、格線、座標軸，亦可加入 human stand-ins 來模擬人物站位；去到 Camera mode，手機的移動、轉向與傾斜會直接變成鏡頭運動，配合 35mm、50mm、75mm、200mm 焦段預覽，對做分鏡、音樂錄像、短片測鏡頭的人尤其有幫助。

把 blocking、走位同運鏡參考集中在同一個 iPhone 流程處理
重點唔在生成畫面，而在為 Seedance 2.0 等模型提供更穩定的鏡頭參考
以 ARKit 驅動 Camera mode，保留真人手持鏡頭的節奏感
有基本 lens simulation 同 stand-ins，足夠做前期預演，但未見到進階場景製作能力

效能數據同正式 benchmark 目前未有公開，因此較難量化追蹤精度或錄製穩定性；現有資訊較能確認的是工作流設計，而唔係模型級指標。Film space 最適合用來做前期測試、概念驗證同低成本鏡頭預演，尤其當你想保留真人運鏡感，但又準備把最終畫面交畀 AI 重新風格化，這個項目的價值就會幾明顯。

GitHub

Categories: 開源, Video, 工具, 3D, AI productions, Dataset 數據集

KeyFrame-Compass：關鍵幀尺度評測

2026 年 7 月 17 日

KeyFrame-Compass benchmark domains and examples

KeyFrame-Compass 是一個用來評測 keyframe-conditioned video generation 的基準項目，重點在於檢查模型能否同時跟住文字提示同一組按順序排列的 keyframes 生成影片。對做影片生成的人來說，這類測試最有價值的地方，是它不只看成片好不好看，還會追問畫面有沒有真係按要求出現、順序有沒有走樣。

這個項目把評測拆成兩層：一層看 keyframe execution，包括關鍵畫面存在、視覺還原、時間順序、定位、持續性同回應唯一性；另一層看 overall video quality，會用 evidence-grounded MLLM（Multimodal Large Language Model, MLLM）判斷，加上專門的感知模型去量度視覺質素、時間連貫性、指令遵從同音訊表現。這種分法比單純比對整體分數更清楚，因為它能分辨出模型係「畫得靚」定「跟得準」。

官方提供 386 個案例，涵蓋三個應用領域，亦分有 multi-shot 同 one-take 片段，配合四種 keyframe 密度。安裝上需要 Linux、Conda 或 Mamba、NVIDIA GPU，同埋可用的 VLM API；倉庫亦提供 envs、assets 同 all 三種設定模式，方便只建環境、只拉資產，或者一次過做完整驗證。

把影片生成的「跟畫面」同「成片質感」分開量度，結果較容易解讀
支援不同 keyframe 密度，較適合比較模型對控制力的穩定度
適合做影片生成模型、研究原型或產品 demo 的質量驗證
需要 GPU 同外部 VLM API，部署門檻唔算低
相關模型類別可歸到 Video、視覺模型、多模態模型、模型、工具

GitHub

Categories: 開源, Gemini, NVIDIA, API, Video, 工具, Linux, 多模態模型, 模型, 視覺模型, 視頻模型

KnowAct-GUIClaw 跨平台 GUI 代理

2026 年 7 月 17 日

要代理跨桌面、Android、iOS 同 HarmonyOS 幫你做事，最易失手的位通常唔係單一步驟，而係多個 App 之間點樣接續執行。KnowAct-GUIClaw屬於 Agentic 自動化框架／工具，核心處理的是長流程 GUI automation：由理解意圖、揀路徑、執行操作，到把經驗寫回記憶與技能庫，令之後的任務唔使每次由零開始。

同類 GUI agent 常見做法，是把畫面理解同動作決策綁成單次 observe-reason-act 迴圈；作者認為這種固定範式一遇上跨 App、跨系統流程，就容易缺少任務分解、歷史經驗同可重用技能。KnowAct-GUIClaw改用 Know–Route–Act–Reflect，前面先整理證據與路由，後面再把軌跡蒸餾成 memory 同 skills，取向明顯偏向「愈用愈熟手」而唔係單次回答最聰明。

部署上有兩條路：一條是完整 host，配合 nanobot webui、gateway 同 agent 去跑；另一條是獨立 guiclaw 工具，讓其他 host、腳本或終端直接調用。GUI automation 會改變裝置狀態，驗證任務應先用 dry-run，同時用測試裝置或測試帳號，這點對企業內部流程、自動測試、數碼助理場景尤其重要。

支援 desktop、Android、iOS、HarmonyOS，重點係跨平台一致流程
以 memory store 同 skill store 補強長流程任務，而唔只靠即場推理
在 MobileWorld benchmark 取得 64.1%，頁面稱超過多個 open agent frameworks 及部分 closed agents
對不同底模有泛化效果：Kimi-2.6 提升 8.5%，Qwen3.5-35B-A3B 提升 16.2%

受惠最大的，會是要處理重複 GUI 流程的團隊，例如行動裝置測試、跨 App 任務編排、個人助理型代理開發。不過它的價值未必只在榜單，而係把 GUI agent 從「會操作畫面」推向「會累積經驗再操作畫面」。

項目主頁 · GitHub · Paper

Categories: 開源, Agentic, 工具, Dataset 數據集, Skill 技能

audio.cpp-webui：本地音訊 AI 一站式介面

2026 年 7 月 13 日

要同一部電腦處理 TTS、voice cloning、ASR 同音訊增強，最大阻力往往唔係模型本身，而係部署鏈太散。audio.cpp-webui 把這件事收斂成一個偏向本地部署的音訊推理框架＋WebUI 工具：核心沿用上游 0xShug0/audio.cpp，以 C++ 配合 ggml 執行，這個分支再補上完整任務介面同較友善的 Windows 啟動方式。

它的定位幾清楚：唔係只做單一模型展示，而係想用同一套 runtime 接住多類音訊工作流。你會見到它涵蓋 TTS、voice conversion、ASR、diarization、VAD、source separation，連 denoise、resampling、STFT/ISTFT 都內建，較接近「把多個音訊 AI 能力放入同一個本地工作台」，而唔係逐個 Python 項目分開跑。

本地语音 AI 终于统一了！实时对话、声音克隆、AI 翻唱8G 显存全跑通｜audio.cpp｜整合包

Watch this video on YouTube

跟常見 Python 參考路徑相比，這個項目的取向是用原生執行環境換取更穩定的部署體驗同速度，代價是功能節奏仍然受上游整合進度影響，而且部分高階流程像 JSON pipeline 仍屬 experimental。效能數字是它最值得留意的一環：多條 TTS 路徑在 CUDA 上可比 Python reference paths 快 1.8x 至 5.0x，端到端延遲可降低 45% 至 80%；README 亦列出 VibeVoice 1.5B 能在 18.2 分鐘生成 93.9 分鐘 podcast。

可用 webui.bat 啟動 Gradio WebUI，本地網址是 http://127.0.0.1:7860
支援按需載入模型、模型切換、下載模型、上傳或錄製 reference voice
內建進階參數控制，同頁可見執行狀態與錯誤訊息
較適合想在 Windows 或本地 CUDA 環境整合多種音訊任務的人員與小團隊

相關模型與路線目前集中在多種本地音訊模型家族，文中點名 VibeVoice 1.5B，整體則圍繞現代 audio models 的統一推理。對內容製作、語音原型、內部工具驗證，甚至要把多步驟流程包成固定操作的人來說，它補上的並非新奇功能，而是把本來零散的模型執行方式整理成較可重用、較易維護的本地項目基礎。

GitHub

Categories: 開源, NVIDIA, 文字轉語音, Audio, 工具, Clone, Python, 語音

Qwen-Image-Bench：難分高下的是細節

2026 年 7 月 9 日

Qwen-Image-Bench dimension framework and representative model outputs

只看一張圖夠唔夠靚，已經不足以判斷 text-to-image (T2I) 模型值唔值得放入創作流程。Qwen-Image-Bench 把焦點放到更貼近創作工作的檢查方式：它屬於評測工具包，同時連同 benchmark dataset 同 judge model，一併處理生成圖像模型難以客觀比較的問題。

這個項目的可取之處，在於它唔係只計語意對齊或整體畫質，而是用 fine-tuned 的 Q-Judger（Qwen3.6-27B）按 5 個階層維度評分，包括 Quality、Aesthetics、Alignment、Real-world Fidelity、Creative Generation，並細分到 56 個 facets。對做品牌視覺、遊戲美術、漫畫分鏡或者要處理文字渲染的人來說，呢種拆法比單一總分更有參考價值，因為你會直接見到模型係構圖、真實感、創意約束，定係文字生成出問題。

部署理解上，它唔係即開即用的網頁服務，而是偏研究與團隊驗證流程的 Python 工具。你要準備好虛擬環境、PyTorch，同埋包含 prompt、image_path、ID 的 CSV／JSON／JSONL 輸入，再透過 judge.py 跑 Qwen/Qwen-Image-Bench；另一條路線是直接用已公開的 benchmark responses 重現排行榜分數。底層推理沿用 ms-swift，跟釋出 benchmark 結果時的設定一致，這點有助減少評測流程前後不一。

支援替任何 T2I 模型打分，較適合做橫向比較
分數結構比一般 benchmark 細，方便定位失誤位置
可重現公開資料集結果，適合研究或團隊內部驗證
使用門檻偏技術向，需要本地推理環境與整理輸入格式

它的取向也很清楚：重點不是提供生成能力，而是提供一把較細緻的尺。代價是評測仍依賴 judge model，本身並不是人手審稿，也未必完全等同最終用戶審美；但對需要批量比較模型、整理回歸測試、追蹤版本變化的團隊，這種一致而可重跑的框架反而更實用。相關模型與資源包括 Q-Judger（Qwen3.6-27B）、Hugging Face 上的 Qwen/Qwen-Image-Bench，以及配套 benchmark dataset。

項目主頁 · GitHub

Categories: 開源, 阿里巴巴, Qwen, Image, 工具, Python, txt2img, Dataset 數據集

OmniRoute：免費 AI 路由閘道值唔值得用

2026 年 7 月 9 日

寫程式最怕做到一半先撞到配額上限，或者工具只綁死某一個模型。OmniRoute 把自己放在 AI gateway 呢個位置，直接處理多個 AI coding 工具同多個模型供應商之間的路由問題，重點唔係再造一個聊天介面，而係幫你維持請求可用、控制成本，並用 auto-fallback 減少中斷。

同類做法通常會主打單一 API 聚合，OmniRoute 的取向明顯更偏向「免費額度整合 + 路由策略 + 壓縮節流」。它聲稱可接到 237 個 providers，當中 90+ 提供 free tiers，並以 RTK + Caveman compression 把 token 消耗壓低 15% 至 95%。呢個方向的好處係對長提示、程式碼上下文同重複輸出較有幫助，但壓縮始終係取捨，所以它加咗 inflation guard，遇到壓縮後反而變長，就會送回原文。

OmniRoute + OpenCode: 100% Free AI Coding Setup, Free AI Gateway

Watch this video on YouTube

New FREE Unlimited AI Coder | OmniRoute

Watch this video on YouTube

你可以把它理解成放在 Claude Code、Codex、Cursor、Cline、Copilot、Antigravity 後面的中介層。部署後，工具經同一個 endpoint 出請求，再由 OmniRoute 分配到 Claude、GPT、Gemini 及其他供應商；README 也提到每個模型會列出本月已用與剩餘額度，並標示 provider terms，這點對團隊控管比較有用。

幾個值得留意的重點：
– 定位屬於工具 / 閘道型軟件，解決的是多模型切換、免費額度整合同配額中斷
– 支援 Claude Code、Codex、Cursor、Cline、Copilot、Antigravity，適合多工具並行的開發流程
– 以 documented free tokens/month 作招徠，現有資料提到穩定約 1.6B，首月可到 2.1B
– 內建 17 routing strategies，並加入 auto-fallback，減少單一 provider 失效帶來的停頓
– 壓縮模組已針對 German、French、Japanese、Chinese，以及 Gradle、.NET 輸出做過強化

受益最大的一般會係重度依賴 AI 編碼助手的個人開發者、細團隊，同想把成本壓到最低的實驗性項目。要留意的是，免費池本身受各 provider 條款影響，OmniRoute 雖然強調統計方式較透明，但效能與穩定性仍然建基於外部服務；它較像一個把資源調度做得更聰明的控制層，而唔係保證品質一致的模型平台。

GitHub

Categories: 開源, 微軟, Gemini, API, 工具, IDE, Vibe Coding, 編程, Anthropic

TasteGap：量度人類與 LLM 的 Research Taste

2026 年 7 月 7 日

TasteGap 是一個研究評測工具與研究原型，核心工作是比較人類研究者與 Large Language Models（LLMs）生成研究構思之間的差距。它並非處理單篇提案好唔好，而是同一批文獻背景下，人類與模型會傾向提出邊類動機、邊類方法，從而量度所謂 research taste。

現有做法多數用 novelty、feasibility 或專家偏好去評分單個 idea，作者認為呢種固定範式只能判斷「像不像好主意」，但未必見到分佈偏差。TasteGap 改用 shared literature context：先從高質論文反推一組可能啟發該論文的 related works，再要求 LLM 從相同材料生成新 idea，之後用 two-axis research-taste taxonomy，分別標註 motivation 同 method，對比 human ideas 與 LLM ideas 的整體分佈。

GitHub 儲存庫目前提供 evaluation code，而唔係完整訓練框架。安裝理解上相當直接：準備 Python 依賴、設定 config.json 內的 generation 與 labeling 模型、填入 OpenAI 或兼容 API 端點，再用 JSONL 輸入跑 generate_ideas.py 同 label_research_taste.py；要重現完整資料，則需另外下載 Hugging Face 上的 IdeaSeed。輸入記錄包含 paper title、URL、domain、related works，以及人類參考 proposal 的 motivation 同 method，代表這個項目設計重點是可重跑比較，而唔係單次展示結果。

作者提出的主要判斷幾清楚：不同 LLM 生成的 idea sets 都出現一致 distributional gap。LLM ideas 較集中在 bridge-like opportunities 同 synthesis methods，人類論文參考分佈就覆蓋更廣，表示模型可以提出合理點子，但研究取向仍然較窄，亦有系統性偏移。

不是一般 brainstorming 工具，而是用來量度 ideation 分佈差異的評測項目
保留 human ideation 與 LLM ideation 在相同文獻脈絡下的可比較性
研究口味以 motivation 與 method 兩條軸線標註，分析角度比單純打分更細
GitHub 內容偏向生成與標註流程，完整資料需配合 IdeaSeed dataset
適合做 AI for science、LLM ideation、科研流程研究的團隊作內部基準

TasteGap 沒有綁定相關模型，只要求在 generation 與 labeling 填入可用模型，並支援 OpenAI-compatible endpoint。這種設計方便團隊橫向比較不同 LLM，但現階段儲存庫未提供完整效能表或基準腳本整理頁，因此不算是交付即用型產品。

GitHub · Paper

Categories: 開源, Gemini, OpenAI, API, 工具, Python, 模型, Anthropic, Dataset 數據集

Page 1 of 13

1 2 3 … 13 Next »