軟件 – Page 2 – InferNews

KeyFrame-Compass：關鍵幀尺度評測

2026 年 7 月 17 日

KeyFrame-Compass benchmark domains and examples

KeyFrame-Compass 是一個用來評測 keyframe-conditioned video generation 的基準項目，重點在於檢查模型能否同時跟住文字提示同一組按順序排列的 keyframes 生成影片。對做影片生成的人來說，這類測試最有價值的地方，是它不只看成片好不好看，還會追問畫面有沒有真係按要求出現、順序有沒有走樣。

這個項目把評測拆成兩層：一層看 keyframe execution，包括關鍵畫面存在、視覺還原、時間順序、定位、持續性同回應唯一性；另一層看 overall video quality，會用 evidence-grounded MLLM（Multimodal Large Language Model, MLLM）判斷，加上專門的感知模型去量度視覺質素、時間連貫性、指令遵從同音訊表現。這種分法比單純比對整體分數更清楚，因為它能分辨出模型係「畫得靚」定「跟得準」。

官方提供 386 個案例，涵蓋三個應用領域，亦分有 multi-shot 同 one-take 片段，配合四種 keyframe 密度。安裝上需要 Linux、Conda 或 Mamba、NVIDIA GPU，同埋可用的 VLM API；倉庫亦提供 envs、assets 同 all 三種設定模式，方便只建環境、只拉資產，或者一次過做完整驗證。

把影片生成的「跟畫面」同「成片質感」分開量度，結果較容易解讀
支援不同 keyframe 密度，較適合比較模型對控制力的穩定度
適合做影片生成模型、研究原型或產品 demo 的質量驗證
需要 GPU 同外部 VLM API，部署門檻唔算低
相關模型類別可歸到 Video、視覺模型、多模態模型、模型、工具

GitHub

Categories: 開源, Gemini, NVIDIA, API, Video, 工具, Linux, 多模態模型, 模型, 視覺模型, 視頻模型

KnowAct-GUIClaw 跨平台 GUI 代理

2026 年 7 月 17 日

要代理跨桌面、Android、iOS 同 HarmonyOS 幫你做事，最易失手的位通常唔係單一步驟，而係多個 App 之間點樣接續執行。KnowAct-GUIClaw屬於 Agentic 自動化框架／工具，核心處理的是長流程 GUI automation：由理解意圖、揀路徑、執行操作，到把經驗寫回記憶與技能庫，令之後的任務唔使每次由零開始。

同類 GUI agent 常見做法，是把畫面理解同動作決策綁成單次 observe-reason-act 迴圈；作者認為這種固定範式一遇上跨 App、跨系統流程，就容易缺少任務分解、歷史經驗同可重用技能。KnowAct-GUIClaw改用 Know–Route–Act–Reflect，前面先整理證據與路由，後面再把軌跡蒸餾成 memory 同 skills，取向明顯偏向「愈用愈熟手」而唔係單次回答最聰明。

部署上有兩條路：一條是完整 host，配合 nanobot webui、gateway 同 agent 去跑；另一條是獨立 guiclaw 工具，讓其他 host、腳本或終端直接調用。GUI automation 會改變裝置狀態，驗證任務應先用 dry-run，同時用測試裝置或測試帳號，這點對企業內部流程、自動測試、數碼助理場景尤其重要。

支援 desktop、Android、iOS、HarmonyOS，重點係跨平台一致流程
以 memory store 同 skill store 補強長流程任務，而唔只靠即場推理
在 MobileWorld benchmark 取得 64.1%，頁面稱超過多個 open agent frameworks 及部分 closed agents
對不同底模有泛化效果：Kimi-2.6 提升 8.5%，Qwen3.5-35B-A3B 提升 16.2%

受惠最大的，會是要處理重複 GUI 流程的團隊，例如行動裝置測試、跨 App 任務編排、個人助理型代理開發。不過它的價值未必只在榜單，而係把 GUI agent 從「會操作畫面」推向「會累積經驗再操作畫面」。

項目主頁 · GitHub · Paper

Categories: 開源, Agentic, 工具, Skill 技能, Dataset 數據集

[技術文章] Xiaomi-Robotics-U0 小米用世界模型打通機械人

2026 年 7 月 15 日

當世界模型式的影像與影片生成能力要落到機械人場景，難題唔止係出圖或出片，而係同一個場景喺多個視角下都要合理，物件幾何要一致，仲要符合唔同 robot embodiment 嘅操作限制。

Xiaomi-Robotics-U0 屬於 world foundation model 路線，針對的正是這類 embodied synthesis 工作：一邊保留大型 image and video generation model 已學到的視覺知識，一邊補上機械人資料需要的可控性與一致性。

常見做法通常係用有限的機械人資料去微調 foundation model，但作者認為呢種範式容易犧牲大規模預訓練帶來的泛化能力。Xiaomi-Robotics-U0 改用 unified embodied synthesis 設計，把 text-to-image generation、image editing、embodied scene generation、embodied transfer 同 embodied video generation 放入同一個 38-billion-parameter multimodal autoregressive model 聯合優化，將 embodied generation 視為 foundation image and video generation 的延伸，而唔係另一條割裂的任務線。

呢個項目最有用的地方，在於它不只生成好看的資料，而是生成可拿來支援機械人學習的資料。文中提到它首次支援跨多種 robot embodiments 的高品質 multi-view scene generation，亦加入 structured、controllable embodied transfer，做細緻編輯時仍可保留 multi-view consistency 同 interaction dynamics，對要做模擬資料擴增、場景改寫、操作軌跡配套生成的工作流幫助較大。

聯合處理多種任務，減少每個場景各自做模型適配的割裂流程
核心差異在於保住 pre-trained world foundation model 的泛化，同時加入 embodied constraints
支援 multi-view scene generation 與 embodied transfer，重點放在幾何一致性與互動連貫性
生成結果可作為 scalable data engine，服務後續 policy training

效能上，Xiaomi-Robotics-U0 在 single-step 與 sequential generation 任務都做到 state-of-the-art，human evaluations 中於 embodied scene generation 同 transfer 超過 GPT-Image-2.0，embodied video generation 在 World Arena 排名第一。更實際的指標來自真實操作任務：它把 π 0.5 \pi_{0.5} 在 out-of-distribution 情況下的 success rate 由 36.9% 提升到 63.2%，說明這類 world model 不只是內容生成工具，亦開始成為 embodied intelligence 的資料引擎。

文中亦提到完整流程涵蓋 dataset curation、unified annotation pipeline、single-step training、sequential training，以及配合 FlashAR 與 vLLM Integration 的 inference 設計。整體訊息很清楚：作者想證明 foundation world models 可以同時扮演 embodied world models 與合成資料基建，讓機械人訓練不再只依賴昂貴而稀缺的真人示範。

Paper

Categories: Video, Image, 軟件, txt2img, 多模態模型, 影像模型, 模型, 模型訓練, 視頻模型, Robotic, 世界模型, 小米-Xiaomi, Dataset 數據集

ReChannel：用生成模型做密集預測

2026 年 7 月 14 日

一張 RGB 圖像想同時拿到深度、surface normal、matting 同 referring segmentation，通常意味住要換幾套模型；ReChannel偏偏反其道而行，將預訓練 text-to-image DiT 的空間 token 直接改作密集預測讀出。這不是完整訓練流程釋出，而是偏向 inference／質性展示的 GitHub 項目，定位很清楚：展示 FLUX-Klein 骨幹除咗生圖，亦可以做 pixel-space dense prediction。

它的類型更接近研究型模型讀出方法＋推理示範工具，實際解決的是「可否沿用生成模型已有的空間表示，避免為每個密集任務重建一套重型解碼器」。做法上，骨幹維持 frozen，只為每個任務加 LoRA，再配一個 token-local linear head；標量任務頭部大約 33K 參數，surface normals 約 99K，沒有 convolution、沒有 upsampling，也沒有 target-side VAE decoder。

同類方法很多會把功夫放在額外解碼器或多尺度結構，ReChannel的取向剛好相反：盡量把空間結構留在 DiT token field 內，最後只做通道重映射。這種設計夠輕，但取捨亦直接，現有儲存庫沒有完整 benchmark pipeline，姿態估計亦未放入最小示範，所以更適合用來理解方法潛力，而非直接拿來做嚴格橫向比較。

支援單張圖片推理，可輸出 depth、normal、matting、refseg，refseg 需要輸入文字描述
依賴 CUDA GPU，首次執行會自動下載 black-forest-labs/FLUX.2-klein-base-4B 與對應 LoRA、線性頭權重
depth、normal、matting 會保留長寬比並可用 horizontal-flip TTA；refseg 固定在 512² 單次前向
已公開的是 demo/inference 版本，不是論文表格所用的完整評測流程

受益最大的人，會是研究 dense prediction、生成模型再利用、或者想測試 LoRA 能否把同一骨幹轉成多任務視覺讀出的團隊。相關模型核心是 black-forest-labs/FLUX.2-klein-base-4B，再疊加每任務 LoRA adapters；對想研究生成模型表示能否外借到視覺理解工序的人，這個項目相當值得留意。

GitHub

Categories: 開源, 香港科技大學, NVIDIA, Stable Diffusion, Image, txt2img, 影像處理, Dataset 數據集

audio.cpp-webui：本地音訊 AI 一站式介面

2026 年 7 月 13 日

要同一部電腦處理 TTS、voice cloning、ASR 同音訊增強，最大阻力往往唔係模型本身，而係部署鏈太散。audio.cpp-webui 把這件事收斂成一個偏向本地部署的音訊推理框架＋WebUI 工具：核心沿用上游 0xShug0/audio.cpp，以 C++ 配合 ggml 執行，這個分支再補上完整任務介面同較友善的 Windows 啟動方式。

它的定位幾清楚：唔係只做單一模型展示，而係想用同一套 runtime 接住多類音訊工作流。你會見到它涵蓋 TTS、voice conversion、ASR、diarization、VAD、source separation，連 denoise、resampling、STFT/ISTFT 都內建，較接近「把多個音訊 AI 能力放入同一個本地工作台」，而唔係逐個 Python 項目分開跑。

本地语音 AI 终于统一了！实时对话、声音克隆、AI 翻唱8G 显存全跑通｜audio.cpp｜整合包

Watch this video on YouTube

跟常見 Python 參考路徑相比，這個項目的取向是用原生執行環境換取更穩定的部署體驗同速度，代價是功能節奏仍然受上游整合進度影響，而且部分高階流程像 JSON pipeline 仍屬 experimental。效能數字是它最值得留意的一環：多條 TTS 路徑在 CUDA 上可比 Python reference paths 快 1.8x 至 5.0x，端到端延遲可降低 45% 至 80%；README 亦列出 VibeVoice 1.5B 能在 18.2 分鐘生成 93.9 分鐘 podcast。

可用 webui.bat 啟動 Gradio WebUI，本地網址是 http://127.0.0.1:7860
支援按需載入模型、模型切換、下載模型、上傳或錄製 reference voice
內建進階參數控制，同頁可見執行狀態與錯誤訊息
較適合想在 Windows 或本地 CUDA 環境整合多種音訊任務的人員與小團隊

相關模型與路線目前集中在多種本地音訊模型家族，文中點名 VibeVoice 1.5B，整體則圍繞現代 audio models 的統一推理。對內容製作、語音原型、內部工具驗證，甚至要把多步驟流程包成固定操作的人來說，它補上的並非新奇功能，而是把本來零散的模型執行方式整理成較可重用、較易維護的本地項目基礎。

GitHub

Categories: 開源, NVIDIA, 文字轉語音, Audio, 工具, Clone, Python, 語音

Canvas360 把全景生成拉回可用水平

2026 年 7 月 10 日

最值得留意嘅地方，在於佢唔只想生成一張闊圖，而係想處理 360 度全景最常見嘅破綻：左右邊界接唔上、透視變形唔自然、補圖後空間結構散開。Canvas360 屬於影像生成框架，建基於 FLUX，處理嘅係 text-to-panorama image generation，同時延伸到 inpainting、outpainting、editing 同 style transfer 呢類全景工作流。

現有做法多數先把全景當成一般平面圖片生成，再靠後處理減少接縫；作者認為呢種範式忽略咗 panoramic projection 本身嘅幾何特性，所以容易喺邊界、深度關係同局部結構出現錯位。Canvas360 用 two-stage framework 重組呢件事：先做 geometry-aware pretraining，引入 parallel RGB-depth pretraining，再配合 continuous position encoding、circular latent padding 同 per-block feature synchronization，將 360 度連續性直接放入模型學習過程。

同類項目相比，Canvas360 嘅取向唔係單純追求更華麗嘅畫面，而係優先修正全景生成最影響可用性嘅一致性問題。項目亦補上 Canvas360Dataset，提供 1M paired panoramic samples，支援 style transfer、inpainting、outpainting 同 editing，反映作者唔止做單一模型改良，仲想連訓練資料結構一併補強。

核心定位係 FLUX-based framework，主打 text-to-panorama image generation 同全景補全
關鍵方法包括 geometry-aware pretraining、continuous position encoding、circular latent padding
已公開 inference code 同 training code，但 model weights 與 online demo 仍然未釋出
需要 base model black-forest-labs/FLUX.1-dev，並可配合自備 LoRA 跑生成或下游任務
相關比較對象包括 PanFusion、SMGD、PAR、WorldGen、HunyuanWorld、DiT360，以及 FLUX.1-Kontext-dev、FLUX.2-dev、Qwen-Image-Edit

測試同現階段較接近研究型項目而唔係即開即用服務。儲存庫已提供 inference.py 同 inference_downstream.py，代表你可以在本地環境配好 PyTorch、依賴套件、FLUX.1-dev 存取權同 LoRA 後，直接驗證文字生成全景，或者試全景補圖與延展；不過權重未公開，所以現時更適合研究團隊、全景影像工具開發者，或者想研究 360 度生成方法嘅人先行閱讀同跟進。現有介紹強調結果比多個舊方法更少接縫瑕疵、結構更清晰，但儲存庫內容未見完整量化指標表，判斷性能仍要等論文與權重進一步公開後先更穩陣。

項目主頁 · GitHub · Paper

Categories: 開源, 字節跳動, Stable Diffusion, Image, Python, 影像模型, 模型, 模型訓練, 視覺模型, 清華大學, 框架, Dataset 數據集

ARDY 讓 3D 角色動作可即時受控

2026 年 7 月 10 日

一邊輸入文字、一邊指定角色要去邊、幾時抬手或者身體要擺成咩姿勢，系統仍然可以即時生成自然動作；ARDY瞄準的正正是呢種互動式 3D human motion generation 場景。呢類能力對動畫、模擬同 humanoid robotics 都重要，因為傳統離線方法雖然控制精準，但速度未必跟得上互動需求；純即時方法又常常在語意理解、長距離目標同約束服從度上打折扣。

ARDY 採用 autoregressive diffusion model，同時配合 hybrid representation，把角色移動軌跡相關的 root features 同 latent body embedding 結合。咁樣做的用意很直接：一方面保留對路徑與朝向的明確控制，另一方面維持生成模型學習複雜全身動作時的效率與彈性。配合 two-stage autoregressive transformer denoiser，同一套框架可以處理 online text prompting，亦能接住較長時間範圍的 kinematic constraints。

它支援的約束方式幾完整，包括 root paths、waypoints、full-body keyframes，以及 sparse joint positions/rotations，亦可混合使用。更重要的是，約束唔一定只限當前生成視窗，較遠將來的目標都可以先講定，令角色更容易朝長程目標連續行動，而唔係每幾步就失去方向。

支援 online text-to-motion generation，可即時改提示詞
可加入 root paths、waypoints、full-body keyframes 同 sparse joint constraints
兼顧即時反應、動作品質同長距離控制
面向動畫、模擬、humanoid robotics 等互動工作流

資料提到，ARDY 以大型 motion capture dataset 訓練，並直接用文字標籤與來自真實姿勢抽樣的 kinematic constraints 作條件，令模型原生學會受控生成。研究團隊亦展示了互動式 demo，涵蓋動態文字控制、關鍵幀約束、路徑跟隨同即時 locomotion control；定位上，它較適合需要邊調邊看結果的內容製作與研究場景。

項目主頁 · 模型

Categories: NVIDIA, Video, 軟件, 3D, Embedding, 動畫, 提示詞, 模型訓練, Robotic, 世界模型, 框架, Dataset 數據集, VLA

AI agents 正接手企業故障追查

2026 年 7 月 9 日

當服務一出問題，最花時間往往唔係修復，而係先搵出 root cause analysis。呢篇內容聚焦企業 observability 點樣由 Generative AI 同 agentic AI 推進，令 AI agents 開始負責調查、整理線索同縮窄問題範圍，減少工程團隊喺大量 telemetry 同 log 之間來回切換。

文章提到，企業採用速度已經相當快，約 85% 組織正使用相關 AI 能力，而 Elastic 亦預期多數企業會喺兩年內，將 root cause analysis 更大程度交畀 AI agents。吸引力唔只在於自動化，而係將原本只有少數資深工程師先能處理的觀察與排障流程，慢慢變成更多團隊都可用的能力。

同常見做法相比，分別在於 AI agents 唔止回應查詢，仲會主動串連資料、追查異常脈絡，並以較接近調查員嘅方式處理 incident。呢種模式有機會改善資料存取門檻過高、工具過多同訊號過散嘅問題，但前提仍然係企業要信任結果，並保留人手覆核關鍵判斷。

重點放在 observability、incident investigation 同 root cause analysis
Generative AI 與 agentic AI 正由輔助查詢走向主動調查
約 85% 組織已採用相關 AI 能力，企業導入已進入加速期
目標係降低排障門檻，令更多團隊可直接理解系統狀態

對平台工程、SRE、DevOps 同需要處理大型分散式系統嘅團隊，呢種方向尤其有用。現階段最值得留意嘅唔係模型規格，而係 AI agents 能否喺真實企業環境中提供可追溯、可驗證、又足夠穩定嘅調查流程，呢點會直接影響大規模 adoption。

項目主頁

Categories: Agentic, 軟件, 中國

GitHub 規則集新增審核撤銷權限控制

2026 年 7 月 9 日

當團隊依賴 pull request 審核去把關程式碼質素時，最怕唔係冇人批核，而係批核已經完成後，任何唔合適嘅人都可以把審核撤銷。GitHub 今次更新屬於 repository rulesets 功能強化，處理嘅正正係合併前權限邊界唔夠細緻呢個問題。

新設定放入 Require a pull request before merging 規則之中，管理者可以直接指定邊啲 users、teams 同 apps 能夠 dismiss reviews。對比以往較寬鬆或者分散嘅管控方式，呢種做法將審核撤銷權限收返去規則集內統一管理，分支保護流程會更清晰。

重點整理：
– 可限制特定 users、teams、apps 撤銷 pull request reviews
– 設定位置已整合到 repository rulesets 既有審核規則內
– 可透過 UI、REST API 同 GraphQL 配置
– 功能已經 generally available，適用於 github.com 上嘅 repository rulesets

呢個更新最適合有多人協作、需要明確審批責任，或者要配合內部治理要求嘅開發團隊。Rulesets 本身已經係 GitHub 建議用來保護 branches 嘅方式，而家再加上審核撤銷限制，等項目喺合併前多一層可追蹤、可控嘅流程保護。

使用上做法唔複雜，只要打開 repository-level ruleset，啟用 Require a pull request before merging，再選擇 Restrict who can dismiss reviews 就可以。呢類更新唔係花巧功能，而係直接改善日常協作入面最常見嘅權限管理細節。

項目主頁

Categories: 開源, 微軟, API, 軟件, 安全, 教學

Qwen-Image-Bench：難分高下的是細節

2026 年 7 月 9 日

Qwen-Image-Bench dimension framework and representative model outputs

只看一張圖夠唔夠靚，已經不足以判斷 text-to-image (T2I) 模型值唔值得放入創作流程。Qwen-Image-Bench 把焦點放到更貼近創作工作的檢查方式：它屬於評測工具包，同時連同 benchmark dataset 同 judge model，一併處理生成圖像模型難以客觀比較的問題。

這個項目的可取之處，在於它唔係只計語意對齊或整體畫質，而是用 fine-tuned 的 Q-Judger（Qwen3.6-27B）按 5 個階層維度評分，包括 Quality、Aesthetics、Alignment、Real-world Fidelity、Creative Generation，並細分到 56 個 facets。對做品牌視覺、遊戲美術、漫畫分鏡或者要處理文字渲染的人來說，呢種拆法比單一總分更有參考價值，因為你會直接見到模型係構圖、真實感、創意約束，定係文字生成出問題。

部署理解上，它唔係即開即用的網頁服務，而是偏研究與團隊驗證流程的 Python 工具。你要準備好虛擬環境、PyTorch，同埋包含 prompt、image_path、ID 的 CSV／JSON／JSONL 輸入，再透過 judge.py 跑 Qwen/Qwen-Image-Bench；另一條路線是直接用已公開的 benchmark responses 重現排行榜分數。底層推理沿用 ms-swift，跟釋出 benchmark 結果時的設定一致，這點有助減少評測流程前後不一。

支援替任何 T2I 模型打分，較適合做橫向比較
分數結構比一般 benchmark 細，方便定位失誤位置
可重現公開資料集結果，適合研究或團隊內部驗證
使用門檻偏技術向，需要本地推理環境與整理輸入格式

它的取向也很清楚：重點不是提供生成能力，而是提供一把較細緻的尺。代價是評測仍依賴 judge model，本身並不是人手審稿，也未必完全等同最終用戶審美；但對需要批量比較模型、整理回歸測試、追蹤版本變化的團隊，這種一致而可重跑的框架反而更實用。相關模型與資源包括 Q-Judger（Qwen3.6-27B）、Hugging Face 上的 Qwen/Qwen-Image-Bench，以及配套 benchmark dataset。

項目主頁 · GitHub

Categories: 開源, 阿里巴巴, Qwen, Image, 工具, Python, txt2img, Dataset 數據集

Page 2 of 17

« Previous 1 2 3 4 … 17 Next »