香港理工大學

BadWAM 直指 World-Action Models 盲點

2026 年 7 月 17 日

當一個 World-Action Models（WAMs）睇落仍然能夠預測合理未來，但實際控制已經被悄悄帶偏，問題就唔再只是準確率高低。BadWAM 屬於研究型安全測試框架，集中模擬 World-Action Drift Attacks，用細微視覺擾動去拆開「想像」同「行動」之間原本應該對齊的部分。

呢個項目的價值，在於它唔係單純證明模型會失手，而係指出一種更難察覺的失效方式：未來預測仍然似樣，行動卻已經朝向任務失敗。相比一般只睇輸出有冇偏移的對抗攻擊做法，BadWAM更貼近 WAM 的結構特性，分成 Action-only Adversarial Attack 同 Imagination-preserving Adversarial Attack 兩條路線，後者尤其針對「表面正常、實際出錯」的情況。

重點可先睇幾項：
– 支援 query-based 攻擊，重點在凍結的 WAM 上做線上搜尋
– 提供 LIBERO closed-loop attack evaluation，唔只停留在單步分析
– 包含 matched-strength stealth analysis 同 ablation experiments
– 內附 statistics export 與 plotting utilities，方便整理結果

從部署角度看，儲存庫提供的是研究代碼而唔係開箱即用套件，基礎環境指向 Python 3.10+，並建基於 FastWAM。README 亦講明未附 model checkpoints、LIBERO data、dataset statistics、RoboTwin assets 同實驗輸出，所以要重現結果，仍然要自行補齊相關資源與依賴。

現有公開結果已經說明這個框架唔只係概念展示。在 LIBERO closed-loop 測試中，action-only WAM 成功率由 96.5% 跌到 43.1%，joint WAM 亦由 98.1% 跌到 61.5%。受益最大的會係做機械人控制、WAM 安全、對抗魯棒性測試的研究團隊；對一般應用開發者來說，它未必直接幫你部署產品，但很適合作為檢查模型是否「睇落可靠、其實已偏航」的驗證工具。

項目主頁 · GitHub

Categories: 開源, 香港, 香港理工大學, Python, 安全, 世界模型, Dataset 數據集, 框架

PalmClaw 把手機變成可落地 AI 助理

2026 年 7 月 17 日

想在手機上跑 AI 助理，最大問題通常唔係模型夠唔夠聰明，而係行動流程太依賴點擊介面、太多步，又難清楚限制每次操作。PalmClaw 選擇唔跟 GUI 自動化嗰條路走，而係做成一個原生 Android 代理框架，直接在裝置內管理 session、memory、skills、tools 同 agent loop，處理的是「手機可唔可以自己成為代理執行環境」呢個問題。

同類做法很多會把手機當成一個要被點擊、滑動、輸入的目標畫面，PalmClaw則把裝置能力包裝成有明確參數同結構化結果的 device tools。呢個取向的好處很直接：動作邊界更清楚，執行鏈更短，亦較少受介面改版影響；代價是它偏向整合系統能力與通道，而唔係模擬人手操作所有 App 畫面。

安裝理解上亦算直接，項目已提供 APK，重點不是先搭 server，而是把代理本身部署到 Android。應用程式內可管理設定、工具同 channels，並連接 Telegram、Discord、Slack、Feishu、Email、WeCom 等通道；資料與硬件存取留在本機，較適合在意私隱、想減少雲端依賴的個人用戶，或者要做流動工作流驗證的小團隊。

原生 Android 代理框架，重點在裝置內執行而非遙控手機介面
沿用 OpenClaw 啟發，但定位更貼近直接 mobile deployment
提供 APK，可在手機內完成設定、工具管理與通道連接
論文數據提到，相比最強基線有 11.5% 相對任務成功率提升，完成時間減少 94.9%
相關脈絡包括 OpenClaw，以及以 Large Language Model（LLM）agent 為核心的 session、memory、skills、tools 架構

PalmClaw最值得留意的地方，在於它把手機代理由「會操作畫面」改成「直接調用裝置能力」。對想把 AI 助理放進日常通訊與個人裝置流程的人來說，這種 local-first、明確工具邊界的設計，比純粹追求花巧自動化更接近可長期使用的方向；現階段平台重心明確落在 Android，跨平台與生態覆蓋仍要看後續發展。

項目主頁 · GitHub · Paper

Categories: 開源, 香港, 香港理工大學, Gemini, Agentic, Discord, Anthropic, OpenClaw, Skill 技能

EO-WM：把衛星影像預報變成天氣驅動的世界模型

2026 年 6 月 28 日

這是一個結合物理知識的影片擴散世界模型（EO-WM），專門用於多光譜衛星影像的概率預測。整體目標是把地球觀測（Earth Observation, EO）預報重新定位為「部分可觀察、天氣驅動的世界建模」任務，在稀疏衛星上下文與未來氣象條件下預測地表動態，並支援災害監測、作物產量預估及植被變化追蹤等下游應用。

過去的 EO 預測方法分為兩類：決定式模型把不確定性壓縮成單一未來影像，擴散式方法則往往把天氣變量當成籠統的條件輸入。這兩種做法都難以正確反映「氣象條件如何改變地表狀態」這個核心問題，而且現有 benchmark 多聚焦於像素重建準確度，未能衡量模型在改變天氣條件時是否會產生方向正確的響應。EO-WM 為了解決這個落差，引入一個 EO 專屬 VAE 把稀疏衛星觀測編碼為潛在影片 token，再用擴散 Transformer（diffusion transformer）經由獨立條件路徑同時處理三種信號：氣候基線（climatological baseline）、天氣異常（weather anomaly）與累積物理壓力（cumulative stress），並持續將空間上下文重新注入影片 token 流。

在評測方面，作者提出兩個以 EarthNet2021 為基礎的診斷式 benchmark：Extreme Summer Benchmark 衡量極端熱浪與乾旱下植被退化的嚴重程度感知能力，引入 TN-MAE 與 Drop Amplitude Error；Seasonal Matched-Pair Benchmark 則衡量當天氣條件改變時預測方向與幅度是否正確，以 Divergence Reproduction Ratio、Directional Hit Rate 與 Paired Divergence Correlation 為指標。報告結果顯示 NDVI 下降幅度的預測誤差相對減少 5.63%，方向命中率相對提升 7.80%，同時在像素級 ENS、P-MAE、N-MAE 等指標上仍具競爭力。

這個項目對遙感研究者、農業監測團隊及氣候風險分析團隊特別有價值，因為它同時提供模型與基準資料，讓外界可在統一的評測框架下比較不同方法的天氣響應能力。從工程角度來看，架構設計強調物理分離條件與空間重注入，而非單純堆疊參數，這種取捨有助於提高極端情境下的可解釋性。需留意的是，目前 GitHub 倉庫主要釋出 benchmark CSV 與 Earthformer 參考評測腳本，模型權重與完整訓練流程屬於配套資源，重現完整結果仍需自行準備 EarthNet2021 的 extreme 與 seasonal 切分資料。

重點摘要：

重新定義 EO 預報範式：把衛星影像預測視為天氣驅動的世界建模，而非純粹的影像重建。
物理分離條件：天氣信號被拆分為基線、異常與累積壓力三條獨立條件路徑。
診斷式 benchmark：Extreme Summer 與 Seasonal Matched-Pair 兩個基準專門檢驗模型在天氣改變下的響應正確性。
可量化的天氣敏感度：NDVI 下降誤差降低 5.63%，方向命中率提升 7.80%，標準指標仍具競爭力。
目前釋出內容：以 benchmark CSV 與評測腳本為主，完整訓練流程需搭配 EarthNet2021 資料集。

GitHub · Paper

Categories: 開源, 香港, 香港大學, 香港理工大學, Stable Diffusion, 庫, 模型, 深度學習, 世界模型, 框架

TVEdit：文字與點拖軌跡合一的圖片編輯項目

2026 年 6 月 18 日

TVEdit 是一個圖像編輯項目，目標是解決「只靠文字講意思，或者只靠拖點講位置」都不夠準的問題。以往文字指令較易表達語意，但難控制空間；點拖軌跡可以指位置，卻容易令語意變得含糊，所以作者把兩者合併成 Text-Vision Co-Instructed Image Editing。

這項目的做法是用一個文本與視覺指令配對資料集來訓練，資料超過 23K 筆，來源與動態影片有關。再配合 TV-Edit 框架，把拖曳或點選等視覺指令轉成更有語意的控制表示，然後接到預訓練編輯骨幹上，例如 Qwen-Image-Edit。

它能同時處理「想改成什麼」與「要改到哪裡」，而不是只偏重其中一邊。作者另外建立了 TV-Edit-Bench，專門看語意忠實度、空間對齊同畫面一致性，這比一般只看最終效果的做法更能反映模型有沒有真正聽懂指令。

先載入 Qwen-Image-Edit，再配 TV-Edit 權重，之後在 Gradio 介面上上傳圖片、畫出軌跡、輸入文字指令，再調 CFG 同步數生成結果。若有加速 LoRA，步數可以大幅減少，適合想快速試驗互動式編輯的人。

結合文字語意與點拖軌跡，令空間控制更細
用 23K+ 配對資料補足跨模態指令訓練
TV-Edit-Bench 同時看語意、位置、畫面一致性
目前已提供推理程式、模型權重同網頁示範
適合做互動式圖片編輯、研究評測或模型整合

GitHub： https://github.com/PolyU-VCLab/TVEdit

Paper： https://arxiv.org/pdf/2606.16767

Categories: 開源, 阿里巴巴, Qwen, 香港理工大學, Agentic, MCP, Image, RAG, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 框架

BadWorld：如何解決癱瘓視覺世界模型的未來推演

2026 年 6 月 17 日

視覺世界模型（Visual World Models, VWMs）能從一張起始圖片，根據使用者動作序列合成出互動式的未來影片。現有做法多數沿用文字生成圖像或文字生成影片的對抗攻擊範式，但這類方法通常假設有固定的參考輸出或可取得的未來幀標籤。BadWorld 的作者指出，攻擊 VWMs 面對兩道根本限制：攻擊者根本拿不到真實的未來影片當作監督訊號，也無法預測使用者接下來會輸入什麼動作，因此傳統攻擊範式無法直接套用。

為此，團隊提出 BadWorld 框架，屬於一種安全研究工具，專門用來壓力測試自回歸式世界模型的時序穩健性。它繞過「需要未來監督」這道牆，採用自監督的速度擾動攻擊（self-supervised velocity attack），直接破壞模型早期的去噪動力學；同時，為了讓攻擊在未知動作下仍然有效，設計了軌跡自適應雙層優化（trajectory-adaptive bi-level optimization），主動挖掘困難的動作序列以鍛造「對動作無感」的擾動。

從測試結果來看，視覺上幾乎無法分辨的對抗圖片，能可靠觸發後續推演的災難性退化，出現去噪不完全、結構崩塌、控制訊號前後不一致等現象。這些發現對準備把世界模型應用於自動駕駛、機器人等安全關鍵場景的開發者是一記警鐘，同時也提供了一種可操作的隱私保護機制。

如果想自行驗證，可以針對 Matrix-Game-2.0 與 Astra 兩款開源世界模型測試。Matrix-Game-2.0 需約 32GB 顯示記憶體，Astra 則需 80GB，環境需要搭配 FlashAttention 與 NVIDIA Apex 等加速庫，並從 Hugging Face 下載預訓練權重。

屬於安全研究工具，針對視覺世界模型做對抗壓力測試。
突破傳統攻擊需「未來監督」的限制，採自監督速度擾動。
透過軌跡自適應雙層優化，鍛造對未知動作仍有效的擾動。
已在 Matrix-Game-2.0 與 Astra 上展示結構性崩潰。
對自駕、機器人、遊戲模擬等安全關鍵部署具警示意義。

GitHub： https://github.com/LinghuiiShen/BadWorld

Paper： https://arxiv.org/pdf/2606.16519

Categories: 開源, 香港, 香港理工大學, NVIDIA, Video, Image, 工具, 安全, 庫, 模型, 模型訓練, 深度學習, 世界模型, 框架, 清華大學

GGT-100K：用十萬對真實影像拓寬圖像修復的泛化邊界

2026 年 6 月 2 日

過去訓練圖像修復模型時，開發者往往受限於合成數據與真實場景之間的差距；模型在實驗室數據集表現亮眼，遇到街拍、手機夜拍等真實退化影像就大打折扣。GGT-100K 正是為了解決這個落差而生，由香港理工大學 OPPO 研究院共同推出，主打從 MFM（Multimodal Foundation Models）直接生成十萬對 LQ-HQ 配對資料，覆蓋更貼近日常的真實退化類型。

這個項目的核心想法是「讓高品質影像本身充當 Ground Truth（GT）」，再利用 MFM 推演對應的低品質版本，省去繁瑣的人工蒐集與標註。GGT-100K 並附帶 baseline 訓練程式碼與 checkpoint，研究者只需在自有的修復模型上加掛 LoRA 或重新微調，就能測試跨域泛化效果；對工程團隊而言，等於取得一條快速驗證真實世界表現的捷徑。

GGT-100K 重點摘要

提供十萬對從 MFM 生成的 LQ-HQ 影像配對，涵蓋多元真實退化情境。
內建 baseline 訓練與推論程式碼，支援主流修復模型微調。
透過 Generative GT 策略，免除傳統人工蒐集配對的高昂成本。
數據集可從 Hugging Face 或百度雲下載，附完整 Construction Process 說明。
實驗結果顯示，模型在跨域真實退化測試中的泛化能力有明顯提升。

至於性能表現，作者在多個 SOTA（State-of-the-Art）MFM 上進行了修復評估，結果顯示加入 GGT-100K 訓練後，模型對未見過的真實退化樣本有更佳的適應力；具體的數值比較已收錄在 Experimental Results 區段與論文 arXiv 2605.31039 之中。如果你是從事影像修復、攝影 App 開發，或是想評估自家模型在真實世界表現的團隊，這份開源資源值得花時間一試。

GitHub： https://github.com/PolyU-VCLab/GGT-100K

項目： https://polyu-vclab.github.io/GGT-100K/

Categories: 開源, 香港理工大學, 影像處理, 模型, 模型訓練, 視覺模型, Dataset 數據集

SCOPE：複雜圖片生成，點樣更少走樣？

2026 年 5 月 12 日

SCOPE 係一個面向複雜圖片生成嘅研究型框架，核心做法唔係單靠一次過輸入長提示詞，而係先將要求拆成可追蹤嘅「語義承諾」，例如人物、物件、關係、限制同未確定資訊。之後每個步驟都圍繞同一份結構化規格運作，減少中途遺漏要求嘅情況。

實際使用上，呢個專案比較似一套流程引擎，而唔係即開即用嘅圖片 App。使用者需要準備 Python 3.10+、設定運行環境，並按需要接駁圖片生成、驗證同搜尋等後端服務；如果想跑完整代理式工作流程，亦需要 Codex CLI。

佢最值得留意嘅創新，在於將「生成失敗咗邊一項」具體化。SCOPE 唔係見結果唔理想就整張圖重來，而係透過驗證同修補階段，集中處理未解決或違反咗嘅承諾，令後續動作更有方向，對多角色、多約束、知識密集型提示尤其重要。

以結構化規格保存提示要求，而唔係只靠一段文字
將檢索、推理、生成、驗證、修補串成可追蹤流程
適合研究同評測複雜圖片生成效果
內含配置範例、CLI 工具同 Gen-Arena 評估相關實用程式

如果你係研究人員、工程團隊，或者正測試高要求圖像任務，SCOPE 會比一般單步生成流程更有分析價值。相反，若你只係想快速出圖，呢個專案門檻會較高，因為它重點係流程控制、可驗證性同評估，而唔係簡化操作介面。

整體來講，SCOPE 展示咗一個幾清晰嘅方向：當提示變得愈來愈複雜，單靠模型「自己理解」未必足夠，最好有一套能夠持續記錄、檢查同修正要求嘅機制。以官方資料所見，佢亦配合 Gen-Arena 呢類基準做評估，令成效唔只停留喺示範圖片層面。

Source: https://github.com/nopnor/SCOPE

Categories: 開源, 香港理工大學, Gemini, 影像處理, 提示詞, 框架

醫療 SAM3 省卻重新標註

2026 年 1 月 21 日

Medical‑SAM3 目標是做一個類似 SAM/Segmentation Foundation 的醫療版，但是真正「通用」到多器官、多疾病、多成像模態（CT、MRI、超音波等），並且支持多種互動式 prompt。

動機在於現有醫療分割模型普遍是單任務 / 單器官 / 單模態，泛化到新醫院、新機器或新部位時效果差，需要大量重新標註。Medical‑SAM3 想以大規模預訓練 + prompt-conditioning 來解決這個問題。因此在新的檢查方式或少數族群資料面前能跨機構使用。

Medical‑SAM3 基於多個公開醫療影像資料集進行大規模預訓練與評估，涵蓋多器官、多模態和多中心資料，以求提升 domain shift 下的泛化能力。

Categories: 開源, 香港理工大學, Medical醫學

WorldWarp 非同步視訊擴散影像模型

2025 年 12 月 31 日

為了建立幾何基礎，WorldWarp 維護了一個透過高斯擴散（3DGS）建構的線上三維幾何緩存。透過將歷史內容明確地扭曲到新的視圖中，該快取充當結構支架，確保每個新幀都遵循先前的幾何形狀。然而，靜態扭曲不可避免地會因遮蔽而留下空洞和偽影。

WorldWarp 使用專為「填充和修正」目標設計的時空擴散（ST-Diff）模型來解決這個問題。

WorldWarp 的核心創新在於空間變化的噪音調度：空白區域接收完整的噪音以觸發生成，而扭曲區域接收部分噪音以實現精細化。透過在每個步驟動態更新 3D 緩存，WorldWarp 能夠保持視訊片段之間的一致性。因此，它透過確保 3D 邏輯引導結構，而擴散邏輯完善紋理，從而實現了最先進的保真度。

Categories: 開源, 香港理工大學, 影像模型, 影像處理