Artifact-Bench:幫你看穿 AI 影片破綻

teaser

近年 AI 生成影片愈來愈像真,但「似真」不等於毫無破綻。Artifact-Bench 這個項目,重點就是評估多模態大語言模型是否真的看得出 AI 影片中的不自然痕跡,而不只是大概明白畫面講甚麼。

它把測試分成三類:分辨真影片與 AI 影片、比較兩段影片哪段更真實,以及指出影片中可能出現的瑕疵位置或類型。這種設計比一般只看語意理解的評測更細緻,因為它直接針對「真實感」與「畫面破綻」做分析。

動手使用這個項目時,先要準備對應的影片資料集,再按照三個任務的 metadata 檔組織輸入。儲存庫亦提供了針對 Qwen3-VL 的評估流程,並支援選擇指定任務、控制輸出長度,以及用多張 GPU 分工推理,對需要批量測試模型的人較方便。

  • 重點不在影片內容摘要,而在辨認 AI 生成痕跡
  • 包含三種評測角度,覆蓋分類、比較與瑕疵辨識
  • 已提供任務 metadata,較容易整理測試流程
  • 內建 Qwen3-VL 評估管線,亦可作為其他模型的參考框架

這個項目特別適合做影片生成、模型評測、內容審核與研究真實感判斷的人參考。從儲存庫資訊可見,現成流程主要圍繞 Qwen3-VL;相關模型範疇則可延伸到多模態大語言模型,例如不同尺寸或版本的 Qwen3-VL。若你關心模型是否只是「識圖識片」,還是真的能講出哪裡假,這個項目有相當清晰的測試價值。

GitHub: https://github.com/FrankYang-17/Artifact-Bench

Categories: 開源, 香港科技大學, 框架

KVPO 點樣提升影片生成對齊

KVPO

KVPO 係一個針對影片生成訓練流程嘅研究型專案,焦點唔係單純「生成到片」,而係令模型喺逐格、逐段生成嘅過程中,更穩定咁貼近文字提示同預期內容。對一般讀者嚟講,可以理解成:佢想改善 AI 影片成日出現嘅「開頭啱、之後走樣」問題。

呢個方法特別之處,在於佢唔只睇最後條影片好唔好,而係會喺生成途中做多條候選路線探索,再用獎勵模型判斷邊條路線更值得學。README 提到佢結合咗類似 PPO 嘅強化學習更新,以及對生成軌跡嘅機率估計,目標係令自動回歸影片模型學得更準。

實際了解同試用呢個專案,會由查看論文、專案頁面同釋出權重開始,再按設定準備對應環境、模型權重同資料。由於文件列出咗 H200、CUDA 12.8、Wan2.1 backbone,以及 HPSv3、VideoReward 等元件,較適合已有 GPU 資源、熟悉深度學習訓練流程嘅讀者,而唔係即開即用型工具。

  • 主要處理影片生成中內容偏離提示、時間一致性變差等問題
  • 核心做法係先探索多個生成分支,再用獎勵分數引導學習
  • 研究重點放喺自動回歸影片模型,而唔係一般圖片生成
  • 文件顯示會配合 Wan2.1-T2V-1.3B 等 backbone 使用
  • 仲會涉及 HPSv3VideoReward 呢類評分或獎勵相關模型

整體而言,KVPO 比較適合關注影片生成訓練方法嘅研究者、工程師,或者想比較唔同對齊策略嘅團隊。對非技術用家,佢未必係直接拎嚟出片嘅方案;但作為觀察新一代影片模型點樣「學識跟指令」嘅方向,呢個專案幾有參考價值。

GitHub: https://github.com/Richard-Zhang-AI/KVPO

Paper: https://arxiv.org/pdf/2605.14278

Categories: 開源, 香港科技大學, 影像模型, 影像處理, 清華大學

CM-EVS:用更少視角看完整個場景

Repository image for Strange-animalss/CM-EVS

CM-EVS 係一個為 3D 場景整理全景 RGB、深度同姿態資料嘅流程工具,重點唔係不停輸出更多畫面,而係用較少但更有代表性嘅視角,盡量覆蓋完整場景。對需要建立訓練資料、檢查場景覆蓋度,或者整理室內空間視圖嘅工作,方向相當清晰。

實際使用時,較穩陣嘅做法係先由 Blender 室內場景路線開始,之後再按需要接 HM3D、一般 GLB 或 ScanNet++ PLY 這類來源。流程大致分成三步:先產生候選視角,再從中揀選衝突較低嘅視角組合,最後輸出已選畫面與相關記錄,方便重現結果同做後續核對。

呢個專案特別之處,在於佢唔單止計算「邊個視角睇到最多」,仲會考慮視角之間是否過分重疊,避免揀出一堆內容相似嘅畫面。對建立稀疏但有效嘅資料集尤其重要,因為畫面數量少啲,後續儲存、檢查同訓練成本通常都更易控制。

  • 支援統一資料格式,涵蓋 ERP RGB、range-depth 同 pose
  • 可處理多種來源,包括 Blender、HM3D/GLB、ScanNet++/PLY
  • 會輸出候選視角、逐步紀錄同已選結果,方便重做與比對
  • 核心模組拆分得較細,例如投影、深度與變形部分可獨立替換

適合對象包括做 3D 視覺、機械人感知、場景重建,或者要整理研究資料集嘅團隊。文中提到嘅相關資料來源與場景類型,主要有 Blender indoor、HM3D、generic GLB、ScanNet++,亦提及可延伸到戶外來源;不過從公開資訊睇,Blender 室內路線仍然係最建議先試嘅入口。

GitHub: https://github.com/Strange-animalss/CM-EVS

Paper: https://arxiv.org/pdf/2605.15597

Categories: 開源, 香港科技大學, 影像處理, 中國

EffOPD:助訓練模型流程更精明

Repository image for caiyuchen-ustc/EffOPD

EffOPD 是一個圍繞模型訓練流程改良的研究實作,重點不在做一個全新聊天產品,而是在訓練途中更有效率地挑選值得評估的候選參數。從儲存庫資訊可見,它建基於 verl 與 GOPD,並調整訓練器與工作流程相關檔案,屬於偏底層的優化工具。

實際使用時,做法是沿用原本 OPD 的訓練流程,再加入迭代測試相關設定,並準備一份 parquet 格式的輕量驗證資料。這種安排的意思很直接:模型訓練到某些檢查點時,系統會額外評估幾個外推候選,而不是每次都用完整驗證流程,從而加快判斷。

專案想解決的,是大模型強化學習或蒸餾訓練中,評估成本高、嘗試路線多的問題。它較特別的地方,在於把「外推搜尋」和「即時輕量驗證」結合,讓訓練期間可以更早篩走不理想方向;儲存庫亦提到可設定每次最多測試 5 個候選,反映它著重效率與可控性之間的平衡。

  • 建基於 verlGOPD,較適合已有相關訓練基礎的人
  • 透過啟用迭代測試,在訓練中加入外推式候選搜尋
  • 使用 parquet 驗證檔建立輕量驗證集,減少即時評估負擔
  • 可調整每個檢查點評估的候選數量,預設實驗值為 5

適合主要作為研究實驗、訓練流程調校,以及想比較不同訓練決策成本的人。相關脈絡上,儲存庫明確提到 OPDGOPDEffOPD,而論文方向亦圍繞大型語言模型的強化學習動態與 on-policy distillation;對一般用家未必即插即用,但對做模型訓練研究的人有參考價值。

GitHub: https://github.com/caiyuchen-ustc/EffOPD

Paper: https://arxiv.org/pdf/2605.11739

Categories: 開源, 香港科技大學, 騰訊, 模型訓練

DepthVLM:識睇圖又識估距離

DepthVLM Logo

如果你曾經好奇電腦點樣由一張相片判斷物件有幾遠,DepthVLM 就係一個幾有代表性的答案。呢個專案主打由單張圖片直接輸出具實際尺度的深度資訊,同時保留問答、理解畫面內容等多模態能力,唔係只做單一視覺任務。

對一般開發者而言,上手方向算清晰:程式碼、模型權重同基準資料都已有公開入口,亦提供示例視覺化結果方便先睇效果。要留意資料本身受授權限制,作者未有直接派發整理後全集,但有公開資料整理流程,較適合願意自己重現訓練或評估的人。

佢較特別之處,在於唔需要將「睇圖理解」同「估深度」拆開做。論文資訊顯示,DepthVLM 會喺單次推理中同時產生深度圖與文字輸出,並以輕量模組接到語言模型骨幹上,速度亦比同類 VLM 方案如 DepthLMYoutu-VL 更快。

如果你做機械人、AR/VR、室內導航,或者想研究影像中的 3D 空間推理,呢類模型特別有價值。從公開內容看,相關比較對象包括 DepthLM-12BYoutu-VL-4BInternVL3.5-38B,以及偏純視覺路線的 Depth Anything V3UniDepth V2Metric3D v2Depth ProZoeDepth

  • 一個模型兼顧畫面理解與深度預測
  • 可輸出具米制尺度的稠密深度圖
  • 推理效率強調比部分現有 VLM 更快
  • 已提供範例、模型檔與基準標註入口
  • 較適合研究、實驗同進階應用整合

整體來講,DepthVLM 吸引之處唔單止係準確度,而係它試圖將 3D 感知正式帶入視覺語言模型工作流。若你想搵一個連接「識答問題」同「識判斷空間距離」的方案,呢個專案相當值得先收藏再深入試用。

網址: https://github.com/hanxunyu/DepthVLM

網址: https://arxiv.org/pdf/2605.15876

Categories: 開源, 香港科技大學, 騰訊, 影像模型, 視覺模型

ODE點樣訓練識睇圖又識搜尋的AI代理

main full

如果你對「會自己搵資料的 AI」有興趣,ODE 係一個幾值得留意的研究型專案。它唔係單純訓練模型直接輸出答案,而係讓代理按步驟去搜尋網頁、找圖片、查看學術結果,甚至對圖片放大、旋轉或翻轉,再整理證據作判斷。

對初學者來講,可以先將它理解為一個「工具操作訓練場」。專案目前已提供訓練程式、評估環境同公開工具整合,重點係同一套流程可同時用於測試與強化學習;不過自動化資料演化部分現時似乎仍在逐步補完。

它想解決的核心問題,是傳統靜態訓練資料未必足夠教到代理點樣靈活使用工具。ODE 的做法,是先用監督式訓練教基本動作格式,再用強化學習讓代理在真實互動中調整策略,之後分析操作軌跡,找出行為缺口,再回頭改善下一輪訓練資料。

比較特別的是,它把中途見過的圖片保存成可重用參照,之後可以再裁切、檢視或做視覺搜尋,唔使每次由零開始。這種設計對需要圖文交叉查證的任務尤其重要,亦比只靠文字搜尋的代理更貼近真實使用情境。

  • 支援多種工具流程:網頁搜尋、圖片搜尋、學術搜尋、瀏覽頁面、視覺搜尋與本地圖片操作
  • 著重保留中間圖像證據,方便後續步驟重用
  • 訓練方式結合 SFTRL,並用操作紀錄反推資料改進方向
  • 已展示在 Qwen3-VL-8BQwen3-VL-30B 這類視覺語言模型上的提升

如果你本身做 AI 代理、檢索增強系統,或者關心模型如何可靠地「邊找邊想」,這個專案會有參考價值。對一般讀者而言,它亦提供了一個清楚例子:未來較實用的 AI,未必只係更大模型,而係更懂得在圖像與文字之間有條理地找證據。

網址: https://github.com/JoeYing1019/ODE

網址: https://on-policy-data-evolution.github.io/

Categories: 開源, 香港科技大學, Agentic, 框架

PyRAG:多跳推理RAG值唔值得留意

Repository image for GasolSun36/PyRAG

PyRAG看起來是一個以 Python 為主的 RAG 實驗專案,重點不是搜一次資料就作答,而是把檢索、推理、再檢索拆成可執行流程。對一般讀者來說,可把它理解成較重視「答案點樣得出來」的問答系統。

實際使用時,通常會先接入文件庫、知識庫或程式碼內容,再讓系統按問題逐步找線索,最後整理成答案。遇到要前後串連資訊的問題,例如先查概念、再補細節、最後整合結論,這類多跳流程會比普通 RAG 更合適。

  • 做什麼:把檢索增強生成變成多步查找與推理
  • 主要創新:中間步驟可追蹤,較易查證與除錯
  • 適合場景:複雜問答、研究助理、文件或程式碼知識庫
  • 相關模型:概念上可配合 GPT、Llama、Mistral 等生成模型,以及 BGE、E5 類嵌入模型;實際支援要看設定

我覺得它最吸引的地方,是不像一般聊天機械人那樣直接「估答案」,而是更像逐步查證。對想減少模型亂作、又要向同事交代答案來源的人,這方向特別有價值。

不過,從公開描述看,PyRAG較像研究型工具,實際兼容名單與部署成熟度仍要自行核對。若你只想快速搭一個簡單問答系統,傳統 RAG 可能更省事;若你重視可追溯性,它就值得留意。

網址: https://github.com/GasolSun36/PyRAG

Categories: 開源, 香港科技大學, RAG, 框架

PASA:AI改寫都難甩的文字水印方案

overview

PASA 是一個研究型專案,目標是替大型語言模型生成的文字加入可檢測的「水印」。它特別針對一個常見難題:即使用家把句子改寫、換同義詞,甚至做段落重述,只要意思大致不變,系統仍希望辨認到這段文字原本由 AI 產生。

和不少只看字面詞彙的做法不同,PASA 把重點放在語意層面。簡單講,它不是只標記某些字,而是利用嵌入空間中的語意群組去安排生成與檢測,因此面對 paraphrase 這類「保留意思但改寫表達」的攻擊時,理論上會更穩定。

實際使用上,這個儲存庫主要提供研究重現流程:用 generation.py 進行生成與檢測,並配合語言模型、輔助模型、本地資料集及一份 token 對應語意群組的映射檔來跑實驗。換句話說,它比較適合研究人員或進階開發者驗證效果,而不是一般用家即裝即用的成品工具。

重點可簡單整理如下:
– 針對 AI 文字加入可檢測水印,並強調抗改寫能力
– 核心創新是把水印放到語意嵌入空間,不只看表面用字
– 設計目標包括提升檢測穩定性,同時盡量維持文字品質
– 儲存庫提供官方實作,重點在實驗重現與結果驗證

如果你的場景是內容來源追蹤、平台風險管理,或學術上研究 AI 文字識別,PASA 會很值得留意。相反,若你只是想快速做網站內容偵測,這個專案目前看來仍偏研究導向,需要自行準備資料與模型環境。

從論文與專案說明來看,PASA 的價值不只在「能不能驗出」,而是在改寫攻擊下仍保持可檢測性,這點對現實應用尤其重要。不過它是否適合你的流程,仍要視乎你有沒有能力配置實驗環境,以及是否需要面對高強度的語意改寫情境。

Source: https://github.com/ai-kunkun/PASA

Categories: 開源, 香港科技大學, 框架

CausalCine 多鏡頭影片生成

Repository image for yihao-meng/CausalCine

CausalCine 是一個圍繞多鏡頭敘事影片生成的研究型專案,重點不只是生成單一短片,而是讓多個鏡頭能按故事次序逐步產生。從儲存庫描述來看,它主打即時的自回歸生成方式,目標是令影片在切換場景時仍保留敘事連續性。

對一般使用者來說,可以把它理解為一種「先生成前面內容,再根據已生成結果決定下一鏡」的影片製作方法。這種做法特別適合有劇情推進、場景轉換和角色延續的短片構思,而不只是單次輸出一段互不相關的影片畫面。

它較值得留意的創新,在於把多鏡頭影片當成有因果關係的序列來處理,而不是將每個鏡頭完全分開生成。這意味著角色、氣氛或事件發展,理論上更有機會在前後鏡頭之間保持一致;不過實際效果仍應以專案頁面展示和後續公開內容為準。

  • 核心方向:針對多鏡頭、帶故事性的影片生成
  • 主要特色:採用即時自回歸方式,逐步生成後續鏡頭
  • 實際價值:有助提升鏡頭之間的敘事銜接與連貫感
  • 適合對象:研究者、生成式影片創作者、敘事短片原型開發者

如果你關心的是 AI 如何由「會生成片段」走向「會講故事」,這個專案相當值得留意。它最適合用於概念驗證、研究展示,以及需要快速測試多場景腳本的工作流程;若要投入正式商業製作,仍建議先觀察其公開成果、穩定性和可控程度。

Source: https://yihao-meng.github.io/CausalCine/

Categories: 香港科技大學, 視頻模型

WorldReasonBench:AI 識唔識用影片推演真實世界?

WorldReasonBench overview

WorldReasonBench 係一個用嚟評估影片生成模型嘅基準,重點唔係畫面是否逼真,而係模型能否根據起始狀態同事件,合理推演之後個世界會點變。簡單講,即係測試 AI 係「識畫面」定真係「識道理」。

呢個專案收錄 436 個測試案例,覆蓋 4 個推理面向同 22 個細分類,並比較多個影片生成器嘅表現。它亦加入約 6,000 組專家偏好配對,令評分唔只靠單一數字,而係更貼近人點樣判斷一段影片合唔合理。

實際使用上,研究團隊或開發者可以用佢去壓力測試自家模型:先生成影片,再由視覺語言模型回答片中問題,之後交由大型語言模型判斷答案是否正確。專案亦提出 Score PR,同時考慮答對程度同動態推理質素,另外用 Δ RG 觀察模型喺有提示同冇提示下嘅能力落差。

相比一般只看畫質、流暢度或人類偏好嘅評測,呢個專案較有新意嘅地方係將影片生成重新理解為「未來世界狀態預測」。換句話說,它關心物理、社會、邏輯同資訊層面有冇前後一致,呢點對真正需要可靠推演嘅應用特別重要。

  • 不只評畫面:核心係測試世界演化是否合理
  • 評估方法較完整:結合問答、判分同偏好配對
  • 指標較實用:可同時睇準確度與推理穩定性
  • 適合比較模型:方便橫向檢視不同生成器表現

如果你係做 AI 影片研究、模型選型,或者想知道一個生成器係咪只會「整靚片」,呢個基準幾值得留意。對一般用家嚟講,它亦提供一個更貼地嘅角度:一段 AI 影片可信唔可信,未必只靠觀感,而係要睇內容有冇按常理發展。

Source: https://github.com/UniX-AI-Lab/WorldReasonBench

Categories: 開源, 香港科技大學, Agentic, 影像處理, 框架

Page 2 of 4
1 2 3 4