PixVerve-95K:衝擊超高像素生圖評測

image

PixVerve-95K 是一個圍繞原生文字生成圖片而設的研究項目,重點放在把輸出推向 100MP 等級的超高解析度。它不只是提供資料,還連同模型方法與評測基準一併整理,方向相當清晰:回答「高像素生圖到底做得夠唔夠好」這個常見但難量化的問題。

對一般讀者來說,最易理解的切入點是把它視為一個「比較平台」。研究人員或開發者可先查看公開的資料集與基準設定,再用自己的文字生成圖片模型產出結果,之後按它提出的評估方式比較畫面細節、主體是否貼合描述,以及不同縮放層級下的穩定度。

這個項目的亮點,在於它不是只看一張圖表面是否好看,而是更重視超高解析度下的完整性與一致性。README 提到的 Multi-scale Fidelity Index(MSFI)與 Instance-centric Compliance Score(ICS),反映它嘗試由多尺度保真度與主體對應程度兩方面衡量結果,這比單純看主觀觀感更有系統。

重點可先看這幾項:
– 目標聚焦於原生文字生成圖片走向 100MP
– 內容涵蓋資料集、模型方法、基準評測三部分
– 評估指標包括 MSFIICS
– 適合拿來比較不同模型在高解析度場景的表現
– 已提及可配合 Qwen3.5-35B-A3B 與 vLLM 相關流程使用

適合關注這個項目的人,包括做文字生成圖片研究的團隊、想測試高解析度輸出能力的模型開發者,以及需要有系統 benchmark 的學術場景。若你平時留意的模型包括 Qwen3.5-35B-A3B,或其他文字到圖片生成系統,PixVerve-95K 的價值更像是一把尺,幫你判斷模型在大尺寸畫面下是否仍能守住細節與語意一致性。

GitHub: https://github.com/HaojunChen663/PixVerve-95K

Paper: https://arxiv.org/pdf/2605.20147

Categories: 開源, 中國, 框架, 清華大學

Aurora:把影片編輯指令講清楚的 AI 代理

Repository image for yeates/Aurora

Aurora 是一個面向影片編輯的 AI 項目,重點不只是「生成畫面」,而是先理解你想改甚麼。它把使用者一句較口語、甚至有點含糊的要求,整理成較明確的編輯計劃,再交給影片模型處理,目標是減少「講唔清、改唔準」的情況。

這個項目想解決的核心問題,是影片編輯要求經常不完整。你可能只說想「換走背景」、「刪除路人」或「改成某種風格」,但未必提供參考圖,亦未必指出遮罩範圍;Aurora 會嘗試補回這些缺口,例如用圖像搜尋找參考,或用分割方式找出需要修改的位置。

它較有新意的地方,在於把多種影片編輯工作放進同一個框架,而不是每種效果各自一套模型。根據目前資料,這個項目支援替換、移除、風格轉換,以及根據參考內容插入元素,背後並結合了工具增強的視覺語言模型代理,以及統一的影片 diffusion transformer,也就是影片 DiT。

動手了解這個項目時,可先把它當成「會先幫你整理需求的影片編輯助手」。現階段儲存庫內容顯示官方實作仍在準備中,所以較適合先閱讀論文與項目頁,理解它如何把原始要求拆成指令、任務標籤、圖像搜尋查詢與遮罩描述四部分,再留意之後公開的程式。

  • 同一個項目框架處理多類影片編輯工作
  • 會先重寫使用者要求,再交由影片模型生成
  • 可補足缺少的參考圖與編輯區域資訊
  • 相關模型重點包括工具增強 VLM 代理與影片 DiT
  • 另有 AgentEdit-Bench,用來評估這類代理式影片編輯能力

對內容創作者、影像研究人員,或者關心人機協作編輯流程的人來說,Aurora 特別值得留意。它未必是即刻可用的成品,但從設計方向看,這個項目著重的不是單次炫技效果,而是令影片編輯指令變得更完整、更可執行。

GitHub: https://github.com/yeates/Aurora

Paper: https://arxiv.org/pdf/2605.18748

Categories: 開源, NVIDIA, Agentic, 中國, 框架

HASP 真正會出手的技能框架

Hero image preview

這篇論文介紹 HASP,一個用來提升大型語言模型代理表現的框架。它想解決的核心問題很直接:以往不少代理會把過往經驗當成文字提示,但這些提示很多時只是「建議」,未必會在出錯前真正介入。

HASP 的做法,是把技能轉成可執行的 Program Functions(PFs)。簡單理解,PFs 會在代理進行推理、搜尋或寫程式時,檢查當前狀態和下一步動作;如果偵測到常見失誤,例如太早下結論、重複無效步驟,便會插手修正,或者補充有用脈絡。

這個項目的特別之處,在於技能不再只是放進提示詞的文字,而是能夠明確決定「何時啟動」和「怎樣改動下一步」。論文亦指出,HASP 具模組化特性,可在推論階段直接介入代理循環,也可用於後續訓練,甚至讓系統逐步整理和演化已驗證的技能庫。

重點可概括為:
– 把經驗技能由被動提示變成可執行規則
– 可在失誤風險較高的節點主動介入
– 適用於網頁搜尋推理、數學推理與編碼任務
– 既可免訓練使用,也可配合後續訓練與自我改進

如果你正在做代理工作流、工具調用或長步驟推理,這個項目特別值得留意。論文報告顯示,在網頁搜尋推理中,單靠推論階段的 PFs,平均表現比多輪 ReAct Agent 提升 25%;結合後續訓練與受控演化後,對 Search-R1 的提升達 30.4%。

整體來看,HASP 的價值不只是「再加一些提示」,而是為代理加入可重用、可驗證、可介入的技能機制。文中未有把所有細節簡化成通用產品指南,但對想提升代理穩定性、減少重複犯錯的人來說,它提供了一條相當清晰的方向。

Paper: https://arxiv.org/pdf/2605.17734

Categories: 框架

Artifact-Bench:幫你看穿 AI 影片破綻

teaser

近年 AI 生成影片愈來愈像真,但「似真」不等於毫無破綻。Artifact-Bench 這個項目,重點就是評估多模態大語言模型是否真的看得出 AI 影片中的不自然痕跡,而不只是大概明白畫面講甚麼。

它把測試分成三類:分辨真影片與 AI 影片、比較兩段影片哪段更真實,以及指出影片中可能出現的瑕疵位置或類型。這種設計比一般只看語意理解的評測更細緻,因為它直接針對「真實感」與「畫面破綻」做分析。

動手使用這個項目時,先要準備對應的影片資料集,再按照三個任務的 metadata 檔組織輸入。儲存庫亦提供了針對 Qwen3-VL 的評估流程,並支援選擇指定任務、控制輸出長度,以及用多張 GPU 分工推理,對需要批量測試模型的人較方便。

  • 重點不在影片內容摘要,而在辨認 AI 生成痕跡
  • 包含三種評測角度,覆蓋分類、比較與瑕疵辨識
  • 已提供任務 metadata,較容易整理測試流程
  • 內建 Qwen3-VL 評估管線,亦可作為其他模型的參考框架

這個項目特別適合做影片生成、模型評測、內容審核與研究真實感判斷的人參考。從儲存庫資訊可見,現成流程主要圍繞 Qwen3-VL;相關模型範疇則可延伸到多模態大語言模型,例如不同尺寸或版本的 Qwen3-VL。若你關心模型是否只是「識圖識片」,還是真的能講出哪裡假,這個項目有相當清晰的測試價值。

GitHub: https://github.com/FrankYang-17/Artifact-Bench

Categories: 開源, 香港科技大學, 框架

AutoResearchClaw:由想法走向論文的 AI 流程

AutoResearchClaw Logo

AutoResearchClaw 是一個面向研究工作的 AI 項目,目標不是單純幫你寫字,而是把「提出題目、討論假設、安排實驗、整理結果、輸出論文」串成一條連續流程。由描述可見,它特別針對傳統線性流程的限制,嘗試讓系統在失敗後仍可調整方向,而不是一步出錯就停住。

動手理解這個項目,最自然的方法是把它當成一位研究助理:先輸入一個研究主題,再讓系統展開分析、規劃與生成。它亦支援與 OpenClaw 配合,而人類介入功能預設為關閉,代表你可以先用原本流程體驗,再按需要加入審批或協作節點,不會一下子改變整套使用習慣。

這個項目較有意思的地方,在於它不只靠單一模型一次過完成工作。根據論文介紹,它結合多代理辯論、失敗後修正的執行機制、可驗證的結果彙報,以及跨次任務累積經驗的設計,方向上比一般「輸入提示詞、輸出文章」的工具更接近真正研究循環。

  • 以一句研究想法作為起點,嘗試延伸成完整研究流程
  • 強調多代理協作,而非單一路徑生成內容
  • 支援人類參與模式,但預設不影響原有流程
  • 可選整合 MetaClaw,核心流程毋須新增依賴
  • 已通過 2,699 項測試,顯示整合新功能後穩定性未見明顯倒退

適合的場景包括學術探索、研究提案發想、實驗規劃初稿,以及想觀察 AI 如何拆解研究問題的人。相關比較對象可留意 AI Scientist v2,論文亦直接以 ARC-Bench 作基準比較;若你關心的是代理式研究系統,而不只是聊天機械人,這個項目值得放入觀察名單。不過它產出的內容仍應由研究者覆核,尤其在方法設計、引用與結論判斷上更需要人手把關。

GitHub: https://github.com/aiming-lab/AutoResearchClaw

Paper: https://arxiv.org/pdf/2605.20025

Categories: 開源, Agentic, OpenClaw

OpenComputer:電腦代理評測更貼地

OpenComputer

OpenComputer 主要處理一個很實際的難題:當 AI 代理要打開瀏覽器、改文件、用設計工具或整理檔案時,怎樣才算「真的完成任務」?它不是靠主觀判斷,而是為不同桌面軟件建立可檢查的狀態驗證方式,令評測結果更穩定,也較容易重現。

動手使用時,重點不是直接把它當成一般應用程式安裝,而是按專案提供的環境設定範本準備評測環境,再選擇本機沙盒或雲端後端,之後用現成任務去跑代理測試。專案亦分開了修復評測、AWS 遠端 Docker 與 Tencent Cloud 中國區部署文件,明顯是為較正式的實驗流程而設。

它最有意思的地方,在於把「出題」和「判卷」都系統化。除了為應用程式建立檢查端點,還會自動生成較真實、可機器驗證的桌面任務,並記錄整段操作軌跡,連部分完成的進度都可計分;比起只看最後答案,這種做法更適合分析代理卡在哪一步。

  • 覆蓋 33 個桌面應用程式與 1,000 個已定稿任務
  • 場景包括瀏覽器、文書、創作工具、開發環境、檔案管理與通訊軟件
  • 評測不只看成敗,亦會保留操作過程與部分分數
  • 驗證方式較依賴程式化檢查,不單靠語言模型做裁判

專案適合做 AI 代理、桌面自動化、基準測試或研究評估方法的團隊;一般用家未必會直接拿來日常使用。從論文內容看,相關對比亦涉及 frontier agents、open-source models,以及 OSWorld-Verified 這類評測結果,反映它比較像研究基建,而不是單一模型展示頁。整體而言,OpenComputer 的價值在於把電腦操作代理的評測,從「似乎做到」推進到「可以核實做到多少」。

GitHub: https://github.com/echo0715/OpenComputer

Paper: https://arxiv.org/pdf/2605.19769

Categories: 開源, 框架

AntiSD 點樣改善推理訓練盲點

fig1a overview

AntiSD 係一個研究型專案,主力處理語言模型做數學推理時嘅訓練偏差。一般做法會叫模型向一個「已知答案、更有提示」嘅自己學習,但作者指出,呢種安排往往會令模型更著重格式化、收尾式嘅字詞,反而削弱真正幫到逐步思考嘅中間推理線索。

呢個專案最特別嘅地方,係將常見嘅自我蒸餾方向反轉。簡單講,唔再一味逼學生版本貼近「已經知道答案」嘅老師版本,而係用一種受控制嘅方式保留兩者差異,等模型唔會過早放棄探索思路;同時再加上一個基於不確定度嘅開關,避免訊號去到後期失控。

實際睇法上,呢個方法唔係畀一般用家即裝即玩,而係較適合已經做緊推理模型訓練、想比較不同強化學習策略嘅人。閱讀論文、配合 GitHub 內嘅實驗設定同 W&B 結果去重現,會係較合理嘅使用方式;重點係觀察訓練步數、最終準確率,同埋模型喺中間推理字詞上有冇被過度壓縮。

  • 針對數學推理訓練中「答案啱,但思路變薄」嘅問題
  • 核心做法係反轉自我蒸餾訊號,而唔係沿用標準貼近策略
  • 論文提到以 pointwise mutual information 解釋點解方法有效
  • 在多個 4B 至 30B 模型上,據報可用更少訓練步數追平或超過基線
  • 相關模型包括 Qwen3-4B、Qwen3-8B,以及其他同級 4B 至 30B 語言模型

以定位來講,AntiSD 比較似一個畀研究員同模型工程團隊參考嘅訓練配方,而唔係面向終端用戶嘅應用程式。對於關注 AIME、HMMT、BeyondAIME 呢類數學推理基準,或者正用 GRPO 一類方法微調模型嘅團隊,呢個專案提供咗一個值得認真比較嘅替代方向。

GitHub: https://github.com/FloyedShen/AntiSD

Paper: https://arxiv.org/pdf/2605.11609

Categories: 開源, 中國, 框架

wvs-code:用影片與聲音驗證模型是否真懂內容

Repository image for rakanWen/wvs-code

專案《When Vision Speaks for Sound》t提供官方程式碼,核心目標不是做一般影音問答,而是檢查支援影片的多模態模型,究竟有沒有真正理解聲音,還是只靠畫面和語意猜答案。它提供模型、評估介面和訓練流程,方便研究者重現實驗或改造自己的測試方式。

儘管支援視頻的多模態大語言模型(video-capable MLLMs)進步很快,但研究發現它們在視頻中表現出的「音頻理解」能力往往是由視覺驅動的:模型其實是依靠視覺線索來推斷、甚至幻想出聲音相關的資訊,而不是真正去檢查或分析音頻串流本身 。

這個問題普遍存在於:

最先進的開源全能模型(omni models)

主要閉源模型供應商(如 Google 和 OpenAI)的頂級模型

換句話說,這些模型看起來能「聽懂」視頻中的聲音,但實際上它們只是「看」畫面來猜聲音是什麼,並沒有真正處理音頻數據,因此容易產生錯誤或幻覺(hallucinate)。

先準備好影片和音訊資料,再把資料登記到 LLaMA-Factory 的資料設定中,之後就可以用它的 SFT 或 DPO 格式去訓練。專案也支援把樣本寫成 ShareGPT 風格,讓每條資料同時帶上 <video><audio>,方便模型學習在多模態情境下作答。

它比較特別的地方,在於採用介入式診斷框架 Thud,專門測試模型是否真的有做音訊驗證,而不是只走視覺捷徑。這種設計對研究「模型到底看了甚麼、聽了甚麼」特別有用,也比單純準確率更能揭示模型行為。

  • 可用來評測影片語音、音畫同步、時間延遲等問題
  • 適合做多模態模型研究、除錯和基準測試
  • 支援 SFT 與 DPO 訓練流程
  • 可接入 LLaMA-Factory 一起使用
  • 相關模型與框架重點包括 Thud、LLaMA-Factory 以及多種可處理影片的多模態模型

整體來說,這個專案更像是一套「檢查工具」,而不是面向一般用家的應用程式。對做 AI 研究、影音理解評測,或者想分析模型有沒有偷懶靠畫面猜答案的人,會特別有參考價值。

GitHub: https://github.com/rakanWen/wvs-code

Paper: https://arxiv.org/pdf/2605.16403

Categories: 開源, 影像處理, 模型, 聲效, 視覺模型, 框架

LiteFrame 點樣令 AI 睇影片更多更快

Google DeepMind

而家不少影片大模型都可以答片段問題、做內容理解,但片一長,速度同成本就會急升。LiteFrame針對的正正唔係表面上的「睇少啲格」,而係指出每一格都交俾大型視覺編碼器處理,本身先係真正慢位。

這個專案提出一個較輕量的影片編碼骨幹,核心做法是用較大的教師模型,教一個更精簡的學生模型直接產生已壓縮、但仍保留時空資訊的表示。論文將這套訓練方式稱為 Compressed Token Distillation,另外亦配合 Language Model Adaptation,令後續語言模型更易接住使用這些視覺資訊。

對使用者而言,現階段較適合作為研究參考而非即裝即用工具,因為 README 已說明程式碼和權重尚未釋出。實際閱讀可以先由論文和項目頁入手,集中看它如何比較端到端延遲、可處理影格數,以及在多個影片理解基準上的準確度變化。

  • 重點不只是減少語言模型負擔,亦直接降低逐格視覺編碼成本
  • 主打長影片理解,在固定運算預算下處理更多 frames
  • 論文提到相對 InternVL3-8B,可降低端到端延遲並處理更多影格
  • 適合做影片問答、影片描述、時序推理相關研究參考
  • 文中脈絡亦關連到 Video LLM、MLLM、ViT、InternVL3-8B 等模型路線

整體來看,LiteFrame的價值在於把焦點由「事後刪 token」移前到「一開始就更有效率地抽特徵」。對關注長片分析、影片助手或多模態系統的人來說,這是一條幾實際的新方向,不過最終落地效果仍要等官方釋出程式碼與模型後,先可以更完整驗證。

GitHub: https://github.com/jjihwan/LiteFrame

Paper: https://arxiv.org/pdf/2605.17260

Categories: 開源, Google, 模型, 視覺模型

ZEDA 點樣令 MoE 推理更慳力

Overview of Unified Post-Training Framework.

ZEDA 針對的是一個很實際的痛點:大型 MoE 模型雖然強,但部署時每次回應都要動用唔少計算資源,成本高、速度亦受影響。呢個專案的目標,係唔使由頭再訓練模型,而係在現有、已做完後訓練的 MoE 之上,再改造成更靈活的動態版本。

它的做法有點似「老師帶學生」:先用原本的 MoE 當固定老師,再訓練新的學生模型去學習輸出,同時加入一種零輸出的專家,讓部分較簡單的 token 可以略過不必要計算。根據論文與倉庫資訊,這種方法可減少超過一半 expert FLOPs,整體表現只屬輕微下跌,並帶來約 1.20 倍端到端推理加速。

ZEDA 不是通用開發框架;它是清華 C3I 團隊的一個研究專案,從公開論文摘要看,全名是 Zero-Expert Self-Distillation Adaptation,目標是把靜態 MoE 模型轉成更高效的動態 MoE 模型,以降低推理成本並提升速度。這個專案對應的 GitHub 倉庫就是 TsinghuaC3I/ZEDA,而論文頁面也明確指向該 repo。

實際動手時,流程大致分兩步:先做 SFT,利用老師模型產生的回應或已釋出的 rollout 結果訓練學生;之後再做 OPD,改為由學生自己生成,再由老師提供 token 級別目標去微調。倉庫亦提到可配合已公開的 prompts 與 rollout 資料使用,對想重現結果或套用到指定 MoE 的人會方便不少。

  • 核心價值:把已完成訓練的靜態 MoE,改成推理時更慳算力的動態 MoE
  • 方法亮點:加入零輸出專家,再用兩階段自蒸餾穩定轉換過程
  • 可選模型:Qwen3-30B-A3B、GLM-4.7-Flash
  • 適合場景:模型已定版,但上線後仍想再壓低推理成本
  • 資料配套:提供 prompts 集合,亦釋出部分 rollout 結果可直接利用

整體來看,ZEDA 最值得留意的地方,不是單純追求更高分,而是補上「模型已經訓練完,之後仲可以點樣再慳資源」這一步。對研究 MoE 部署、推理優化,或者手上已有大型後訓練模型的團隊,這個方向相當有參考價值;至於一般讀者,可以把它理解成一種用較少電腦功夫,換來差不多效果的改裝方案。

GitHub: https://github.com/TsinghuaC3I/ZEDA

Paper: https://arxiv.org/pdf/2605.18643

Categories: 開源, 中國, 清華大學, 上海人工智慧實驗室

Page 1 of 81
1 2 3 81