SkillsVote:幫 AI 代理揀啱技能

pipeline

近年愈來愈多 AI 代理會靠「技能」完成寫程式、研究整理或流程自動化,但技能數量一多,就唔再係人手揀幾個清單咁簡單。SkillsVote 針對嘅,正正係大型技能庫管理:先由公開 GitHub 收集到超過 168 萬份 SKILL.md,當中約 79 萬份通過格式驗證,再進一步處理點樣推薦、判斷成效同持續整理。

實際使用上,呢個專案比較似一套治理層,而唔只係單一模型或插件。公開版本已經提供技能分析與前處理、實驗重現腳本,以及兩條整合路線:一條連接託管服務做雲端推薦,另一條係本地版 skills-vote-local,支援私有環境用代理式搜尋或向量搜尋去搵合適技能。

它較特別之處,在於唔係單靠關鍵字配對,而係把技能當成可持續管理嘅資產。簡單講,系統會先分析技能需要咩執行環境、依賴項同質素,再喺任務開始前做即時推薦;完成後再根據執行軌跡、使用情況同驗證訊號,較審慎咁判斷某項技能有冇真正幫到手。

  • 已整理大規模技能庫,適合唔想由零開始收集技能嘅團隊
  • 提供雲端版同本地版整合,方便公開或私有部署場景
  • 重點唔止推薦,仲包括品質分析與後續更新治理
  • 較適合 coding agent、research agent、workflow agent 相關應用
  • 文中涉及的模型與評測包括 GPT-5.2GPT-5.4 miniTerminal-Bench 2.0SWE-Bench Pro

對開發團隊而言,較自然嘅做法係先用本地或託管整合,把現有技能庫接入,再觀察系統推介結果同任務軌跡。現有資料亦顯示,它把重點放喺「唔更新模型本身,都可透過外部技能庫改善代理表現」;至於本地歸因與技能演化功能,儲存庫顯示仍在補完中,所以部署前可先視作一個已具雛形、但仍持續擴展嘅技能治理方案。

GitHub: https://github.com/MemTensor/skills-vote

Paper: https://arxiv.org/pdf/2605.18401

Categories: Agentic, 影像處理, Skill 技能

CM-EVS:用更少視角看完整個場景

Repository image for Strange-animalss/CM-EVS

CM-EVS 係一個為 3D 場景整理全景 RGB、深度同姿態資料嘅流程工具,重點唔係不停輸出更多畫面,而係用較少但更有代表性嘅視角,盡量覆蓋完整場景。對需要建立訓練資料、檢查場景覆蓋度,或者整理室內空間視圖嘅工作,方向相當清晰。

實際使用時,較穩陣嘅做法係先由 Blender 室內場景路線開始,之後再按需要接 HM3D、一般 GLB 或 ScanNet++ PLY 這類來源。流程大致分成三步:先產生候選視角,再從中揀選衝突較低嘅視角組合,最後輸出已選畫面與相關記錄,方便重現結果同做後續核對。

呢個專案特別之處,在於佢唔單止計算「邊個視角睇到最多」,仲會考慮視角之間是否過分重疊,避免揀出一堆內容相似嘅畫面。對建立稀疏但有效嘅資料集尤其重要,因為畫面數量少啲,後續儲存、檢查同訓練成本通常都更易控制。

  • 支援統一資料格式,涵蓋 ERP RGB、range-depth 同 pose
  • 可處理多種來源,包括 Blender、HM3D/GLB、ScanNet++/PLY
  • 會輸出候選視角、逐步紀錄同已選結果,方便重做與比對
  • 核心模組拆分得較細,例如投影、深度與變形部分可獨立替換

適合對象包括做 3D 視覺、機械人感知、場景重建,或者要整理研究資料集嘅團隊。文中提到嘅相關資料來源與場景類型,主要有 Blender indoor、HM3D、generic GLB、ScanNet++,亦提及可延伸到戶外來源;不過從公開資訊睇,Blender 室內路線仍然係最建議先試嘅入口。

GitHub: https://github.com/Strange-animalss/CM-EVS

Paper: https://arxiv.org/pdf/2605.15597

Categories: 開源, 香港科技大學, 影像處理, 中國

Warp-as-History:一段片訓練出「鏡頭操控」

Warp-as-History teaser

如果你對 AI 影片生成有興趣,但又覺得「要大量素材先訓練」門檻太高,Warp-as-History 的吸引力正在於它嘗試只用一段訓練影片完成相機視角控制。簡單講,它想做的是讓系統學會原片中的空間與運鏡關係,再按你指定的鏡頭路徑生成新畫面。

對一般使用者來說,理解這個專案的最好方法,不是把它當作普通文字生片工具,而是視為一個偏向「鏡頭操控」的研究型方案。你需要先準備一段帶有相機資訊的影片,再配合指定模型做推理或訓練;官方列出的預設組合包括 Helios-DistilledWarp-as-History LoRA,而 Helios-Mid 主要用於訓練,另外 README 亦提到 Pi3X

它解決的重點問題,是生成影片時常見的視角不穩、鏡頭移動不連貫,以及難以精準控制觀看方向。這個方法特別強調互動式鏡頭軌跡跟隨與視點調整,定位上與 HappyOyster、Genie 3 這類方向相近,但賣點是把所需訓練資料壓到單一範例,這點相當有研究價值。

  • 一段訓練影片 已是核心設定,對資料收集要求較低
  • 重心不在純文字生成,而在鏡頭路徑與視角控制
  • 相關模型包括 Helios-Distilled、Warp-as-History LoRA、Helios-Mid、Pi3X
  • 較適合研究實驗、效果驗證,未必是即開即用的消費級工具

如果你是做生成式影像研究、互動敘事、虛擬攝影,這個專案值得留意;若你只是想快速剪片或一鍵出成品,可能會覺得前置準備仍然偏技術性。整體來看,Warp-as-History 最有意思的地方,是把「影片歷史資訊」由單純上下文提升為可延續的視角依據,令相機控制這件事更像真正可操作的生成條件。

網址: https://github.com/yyfz/Warp-as-History

Categories: 開源, 影像處理, 視頻模型, 世界模型, 中國

MoCam:用影片重建自然新視角

Og image

MoCam 是一個針對影片「重新取景」的方法,重點是由原有影片生成新的觀看角度。它主打在幾何先驗不完整、失真,甚至場景有動態變化時,仍能產生較連貫而且接近真實感的畫面。

這個方法的核心做法,是把生成過程分成較有結構的去噪步驟:先處理初步的幾何對齊,再逐步修正外觀細節。簡單理解,就是先盡量擺正場景與視角,再補回畫面的質感,藉此減少新視角常見的破碎、跳動或不自然問題。

對一般讀者而言,它適合用來理解新一代影片視角生成技術如何改善傳統方法的限制,特別是面對複雜鏡頭移動,例如大幅度運鏡、推拉鏡,以及 bullet time 一類效果。網站展示亦顯示,它同時面向靜態與動態場景,而不只限於單一物件或簡單背景。

重點可留意:
– 可由影片生成新的鏡頭角度與運鏡效果
– 幾何資訊不足時,仍嘗試維持畫面穩定性
– 以分階段去噪流程兼顧對位與外觀修飾
– 展示涵蓋大幅移動、複雜軌跡、Dolly Zoom 等情境

目前公開頁面以研究簡介和示範效果為主,GitHub 與 Hugging Face 模型仍標示為即將推出,因此暫時未見完整上手文件、安裝方式或量化評測數字。若你是做電腦視覺、影片生成、虛擬攝影,或想了解擴散模型如何應用在新視角合成,這個項目值得持續留意。

網址: https://orange-3dv-team.github.io/MoCam/

Categories: 開源, 影像處理, 視頻模型

PhyMotion點樣令人物動作更似真

teaser image

做人物影片生成,最難往往不是畫面靚唔靚,而係人郁動時有冇「似真」。PhyMotion針對的正是這個痛點:它提供一套較細緻的評分方法,專門檢查生成影片中的人體動作是否合理,例如會否出現腳步飄浮、失去平衡,或者動作雖然順眼但其實不合物理常識。

它的做法幾有意思。團隊先從影片還原出3D人體網格,使用SMPL表示身體,再把動作轉到MuJoCo的人形物理模擬環境內,從三方面評估:關節運動是否自然、接觸與平衡是否一致、以及整體動態是否可行。比起只靠2D畫面觀感打分,這種方法更能指出問題究竟出在哪一層。

如果你想上手,較合理的方式不是把它當成一般剪片工具,而是當成研究或訓練流程中的「動作評審」。儲存庫提供有 PhyMotion-CausalForcing-1.3B 相關權重與 LoRA 形式檢查點,較適合已經在做人像影片生成、後訓練或獎勵設計的人逐步接入。

  • 重點不在直接生成影片,而在替影片中的人體動作評分
  • 結合 SMPLMuJoCo,比純2D評估更重視身體結構與物理性
  • 適用於自回歸與雙向類型的影片生成訓練流程
  • 相關資源包括論文、模型、資料集,以及 PhyMotion-CausalForcing-1.3B

整體來看,PhyMotion最有價值的地方,是把「睇落順眼」進一步拆成可分析的幾個部分,令改進方向更清楚。它特別適合研究員、AI 影片開發者,或者想提升人物動作真實感的團隊;對一般用家來說,未必是即裝即用,但作為理解下一代人物影片質素點樣提升,這個項目相當值得留意。

網址: https://github.com/h6kplus/PhyMotion

Categories: 開源, 影像模型, 影像處理, 數字人

AlphaGRPO:能自我修正的多模態生成

Og image

AlphaGRPO 係一個用喺原生統一多模態模型嘅訓練框架,重點係令模型唔只係「生成」,而係會根據提示主動推理,並喺輸出有偏差時嘗試自行修正。網頁內容指出,佢主要面向文字生圖同相關編輯場景,目標係改善細節理解、構圖一致性,同埋對隱含要求嘅掌握。

呢個方法特別之處,在於將 GRPO 引入 AR-Diffusion 類型嘅統一模型,而且唔需要額外 cold-start 階段。另一個核心設計係 DVReward:先將複雜指令拆成多個可核實嘅細問題,再由開源多模態模型按語意對齊同畫面品質提供較穩定、可解釋嘅回饋,避免只靠單一分數太過籠統。

如果你想理解點樣使用,概念上可以當佢係一種訓練或強化現有多模態生成模型嘅方法,而唔係一般終端用家即開即用嘅 App。較適合研究人員、模型工程師,或者需要改善文字生圖、細粒度屬性控制、影像編輯泛化能力嘅團隊參考同實作。

  • 支援推理型文字生圖,能更主動補足用家未明講嘅意圖
  • 可做自我反思式修正,生成後再檢查並調整錯配內容
  • 回饋機制較細緻,將要求拆解成可驗證項目再評估
  • 在多個生成基準上有一致進步,亦可遷移到編輯任務
  • 推論階段加入自我修正後,文中指最高可再提升 5.8%

就評估結果而言,頁面提到 AlphaGRPO 喺 GenEval、TIIF-Bench、DPG-Bench、WISE 等生成基準,以及 GEdit 編輯任務都有提升,而且編輯能力並非靠專門編輯訓練得來,反映泛化表現不俗。不過,具體效果仍應按模型底座、評測設定同實際資料而定。

訓練程式碼和模型權重目前正在進行內部審核,審核通過後將予以發布。

網址: https://huangrh99.github.io/AlphaGRPO/

Categories: 開源, 香港大學, 字節跳動, 影像模型, 影像處理, 框架

Relit-LiVE:令影片重新打燈更自然

Nanjing University

Relit-LiVE 是一個用來幫影片「重新打燈」的研究型專案。簡單講,就是把原本影片中的人物或場景,在不改動內容主體下,換成另一種光線效果,並盡量保持整段影片前後一致,不會一時光、一時暗。

這個專案較特別的地方,是它不依賴預先知道鏡頭姿態,並且會一同生成重打燈影片與環境光影片。這種做法有助提升物理一致性,令反光、陰影等細節看起來更合理,對比只逐格處理的方式,更重視時間上的穩定。

實際使用上,它目前較適合有 NVIDIA GPU 的使用者,官方亦建議至少 24GB VRAM,代表一般人未必適合在普通手提電腦直接試。現階段已提供推論程式與模型權重,但訓練流程、完整 inverse-forward pipeline,以及 Gradio 介面似乎仍未完全公開。

如果你是做影像研究、生成式影片實驗,或者想測試影片後期中的光照控制,這類工具會幾有參考價值。它未必是即開即用的消費級產品,但對需要高質感光影變化、又想減少畫面閃爍的人來說,方向相當清晰。

  • 主要用途是把現有影片重新套用新的光照效果
  • 重點創新是聯合生成環境光影片,提升連貫性與真實感
  • 已公開推論代碼與 checkpoints,適合先做效果驗證
  • 硬件要求偏高,較適合研究者或進階創作者
  • 相關模型資訊可見權重路徑提到的 Wan2.1-T2V-1.3B,亦有 Hugging Face 模型發佈頁可供參考

整體來看,Relit-LiVE 最吸引之處不只是「換光」,而是嘗試令影片中的光影變化更像真實世界。若你關心影片生成中的物理合理性、時間穩定性,以及反射和陰影表現,這個專案值得加入觀察名單。

Source: https://github.com/zhuxing0/Relit-LiVE

Categories: 開源, 影像處理, 模型, 視覺模型, 視頻模型, 中國, 南京大學, 清華大學

WorldReasonBench:AI 識唔識用影片推演真實世界?

WorldReasonBench overview

WorldReasonBench 係一個用嚟評估影片生成模型嘅基準,重點唔係畫面是否逼真,而係模型能否根據起始狀態同事件,合理推演之後個世界會點變。簡單講,即係測試 AI 係「識畫面」定真係「識道理」。

呢個專案收錄 436 個測試案例,覆蓋 4 個推理面向同 22 個細分類,並比較多個影片生成器嘅表現。它亦加入約 6,000 組專家偏好配對,令評分唔只靠單一數字,而係更貼近人點樣判斷一段影片合唔合理。

實際使用上,研究團隊或開發者可以用佢去壓力測試自家模型:先生成影片,再由視覺語言模型回答片中問題,之後交由大型語言模型判斷答案是否正確。專案亦提出 Score PR,同時考慮答對程度同動態推理質素,另外用 Δ RG 觀察模型喺有提示同冇提示下嘅能力落差。

相比一般只看畫質、流暢度或人類偏好嘅評測,呢個專案較有新意嘅地方係將影片生成重新理解為「未來世界狀態預測」。換句話說,它關心物理、社會、邏輯同資訊層面有冇前後一致,呢點對真正需要可靠推演嘅應用特別重要。

  • 不只評畫面:核心係測試世界演化是否合理
  • 評估方法較完整:結合問答、判分同偏好配對
  • 指標較實用:可同時睇準確度與推理穩定性
  • 適合比較模型:方便橫向檢視不同生成器表現

如果你係做 AI 影片研究、模型選型,或者想知道一個生成器係咪只會「整靚片」,呢個基準幾值得留意。對一般用家嚟講,它亦提供一個更貼地嘅角度:一段 AI 影片可信唔可信,未必只靠觀感,而係要睇內容有冇按常理發展。

Source: https://github.com/UniX-AI-Lab/WorldReasonBench

Categories: 開源, 香港科技大學, Agentic, 影像處理, 框架

AutoRubric-as-Reward:用明文評分準則教 AI 揀靚圖

Repository image for OpenEnvision/AutoRubric-as-Reward

這個專案的核心,不是再訓練一個「黑盒」分數模型,而是先把人對圖片好壞的偏好,整理成可讀的文字評分準則。簡單講,系統會看一小批已標示「邊張較好」的圖片對,抽出判斷依據,再交給視覺語言模型作裁判,輸出成對訓練有用的獎勵訊號。

實際使用上,它較適合已有偏好資料的人員:例如你手上有兩張生成圖,並知道哪張較符合要求,系統就可根據這些例子自動產生 rubric。之後你可以檢查、保存和重用同一份準則文件,令後續訓練或比較更一致,而不是每次靠隱藏分數重新估計。

我認為這個專案最有意思的地方,是它把「評分理由」由隱性變成顯性。它不只會生成準則,還會用已標記例子反覆驗證與修訂;若準則判錯,就再調整,這比單純叫模型直接揀贏家更容易追查問題。論文亦指出,這類做法有助減少位置偏差,並提升少量標註下的效率。

  • 最大特色:獎勵不再是看不到的分數,而是可閱讀的文字準則
  • 流程較可驗證:生成後會對照標註樣本檢查,失敗就修訂
  • 支援範圍實用:可用於文字生圖,也可處理帶來源圖的編輯任務
  • 重用性高:準則可存成檔案,之後重複用於較穩定的訓練流程

最適合的場景,是你想微調圖片生成或圖片編輯模型,但又希望知道模型究竟憑甚麼作出偏好判斷。此專案已接好文字生圖的 FLUX.1-dev LoRA RPO,以及圖片編輯的 Qwen-Image-Edit LoRA RPO;作裁判的視覺語言模型則可用本地 Qwen3-VL(經 vLLM)或 OpenAI 相容端點。

整體來看,AutoRubric-as-Reward較像一套「把審美與要求寫清楚」的工具鏈,而不只是另一個評分器。對研究或進階開發者而言,它的價值在於透明、可檢查、可重現;但對一般用家來說,前提仍是你需要有成對偏好資料,以及願意花時間檢視準則是否真的反映你的標準。

以下係條式嘅詳細拆解:

1. 左手邊:$P^*(y^+ \succ y^- | x)$

  • $x$:係指輸入嘅內容(Input/Prompt)。
  • $y^+$ 同 $y^-$:係一對輸出。通常 $y^+$ 代表人類偏好嗰個(好嘅),$y^-$ 代表被捨棄嗰個(差嘅)。
  • $\succ$:呢個符號代表「優於」或者「偏好」。
  • 意思係「喺已知 $input$ 嘅情況下,人類偏好 $y^+$ 多過 $y^-$ 嘅機率」。

2. 右手邊:分數分配

呢個部分係用嚟將「好感度」量化:

  • $r^*(x, y)$:呢個係獎勵函數 (Reward Function)。你可以想像成模型幫每一個輸出打嘅「分」。分數越高,代表嗰個輸出越符合人類偏好。
  • $\exp(\dots)$:即係指數函數 $e^x$。用指數係為咗確保計出嚟嘅數值係正數,而且可以放大分數之間嘅差距。

3. 成條式嘅邏輯

$$P^*(y^+ \succ y^- | x) = \frac{\exp(r^*(x, y^+))}{\exp(r^*(x, y^+)) + \exp(r^*(x, y^-))}$$

呢個結構其實同我哋平時見嘅 Softmax 或者 Sigmoid 函數好似:

  • 分子:係偏好輸出 ($y^+$) 嘅得分。
  • 分母:係兩個輸出($y^+$ 同 $y^-$)得分嘅總和。
  • 結論:如果 $y^+$ 嘅得分比 $y^-$ 高好多,分子就會佔分母好大比例,機率就會接近 1(代表好肯定人類會揀 $y^+$)。如果兩者得分差唔多,機率就會接近 0.5(代表人類覺得兩個都差唔多)。

總結

呢條式喺訓練 AI(例如 RLHF 或者 DPO)嗰陣好重要,佢幫模型學識點樣根據人類嘅選擇,去調整背後嗰個 $r^*$ 獎勵分數,令模型之後生成嘅嘢越來越接近人類鍾意嘅答案。

Source: https://github.com/OpenEnvision/AutoRubric-as-Reward

Categories: 開源, 香港中文大學, 影像處理, 框架

SCOPE:複雜圖片生成,點樣更少走樣?

Repository image for nopnor/SCOPE

SCOPE 係一個面向複雜圖片生成嘅研究型框架,核心做法唔係單靠一次過輸入長提示詞,而係先將要求拆成可追蹤嘅「語義承諾」,例如人物、物件、關係、限制同未確定資訊。之後每個步驟都圍繞同一份結構化規格運作,減少中途遺漏要求嘅情況。

實際使用上,呢個專案比較似一套流程引擎,而唔係即開即用嘅圖片 App。使用者需要準備 Python 3.10+、設定運行環境,並按需要接駁圖片生成、驗證同搜尋等後端服務;如果想跑完整代理式工作流程,亦需要 Codex CLI。

佢最值得留意嘅創新,在於將「生成失敗咗邊一項」具體化。SCOPE 唔係見結果唔理想就整張圖重來,而係透過驗證同修補階段,集中處理未解決或違反咗嘅承諾,令後續動作更有方向,對多角色、多約束、知識密集型提示尤其重要。

  • 以結構化規格保存提示要求,而唔係只靠一段文字
  • 將檢索、推理、生成、驗證、修補串成可追蹤流程
  • 適合研究同評測複雜圖片生成效果
  • 內含配置範例、CLI 工具同 Gen-Arena 評估相關實用程式

如果你係研究人員、工程團隊,或者正測試高要求圖像任務,SCOPE 會比一般單步生成流程更有分析價值。相反,若你只係想快速出圖,呢個專案門檻會較高,因為它重點係流程控制、可驗證性同評估,而唔係簡化操作介面。

整體來講,SCOPE 展示咗一個幾清晰嘅方向:當提示變得愈來愈複雜,單靠模型「自己理解」未必足夠,最好有一套能夠持續記錄、檢查同修正要求嘅機制。以官方資料所見,佢亦配合 Gen-Arena 呢類基準做評估,令成效唔只停留喺示範圖片層面。

Source: https://github.com/nopnor/SCOPE

Categories: 開源, 香港理工大學, Gemini, 影像處理, 提示詞, 框架

Page 4 of 17
1 2 3 4 5 6 17