InferNews - Page 20 of 96

Warp-as-History：一段片訓練出「鏡頭操控」

2026 年 5 月 17 日

如果你對 AI 影片生成有興趣，但又覺得「要大量素材先訓練」門檻太高，Warp-as-History 的吸引力正在於它嘗試只用一段訓練影片完成相機視角控制。簡單講，它想做的是讓系統學會原片中的空間與運鏡關係，再按你指定的鏡頭路徑生成新畫面。

對一般使用者來說，理解這個專案的最好方法，不是把它當作普通文字生片工具，而是視為一個偏向「鏡頭操控」的研究型方案。你需要先準備一段帶有相機資訊的影片，再配合指定模型做推理或訓練；官方列出的預設組合包括 Helios-Distilled、Warp-as-History LoRA，而 Helios-Mid 主要用於訓練，另外 README 亦提到 Pi3X。

它解決的重點問題，是生成影片時常見的視角不穩、鏡頭移動不連貫，以及難以精準控制觀看方向。這個方法特別強調互動式鏡頭軌跡跟隨與視點調整，定位上與 HappyOyster、Genie 3 這類方向相近，但賣點是把所需訓練資料壓到單一範例，這點相當有研究價值。

一段訓練影片 已是核心設定，對資料收集要求較低
重心不在純文字生成，而在鏡頭路徑與視角控制
相關模型包括 Helios-Distilled、Warp-as-History LoRA、Helios-Mid、Pi3X
較適合研究實驗、效果驗證，未必是即開即用的消費級工具

如果你是做生成式影像研究、互動敘事、虛擬攝影，這個專案值得留意；若你只是想快速剪片或一鍵出成品，可能會覺得前置準備仍然偏技術性。整體來看，Warp-as-History 最有意思的地方，是把「影片歷史資訊」由單純上下文提升為可延續的視角依據，令相機控制這件事更像真正可操作的生成條件。

網址： https://github.com/yyfz/Warp-as-History

Categories: 開源, 影像處理, 視頻模型, 世界模型, 中國

MoCam：用影片重建自然新視角

2026 年 5 月 17 日

MoCam 是一個針對影片「重新取景」的方法，重點是由原有影片生成新的觀看角度。它主打在幾何先驗不完整、失真，甚至場景有動態變化時，仍能產生較連貫而且接近真實感的畫面。

這個方法的核心做法，是把生成過程分成較有結構的去噪步驟：先處理初步的幾何對齊，再逐步修正外觀細節。簡單理解，就是先盡量擺正場景與視角，再補回畫面的質感，藉此減少新視角常見的破碎、跳動或不自然問題。

對一般讀者而言，它適合用來理解新一代影片視角生成技術如何改善傳統方法的限制，特別是面對複雜鏡頭移動，例如大幅度運鏡、推拉鏡，以及 bullet time 一類效果。網站展示亦顯示，它同時面向靜態與動態場景，而不只限於單一物件或簡單背景。

重點可留意：
– 可由影片生成新的鏡頭角度與運鏡效果
– 幾何資訊不足時，仍嘗試維持畫面穩定性
– 以分階段去噪流程兼顧對位與外觀修飾
– 展示涵蓋大幅移動、複雜軌跡、Dolly Zoom 等情境

目前公開頁面以研究簡介和示範效果為主，GitHub 與 Hugging Face 模型仍標示為即將推出，因此暫時未見完整上手文件、安裝方式或量化評測數字。若你是做電腦視覺、影片生成、虛擬攝影，或想了解擴散模型如何應用在新視角合成，這個項目值得持續留意。

網址： https://orange-3dv-team.github.io/MoCam/

Categories: 開源, 影像處理, 視頻模型

PhyMotion點樣令人物動作更似真

2026 年 5 月 17 日

做人物影片生成，最難往往不是畫面靚唔靚，而係人郁動時有冇「似真」。PhyMotion針對的正是這個痛點：它提供一套較細緻的評分方法，專門檢查生成影片中的人體動作是否合理，例如會否出現腳步飄浮、失去平衡，或者動作雖然順眼但其實不合物理常識。

它的做法幾有意思。團隊先從影片還原出3D人體網格，使用SMPL表示身體，再把動作轉到MuJoCo的人形物理模擬環境內，從三方面評估：關節運動是否自然、接觸與平衡是否一致、以及整體動態是否可行。比起只靠2D畫面觀感打分，這種方法更能指出問題究竟出在哪一層。

如果你想上手，較合理的方式不是把它當成一般剪片工具，而是當成研究或訓練流程中的「動作評審」。儲存庫提供有 PhyMotion-CausalForcing-1.3B 相關權重與 LoRA 形式檢查點，較適合已經在做人像影片生成、後訓練或獎勵設計的人逐步接入。

重點不在直接生成影片，而在替影片中的人體動作評分
結合 SMPL 與 MuJoCo，比純2D評估更重視身體結構與物理性
適用於自回歸與雙向類型的影片生成訓練流程
相關資源包括論文、模型、資料集，以及 PhyMotion-CausalForcing-1.3B

整體來看，PhyMotion最有價值的地方，是把「睇落順眼」進一步拆成可分析的幾個部分，令改進方向更清楚。它特別適合研究員、AI 影片開發者，或者想提升人物動作真實感的團隊；對一般用家來說，未必是即裝即用，但作為理解下一代人物影片質素點樣提升，這個項目相當值得留意。

網址： https://github.com/h6kplus/PhyMotion

Categories: 開源, 影像模型, 影像處理, 數字人

Grok Build + 完全免費的無限 API：這是使用 Grok Build CLI 的最簡單方法，而且完全免費

2026 年 5 月 17 日

Grok Build + FULLY Free Unlimited APIs: This is THE EASIEST WAY to USE GROK BUILD CLI for 100% FREE!

Categories: 編程

OpenHuman：把個人AI助手帶到桌面

2026 年 5 月 17 日

如果你對 AI 有興趣，但又唔想由指令列、插件同繁複設定開始，OpenHuman 這類桌面式助手會幾易入口。按項目說明，它偏向圖形介面操作，安裝後可用較短流程連接日常帳戶，幾下點擊就能開始使用，對一般用家算友善。

它真正想解決的，不是「答你一條問題」咁簡單，而是將分散喺 Gmail、Notion、GitHub、Slack、Calendar、Drive、Jira、Linear 等工具入面嘅資訊，整理成可持續使用嘅個人上下文。系統會自動抓取連接資料，並建立本機優先嘅記憶結構，令助手唔使每次都由零開始理解你做緊乜。

較有意思的地方，是它將記憶、工具同語音互動放埋一齊。資料會轉成較易處理的 Markdown 片段，存入 SQLite，亦可同步成相容 Obsidian 的筆記庫；同時又內建網頁搜尋、抓取、檔案操作、git、測試，以及語音輸入輸出，甚至提到可加入 Google Meet。模型方面，項目表示會按任務路由到不同類型模型，亦可選用本機 Ollama；相關能力涉及推理型、快速型、視覺型模型，語音輸出則提到 ElevenLabs。

The Karpathy-Style Super Intelligence Layer for your AI Agents (OpenHuman)

Watch this video on YouTube

重點可以咁睇：
– 以桌面介面為先，較少依賴技術設定
– 可連接 118+ 第三方服務，減少資料分散
– 本機記憶庫加 Obsidian 相容筆記，方便追蹤與整理
– 內建工具鏈較完整，唔使逐個插件補功能
– 透過 TokenJuice 壓縮內容，官方稱可降低成本與延遲

如果你係內容工作者、獨立開發者、創業團隊，或者本身已經有一堆雲端工具要管理，OpenHuman 的方向會幾吸引。不過它仍屬早期測試階段，實際穩定性、授權連接體驗同記憶準確度，較適合抱住嘗鮮加觀望心態去試。

網址： https://github.com/tinyhumansai/openhuman

Categories: 開源, Agentic

Awesome-WAM：看懂機械人點樣先諗後做

2026 年 5 月 17 日

Temporal evolution and taxonomy of representative works on World Action Models (WAMs).

如果你對機械人或 AI 有興趣，但又唔想一開始就埋頭讀大量論文，Awesome-WAM 其實幾好入手。它本身唔係一個直接拿來部署的機械人程式，而係一個系統化整理庫，集中介紹 World Action Models 這個新方向，並附有每篇論文的重點摘要，方便讀者由概念開始慢慢建立理解。

這個主題想解決的核心問題，其實幾直觀：不少模型能夠由影像或文字直接產生動作，但未必真係「理解」下一步世界會點變。WAM 的做法，是將環境變化預測同動作生成放埋一齊考慮，令機械人唔只係反應快，亦更似先模擬後行動。

這個儲存庫最有價值的地方，在於它唔單止列論文，而係嘗試用統一框架整理整個領域，例如分開 Cascaded 與 Joint 兩類路線，亦有提到訓練資料來源、評估方式，以及與 Vision-Language-Action 發展之間的關係。對初學者來講，這種分類比單看論文名更易掌握全貌。

提供系統化總覽，適合先建立概念再深入讀文獻
有每篇文章的簡短導讀，節省篩選時間
涵蓋相關模型與方向，如 RT-2、OpenVLA、π0，以及庫內收錄的 DREMA、RoboScape、Ctrl-World
重視架構分類、數據來源與評估方法，唔只係單純清單

如果你想上手，最實際做法係先看它對 WAM 的整體定義，再沿分類去揀有興趣的論文摘要閱讀。研究人員、學生、做機械人產品規劃的人都會受用；即使你未必會親自訓練模型，這個整理庫都能幫你較快分清哪些方法偏向預測世界、哪些更強調動作生成控制。

整體來說，Awesome-WAM 比較似一張持續更新的地圖，而唔係單一工具。對想跟進 embodied AI、VLA 與 world model 交叉發展的人，它的價值在於幫你用較低成本看清研究脈絡，同時保留足夠細節，方便之後再深入追文。

網址： https://github.com/OpenMOSS/Awesome-WAM

網址： https://openmoss.github.io/Awesome-WAM/

Categories: 開源, 世界模型

AlphaGRPO：能自我修正的多模態生成

2026 年 5 月 17 日

AlphaGRPO 係一個用喺原生統一多模態模型嘅訓練框架，重點係令模型唔只係「生成」，而係會根據提示主動推理，並喺輸出有偏差時嘗試自行修正。網頁內容指出，佢主要面向文字生圖同相關編輯場景，目標係改善細節理解、構圖一致性，同埋對隱含要求嘅掌握。

呢個方法特別之處，在於將 GRPO 引入 AR-Diffusion 類型嘅統一模型，而且唔需要額外 cold-start 階段。另一個核心設計係 DVReward：先將複雜指令拆成多個可核實嘅細問題，再由開源多模態模型按語意對齊同畫面品質提供較穩定、可解釋嘅回饋，避免只靠單一分數太過籠統。

如果你想理解點樣使用，概念上可以當佢係一種訓練或強化現有多模態生成模型嘅方法，而唔係一般終端用家即開即用嘅 App。較適合研究人員、模型工程師，或者需要改善文字生圖、細粒度屬性控制、影像編輯泛化能力嘅團隊參考同實作。

支援推理型文字生圖，能更主動補足用家未明講嘅意圖
可做自我反思式修正，生成後再檢查並調整錯配內容
回饋機制較細緻，將要求拆解成可驗證項目再評估
在多個生成基準上有一致進步，亦可遷移到編輯任務
推論階段加入自我修正後，文中指最高可再提升 5.8%

就評估結果而言，頁面提到 AlphaGRPO 喺 GenEval、TIIF-Bench、DPG-Bench、WISE 等生成基準，以及 GEdit 編輯任務都有提升，而且編輯能力並非靠專門編輯訓練得來，反映泛化表現不俗。不過，具體效果仍應按模型底座、評測設定同實際資料而定。

訓練程式碼和模型權重目前正在進行內部審核，審核通過後將予以發布。

網址： https://huangrh99.github.io/AlphaGRPO/

Categories: 開源, 香港大學, 字節跳動, 影像模型, 影像處理, 框架

FATE點樣幫AI代理由失敗中學安全

2026 年 5 月 17 日

而家愈來愈多 AI 唔止係聊天，仲會幫你用工具、分步完成任務。不過真正危險嘅地方，往往唔係最後一句回覆，而係中途做過啲乜。FATE 針對嘅正正係呢一類問題：當代理模型喺操作流程中出錯，系統會將失敗過程抽出，再用作之後嘅改進材料。

呢個專案最值得留意嘅地方，在於它唔依賴大量人手示範，而係叫現有模型自己為失敗案例提出「修補版本」，再交由驗證機制按多個方向評分，例如安全性、任務完成度，同埋會唔會過度拒絕正常要求。之後再用篩選後嘅資料微調模型，並配合 PFPO 去平衡安全與實用性。

如果你想理解點樣上手，較合理嘅方式係先由論文、專案頁面同結果表開始睇，因為目前公開內容主要集中喺方法與評測表現。它唔係一般即裝即用嘅應用程式，更適合當作研究框架，畀有做代理系統、安全評估或模型訓練嘅人參考。

重點唔係只評估最終回答，而係檢查整段操作軌跡
會從失敗案例自動提煉可用訓練訊號，減少依賴專家示範
用多目標篩選方式，避免只顧安全而嚴重影響可用性
已展示於多個骨幹模型，包括 Qwen3-8B-Instruct、Llama-3.1-8B-Instruct、Ministral-3-8B-Instruct、Gemma-3-12B-it、Phi-4-reasoning

由結果睇，FATE 喺 AgentDojo 同 AgentHarm 上，對多款模型都帶來更低風險指標，同時保留較好任務表現。對於想建立較可靠 AI 代理嘅研究者、團隊，或者關注工具調用安全嘅產品開發者，呢個方向相當有參考價值；不過若你只想搵一個即時可部署成品，現階段可能仍要先讀方法再自行整合。

網址： https://github.com/YinBo0927/FATE

網址： https://arxiv.org/pdf/2605.11882

Categories: 開源, Agentic, 框架

ODE點樣訓練識睇圖又識搜尋的AI代理

2026 年 5 月 17 日

如果你對「會自己搵資料的 AI」有興趣，ODE 係一個幾值得留意的研究型專案。它唔係單純訓練模型直接輸出答案，而係讓代理按步驟去搜尋網頁、找圖片、查看學術結果，甚至對圖片放大、旋轉或翻轉，再整理證據作判斷。

對初學者來講，可以先將它理解為一個「工具操作訓練場」。專案目前已提供訓練程式、評估環境同公開工具整合，重點係同一套流程可同時用於測試與強化學習；不過自動化資料演化部分現時似乎仍在逐步補完。

它想解決的核心問題，是傳統靜態訓練資料未必足夠教到代理點樣靈活使用工具。ODE 的做法，是先用監督式訓練教基本動作格式，再用強化學習讓代理在真實互動中調整策略，之後分析操作軌跡，找出行為缺口，再回頭改善下一輪訓練資料。

比較特別的是，它把中途見過的圖片保存成可重用參照，之後可以再裁切、檢視或做視覺搜尋，唔使每次由零開始。這種設計對需要圖文交叉查證的任務尤其重要，亦比只靠文字搜尋的代理更貼近真實使用情境。

支援多種工具流程：網頁搜尋、圖片搜尋、學術搜尋、瀏覽頁面、視覺搜尋與本地圖片操作
著重保留中間圖像證據，方便後續步驟重用
訓練方式結合 SFT 與 RL，並用操作紀錄反推資料改進方向
已展示在 Qwen3-VL-8B 與 Qwen3-VL-30B 這類視覺語言模型上的提升

如果你本身做 AI 代理、檢索增強系統，或者關心模型如何可靠地「邊找邊想」，這個專案會有參考價值。對一般讀者而言，它亦提供了一個清楚例子：未來較實用的 AI，未必只係更大模型，而係更懂得在圖像與文字之間有條理地找證據。

網址： https://github.com/JoeYing1019/ODE

網址： https://on-policy-data-evolution.github.io/

Categories: 開源, 香港科技大學, Agentic, 框架

OmniDoc-TokenBench：文件圖片重建試金石

2026 年 5 月 16 日

如果你有留意 AI 圖像模型，會知道一般圖片評分未必能反映「文字有冇走樣」。OmniDoc-TokenBench 的重點，正正是針對文件類圖片做評測，尤其適合檢查 VAE 重建之後，頁面上的字仲讀唔讀得清。

它提供約 3,000 張樣本，涵蓋書本、投影片、試卷、學術論文、雜誌、財務報告、報紙與筆記等類型，並且同時有中英文內容。相比只看普通畫質分數，這個基準多加了 OCR 相關比對，較貼近真實使用情境，因為文件圖片最重要的往往不是「靚」，而是「字準」。

上手方式大致算直接：先下載資料集，再用它附帶的評測工具，將你的重建圖片與原圖比較。工具會輸出整體結果，也可看到逐張圖片的 OCR 與字串距離表現；不過部分指標首次執行時需要額外下載模型權重，而 OCR 預設亦偏向 CPU，做大批量測試時可能要留意速度。

值得留意的是，它不是單靠 PSNR、SSIM 這類傳統指標，而是加入 LPIPS、FID，以及以 OCR 為基礎的 NED。對文件任務來說，NED 特別實用，因為它更能反映文字內容有冇被改錯；這亦是它相對一般影像基準較有針對性的地方。

適合評估文字密集的文件圖片重建效果
資料涵蓋九類文件，中英文都有
支援 PSNR、SSIM、LPIPS、FID、NED 等多種量度方式
可輸出整體分數，也可查看逐張圖片結果
文中提到相關模型背景來自 Qwen-Image-VAE-2.0，並比較不同壓縮設定與其他 VAE 表現

如果你是做文件數碼化、OCR 前處理、壓縮重建，或者正測試圖像自編碼模型，這個專案幾有參考價值。對一般讀者而言，可以將它理解成一把專為「文件圖片文字保真」而設的尺，幫你分清模型究竟只是畫面順眼，還是真的保住內容。

網址： https://github.com/alibaba/OmniDoc-TokenBench

Categories: 開源, 視覺模型, 框架

Page 20 of 96

« Previous 1 … 18 19 20 21 22 … 96 Next »