InferNews

Hallo4D 點樣補救 3D 與 4D 生成穿崩

2026 年 7 月 17 日

做3D同4D內容生成，最麻煩往往唔係單張畫面唔夠靚，而係鏡頭一轉、時間一推進，物件結構開始重複、錯位，角色仲會出現 jitter、identity flicker 同 structural drift。Hallo4D沿住呢個痛點出發，屬於一個研究型框架，重點唔係再訓練新模型，而係插入現有流程，幫3D與4D生成結果找出並修正時空不一致。

而家常見做法多數仍然依賴 2D diffusion-based supervision，但欠缺直接約束幾何一致性的機制，所以會出現 duplicated structures 同 misaligned geometry；去到4D，問題再擴大到時間軸。Hallo4D提出的是 generation-detection-correction 範式：先生成，再用 Large Multimodal Models（LMMs）從 multi-view、multi-frame renderings 判斷邊度出錯，之後以 image-space consistency optimization 做修正，並用 multi-model voting 揀較穩定的候選結果。

它不是跟同類方法鬥基礎生成能力，而是做一層 tuning-free、model-agnostic 的補救機制，聲稱毋須 retraining 或 architectural modification。代價亦很明顯，整個流程更依賴外部 LMM 推理、候選修正與投票判斷，較像高質後處理，而唔係最省算力的路線。

重點放在 spatio-temporal hallucination mitigation，不是直接取代原有 3D / 4D 生成模型
用 LMMs 檢查多視角、多幀輸出，再引導修正不一致位置
針對時間穩定性加入 optical flow 驅動的 keyframe sampling
以 CSEA、log-dynamic-range loss 同 union-of-frusta visibility pruning 處理曝光崩壞

目前較適合當作研究方法理解，而不是即開即用的產品工具。測試方式大致應是把它接到既有 Text-to-3D、Image-to-3D 或 4D pipeline，對比 baseline 與修正後結果，觀察多視角幾何、角色身份穩定度同曝光控制有無改善；頁面亦提供多組 visual comparisons，以及在 SV4D 的額外 4D 場景結果。

十分適合本身已經在做 3D / 4D 生成、又經常被跨視角穿崩同時序閃爍拖慢流程的研究團隊。相關脈絡亦值得一併看：Hallo3D主攻 multi-view-consistent 3D generation，Hallo4D則把範圍擴展到統一處理 3D + 4D 的時空一致性；量化表現，現有儲存庫文字未見完整指標表，判斷仍要以論文與項目頁面的可視化對比為主。

項目主頁 · GitHub · Paper

Categories: 開源, Image, 3D, 多模態模型, 中國, 任何模型, Dataset 數據集

MetaView 補回生成的空間感

2026 年 7 月 17 日

單靠一張圖片生成大角度新視角，很多方法一轉得遠就會出現結構鬆散、比例飄移，鏡頭控制亦未必準。MetaView 屬於影像生成框架，集中處理 monocular novel view synthesis，目標是在不做顯式 3D reconstruction pipeline 的前提下，仍然保住 geometry consistency 同可控的 camera pose rendering。

它的取向幾清楚：唔想被重建流程綁死泛化能力，但又唔接受純 implicit 方法常見的 scale drifting。項目把 Depth Anything 3 提供的 implicit geometry priors 接到 pretrained MM-DiT backbone，做法是加入 non-invasive parallel attention layers；同時再用 modified RoPE，配合 PRoPE 為 z-axis 留出額外子空間，把場景尺度固定在較一致的 3D metric space。

對研究團隊、做 novel view synthesis、3D-aware image generation，或者需要從單張圖控制鏡頭輸出的工作流，這個項目值得留意。現有資訊較像研究原型：README 與 project homepage 已提供 paper、demo 與 model 入口，但未見完整安裝與部署細節，所以現階段較合理的理解方式，是先用 demo 看大視角轉換與 spherical poses control 的效果，再等待公開模型與程式流程補齊。

單張圖片輸入，主打大幅度 viewpoint changes 下仍保持高保真輸出
不走 explicit 3D reconstruction pipelines，換取更高彈性與泛化空間
用 Depth Anything 3 幾何先驗補結構，再用 modified RoPE 處理 scale anchoring
比較對象包括 ViewCrafter、Gen3C、Voyager、PE-Field、HY-World、Lingbot-World

MetaView 在具挑戰性的 monocular large viewpoint changes 測試中，表現優於多個 reconstruction-based 與 implicit 方法，強調的是 geometry consistency、precise controllability 與 generalization。現階段較適合把它視為一個方向鮮明的研究項目：它不是單純追求更靚畫面，而是嘗試把單圖生成長期欠缺的空間尺度感補回來。

項目主頁 · GitHub · 模型

Categories: 開源, 香港, 香港科技大學, Image, 3D, 影像模型, 模型

GigaWorld-Policy-0.5 推向機械人即時反應

2026 年 7 月 17 日

機械人控制最難受的地方，常常不是動作生成本身，而是模型一邊理解畫面、一邊預測未來場景時，推理成本高到難以閉環運作。GigaWorld-Policy-0.5屬於 World Action Model（WAM），重點是保留未來視覺動態對訓練的幫助，但在執行階段只解碼動作，減少為了生成未來影片而付出的額外開銷。

它延續 action-centered 的路線，再加入 Mixture-of-Transformers 架構，將視覺建模與動作生成分成不同 expert。咁樣做的取捨很清楚：訓練期間仍然利用未來場景演化強化動作學習，推理時則走較輕的 action-only pathway，提升即時控制效率。資料提到，它在本地 RTX 4090 上可做到 85ms inference latency，目標就是支援更接近即時的部署。

另一個值得留意的位置，是它不只改模型結構，亦加入 agent-based AutoResearch pipeline 來搜尋訓練配置。這種做法主要是減少手動調 hyperparameter 的時間，讓實驗設定更有系統地被篩選。對做 Robotic、世界模型或策略學習的人來說，這比單純追求更高指標更實用，因為整個訓練流程的效率同樣影響迭代速度。

保留 future visual dynamics 的訓練收益，但推理時只輸出動作
用 Mixture-of-Transformers 分開 visual expert 與 action expert，降低活躍計算量
以 mixed Action-Conditioned World Modeling（AC-WM）和 WAM 訓練，加強視覺與動作的耦合
引入 agent-based AutoResearch pipeline，提升訓練配置搜尋效率
已公開論文、程式碼與模型，方便研究用途跟進

整體來看，GigaWorld-Policy-0.5處理的是世界模型常見的速度與控制落地矛盾：訓練想要看得多、學得深，部署又要夠快。現有資料顯示，它把重心放在更有效率的 action-centered WAM 路線，適合關注即時機械人控制、閉環部署與本地推理表現的人。

項目主頁 · GitHub · 模型

Categories: 開源, Agentic, Video, 模型, 模型訓練, 編程, Robotic, 清華大學, 框架

用行為地圖看懂 Agent Harness

2026 年 7 月 17 日

想理解 coding agent 點樣真正執行、點樣做安全檢查，或者想改成自己團隊用得上的流程，卡位通常唔在於缺少文件，而在於行為分散喺大量程式碼之中。Harness Handbook 就是針對 agent harness 的整理方法，把「某個行為點樣發生」變成可導航、可核對、可修改的路徑。

它處理的是行為同實作之間斷開的問題。像「刪除檔案前會否先詢問」這類問題，往往涉及多個 implementation sites，不是搜 delete、permission、confirm 就能直接還原全貌。Harness Handbook 以 behavior-level manual 方式重組這些零散位置，讓人可以由問題出發，一步步找到對應的 behavior units、相關程式碼證據，以及可能受影響的修改位置。

把分散程式碼整理成可閱讀的 behavior map
每個行為步驟都連到可驗證的 code evidence
支援理解、審核與修改共用同一套入口
著重 human in the loop，方便持續檢查系統變化

這種做法同一般 code index 或關鍵字搜尋的差異，在於它不是單純列出檔案，而是直接對應「系統會點做」。對開發者、維護大型 agent 項目的人，或者要審視安全邏輯的團隊，都會比較實用；連 coding agents 也可借這份 Handbook 更準確找到相關程式碼。

資料顯示，項目還提供 Handbook Studio，將這套 behavior map 變成可操作的入口。現階段重點不在推出另一個模型，而是為複雜 agent harness 建立一層可解釋、可審核的結構，令系統隨版本演進時，仍然保留清晰的行為脈絡。

項目主頁

Categories: 開源, 騰訊, Agentic, Vibe Coding, 編程, 框架

KnowAct-GUIClaw 跨平台 GUI 代理

2026 年 7 月 17 日

要代理跨桌面、Android、iOS 同 HarmonyOS 幫你做事，最易失手的位通常唔係單一步驟，而係多個 App 之間點樣接續執行。KnowAct-GUIClaw屬於 Agentic 自動化框架／工具，核心處理的是長流程 GUI automation：由理解意圖、揀路徑、執行操作，到把經驗寫回記憶與技能庫，令之後的任務唔使每次由零開始。

同類 GUI agent 常見做法，是把畫面理解同動作決策綁成單次 observe-reason-act 迴圈；作者認為這種固定範式一遇上跨 App、跨系統流程，就容易缺少任務分解、歷史經驗同可重用技能。KnowAct-GUIClaw改用 Know–Route–Act–Reflect，前面先整理證據與路由，後面再把軌跡蒸餾成 memory 同 skills，取向明顯偏向「愈用愈熟手」而唔係單次回答最聰明。

部署上有兩條路：一條是完整 host，配合 nanobot webui、gateway 同 agent 去跑；另一條是獨立 guiclaw 工具，讓其他 host、腳本或終端直接調用。GUI automation 會改變裝置狀態，驗證任務應先用 dry-run，同時用測試裝置或測試帳號，這點對企業內部流程、自動測試、數碼助理場景尤其重要。

支援 desktop、Android、iOS、HarmonyOS，重點係跨平台一致流程
以 memory store 同 skill store 補強長流程任務，而唔只靠即場推理
在 MobileWorld benchmark 取得 64.1%，頁面稱超過多個 open agent frameworks 及部分 closed agents
對不同底模有泛化效果：Kimi-2.6 提升 8.5%，Qwen3.5-35B-A3B 提升 16.2%

受惠最大的，會是要處理重複 GUI 流程的團隊，例如行動裝置測試、跨 App 任務編排、個人助理型代理開發。不過它的價值未必只在榜單，而係把 GUI agent 從「會操作畫面」推向「會累積經驗再操作畫面」。

項目主頁 · GitHub · Paper

Categories: 開源, Agentic, 工具, Dataset 數據集, Skill 技能

Ring-Zero 1T 參數零樣本強化學習

2026 年 7 月 17 日

當模型愈做愈大，真正困難唔只係算力，而係點樣令佢喺冇人工示範推理鏈嘅情況下，仍然學到清晰、有效又可延伸嘅思考方式。Ring-Zero 屬於大型語言模型推理訓練研究，重點放喺將 zero RL 擴展到 1T 參數，觀察推理能力會唔會隨規模自然湧現。

呢個項目要處理嘅問題幾具體：以 Reinforcement Learning with Verifiable Rewards（RLVR）直接訓練 base model，雖然可以避開昂貴嘅人工 chain-of-thought（CoT）資料，但簡單放大規模會帶來可讀性差、token 冗餘，同埋推理深度唔夠靈活。Ring-Zero 針對呢幾個卡位，加入 clipped importance sampling、training-inference ratio correction 同 mixed-precision control，目標係令訓練流程更穩定，輸出亦更精煉。

同常見依賴監督式推理示範或者較細模型做 zero RL 嘅做法相比，Ring-Zero 想證明一件事：規模本身會改變模型學推理嘅方式。研究者觀察到訓練大致會經歷「discovery」再到「sharpening」兩個階段，而且模型會自發出現 anthropomorphism、structured formatting、self-verification、parallel reasoning 同 context anxiety 等行為，顯示部分人手設計技巧未必再係必要。

把 zero RL 擴展到 1T 參數，核心焦點係大規模推理湧現
唔用人工標註 CoT，改用 RLVR 從 trial-and-error 中學習
除咗最終答案，仲額外檢查 comprehensibility、reproducibility、efficiency
在七個數學 benchmark 上，Ring-2.5-1T-Zero 表現具競爭力

對研究 LLM 推理、模型訓練同 scaling law 嘅讀者，呢個項目最有參考價值。佢唔單止關心分數高低，仲嘗試回答大模型點樣學會更短、更有結構、亦更容易重現嘅 CoT；呢一點對之後做 AGI、模型訓練同推理優化都幾關鍵。

Youtube · Paper

Categories: 安全, 模型訓練, 中國, AGI, 清華大學, Dataset 數據集

MonkeyOCRv2 文件通用 OCR 底座

2026 年 7 月 17 日

文件 AI 最麻煩的地方，在於文字辨識、版面解析、文件理解、公式辨識，甚至竄改檢測，很多時都要拆成幾個模型串起來。MonkeyOCRv2 把自己放在視覺文字基礎模型的位置，核心不是只追單一 OCR 指標，而是想用同一個 encoder 同時覆蓋多語言文件 parsing、understanding、text recognition、formula recognition 以至 scene text detection。

它採取的路線很明確：不像部分做法會按任務各自訓練小模型，MonkeyOCRv2 強調 fine-grained text modeling、cross-task representation learning 同 cross-lingual generalization，等於先把「文字作為視覺內容」這件事學得更深，再把能力分流到不同文件任務。這種取向的好處，是同一套底座較適合研究團隊或產品團隊整合工作流；代價則是現有資訊仍以模型發布為主，完整效能對比與部署細節還要結合論文與 checkpoint 再判斷。

現階段最值得留意的，是項目已不只放出單一模型名稱，而是分成幾條較清晰的能力線。 MonkeyOCRv2 vision encoder，以及面向 multilingual document parsing 的 MonkeyOCRv2-Parsing、面向 efficient document understanding 的 MonkeyOCRv2-Und，並提供 Hugging Face 與 ModelScope checkpoint，代表測試方式大致會圍繞下載權重後，按任務接入 parsing、recognition 或 understanding 流程，而不是單純打開一個聊天介面就完成。

涵蓋 OCR、文件理解、公式辨識、竄改檢測、重疊文字分割等多類任務
提供 MonkeyOCRv2-S、MonkeyOCRv2-B、MonkeyOCRv2-AS，不同 backbone 對應不同場景
S、B 版本偏向 Recognition / Parsing / Understanding，AS 版本偏向 Detection / Segmentation
已公開 Demo、Hugging Face 集合與 MonkeyDocv2 數據集線索，方便交叉驗證

從現有公開資訊看，這個項目較適合做 Document AI、智能審核、票據與表單處理，也適合想比較 dots.mocr、PaddleOCR-VL、Qwen3-VL 這類路線差異的人。它未必是最輕量的選擇，但「一個編碼器橫跨多任務與多語言」這個方向，對需要長期維護文件工作流的項目有相當吸引力。

GitHub · Paper

Categories: 開源, Qwen, OpenAI, Medical醫學, 多模態模型, 影像處理, 模型, 框架, Dataset 數據集

RINO 用圖像編輯統一視覺任務

2026 年 7 月 16 日

RINO unifies vision under a single RGB interface: one frozen image editor, driven by a task-specific prompt, handles est

與其為每個視覺任務各自接駁 head、decoder 或 adapter，RINO 選擇更激進的路線：全部改寫成 RGB In, RGB Out。它屬於一個以 PyTorch 實作的研究型評測與實驗項目，核心問題是檢查單一凍結式 image editor，能否同時處理視覺理解與條件生成，而毋須為深度、segmentation、pose 之類任務另建模組。

這個定位帶來的吸引力很直接：流程統一、介面統一、後端也能互換。項目目前接上三個開源 image-edit 模型作為黑盒後端，包括 Qwen-Image-Edit、FireRed-Image-Edit 與 LongCat-Image-Edit；任務目錄結構一致，每個 task 都有獨立 evaluate 程式與 output 結果，方便逐項跑 benchmark，比起各任務各寫一套推理邏輯，整理與比較都省事得多。

但它的取捨同樣明顯。RINO 並沒有訓練新模型，也不做 fine-tuning，而是堅持用 released weights 直接測 zero-shot 表現；好處是比較乾淨，較能反映 image editor 本身的泛化能力，限制則是上限會被原生編輯模型綁住，對結構化輸出是否穩定、是否容易受 prompt 與渲染方式影響，仍要按任務逐個看。

重點不是追求單一任務最佳成績，而是測試「同一個 RGB 介面」能否橫跨多類視覺工作
三個後端可互換：Qwen-Image-Edit、FireRed-Image-Edit、LongCat-Image-Edit
採用 copied official metric code 評分，數字理論上較容易與既有文獻對齊
部署理解不複雜：安裝依賴後，按 task 準備 dataset，再選 BACKEND 與對應 MODEL 便可執行評測

較適合留意這個項目的，會是想研究 unified vision 介面、比較不同 image editor 泛化力，或者想把多個 benchmark 收攏到同一工作流的團隊。現有資訊未列出完整成績表，但它已清楚交代評測方法、資料夾規格與模型來源；作為研究驗證平台，價值在於提出一套可重覆比較的做法，而不是即刻取代每類任務的專用模型。

項目主頁 · GitHub

Categories: 開源, Qwen, Image, Python, 多模態模型, 影像處理, 模型, 模型訓練, Dataset 數據集

AMID 把醫學影像建模流程交畀代理協作

2026 年 7 月 15 日

醫學影像建模最麻煩的位，往往唔係只係揀網絡，而係每個任務都有唔同資料形態、指標、切分規則同提交要求。AMID把呢個痛點拉到枱面：它屬於一個 autonomous multi-agent framework，目標唔係產生一段建議文字，而係交出可訓練、可推理、可驗證、可提交的完整模型產物。

現有通用 MLE agent 往往沿用比較粗略的搜尋與試錯範式，先提方案、再寫碼、再靠結果反覆修補；作者認為放到醫學影像場景，呢種做法容易忽略資料條件、驗證協議同提交格式。AMID改用 Data-Conditioned Method Planning，先按任務資料與可運行資源整理出可執行的 method lanes，再用 Verification-Guided Two-Stage Optimization 由早期廣泛探索，轉去後期集中追蹤有潛力路線，同時持續檢查 metric computation、validation protocol 同 prediction artifacts。

呢種取向的差異，在於它把「做得出分數」同「流程可核對」放埋一齊處理。對醫療 AI 團隊、挑戰賽參賽者，或者要同時管理 2D 影像、3D volumes、segmentation masks、class labels 等異質資料的人，AMID的吸引力在於減少人手串接流程的時間；代價是它目前仍以技術報告與任務解法報告為主，README亦寫明 source code 尚未釋出，暫時未到可以直接部署測試的階段。

效能方面，AMID用 ReX-MLE 的 20 個 medical imaging challenge tasks 做基準，比較對象包括一般用途 MLE systems，同時拿 human-designed challenge solutions 作參照。作者指出它整體表現優於被評測的通用系統，部分任務接近或追平人手設計方案；現階段較適合把它理解成一套清晰的方法論與工作流藍圖，而唔係即裝即跑的開源工具。

核心定位係 autonomous multi-agent framework，處理醫學影像模型開發與驗證交付
主要方法包括 Data-Conditioned Method Planning 同 Verification-Guided Two-Stage Optimization
輸出唔止模型建議，仲包括 training code、inference code、weights、prediction files 同 audit trail
基準測試來自 ReX-MLE 的 20 個任務，整體表現優於通用 MLE systems
目前已公開 technical report 同 20 份 solution reports，source code 尚未發布

相關模型與系統脈絡方面，AMID直接對比的是 general-purpose MLE systems，同時以 human-designed challenge solutions 作為高水位參考。它未有把重點放在單一 backbone 或某個固定醫學影像模型，而是把多代理規劃、優化與驗證流程包成可重複的方法，呢點比單次調參工具更值得留意。

GitHub · Paper

Categories: 開源, 香港, 香港中文大學, 微軟, Agentic, Image, 3D, Medical醫學, 多模態模型, 影像處理, 模型訓練, Dataset 數據集, 框架

MuScriptor 把多樂器轉譜拉近可用水位

2026 年 7 月 15 日

聽住一段完整歌曲，直接整理出可編輯的 MIDI，本來最易卡住嘅位係多樂器同時出現之後，音色、失真同重疊頻段會令轉譜結果迅速走樣。MuScriptor 針對嘅正正係呢種情況：它屬於開源音樂轉譜模型，目標係將真實世界嘅多樂器錄音轉成符號化樂譜，而唔係只喺單一樂器或合成資料上做得好睇。

舊一代 Automatic Music Transcription 往往依賴大量 synthetic training data，代表性做法如 MT3，喺合成測試集成績可以唔錯，但一落到真實混音音樂就容易失準。MuScriptor 嘗試修正呢個範式，先分析 synthetic data pre-training 嘅作用，再結合真實音訊 fine-tuning，同時加入 reinforcement learning 做 post-training，重點唔係追求實驗室式乾淨訊號，而係提升跨曲風、多樂器錄音嘅泛化能力。

對一般創作者、編曲人、音樂研究者同需要把歌曲快速轉成 MIDI 工作流嘅團隊來講，呢個項目吸引力幾直接。它提供 web UI 同 CLI 兩種方式，本地可先用 uvx muscriptor serve 背後嘅介面理解效果，亦可以用命令列批次處理；首次執行前要有 HuggingFace 帳戶並接受模型授權，權重會下載後快取，本地網頁服務預設只開喺 127.0.0.1，改成 --host 0.0.0.0 就可以喺區域網路存取。

已公開 small、medium、large 三個模型，分別為 103M、307M、1.4B 參數
small 較適合 CPU-only 環境，medium 係預設速度與準確度平衡，large 追求更高準確率但更重
模型架構採用 transformer decoder only
支援 instrument presence conditioning，用來控制轉譜時聚焦邊類樂器
播放功能唔係單純示意，而係透過完整 SoundFont synthesizer SpessaSynth 回播

限制亦寫得算坦白：權重受 CC BY-NC 4.0 約束；Intel Mac 要留意 PyTorch 同 Python 版本配搭。現有資料指出它訓練用到 170k 首歌，涵蓋 classical music 到 heavy metal，定位上明顯比只靠小量真實資料、再用大批合成音訊補足嘅方法更著重真實混音可用性。對需要高質多樂器 AMT 嘅人，MuScriptor 目前最值得留意嘅，係它唔再只展示「可以轉譜」，而係開始處理「轉出嚟能否進入後續編曲或分析」呢個關鍵差距。

項目主頁 · GitHub · 模型

Categories: 開源, Mac, Python, 模型, 音樂, Dataset 數據集

Page 11 of 125

« Previous 1 … 9 10 11 12 13 … 125 Next »