開源 – Page 8 – InferNews

MultiRef-Compass：多模態影片不再各自為政

2026 年 7 月 17 日

同一段生成影片，畫面可能順眼、聲畫卻唔對位；角色外觀接近參考圖，指令跟從又未必準。MultiRef-Compass 抓住呢種常見落差，定位成一個開源評測工具包，處理 multi-reference multimodal video generation 的比較問題，重點唔係逐條片人手睇，而係用可重現的方法把不同模型放到同一把尺上量度。

它的取向相當明確：偏向研究比較，而唔係臨時檢查作品。項目用固定的 CSV 輸入欄位，接收文字、視覺參考、音訊參考同生成影片，再輸出 per_sample.csv、model_summary.csv、ranking.md 同 details.json。這種設計的好處，是團隊可以用同一批樣本反覆測不同模型；代價是流程較講究資料整理，較適合已有實驗管線的人。

跟只看單一分數的做法相比，MultiRef-Compass 把結果拆成四組共 14 個公開指標，包括 Basic Quality、Entity Fidelity、Audio-Video Consistency 同 Instruction Following。它同時混合 classical media-analysis pipelines、learned quality models、speaker embeddings，以及 multimodal language model judges，所以看到的不只是整體高低，仲會知道問題出在 anatomy、reference fidelity、voice timbre similarity，定係 temporal order。

用統一 schema 比較不同影片生成模型，較容易做橫向排名
保留 sample-level diagnosis，同時支援 model-level ranking
支援 text、visual-reference、audio-reference 三種條件一齊評測
著重公開 metric taxonomy，同類研究較易重現結果

現有資訊未見到完整安裝細節，但理解方式已很清楚：先準備符合欄位要求的 CSV manifest，再按指標群組跑評測後端。受益最大的，會是做多模態影片生成、聲畫對齊、角色一致性與指令跟從研究的團隊。相關能力圍繞 Visual Quality、Audio Quality、Entity Fidelity、Speech-Lip Synchronization、Voice Timbre Similarity 等指標展開；它未必幫你直接提升模型質素，卻能先把模型到底差在哪一環講清楚。

GitHub · 模型

Categories: 開源, Video, Audio, Embedding, 多模態模型, 視頻模型, 語音

BadWAM 直指 World-Action Models 盲點

2026 年 7 月 17 日

當一個 World-Action Models（WAMs）睇落仍然能夠預測合理未來，但實際控制已經被悄悄帶偏，問題就唔再只是準確率高低。BadWAM 屬於研究型安全測試框架，集中模擬 World-Action Drift Attacks，用細微視覺擾動去拆開「想像」同「行動」之間原本應該對齊的部分。

呢個項目的價值，在於它唔係單純證明模型會失手，而係指出一種更難察覺的失效方式：未來預測仍然似樣，行動卻已經朝向任務失敗。相比一般只睇輸出有冇偏移的對抗攻擊做法，BadWAM更貼近 WAM 的結構特性，分成 Action-only Adversarial Attack 同 Imagination-preserving Adversarial Attack 兩條路線，後者尤其針對「表面正常、實際出錯」的情況。

重點可先睇幾項：
– 支援 query-based 攻擊，重點在凍結的 WAM 上做線上搜尋
– 提供 LIBERO closed-loop attack evaluation，唔只停留在單步分析
– 包含 matched-strength stealth analysis 同 ablation experiments
– 內附 statistics export 與 plotting utilities，方便整理結果

從部署角度看，儲存庫提供的是研究代碼而唔係開箱即用套件，基礎環境指向 Python 3.10+，並建基於 FastWAM。README 亦講明未附 model checkpoints、LIBERO data、dataset statistics、RoboTwin assets 同實驗輸出，所以要重現結果，仍然要自行補齊相關資源與依賴。

現有公開結果已經說明這個框架唔只係概念展示。在 LIBERO closed-loop 測試中，action-only WAM 成功率由 96.5% 跌到 43.1%，joint WAM 亦由 98.1% 跌到 61.5%。受益最大的會係做機械人控制、WAM 安全、對抗魯棒性測試的研究團隊；對一般應用開發者來說，它未必直接幫你部署產品，但很適合作為檢查模型是否「睇落可靠、其實已偏航」的驗證工具。

項目主頁 · GitHub

Categories: 開源, 香港, 香港理工大學, Python, 安全, 世界模型, 框架, Dataset 數據集

Kimi K3 把開源大模型推到 3T 級別

2026 年 7 月 17 日

長上下文、程式開發同知識工作往往要分開交畀不同模型處理，Kimi K3嘗試把這幾件事收在同一個開放模型內。它屬於大型多模態模型，重點是處理長流程 coding、長篇資料閱讀與推理之間的切換成本，並提供原生 vision 能力與 1M context。

Kimi K3 的定位，不是單靠參數規模取勝，而是想在開源路線上逼近 frontier intelligence。資料提到它有 2.8T parameters，屬於首個 open 3T-class model，整體表現仍落後於 Claude Fable 5 和 GPT 5.6 Sol，但在自家 evaluation suite 內已持續超過其他被測模型，顯示它在開源陣營有明顯競爭力。

技術上，這個模型建基於 Kimi Delta Attention（KDA）同 Attention Residuals（AttnRes），目的是改善資訊在長序列與深層網絡中的流動方式；同時也擴大了 Mixture of Experts（MoE）sparsity。這種做法反映它要處理的核心矛盾：一邊維持超長 context 與多類任務能力，一邊控制推理與訓練效率。

首個 open 3T-class model，規模達 2.8T parameters
原生支援 vision，並提供 1M context window
目標場景包括 long-horizon coding、knowledge work 同 reasoning
採用 Kimi Delta Attention（KDA）、Attention Residuals（AttnRes）與 Mixture of Experts（MoE）
已在 Kimi.com、Kimi Work、Kimi Code 同 Kimi API 提供使用

對開發者、研究者同需要長文檔工作流的人來說，Kimi K3最有吸引力的地方，在於它把「夠長、夠廣、夠開放」放在同一個項目裡。現階段可確認的限制也很清楚：它未到最強閉源模型的水平，而完整權重、架構與訓練細節仍要等後續 technical report 與正式釋出。

項目主頁

Categories: 開源, Agentic, API, 線上服務, IDE, Mac, Vibe Coding, 多模態模型, 教學, 編程, OpenClaw

Self-in-Space 補上無人機空間理解盲點

2026 年 7 月 17 日

講無人機視覺理解，很多方法集中在環境辨識或任務完成，但較少正面處理飛行器本身的狀態感知。Self-in-Space屬於研究型基準測試、訓練數據集與模型組合項目，核心是把 UAV 的 spatial cognition 與 self-awareness 分開檢查，看看模型是否不只「見到空間」，亦知道自己在場景中如何移動。

作者明確批評現有 UAV-oriented MLLMs 普遍偏向 environment-centered、task-oriented 範式：重視周圍有什麼，較少處理自身運動如何影響理解。為此，他們提出 SIS-Bench、SIS-Motion-54K 與 SIS-Motion，重新把 aerial understanding 拆成 perception、memory、reasoning 三層，再同時覆蓋空間與自我兩條軸線，令問題定義比一般影片問答 benchmark 更貼近 embodied UAV 場景。

SIS-Bench 包含 1,646 段真實 UAV 影片與 4,856 組 QA，覆蓋 13 個任務；團隊用它測試 26 個 video MLLMs，包括 6 個 proprietary models 與 20 個 open-source models。結果指出兩個穩定現象：模型對 self 的建模弱過 space，而且能力會由 perception 走到 memory、再到 reasoning 時逐步下跌，這個診斷比單看整體分數更有參考價值。

結合 benchmark、training dataset 與 motion-aware model，不是單一模型發佈
直接針對 UAV embodied intelligence 的 self-awareness 缺口
評測設計有清楚分層，方便看出模型在哪一段開始失準
SIS-Motion 嘗試用 motion-aware representation 改善 aerial video understanding
已公開 SIS-Bench 與 SIS-Motion-54K，可在 Hugging Face 或 ModelScope 了解內容

這項目的受眾很清楚：做 UAV 視覺、aerial video understanding、embodied AI、video MLLMs 評測的人，都會較容易用得着。現階段它更像研究與比較基礎設施，而不是即裝即用產品；想部署測試，較合理做法是先從 SIS-Bench 驗證現有模型在 self-awareness 與 spatial reasoning 的表現，再看 SIS-Motion 是否能為下游 UAV navigation tasks 帶來可轉移的增益。相關模型與資源以 SIS-Motion、SIS-Bench、SIS-Motion-54K 為主，並且對照了多個 video MLLMs 的表現。

項目主頁 · GitHub · 模型

Categories: 開源, Qwen, 字節跳動, Gemini, Video, 多模態模型, 模型訓練, Dataset 數據集, 清華大學

awesome-Self-Improving-Agents：拆解自我改進 Agent 地圖

2026 年 7 月 17 日

當大家都在談 Agent 會否愈跑愈聰明，真正麻煩的往往不是資料太少，而是做法太散、名詞太多、更新位置又不一樣。awesome-Self-Improving-Agents 把這件事整理成一個論文地圖型資源庫，核心不是教你直接部署系統，而是幫你分清楚 self-improving agentic systems 究竟在改進模型本身，還是在改進 prompt、memory、tools 與 control logic 這些外圍 scaffolds。

現有討論常把各類自我改進方法混在一起看，作者則用一條很實際的分界重組內容：一邊是 Foundation Model Improvement，另一邊是 Scaffolding Improvement。這個切法的好處，是你很快知道某篇工作追求的是更持久但較重的參數更新，還是較快、較平、亦較容易回退的代理層更新，閱讀時不會把 LoRA、工具路由、記憶結構調整當成同一類問題。

它不是可即裝即跑的軟件工具，更像研究與產品規劃都用得著的索引庫。你可以直接從 GitHub README、survey hub 同 arXiv 論文交叉閱讀；要測試這個項目的價值，最直接的方法是按 taxonomy 揀一條路，例如 Intrinsic Generative Demonstrations、Intrinsic Evaluative Feedback，或者 memory、tool refinement、full scaffolding，看看它能否幫你更快找到代表性工作與相近分支。

把 self-improvement 分成 Foundation Model Improvement 與 Scaffolding Improvement 兩大路線
收錄 239 篇 papers，當中 73 篇屬 FM improvement，166 篇屬 scaffolding improvement
細分到 Intrinsic Generative Demonstrations、Intrinsic Evaluative Feedback、dynamic tool routing、autonomous tool creation 等機制
適合研究員、Agent 產品團隊、技術寫作者整理文獻脈絡與比較方法取向

相關模型與系統脈絡圍繞 Foundation-Model-Based Agents 展開，但這個項目本身不提供單一模型權重或 benchmark 分數，也不是 OSWorld 那類直接跑任務的評測框架。它的價值在於建立閱讀順序與判斷框架；想找可落地的 agent 改進方向，這份 curated map 比單篇 survey 更接近工作清單。

項目主頁 · GitHub · Paper

Categories: 開源, Agentic, 多模態模型, 模型, Meta, Dataset 數據集

PalmClaw 把手機變成可落地 AI 助理

2026 年 7 月 17 日

想在手機上跑 AI 助理，最大問題通常唔係模型夠唔夠聰明，而係行動流程太依賴點擊介面、太多步，又難清楚限制每次操作。PalmClaw 選擇唔跟 GUI 自動化嗰條路走，而係做成一個原生 Android 代理框架，直接在裝置內管理 session、memory、skills、tools 同 agent loop，處理的是「手機可唔可以自己成為代理執行環境」呢個問題。

同類做法很多會把手機當成一個要被點擊、滑動、輸入的目標畫面，PalmClaw則把裝置能力包裝成有明確參數同結構化結果的 device tools。呢個取向的好處很直接：動作邊界更清楚，執行鏈更短，亦較少受介面改版影響；代價是它偏向整合系統能力與通道，而唔係模擬人手操作所有 App 畫面。

安裝理解上亦算直接，項目已提供 APK，重點不是先搭 server，而是把代理本身部署到 Android。應用程式內可管理設定、工具同 channels，並連接 Telegram、Discord、Slack、Feishu、Email、WeCom 等通道；資料與硬件存取留在本機，較適合在意私隱、想減少雲端依賴的個人用戶，或者要做流動工作流驗證的小團隊。

原生 Android 代理框架，重點在裝置內執行而非遙控手機介面
沿用 OpenClaw 啟發，但定位更貼近直接 mobile deployment
提供 APK，可在手機內完成設定、工具管理與通道連接
論文數據提到，相比最強基線有 11.5% 相對任務成功率提升，完成時間減少 94.9%
相關脈絡包括 OpenClaw，以及以 Large Language Model（LLM）agent 為核心的 session、memory、skills、tools 架構

PalmClaw最值得留意的地方，在於它把手機代理由「會操作畫面」改成「直接調用裝置能力」。對想把 AI 助理放進日常通訊與個人裝置流程的人來說，這種 local-first、明確工具邊界的設計，比純粹追求花巧自動化更接近可長期使用的方向；現階段平台重心明確落在 Android，跨平台與生態覆蓋仍要看後續發展。

項目主頁 · GitHub · Paper

Categories: 開源, 香港, 香港理工大學, Gemini, Agentic, Discord, Anthropic, OpenClaw, Skill 技能

EgoMemo 讓助手懂得幾時先開口

2026 年 7 月 17 日

助手最難處理的，不是看見了甚麼，而是判斷幾時該出聲、幾時應該保持安靜。EgoMemo對準的正是這個空位：它屬於一個面向連續第一身影片的記憶增強代理系統，同時附上 benchmark，目標是讓系統根據累積情境主動提供服務，而不只是等人發問或對每個事件都作反應。

現有做法多數落在兩個範式：reactive，只會被問到先答；semi-proactive，偵測到預先定義事件就回應。作者認為這兩類方法都欠缺對使用者歷史、當前活動與介入時機的判斷，所以用 EgoServe 重新定義問題，把主動協助視為 context-dependent decision problem，再由 EgoMemo用 three-level temporal memory graph、semantic knowledge graph 同 visual embedding archives 做 retrieval-augmented reasoning。

這個 GitHub 項目不止放出模型思路，亦包含 memory-graph construction + retrieval pipeline、evaluation suite、dataset annotation 與 streaming demo。理解部署方式並不複雜：先準備 Python 3.10 環境與 .env 內的 API keys、資料路徑，再下載 EgoServe 註釋及對應來源影片，之後按不同資料集分開執行 processing 與 retrieval 兩階段，前者建立記憶圖，後者生成 proactive-service response。

EgoServe 收錄超過 3,000 個 service instances，橫跨 4 個 temporal memory horizons 與 10 類服務
EgoMemo 採用 training-free 設計，重點放在記憶組織與檢索，而不是再訓練一個大模型
項目同時支援 EgoLife、HoloAssist、CaptainCook4D、EyeWo / ESTP-Bench、OVO-Bench 等資料來源
retrieval 可切換 caption retrieval、visual retrieval 等設定，方便做 ablation

EgoMemo 不是追求單次問答表現，而是補上長時間情境累積後的判斷能力。受益最大的是做 egocentric AI、智能助理、穿戴式裝置或多模態 Agentic 項目的研究團隊；限制也同樣直接，整個流程依賴外部影片資料、API keys 與多階段處理，重點更接近研究基線與評測框架，而未算一個即裝即用的消費級產品。相關模型與組件方面，儲存庫示例已出現 QwenVL 3 8B Instruct、GPT-5、Gemini 等作為 caption 或 response 端選項。

項目主頁 · GitHub · Paper

Categories: 開源, Gemini, OpenAI, Agentic, API, KnowledgeGraph, Embedding, Python, 多模態模型, 模型訓練, Dataset 數據集

Hallo4D 點樣補救 3D 與 4D 生成穿崩

2026 年 7 月 17 日

做3D同4D內容生成，最麻煩往往唔係單張畫面唔夠靚，而係鏡頭一轉、時間一推進，物件結構開始重複、錯位，角色仲會出現 jitter、identity flicker 同 structural drift。Hallo4D沿住呢個痛點出發，屬於一個研究型框架，重點唔係再訓練新模型，而係插入現有流程，幫3D與4D生成結果找出並修正時空不一致。

而家常見做法多數仍然依賴 2D diffusion-based supervision，但欠缺直接約束幾何一致性的機制，所以會出現 duplicated structures 同 misaligned geometry；去到4D，問題再擴大到時間軸。Hallo4D提出的是 generation-detection-correction 範式：先生成，再用 Large Multimodal Models（LMMs）從 multi-view、multi-frame renderings 判斷邊度出錯，之後以 image-space consistency optimization 做修正，並用 multi-model voting 揀較穩定的候選結果。

它不是跟同類方法鬥基礎生成能力，而是做一層 tuning-free、model-agnostic 的補救機制，聲稱毋須 retraining 或 architectural modification。代價亦很明顯，整個流程更依賴外部 LMM 推理、候選修正與投票判斷，較像高質後處理，而唔係最省算力的路線。

重點放在 spatio-temporal hallucination mitigation，不是直接取代原有 3D / 4D 生成模型
用 LMMs 檢查多視角、多幀輸出，再引導修正不一致位置
針對時間穩定性加入 optical flow 驅動的 keyframe sampling
以 CSEA、log-dynamic-range loss 同 union-of-frusta visibility pruning 處理曝光崩壞

目前較適合當作研究方法理解，而不是即開即用的產品工具。測試方式大致應是把它接到既有 Text-to-3D、Image-to-3D 或 4D pipeline，對比 baseline 與修正後結果，觀察多視角幾何、角色身份穩定度同曝光控制有無改善；頁面亦提供多組 visual comparisons，以及在 SV4D 的額外 4D 場景結果。

十分適合本身已經在做 3D / 4D 生成、又經常被跨視角穿崩同時序閃爍拖慢流程的研究團隊。相關脈絡亦值得一併看：Hallo3D主攻 multi-view-consistent 3D generation，Hallo4D則把範圍擴展到統一處理 3D + 4D 的時空一致性；量化表現，現有儲存庫文字未見完整指標表，判斷仍要以論文與項目頁面的可視化對比為主。

項目主頁 · GitHub · Paper

Categories: 開源, Image, 3D, 多模態模型, 中國, 任何模型, Dataset 數據集

MetaView 補回生成的空間感

2026 年 7 月 17 日

單靠一張圖片生成大角度新視角，很多方法一轉得遠就會出現結構鬆散、比例飄移，鏡頭控制亦未必準。MetaView 屬於影像生成框架，集中處理 monocular novel view synthesis，目標是在不做顯式 3D reconstruction pipeline 的前提下，仍然保住 geometry consistency 同可控的 camera pose rendering。

它的取向幾清楚：唔想被重建流程綁死泛化能力，但又唔接受純 implicit 方法常見的 scale drifting。項目把 Depth Anything 3 提供的 implicit geometry priors 接到 pretrained MM-DiT backbone，做法是加入 non-invasive parallel attention layers；同時再用 modified RoPE，配合 PRoPE 為 z-axis 留出額外子空間，把場景尺度固定在較一致的 3D metric space。

對研究團隊、做 novel view synthesis、3D-aware image generation，或者需要從單張圖控制鏡頭輸出的工作流，這個項目值得留意。現有資訊較像研究原型：README 與 project homepage 已提供 paper、demo 與 model 入口，但未見完整安裝與部署細節，所以現階段較合理的理解方式，是先用 demo 看大視角轉換與 spherical poses control 的效果，再等待公開模型與程式流程補齊。

單張圖片輸入，主打大幅度 viewpoint changes 下仍保持高保真輸出
不走 explicit 3D reconstruction pipelines，換取更高彈性與泛化空間
用 Depth Anything 3 幾何先驗補結構，再用 modified RoPE 處理 scale anchoring
比較對象包括 ViewCrafter、Gen3C、Voyager、PE-Field、HY-World、Lingbot-World

MetaView 在具挑戰性的 monocular large viewpoint changes 測試中，表現優於多個 reconstruction-based 與 implicit 方法，強調的是 geometry consistency、precise controllability 與 generalization。現階段較適合把它視為一個方向鮮明的研究項目：它不是單純追求更靚畫面，而是嘗試把單圖生成長期欠缺的空間尺度感補回來。

項目主頁 · GitHub · 模型

Categories: 開源, 香港, 香港科技大學, Image, 3D, 影像模型, 模型

GigaWorld-Policy-0.5 推向機械人即時反應

2026 年 7 月 17 日

機械人控制最難受的地方，常常不是動作生成本身，而是模型一邊理解畫面、一邊預測未來場景時，推理成本高到難以閉環運作。GigaWorld-Policy-0.5屬於 World Action Model（WAM），重點是保留未來視覺動態對訓練的幫助，但在執行階段只解碼動作，減少為了生成未來影片而付出的額外開銷。

它延續 action-centered 的路線，再加入 Mixture-of-Transformers 架構，將視覺建模與動作生成分成不同 expert。咁樣做的取捨很清楚：訓練期間仍然利用未來場景演化強化動作學習，推理時則走較輕的 action-only pathway，提升即時控制效率。資料提到，它在本地 RTX 4090 上可做到 85ms inference latency，目標就是支援更接近即時的部署。

另一個值得留意的位置，是它不只改模型結構，亦加入 agent-based AutoResearch pipeline 來搜尋訓練配置。這種做法主要是減少手動調 hyperparameter 的時間，讓實驗設定更有系統地被篩選。對做 Robotic、世界模型或策略學習的人來說，這比單純追求更高指標更實用，因為整個訓練流程的效率同樣影響迭代速度。

保留 future visual dynamics 的訓練收益，但推理時只輸出動作
用 Mixture-of-Transformers 分開 visual expert 與 action expert，降低活躍計算量
以 mixed Action-Conditioned World Modeling（AC-WM）和 WAM 訓練，加強視覺與動作的耦合
引入 agent-based AutoResearch pipeline，提升訓練配置搜尋效率
已公開論文、程式碼與模型，方便研究用途跟進

整體來看，GigaWorld-Policy-0.5處理的是世界模型常見的速度與控制落地矛盾：訓練想要看得多、學得深，部署又要夠快。現有資料顯示，它把重心放在更有效率的 action-centered WAM 路線，適合關注即時機械人控制、閉環部署與本地推理表現的人。

項目主頁 · GitHub · 模型

Categories: 開源, Agentic, Video, 模型, 模型訓練, 編程, Robotic, 清華大學, 框架

Page 8 of 66

« Previous 1 … 6 7 8 9 10 … 66 Next »