AGI Archives - InferNews

Nemotron：NVIDIA 打造 Agentic AI 模型家族

2026 年 6 月 17 日

Nemotron 是一個面向 agentic AI 的模型家族加開發資源項目，重點不是只放出權重，而是連 training recipes、deployment guides、資料準備與 use-case examples 一併提供，目標是縮短由研究到部署的距離。對想建立 AI agents 的團隊來說，這種整理方式比單獨下載模型更實用。

這個項目最實際的看法，是它把不同算力環境分得很清楚：Nano 針對 edge 和 PC，Super 主打單 GPU 高吞吐，Ultra 面向 multi-GPU datacenter applications。若你想先試概念，可由 Hugging Face 上的 Nemotron 模型開始，再按項目內的指引查看對應版本的訓練與部署資料。

創新點在於它不只講文字模型。Nemotron 3 Nano Omni 是 30B-A3B hybrid Mamba-Transformer MoE，原生支援 text、image、video、audio，定位為 agentic AI 的 multimodal perception sub-agent。這代表它較像多模態代理系統中的感知核心，而不只是一般聊天模型。

項目內容亦涵蓋 curate/、data prep/、sdg/ 和 translate/，即是連資料整理、Synthetic Data Generation (SDG) 與 corpus translation 都納入流程。這種由數據到模型再到部署的完整鏈條，對企業、研究團隊，以及想建立可重複流程的開發者尤其有吸引力。

提供 Nemotron Nano、Super、Ultra 等級，對應不同硬件規模
涵蓋 training recipes、deployment guides、資料處理與 SDG
Nemotron 3 Nano Omni 支援文字、影像、影片、音訊多模態輸入
可配合 TensorRT-LLM 與 NIM microservices，部署彈性較高
適合 agentic AI、Computer-use agents、企業內部 AI workflow 測試

如果你想找的是一個可直接抄答案的成品，Nemotron 未必是最快捷的選擇；但若你需要一套可追溯、可調整、可延伸的開放模型項目，它的結構相當完整。現有資料顯示它更偏向給認真做產品化或研究驗證的人使用，而不是單次玩票式體驗。

GitHub： https://github.com/NVIDIA-NeMo/Nemotron

Categories: NVIDIA, Agentic, Video, Image, Audio, 工具, AI productions, 多模態模型, 模型, 模型訓練, Anthropic, AGI

ARGAR 直指 AI 審稿可被包裝操控

2026 年 6 月 16 日

現時不少 AI reviewer 評測，默認接受論文的摘要、敘事結構與貢獻陳述，並直接輸出分數或意見；ARGAR 指出這種固定範式未必真正在看科學內容，而可能被 presentation-level content 牽動。作者因此提出 ARGAR（Adversarial Repackaging Gaming AI Review），用 adversarial repackaging 把「內容不變、包裝改寫」變成可反覆驗證的測試流程。

這個項目較像一個研究框架加實驗工具，而不只是單一資料集；它要解決的，是 AI reviewer 有沒有被 narrative structure、abstract 與 contribution statements 系統性影響。核心做法是 closed-loop iterative search：每一輪根據 AI reviewer feedback 改 LaTeX 文字與結構，再比較新版與 baseline 的審稿結果，但 scientific content held fixed。

若想測試它的思路，最合適是先看 round N/source、round N/reviews、judge result.json 和 attack log.json。這樣可以直接觀察同一篇論文在科學內容不變下，經過不同包裝後，AI review 怎樣波動，也能看清每一輪修改決策如何形成。

類型定位：研究框架兼工具，用來檢驗 AI reviewer 是否容易被論文包裝影響
方法重點：只改 abstract、framing、contribution statements、narrative structure，不改 scientific content
輸出結構：保留每輪 LaTeX source、review 結果、pairwise judge 比較與跨輪 attack log
適合場景：AI safety、LLM evaluation、學術審稿自動化研究
限制提醒：項目明確反對把結果用於真實投稿操控，定位是 controlled experiments

創新之處在於它不是討論「AI 審稿準不準」的籠統問題，而是把舊範式拆開，專門測 presentation attack 對評分的影響。從儲存庫資料看，這種設計也方便研究者重播整個攻擊過程，比只看最終分數更有分析價值。

性能數字在這份儲存庫摘要未完整展開，因此不宜代作者下結論；不過評測設計本身已很有辨識度，因為它加入 pairwise judge 與多輪 review 作比較。相關模型方面，項目透過 LiteLLM 路由不同 LLM provider，可接 OpenAI、Anthropic、AWS Bedrock 等 reviewer model、attack model 與 judge model，亦配合 ICLR、NeurIPS、ICML 風格的 review generation。

GitHub： https://github.com/xyimatvoid/ARGAR

Paper： https://arxiv.org/pdf/2606.09813

Categories: 開源, OpenAI, Agentic, 工具, Content Creator, AI productions, IDE, 安全, 庫, 模型, Anthropic, Dataset 數據集, 框架, 清華大學, AGI

[技術文章] DeepMind 談 AGI 走向 ASI

2026 年 6 月 15 日

Google DeepMind 這份《From AGI to ASI》不是教人立即部署某個工具，而是用研究報告形式討論：當 Artificial General Intelligence（AGI）達到人類水平後，人工智能會否再一路推進到 Artificial Superintelligence（ASI）。文中把 ASI 描述為在智能與認知能力上，超越大型人類組織的系統，並以 Universal AI 作為較理論化的參考終點。

這份內容主要解決的問題，是把「AGI 之後會發生甚麼」由抽象想像整理成可討論的技術路線。作者提出四條可能路徑：擴展 AGI、AI paradigm shifts、recursive improvement，以及由大規模 multi-agent collectives 湧現出 ASI，同時提醒每條路都可能受算力、協調、方法轉換或其他瓶頸影響。

對一般讀者來說，閱讀這份報告可先集中三部分：AGI 與 ASI 的定義、四條路徑的差異、以及作者列出的 open research questions。它較適合關心 AGI、AI 安全、科技政策與長期技術趨勢的人，而不是尋找即裝即用模型或開發教學的讀者。

由 Google DeepMind 撰寫，主題是 AGI 到 ASI 的演進框架
核心內容包括四條技術路徑與可能 bottlenecks
強調數碼智能的優勢會隨 compute 增加而擴大
不把社會改變視為單一步跳躍，而可能是一連串轉變

文章沒有提供基準分數或實驗排行榜式的性能比較，重點在概念整理與研究方向判斷。報告亦明確表示，由於不確定性很高，未來 AI 進展可能繼續加速，因此全球、跨學科的準備工作仍有大量項目需要推進。

Paper： https://arxiv.org/pdf/2606.12683

Categories: Google, 新聞, AGI

iWorld-Bench：互動世界模型評測新基準

2026 年 5 月 7 日

iWorld-Bench 是一個面向互動式世界模型的基準測試，目標是評估模型在外部動作序列驅動下的感知、推理與回應能力。網站資訊指出，它提供 33 萬段影片資料、4,900 個測試任務，以及 9 項綜合指標，用來觀察模型在距離感知、記憶與軌跡跟隨等面向的表現。

實際使用上，研究者可把不同類型的世界模型接到其統一的 Action Generation Framework，將多種輸入模態轉換為可比較的互動任務。這種做法特別適合訓練後評測、模型橫向比較，以及檢查模型在多視角、不同天氣與多場景條件下的穩定性。

這個專案的主要創新，在於把原本互動形式不一致的世界模型拉到同一套評估框架中，並設計六類任務統一測試。相較既有基準多偏向一般世界模型或操作策略評估，iWorld-Bench 強調多輸入、動作控制、鏡頭控制、記憶能力，以及跨場景與全天候適應性。

提供 33 萬段影片與 4,900 個測試任務
以統一動作生成框架比較不同互動世界模型
評測重點涵蓋視覺生成、軌跡跟隨與記憶能力
支援多模態輸入、多視角、多場景與全天候條件
已用於評估 14 個具代表性的世界模型

從應用角度看，會受惠的工作包含具身 AI、機器人模擬、可控影片生成、自主代理訓練，以及需要互動式環境建模的研究。性能與評估方面，網站明確表示其以 9 項指標檢驗 14 個代表性模型，並指出現有方法仍有侷限；但由於論文、程式碼、資料集與排行榜尚未公開，部分細節仍需等待正式發布確認。

模型列表：文中僅提到共評估 14 個代表性世界模型，頁面內容未列出具體名稱。

Categories: 視覺模型, 世界模型, AGI