Nemotron:NVIDIA 打造 Agentic AI 模型家族

Watch the Nemotron Overview

Nemotron 是一個面向 agentic AI 的模型家族加開發資源項目,重點不是只放出權重,而是連 training recipes、deployment guides、資料準備與 use-case examples 一併提供,目標是縮短由研究到部署的距離。對想建立 AI agents 的團隊來說,這種整理方式比單獨下載模型更實用。

這個項目最實際的看法,是它把不同算力環境分得很清楚:Nano 針對 edge 和 PC,Super 主打單 GPU 高吞吐,Ultra 面向 multi-GPU datacenter applications。若你想先試概念,可由 Hugging Face 上的 Nemotron 模型開始,再按項目內的指引查看對應版本的訓練與部署資料。

創新點在於它不只講文字模型。Nemotron 3 Nano Omni 是 30B-A3B hybrid Mamba-Transformer MoE,原生支援 text、image、video、audio,定位為 agentic AI 的 multimodal perception sub-agent。這代表它較像多模態代理系統中的感知核心,而不只是一般聊天模型。

項目內容亦涵蓋 curate/、data prep/、sdg/ 和 translate/,即是連資料整理、Synthetic Data Generation (SDG) 與 corpus translation 都納入流程。這種由數據到模型再到部署的完整鏈條,對企業、研究團隊,以及想建立可重複流程的開發者尤其有吸引力。

  • 提供 Nemotron Nano、Super、Ultra 等級,對應不同硬件規模
  • 涵蓋 training recipes、deployment guides、資料處理與 SDG
  • Nemotron 3 Nano Omni 支援文字、影像、影片、音訊多模態輸入
  • 可配合 TensorRT-LLM 與 NIM microservices,部署彈性較高
  • 適合 agentic AI、Computer-use agents、企業內部 AI workflow 測試

如果你想找的是一個可直接抄答案的成品,Nemotron 未必是最快捷的選擇;但若你需要一套可追溯、可調整、可延伸的開放模型項目,它的結構相當完整。現有資料顯示它更偏向給認真做產品化或研究驗證的人使用,而不是單次玩票式體驗。

GitHub: https://github.com/NVIDIA-NeMo/Nemotron

Categories: NVIDIA, Agentic, Video, Image, Audio, 工具, AI productions, 多模態模型, 模型, 模型訓練, Anthropic, AGI

ARGAR 直指 AI 審稿可被包裝操控

ARGAR

現時不少 AI reviewer 評測,默認接受論文的摘要、敘事結構與貢獻陳述,並直接輸出分數或意見;ARGAR 指出這種固定範式未必真正在看科學內容,而可能被 presentation-level content 牽動。作者因此提出 ARGAR(Adversarial Repackaging Gaming AI Review),用 adversarial repackaging 把「內容不變、包裝改寫」變成可反覆驗證的測試流程。

這個項目較像一個研究框架加實驗工具,而不只是單一資料集;它要解決的,是 AI reviewer 有沒有被 narrative structure、abstract 與 contribution statements 系統性影響。核心做法是 closed-loop iterative search:每一輪根據 AI reviewer feedback 改 LaTeX 文字與結構,再比較新版與 baseline 的審稿結果,但 scientific content held fixed。

若想測試它的思路,最合適是先看 round N/source、round N/reviews、judge result.json 和 attack log.json。這樣可以直接觀察同一篇論文在科學內容不變下,經過不同包裝後,AI review 怎樣波動,也能看清每一輪修改決策如何形成。

  • 類型定位:研究框架兼工具,用來檢驗 AI reviewer 是否容易被論文包裝影響
  • 方法重點:只改 abstract、framing、contribution statements、narrative structure,不改 scientific content
  • 輸出結構:保留每輪 LaTeX source、review 結果、pairwise judge 比較與跨輪 attack log
  • 適合場景:AI safety、LLM evaluation、學術審稿自動化研究
  • 限制提醒:項目明確反對把結果用於真實投稿操控,定位是 controlled experiments

創新之處在於它不是討論「AI 審稿準不準」的籠統問題,而是把舊範式拆開,專門測 presentation attack 對評分的影響。從儲存庫資料看,這種設計也方便研究者重播整個攻擊過程,比只看最終分數更有分析價值。

性能數字在這份儲存庫摘要未完整展開,因此不宜代作者下結論;不過評測設計本身已很有辨識度,因為它加入 pairwise judge 與多輪 review 作比較。相關模型方面,項目透過 LiteLLM 路由不同 LLM provider,可接 OpenAI、Anthropic、AWS Bedrock 等 reviewer model、attack model 與 judge model,亦配合 ICLR、NeurIPS、ICML 風格的 review generation。

GitHub: https://github.com/xyimatvoid/ARGAR

Paper: https://arxiv.org/pdf/2606.09813

Categories: 開源, OpenAI, Agentic, 工具, Content Creator, AI productions, IDE, 安全, , 模型, Anthropic, Dataset 數據集, 框架, 清華大學, AGI

[技術文章] DeepMind 談 AGI 走向 ASI

Hero image preview

Google DeepMind 這份《From AGI to ASI》不是教人立即部署某個工具,而是用研究報告形式討論:當 Artificial General Intelligence(AGI)達到人類水平後,人工智能會否再一路推進到 Artificial Superintelligence(ASI)。文中把 ASI 描述為在智能與認知能力上,超越大型人類組織的系統,並以 Universal AI 作為較理論化的參考終點。

這份內容主要解決的問題,是把「AGI 之後會發生甚麼」由抽象想像整理成可討論的技術路線。作者提出四條可能路徑:擴展 AGI、AI paradigm shifts、recursive improvement,以及由大規模 multi-agent collectives 湧現出 ASI,同時提醒每條路都可能受算力、協調、方法轉換或其他瓶頸影響。

對一般讀者來說,閱讀這份報告可先集中三部分:AGI 與 ASI 的定義、四條路徑的差異、以及作者列出的 open research questions。它較適合關心 AGI、AI 安全、科技政策與長期技術趨勢的人,而不是尋找即裝即用模型或開發教學的讀者。

  • 由 Google DeepMind 撰寫,主題是 AGI 到 ASI 的演進框架
  • 核心內容包括四條技術路徑與可能 bottlenecks
  • 強調數碼智能的優勢會隨 compute 增加而擴大
  • 不把社會改變視為單一步跳躍,而可能是一連串轉變

文章沒有提供基準分數或實驗排行榜式的性能比較,重點在概念整理與研究方向判斷。報告亦明確表示,由於不確定性很高,未來 AI 進展可能繼續加速,因此全球、跨學科的準備工作仍有大量項目需要推進。

Paper: https://arxiv.org/pdf/2606.12683

Categories: Google, 新聞, AGI

iWorld-Bench:互動世界模型評測新基準

iWorld-Bench Overview

iWorld-Bench 是一個面向互動式世界模型的基準測試,目標是評估模型在外部動作序列驅動下的感知、推理與回應能力。網站資訊指出,它提供 33 萬段影片資料、4,900 個測試任務,以及 9 項綜合指標,用來觀察模型在距離感知、記憶與軌跡跟隨等面向的表現。

實際使用上,研究者可把不同類型的世界模型接到其統一的 Action Generation Framework,將多種輸入模態轉換為可比較的互動任務。這種做法特別適合訓練後評測、模型橫向比較,以及檢查模型在多視角、不同天氣與多場景條件下的穩定性。

這個專案的主要創新,在於把原本互動形式不一致的世界模型拉到同一套評估框架中,並設計六類任務統一測試。相較既有基準多偏向一般世界模型或操作策略評估,iWorld-Bench 強調多輸入、動作控制、鏡頭控制、記憶能力,以及跨場景與全天候適應性。

  • 提供 33 萬段影片與 4,900 個測試任務
  • 以統一動作生成框架比較不同互動世界模型
  • 評測重點涵蓋視覺生成、軌跡跟隨與記憶能力
  • 支援多模態輸入、多視角、多場景與全天候條件
  • 已用於評估 14 個具代表性的世界模型

從應用角度看,會受惠的工作包含具身 AI、機器人模擬、可控影片生成、自主代理訓練,以及需要互動式環境建模的研究。性能與評估方面,網站明確表示其以 9 項指標檢驗 14 個代表性模型,並指出現有方法仍有侷限;但由於論文、程式碼、資料集與排行榜尚未公開,部分細節仍需等待正式發布確認。

模型列表:文中僅提到共評估 14 個代表性世界模型,頁面內容未列出具體名稱。

Categories: 視覺模型, 世界模型, AGI