iMaC:把機械臂動作變成可預測影像

overview

現時不少 action-conditioned video models 會把未來動作壓成 compact vectors,再經 learned conditioning modules 交給模型處理;作者認為這種做法要模型自行猜測細微空間後果,遇到 real manipulation 時,幾厘米差距已足以改變接觸、物件移動與任務成敗。iMaC 屬於世界模型與影片生成模型,核心是把 future joint actions 轉成 image-like controls,減少「動作有輸入,但空間關係表達不足」的問題。

這個項目的方法相當具體:先利用 robot URDF 與 forward kinematics,渲染 future robot-observation control videos,也就是 motion images;之後再加入 depth 作為輔助訊號,配合 3D pointclouds 建立 two-stream geometry controls,也就是 contact images。舊範式主要靠抽象向量條件化,iMaC 則把「未來機械臂會出現在哪裡、如何接近場景」直接變成可見控制,這是它最清晰的技術分野。

GitHub 儲存庫提供 training、preprocessing 與 inference code,覆蓋 RND-mix stage-one、stage-two,以及 WorldArena 三條流程。想試這個項目的人,會先由資料前處理、depth 與 3D condition 建立開始,再跑 validation inference 看生成影片是否跟動作一致;若本身做 robotic policy evaluation,還可以接到 WorldArena 或 online RND evaluation 場景。

  • 把 actions 轉成 motion images 與 contact images,空間條件更明確
  • 用 depth encoding 和 3D pointclouds 強化 robot-scene 幾何理解
  • 加入 training-time rollout strategy,目標是支援更長時序生成並減少 exposure bias
  • 儲存庫同時涵蓋訓練、前處理、推論,不只是論文展示模型
  • 相關組件包括 Wan transformer variants、Diffusion inference pipelines、RobotWin 2.0、WorldArena

性能方面,論文指出它在八個長時序真實機械人操作任務中,world-model success estimates 與真實 policy performance 呈強正相關。這個結果的價值不在於取代真機測試,而是在正式落機前,先用生成式 world model 篩選 policy checkpoints;對研究 embodied evaluation、robotics 與世界模型的人來說,iMaC 屬於相當值得跟進的一個方向。

GitHub: https://github.com/imac-wm/iMac

Paper: https://arxiv.org/pdf/2606.09813

Categories: 開源, Stable Diffusion, Video, Image, 3D, AI productions, Mac, Vibe Coding, Win, , 模型, 模型訓練, 編程, 視頻模型, Robotic, 世界模型, 清華大學

elframe 簡易提取影片任何幀

最近 AI 生成技術越來越流行應用 image to video,其中最常見的是駛用(first frame)和(last frame)作為提示(prompt)來引導 AI 模型產生更平滑的影片延續效果。令到生成的影片更加有連貫性。例如想由一個影片平滑過渡到另一個影片。ElFrame 正是專為這種工作流設計的簡單輔助工具,它專注影片快速提取最後一幀,用家能夠輕鬆攞到這些關鍵圖像作為後續 AI 生成的輸入。

ElFrame 是一個免費的(Video Frame Extractor),可以快速提取影片的任何一幀。這些提取出的圖像可以直接用於像 Wan 2.1 的 First-Last-Frame to Video 或者其他類似的 AI 工具(例如 Veo3、Luma Dream Machine、Runway ML),作為生成影片的邊界提示,減少生成過程的抖動和不連貫問題。順帶一提,呢個免費服務係由 OpenSpec 協助一邊睇戲一邊自動生成!

本免費功能為本站測試 OpenSpec 開發成果
Categories: Image, 線上服務, 影像處理


diffusers-image-outpaint 零度解說

Categories: Image, 軟件, 工具, 影像處理, 模型



PromeAI – 令草圖轉為逼真的照片或高質影片

PromeAI – 使用終極 AI 藝術生成器釋放您的創意潛力。將草圖轉換為逼真的照片和高品質影片。從草圖、照片或文字生成令人驚嘆的 AI 藝術、3D 渲染、插圖、繪畫、標誌、動漫、逼真照片和影片。

【零門檻】1個AI工具,解放設計❗️|建築設計/室內設計/電商設計/遊戲設計|AI TOOLS FOR DESIGNERS
Categories: Video, Image, 線上服務


Genmo 創意研究實驗室

Genmo 致力於建立跨模式創作和分享生成藝術的工具。 我們正在推動生成模型能力的前沿。 如今的免費平台只需單擊即可社交創作無限量的影片。 Genmo 目前處於測試階段,將來會添加更多內容。

Replay v0.2 announcement: image-to-video, longer length, high resolution

除此,Genmo 亦提供生成圖片,文字對話等。

Categories: Video, Image, 線上服務

Krita-ai-diffusion 實時 A.I. 生成式人工智慧繪圖

互動式工作流程,其中人工智慧生成僅用作繪畫時的一種協同工具。

  • Inpaint:使用 Krita 的選擇工具標記區域並刪除或取代影像中的現有內容。簡單的文字提示可用於指導生成。
  • Outpaint:擴展畫布,選擇空白區域並自動填入與現有影像無縫融合的內容。
  • 生成:透過用文字或現有圖像描述它們,從頭開始創建新圖像。支援SD1.5和SDXL。
  • 優化:使用強度滑桿優化現有影像內容,而不是完全取代它。這也非常適合透過繪製(粗略)近似值並以高強度進行細化來為影像添加新內容!
  • 即時繪畫:讓人工智慧即時解讀您的畫布以獲得即時回饋。影片
  • 控制:直接使用草圖或線條藝術指導圖像創建。使用現有影像或 3D 場景的深度或法線貼圖。從快照傳送角色姿勢。使用分割圖控制構圖。
  • 決議:在任何決議下都能有效率地工作。該插件將自動使用適合 AI 模型的分辨率,並縮放它們以適合您的圖像區域。
  • 升級:將影像升級並豐富至 4k、8k 以上,而不會耗盡記憶體。
  • 作業佇列:根據硬體的不同,影像產生可能需要一些時間。該插件允許您在處理圖像時排隊和取消作業。
  • 歷史:並非每張圖像都會成為傑作。隨時預覽結果並瀏覽前幾代和提示。
  • 強大的預設設定:多功能的預設樣式預設允許簡單的 UI 覆蓋許多場景。
  • 自訂:建立您自己的預設 – 選擇穩定擴散檢查點、新增 LoRA、調整取樣器等。

[英文] 詳細教學:

This One Simple Plugin Adds Realtime AI Assistance to Krita

Categories: Image, 軟件, 工具, 教學

Page 2 of 3
1 2 3