AI productions

CineMobile 點樣把電影運鏡搬上手機

2026 年 7 月 10 日

由 Wan 2.1 架構的 teacher model 壓縮而來，CineMobile 針對 image-to-video diffusion 而設，重點唔係追求最大全能，而係讓 bullet time、dolly zoom、slow motion 這類電影感鏡頭可以在手機晶片上跑得動。對一般使用者來說，最大差異是它把原本偏向雲端或高階 GPU 的生成流程，縮短到可在行動裝置完成的級別。

技術路線分三步走：先用 distillation-guided pruning 保留關鍵影片生成能力，再把壓縮後模型結合 diffusion distillation 與 reinforcement learning，進一步做成 4-step generator，最後再用 hybrid post-training quantization 把整體模型壓到 1 GB 以下。這組做法直接對準兩個瓶頸：DiTs 參數太大，以及多步去噪太慢。

頁面提供的數字相當具體。相比採用 Wan 2.1 architecture 的 teacher model，CineMobile 可帶來 40× 生成加速；生成 49-frame、480p 影片時，在 NVIDIA H200 GPU 的每步 denoising latency 為 0.6 秒，在 MediaTek Dimensity 8400 Ultimate 5G 平台約為 20 秒，峰值記憶體使用量為 1.8 GB。這代表它雖然仍有明顯等待時間，但已進入手機可接受的範圍。

基礎來源可確認與 Wan 2.1 架構有關，但頁面未見完整 base model 款式或 checkpoint 名稱
核心優化包括 pruning、distillation、reinforcement learning 與 post-training quantization
目標輸出為 49-frame、480p 的 cinematic camera motion 影片
重點能力在於連續運鏡，同時維持 subject identity 與 scene consistency

Hugging Face 暫未提供可直接下載量化檔的模型頁，未提供 GGUF、mmproj、llama.cpp、Ollama、LM Studio、chat template 或 v2 檔名更新資訊，亦無法判斷是否支援 MTP draft speculation。

項目主頁 · Paper

Categories: NVIDIA, Video, Image, AI productions, LLaMa, Ollama, 模型訓練, 視頻模型

微軟用殘差強化學習補強機械人 VLA

2026 年 6 月 30 日

這是 Microsoft Research 的 Object-Centric Residual RL 方法。它的用途是為 Vision-Language-Action（VLA） 模型加入一層修正策略，減少機械人在真實操控中因細小誤差累積而失手的情況。

核心做法是把一個已凍結的 base VLA 保留不變，再額外疊加一個輕量 residual policy。這個 residual policy 完全在模擬環境訓練，輸入不是原始影像，而是 object-centric state、proprioception，以及 base VLA action，藉此避開常見的 visual sim-to-real gap，令策略可直接 zero-shot 轉移到真實機械人。

這個方法處理的是 imitation learning 常見的脆弱性：示範資料未覆蓋到的狀態一旦出現，誤差會一路放大。與直接微調 VLA、或在真實世界再做 reinforcement learning 相比，這個方法的差異在於只學「修正量」，而且訓練放在模擬中完成，成本與風險都較低。

保留 frozen base VLA，不用重訓整個模型
residual policy 以物件中心狀態為主，減少依賴影像對齊
目標是 zero-shot sim-to-real enhancement
適合需要精準抓取、放置或接觸操作的機械人工作流

這類方法較適合關注 VLA、Robotic 與 sim-to-real transfer 的研究者和開發者。現有資料清楚交代方法方向與問題設定，但未提供完整安裝流程或操作步驟；評估部分可確認作者以真實機械人成功率改善作為重點，更多數值細節仍需參考原始論文。

項目主頁 · Paper

Categories: 微軟, Agentic, Image, AI productions, 多模態模型, 安全, 編程, 視覺模型, Robotic, 框架, VLA

TryOnCrafter：首個鏡頭可控的影片虛擬試穿框架

2026 年 6 月 26 日

TryOnCrafter 是一個基於 DiT（Diffusion Transformer）的虛擬試穿影片框架，專門處理「鏡頭可控影片虛擬試穿」（Camera-controllable Video Virtual Try-on, CaM-VVT）這個新任務。它的主要用途是讓使用者能夠在指定鏡頭軌跡（例如推近、傾斜、環繞）的情況下，生成穿著指定服裝的人物影片。

傳統的影片虛擬試穿只能沿著原始影片的鏡頭路徑生成結果，無法讓使用者自由改變視角。TryOnCrafter 的做法是引入一個「可渲染的 4D 試穿代理」（Renderable 4D Try-on Proxy），先把 2D 試穿結果提煉成一個基於 3D Gaussian Splatting（3DGS）的穿衣化身，再用 SMPL-X 序列驅動動作，最後把這個化身對齊到重建的背景點雲中。這個代理模型把人物與環境分離開來，提供穩定的幾何骨架，讓後續的影片生成能夠在任意鏡頭下保持結構一致。

在生成階段，框架採用 Proxy-Anchored Video DiT，把代理模型渲染出來的多層資訊（包括渲染先驗、參考特徵、服裝語意提示）作為幾何錨點，確保最終影片在指定軌跡下保持物理合理的形變與外觀。這種設計同時支援多項延伸應用，包括人物重新定位、子彈時間效果，以及 360 度環繞檢視。

團隊建立了 CaM-VVTBench 評測基準，結果顯示 TryOnCrafter 在結構一致性與服裝身份保留方面，明顯優於現有方法。這個框架較適合需要展示服裝 3D 效果的研究團隊、電商內容製作，以及對鏡頭語言有要求的多媒體創作場景。

重點摘要

首個鏡頭可控試穿框架：突破傳統 VVT 只能被動沿用原片鏡頭的限制，支援使用者自訂鏡頭軌跡。
4D 試穿代理模型：以 3DGS 化身 + SMPL-X 動作序列，把人物與背景解耦，提供密集幾何引導。
Proxy-Anchored Video DiT：以代理渲染結果作為幾何錨點，確保任意視角下的結構與服裝一致性。
多元延伸應用：支援人物重定位、子彈時間、360 度環繞等下游編輯。
新基準 CaM-VVTBench：團隊建立的專用評測集，在結構一致性與服裝身份保留上明顯領先既有方法。

模型與源碼說明：原始資料為項目主頁，未提供具體的源碼下載連結、安裝步驟或模型權重取得方式。

項目主頁： https://sunhao242.github.io/TryOnCrafter_web.github.io/

Paper： https://arxiv.org/pdf/2606.26092

Categories: 開源, 阿里巴巴, Video, AI productions, RAG, 影像模型, 影像處理, 模型, 數字人, 視覺模型, 視頻模型, 框架

Google AI Studio’s Interactions API

2026 年 6 月 26 日

Gemini Interactions API 是實驗性 API，可讓開發人員使用 Gemini 模型建構生成式 AI 應用程式。Gemini 是 Google 最強大的模型，打從設計之初就具有多模態的特質。可歸納內容，完美解讀、操作及結合語言、圖片、音訊、影片和程式碼等不同類型的資訊。您可以使用 Gemini API 處理各種用途，例如：跨文字和圖片進行推論、生成內容、對話式代理程式、摘要和分類系統等。

這是一個供開發者使用的 API，屬於 Google AI Studio 的 Interactions API。它的主要用途，是用一個統一介面去操作 Gemini models 與 agents，方便把模型回應、工具呼叫和代理人流程放在同一套工作流內處理。

和一般逐步拼接多個端點的做法相比，較值得留意的是它主打「統一」：同時面向模型和 agents，減少來回切換不同介面的負擔。這對要做多步驟互動、工具協調、或需要把 AI 行為包成穩定流程的團隊會更實用。

統一處理 Gemini models 與 agents
適合原型、整合與工作流測試
方便把模型回應與工具呼叫串接
較適合開發者與 agent 應用場景

項目主頁： blog.google

Categories: Google, Gemini, OpenAI, Agentic, API, 軟件, 工具, AI productions, 模型, 編程

HyperFrame 配合 Claude Code 製作 Vox 風格影片

2026 年 6 月 22 日

現有資料主要來自 YouTube 標題與簡短描述，資訊不算完整，但仍可看出內容圍繞 HyperFrame 與 Claude Code 兩個工具，示範如何做出接近 Vox 風格的解說影片。讀者可先把它理解為一個 AI 輔助影片製作項目：由工具協助處理腳本、畫面規劃或製作流程，而不只是單一步驟生成。

這類項目想處理的問題，很可能是把資料整理、敘事結構、畫面設計與影片產出連成一條工作流。相比只用單一影片生成模型，這種做法更接近內容製作流程本身，重點不只是「出片」，而是如何把想法變成有節奏、有資訊層次的短片。

從標題判斷，Claude Code 可能負責文字、結構或流程協調，HyperFrame 則可能用於畫面或影片製作環節。不過頁面未提供更詳細技術內容、模型名稱或量化結果，因此未能確認兩者各自負責的步驟，也不能判斷成品質素是否穩定。

可先留意幾個重點：
– 這是一個偏向工作流整合的影片製作項目
– 目標風格是資訊密度較高的 Vox 式解說內容
– 適合內容創作者、營銷製作與短片腳本規劃
– 現有頁面缺少性能數據、成本與時間比較

如果想進一步測試，較可行的方法是先觀看原片，記錄它如何拆分腳本、旁白、畫面節奏與素材安排，再用同類工具重建其中一小段。以目前資料來看，這項內容較適合作為工作流觀察，而不是完整教學或技術評測。

項目主頁： https://www.youtube.com/watch?v=XVsGK99E9FA

Categories: Video, 工具, Content Creator, AI productions, Vibe Coding, 教學, 編程, Anthropic

MolmoMotion 把語言變成 3D 動作預測

2026 年 6 月 21 日

現有做法多數偏向追蹤已經發生的移動，或者只在 2D 畫面估計下一步位置；作者認為這種 retrospective 範式難以支援機械人規劃與可控影片生成，所以提出 MolmoMotion、MolmoMotion-1M 同 PointMotionBench，把問題改成「根據語言指令預測 3D 點位未來軌跡」。這不是單純看影片理解內容，而是要模型根據短段 RGB 歷史、2D query points、初始 3D 位置，以及文字動作描述，預測之後約 2 秒的 3D movement。

MolmoMotion 本身屬於模型，更準確地說是 4B vision-language model，處理的是物件上指定點會怎樣移動的預測問題。儲存庫目前公開的是 autoregressive (AR) variant，並提供訓練資料、評測集、已釋出模型，以及由 pretrain 到 long-horizon finetune 的兩階段流程，較適合研究團隊直接重現結果或改成自家任務。

和同類方法相比，這個項目的取向很鮮明：它不是先做一般影片理解，再另外接 motion head，而是把 language-guided 3D point trajectory forecasting 當成核心任務。代價是輸入要求較多，你要有 query points 同初始 3D 資訊；回報則是輸出更貼近規劃用途，特別適合要預測「物件將會點樣郁」而不是只想分類場景的人。

可預測最長約 2 秒未來軌跡，文件提到 15 fps、F=30 或 F=32 的設定
評測指標列出 ADE、FDE、PWT，焦點放在軌跡準確度而非只看畫面相似度
配套包含 MolmoMotion-1M 訓練資料集與 PointMotionBench 評測基準
作者指出學到的 motion prior 可轉移到 robotics planning 與 motion-guided video generation

部署與測試的理解方式相當直接：先下載模型、資料集或 benchmark，再按儲存庫提供的 evaluation 與 training 流程執行；若不打算重訓，較合理是先拿已釋出模型跑 PointMotionBench 或自家樣本，看看語言指令改變時，3D 點位預測是否穩定。現有資訊未見完整效能數字摘錄，但官方明確聲稱表現明顯優於既有 forecasting 方法；較保守的判斷是，它最適合 embodied AI、robotics、可控影片生成研究者，以及需要把語言意圖轉成未來運動假設的團隊。

相關模型與資源包括：MolmoMotion、其 autoregressive (AR) variant、MolmoMotion-1M、PointMotionBench；底層 backbone 初始化與從零訓練入口亦有提供。

GitHub： https://github.com/allenai/molmo-motion

項目主頁： https://allenai.org/blog/molmo-motion

Categories: 開源, Video, 3D, AI productions, IDE, 多模態模型, 庫, 模型, 模型訓練, 視覺模型, 視頻模型, Robotic, Dataset 數據集

Moebius：輕量補圖模型挑戰 10B 級效果

2026 年 6 月 21 日

現時高質 image inpainting 多數依賴 10B 級大型通用模型，例如 FLUX.1-Fill-Dev，但代價是運算重、速度慢，部署門檻亦高。Moebius 屬於影像修補框架，核心目標很明確：用細得多的模型體積，換到接近甚至部分情境超過大型模型的補圖質素。

它的取向不是再把模型做大，而是重組 Latent Diffusion Model (LDM) 架構，再配合蒸餾把大模型能力壓縮進 0.22B 參數。當中的 Local-λ Mix Interaction（LλMI）block 以固定大小線性矩陣整理空間資訊與全域語意，避開 attention 常見的二次方計算負擔；另一邊再用 adaptive multi-granularity distillation，直接在 latent space 對齊 teacher PixelHacker，減少 pixel-space decoding 的訓練成本。

官方資料把它與 FLUX.1-Fill-Dev、SD3.5 Large-Inpainting 比較，指在 Places2、CelebA-HQ、FFHQ 等自然與人像場景共 6 個 benchmark 上，整體可做到同級甚至部分超前。數字上最搶眼的是少於 2% 參數量，以及總推理時間超過 15 倍加速；不過這些結果仍主要來自項目方報告，解讀時宜留意測試設定是否完全一致。

要理解這個項目怎樣落地，可先把它當成「為 image inpainting 而生的輕量 specialist」，而不是萬用生成平台。較適合資源有限的研究團隊、要在單 GPU 或邊緣設備部署影像修補的人、以及希望在速度與成本上取平衡的產品開發者；若你追求最廣泛的通用生成能力，大模型 generalist 仍有優勢。

類型定位：輕量 image inpainting framework，主打高效率部署
主要差異：不走純 scaling 路線，改用 LλMI block + distillation 壓縮能力
性能重點：0.22B 參數、單步 26.01ms、總推理約 15× 加速
相關模型：FLUX.1-Fill-Dev、SD3.5 Large-Inpainting、PixelHacker
適合情境：單 GPU、消費級硬件、對延遲與成本敏感的影像修補工作

GitHub： https://github.com/hustvl/Moebius

項目主頁： https://hustvl.github.io/Moebius/

Categories: 開源, Image, AI productions, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 框架

RATs 用多代理玩出機械人技能庫

2026 年 6 月 21 日

RATs pipeline overview — click to play the video

現有機械人代理很多時仍然沿用 task-driven 路線：先收到明確指令，再透過 Code-as-Policy 產生可執行程式來完成任務。RATs 則批評這種做法太依賴外部任務，令可重用技能只會在被要求時才出現，所以它提出一個多代理 Code-as-Policy 系統，先用 free-form play 自行發明練習目標，再把成功行為整理成技能庫。

這個項目屬於機械人學習框架，要解決的是機械人代理遇到新任務時，欠缺可直接調用的長期技能累積。RATs 分成 Play 與 Evaluation 兩段：前者由 proposer、planner、policy-writer、verifier、failure-diagnoser 幾個 LLM 代理協作，後者把已凍結的技能當成 planner context 重用，而且強調 no gradients、no RL，主要靠 structured natural-language feedback 與 code reuse 學習。

如果你想試這個項目，較適合把它當成研究型系統來跑 benchmark，而不是即裝即用小工具。環境要求包括 Python 3.10、CUDA-capable GPU，並牽涉 LIBERO-PRO、MolmoSpaces、Robosuite 及真實 Franka Panda 流程；比較合理的測試次序，是先看 Play 階段怎樣生成技能，再檢查 Evaluation 階段對 held-out tasks 有沒有改善。

它的創新點，在於把「玩」正式納入 lifelong robot skill learning：不是隨機探索，而是讓代理自己提出可學習任務、逐步驗證中間進度、失敗後再診斷重試，最後把成功執行蒸餾成 reusable skill library。這令技能可在跨環境情境重用，不一定綁死原本訓練場景。

論文給出的結果相當具體：在 LIBERO-PRO 與 MolmoSpaces，play-learned skills 相比 no play 與 random-play baselines 有提升，對 CaP-Agent0 分別高出 20.6 和 17.0 個百分點；把技能直接檢索進其他 inference-time Code-as-Policy agents 的 context，對 Robosuite 與真實世界 transfer 亦分別提升 8.9 和 8.8 點。相關模型與基線主要包括 CaP-X、CaP-Agent0，以及文中使用的 LLM agents 協作流程；若你關心 agentic robotics、技能重用與真機轉移，這個項目很值得細讀。

類型定位：多代理機械人學習框架，核心是 Code-as-Policy 與技能庫重用
方法重點：先 Play 自提任務學技能，再 Evaluation 把技能注入 planner context
技術取向：不靠 gradients 或 RL，主要依賴自然語言回饋、程式修正與 code reuse
適合場景：研究 embodied agents、robot skill library、cross-environment transfer 的團隊
已提到的相關系統：CaP-X、CaP-Agent0、LIBERO-PRO、MolmoSpaces、Robosuite、Franka Panda

GitHub： https://github.com/Playful-RATs/rats

項目： https://playful-rats.github.io/

Categories: 開源, NVIDIA, Agentic, 工具, AI productions, Python, Python NLP, 庫, 模型, 模型訓練, Robotic, 框架, Skill 技能

ActWorld 讓世界模型學懂互動

2026 年 6 月 18 日

ActWorld 是一個 Interactive World Model，目標是把「可四處觀看的世界」推進到「可以即時操作的世界」。以往不少世界模型主要支援移動、轉向、環視等導航動作，對場景中的物件互動支援有限；這個項目則加入中途操作物件的能力，例如拾取、搬運、放置，令同一次 rollout 不只是在場景中行走。

這個項目想處理兩個核心問題：一是缺少高質素的人與物件互動數據，二是模型容易忘記早前發生、但會影響之後物件狀態的關鍵畫面。為此，團隊建立了 100K interaction video dataset，並以 chain-of-thought reasoning 產生 per-chunk captions；同時提出 hierarchical action-aware memory 和 persistent memory bank，讓模型按互動重要性保留歷史資訊，減少 action-forgetting。

使用時，讀者可先從項目頁面的 Paper、Code、Video 和 Comparisons 了解能力範圍。從內容描述判斷，ActWorld 適合研究 Interactive World Model、Computer-use agents（CUAs）相關模擬環境、機械人互動、或需要長時序場景生成與控制的團隊參考。

在單一模型內同時處理 long-horizon navigation 與 object interaction
透過 100K interaction video dataset 補足互動數據不足
用 hierarchical action-aware memory 保留較重要的互動歷史
以 persistent memory bank 追蹤事件更新與物件身份

按頁面說明，實驗結果顯示它在不犧牲 viewpoint control 的情況下，interaction fidelity 明顯優於只做導航的 baseline。現階段公開資訊以研究展示為主，若想深入理解效果，最應留意 Comparisons 及論文中的評測設定與限制。

項目： https://interactwm.github.io/ActWorld/

Categories: 開源, 騰訊, Agentic, Video, AI productions, 多模態模型, 模型, 世界模型, Dataset 數據集

UniAR 用一個 Transformer 包辦看圖、作圖、改圖

2026 年 6 月 18 日

現有 Unified Multimodal Models（UMMs）多數會把影像理解和影像生成分開處理，常見做法是用兩套 visual tokenizers。作者認為這種 fixed paradigm 會把表示空間拆開，模型生成完圖片後，還要再重新編碼才能理解自己剛產生的內容，shared context 也就難以真正成立；UniAR 因此提出一個 unified autoregressive framework，用單一 discrete visual tokenizer 連接理解、生成與編輯。

項目屬於多模態模型，目標是用同一個 Transformer 解決 image understanding、image generation 和 image editing 之間來回切換的成本。它的核心判斷很直接：若模型看圖與作圖共用同一套視覺 token，流程就不需要額外 re-encoding，系統結構會更一致。

技術上，UniAR 有幾個辨識度很高的設計。Multi-level BSQ tokenizer 把高層語意與低層細節一併保留，並透過 Binary Spherical Quantization 擴大有效 vocabulary；parallel bitwise prediction 則把視覺碼以分組方式一齊預測，令 autoregressive 長序列壓短，論文提到 1024×1024 影像只需 256 個 AR tokens，對應 32x visual compression ratio。

單一 discrete visual tokenizer 取代雙 tokenizer 架構
支援 image understanding、image generation、image editing 同模運作
Multi-level BSQ tokenizer 同時顧及語意與細節
parallel bitwise prediction 壓縮視覺序列，加快 autoregressive 生成
DiT-based visual decoder 以 discrete visual tokens 重建高保真影像
需求：Python 3.12、CUDA 12.1+、推理的 GPU 記憶體 >= 24 GB

如果你想試這個項目，較合理的切入點不是直接拿來當日常工具，而是先看它公開的模型權重與項目頁，分開測理解、生成、編輯三類輸出是否一致。它較適合研究多模態統一架構的人、關注 Qwen 生態的開發者，以及想比較 autoregressive 與 diffusion 混合路線的讀者。

性能方面，原文聲稱 UniAR 經 large-scale pre-training、supervised fine-tuning 和 reinforcement learning 後，在 image generation 與 image editing 達到 state-of-the-art，同時在多模態理解 benchmark 保持競爭力。不過目前公開資訊較像研究成果展示，visual decoder training code 仍未完整放出，因此更適合拿來理解方法論，而不是立即評估成成熟生產工具。

相關模型與組件包括 SD3-medium visual decoder、Qwen Team 背景下的多模態模型路線，以及論文聚焦的 Unified Multimodal Models（UMMs）。若你在意的不是單次生成效果，而是模型能否「理解自己生成的內容」，UniAR 的 shared context 設計確實提出了一個有意思而且相當具體的答案。

GitHub： https://github.com/ShareLab-SII/UniAR

項目： https://sharelab-sii.github.io/uniar-web/

Categories: 開源, 阿里巴巴, Qwen, Stable Diffusion, Image, 工具, AI productions, Vibe Coding, 多模態模型, 影像模型, 影像處理, 模型, 框架

Page 2 of 4

« Previous 1 2 3 4 Next »