Canvas-to-Image 自由組合多種控制

Canvas-to-Image 是個統一的框架,它將構圖控制整合到一個單一的介面中。能夠將主體、邊界框和姿態骨架在內的各種控制訊號編碼到一個單一的合成影像中,模型可以直接解讀該影像以進行整合的視覺空間推理。(未見源碼)

Categories: 影像處理


UniVA 全能型影片處理框架

一套開源、多代理的「全能型影片處理框架」UniVA,目的是將影片理解、分割、剪輯與生成等功能統合成自動化且可擴展的工作流程。

主要創新與架構

  • Plan-and-Act 雙代理架構:系統分成「規劃代理」與「執行代理」。規劃代理會解析用戶意圖,分解成結構化的多步影片處理任務;執行代理則利用模組化的工具伺服器(MCP-based servers)來完成分析、生成、剪輯、追蹤等步驟。
  • 分層記憶機制:建立了全球知識、任務上下文與用戶偏好三層記憶,確保長時段推理、上下文連續性及代理間溝通,有助於符合用戶風格或偏好的一致性影片製作。
  • 端到端全能影片工作流:支援任何條件(文字、圖片、影片等)進行生成 → 多輪剪輯 → 物件分割 → 合成等自由流程,而非單一模型侷限的功能。
  • 模組化擴展生態系:架構原生支援加入新工具與模型,方便根據需求進行功能擴充,提升系統柔性與持續性開發。

Categories: 影像處理, 開源



elframe 簡易提取影片任何幀

最近 AI 生成技術越來越流行應用 image to video,其中最常見的是駛用(first frame)和(last frame)作為提示(prompt)來引導 AI 模型產生更平滑的影片延續效果。令到生成的影片更加有連貫性。例如想由一個影片平滑過渡到另一個影片。ElFrame 正是專為這種工作流設計的簡單輔助工具,它專注影片快速提取最後一幀,用家能夠輕鬆攞到這些關鍵圖像作為後續 AI 生成的輸入。

ElFrame 是一個免費的(Video Frame Extractor),可以快速提取影片的任何一幀。這些提取出的圖像可以直接用於像 Wan 2.1 的 First-Last-Frame to Video 或者其他類似的 AI 工具(例如 Veo3、Luma Dream Machine、Runway ML),作為生成影片的邊界提示,減少生成過程的抖動和不連貫問題。順帶一提,呢個免費服務係由 OpenSpec 協助一邊睇戲一邊自動生成!

本免費功能為本站測試 OpenSpec 開發成果
Categories: 線上服務, Image, 影像處理

NVidia Cosmos 重組光源

開源 Cosmos DiffusionRenderer 是一個視訊擴散框架,用於高品質影像和視訊的去光和重光。它是原始
DiffusionRenderer 的重大更新,在 NVIDIA 改進的資料管理流程的支持下,實現了顯著更高品質的結果。

最低要求
Python 3.10
NVIDIA GPU 至少配備 16GB VRAM,建議配備 >=48GB VRAM
NVIDIA 驅動程式和 CUDA 12.0 或更高版本
至少 70GB 可用磁碟空間
Relight Any Scene with AI: NVIDIA Research Unveils DiffusionRenderer

教學:

NVIDIA's new AI Just Made Any Video Relightable (DiffusionRenderer Demo)
Categories: Linux, 影像處理, 教學, 視頻模型, 開源


Page 3 of 10
1 2 3 4 5 10