Canvas-to-Image 自由組合多種控制

Canvas-to-Image 是個統一的框架,它將構圖控制整合到一個單一的介面中。能夠將主體、邊界框和姿態骨架在內的各種控制訊號編碼到一個單一的合成影像中,模型可以直接解讀該影像以進行整合的視覺空間推理。(未見源碼)

Categories: 影像處理


UniVA 全能型影片處理框架

一套開源、多代理的「全能型影片處理框架」UniVA,目的是將影片理解、分割、剪輯與生成等功能統合成自動化且可擴展的工作流程。

主要創新與架構

  • Plan-and-Act 雙代理架構:系統分成「規劃代理」與「執行代理」。規劃代理會解析用戶意圖,分解成結構化的多步影片處理任務;執行代理則利用模組化的工具伺服器(MCP-based servers)來完成分析、生成、剪輯、追蹤等步驟。
  • 分層記憶機制:建立了全球知識、任務上下文與用戶偏好三層記憶,確保長時段推理、上下文連續性及代理間溝通,有助於符合用戶風格或偏好的一致性影片製作。
  • 端到端全能影片工作流:支援任何條件(文字、圖片、影片等)進行生成 → 多輪剪輯 → 物件分割 → 合成等自由流程,而非單一模型侷限的功能。
  • 模組化擴展生態系:架構原生支援加入新工具與模型,方便根據需求進行功能擴充,提升系統柔性與持續性開發。

Categories: 開源, 影像處理



elframe 簡易提取影片任何幀

最近 AI 生成技術越來越流行應用 image to video,其中最常見的是駛用(first frame)和(last frame)作為提示(prompt)來引導 AI 模型產生更平滑的影片延續效果。令到生成的影片更加有連貫性。例如想由一個影片平滑過渡到另一個影片。ElFrame 正是專為這種工作流設計的簡單輔助工具,它專注影片快速提取最後一幀,用家能夠輕鬆攞到這些關鍵圖像作為後續 AI 生成的輸入。

ElFrame 是一個免費的(Video Frame Extractor),可以快速提取影片的任何一幀。這些提取出的圖像可以直接用於像 Wan 2.1 的 First-Last-Frame to Video 或者其他類似的 AI 工具(例如 Veo3、Luma Dream Machine、Runway ML),作為生成影片的邊界提示,減少生成過程的抖動和不連貫問題。順帶一提,呢個免費服務係由 OpenSpec 協助一邊睇戲一邊自動生成!

本免費功能為本站測試 OpenSpec 開發成果
Categories: Image, 線上服務, 影像處理

NVidia Cosmos 重組光源

開源 Cosmos DiffusionRenderer 是一個視訊擴散框架,用於高品質影像和視訊的去光和重光。它是原始
DiffusionRenderer 的重大更新,在 NVIDIA 改進的資料管理流程的支持下,實現了顯著更高品質的結果。

最低要求
Python 3.10
NVIDIA GPU 至少配備 16GB VRAM,建議配備 >=48GB VRAM
NVIDIA 驅動程式和 CUDA 12.0 或更高版本
至少 70GB 可用磁碟空間
Relight Any Scene with AI: NVIDIA Research Unveils DiffusionRenderer

教學:

NVIDIA's new AI Just Made Any Video Relightable (DiffusionRenderer Demo)
Categories: 開源, Linux, 影像處理, 教學, 視頻模型


USO:統一風格的生成模型

USO 全稱為「Unified Style-Subject Optimized customization model」,能將任何影像主體融入任何風格,開啟創作新紀元並在各種情境中自由揮灑創意。

傳統上,風格驅動生成模型側重於風格相似性,而主體驅動生成模型則強調主體的一致性,這兩者往往難以兼顧。USO 模型的誕生,打破了這種壁壘,它提出了一種統一的框架,透過對「內容」與「風格」的解耦與重組,實現了兩者的自由組合。無論您想將特定人物融入動漫風格,或是為靜物照片賦予水彩畫的韻味,USO 都能輕鬆應對。

(more…)
Categories: 開源, 字節跳動, 影像模型, 影像處理

Vision-SR1 圖像超解析度解決方案

你是否曾因圖像模糊而感到困擾?想放大照片卻又擔心細節盡失?在數位時代,清晰的視覺體驗至關重要。今天,我們將深入探討一項令人興奮的技術——Vision-SR1,一個基於視覺空間推理網路的圖像超解析度解決方案,它有望徹底改變我們處理低解析度圖像的方式。

圖像超解析度(Super-Resolution, SR)的目標是從低解析度(Low-Resolution, LR)圖像中重建出高解析度(High-Resolution, HR)圖像。這項技術在監控、醫學影像、娛樂等多個領域都有廣泛應用。然而,如何有效恢復細節並生成逼真的高解析度圖像,一直是研究人員面臨的挑戰。Vision-SR1 正是為了解決這一挑戰而誕生的創新方法。

Vision-SR1 項目,全名為「Visual-Spatial Reasoning Network for Image Super-Resolution」(用於圖像超解析度的視覺空間推理網路),其核心在於引入了一個獨特的視覺空間推理機制。這意味著它不僅僅是簡單地放大圖像,而是能夠理解圖像中的空間關係和視覺語義,進而更智慧地推斷和重建缺失的細節。透過這種方式,Vision-SR1 能夠生成更為精確和自然的高解析度圖像,顯著提升視覺品質.。

Categories: 開源, 影像處理

Page 10 of 17
1 8 9 10 11 12 17