影像處理 – Page 2

Phantom 跨模態影片生成框架

Phantom 是字節跳動最新的影片生成框架，主要是可以生成主體一致性(Subject-to-Video)的影片。Phantom 會嚴格保留由用家提供的參考影像特徵，同時亦會根據提供的提示詞，創造出生動同連貫的影片。這個技術不單止可以用於單一主體，亦能夠同時處理多個主體之間的互動。透過跨模態對齊的訓練方式，Phantom 確保生成的影片內容既符合文字指令，亦能夠精準呈現參考影像中的主體。

Mobius 無縫循環影片

Mobius 無縫循環影片是一個創新的技術方法，通過構建一個潛在循環（Latent Cycle），將影片的起始和結束噪音連接起來，並在推理過程逐步移動潛在空間，結果可以產生具有時間連貫性的循環影片。

ComfyUI-Copilot 智能工作流

ComfyUI-Copilot 是基於 ComfyUI 框架構建的智能助手，通過自然語言交互簡化並增強 AI 算法調試和部署過程。無論是生成文本、圖像還是音頻，ComfyUI-Copilot 都提供直觀的節點推薦、工作流構建輔助和模型查詢服務，以簡化您的開發過程。

DICEPTION：另類 Segment Anything Model

DICEPTION 是一個新型的通用擴散模型，是特別為影像的認知而設計。它只需要少量資料就能夠執行多種不同的影像偵察任務，例如距離的深度評估、畫面物件分類和評估人類身體的姿態。相對其他先進的擴散模型，例如 SAM-vit-h Segment Anything Model，DICEPTION 只需用 0.06% 的數據就能夠展現出非常準確的成果。

SynCD 圖像模型的客製化

SynCD 提供了一個生成多影像合成的流程，它可以無需要通過微調，就可以令同一物件在不同情境下產生多個不同的視角。透過結合共享注意力機制，SynCD 更加可以保留物體特徵，同時亦會根據 Prompt 的提示產生圖像。

RIFLEx 影像擴散轉換器的額外長度

RIFLEx 主要延長影片的長度而無需重新訓練模型。研究發現，影片中不同頻率組成的部分會影響影片連貫性。在高頻會導致畫面重複，而低頻就會導致影片變成慢動作。RIFLEx 的方法是通過降低影片內在頻率，避免延長時候的重複問題，實現高品質的影片長度伸延。甚至能夠同時進行時間和空間的擴展。

2025.3.1 : The code for CogVideoX-5B and fine-tuned CogVideoX-RIFLEx are released.
2025.2.26 RIFLEx is supported in HunyuanVideoGP, where a 10.5 s video at 1280×720 can be generated on an RTX 4090.
2025.2.26 RIFLEx is supported in ComfyUI-HunyuanVideoWrapper by KiJai.
2025.2.25 : The paper, project page, code and fine-tuned HunyuanVideo-RIFLEx are released.

AI Video Extend Without Looping - RIFLExRope With Hunyuan Video And Wan 2.1

Watch this video on YouTube

Yolo v12 是第一個以注意力機制為核心的 YOLO 模型，它將 CNN 和 Transformer 結合，以實現超高速的準確物件檢測。目前注意力機制在訓練模型時侯的能力，已經超越卷積神經網路（CNN），而 YOLO 過往只著重 CNN 的改進。YOLO v12 今次嘗試兼顧注意力機制的優點和 CNN 的準確度，透過引入區域注意力模組（Area Attention Module）和高效層聚合網路（R-E LAN），可以保證速度的同時，亦提升檢測的準確性。YOLO 是什麼