視頻模型 – InferNews

Vista4D 使用 4D 點雲進行視頻重拍

Vista4D 預告圖 — Eyeline-Labs/Vista4D 在 GitHub 上

Vista4D 提供了一種獨特的視頻重拍方法，通過從新的角度合成場景。它利用 4D 點雲有效地處理現實世界中的視頻缺陷。這使得它特別適合希望擴展其視覺敘事能力的創作者。

在開始使用 Vista4D 時，重點是理解其核心功能——從新穎的角度重拍視頻。該框架對點雲工件的強健性確保了即使在不完美的重建下也能可靠運行。此特性對於維護場景完整性至關重要。

在實際應用中，Vista4D 受益於動態場景擴展和 4D 場景重組的專業人士。它在保留場景內容的同時允許精確的相機控制，為創意編輯打開了大門。用戶可以預期在視頻製作流程中獲得增強的靈活性。

該框架需要一個強大的大型語言模型（LLM）以獲得最佳結果。創作者和編輯人員將發現 Vista4D 因其創新性的視頻操作方法而極具價值。

• 使用新穎視角增強視頻重拍
• 對點雲工件具有強健性
• 適合動態場景擴展和重組

Source: https://github.com/Eyeline-Labs/Vista4D

Categories: 影像模型, 影像處理, 模型, 視頻模型, 開源

OmniShotCut 作為一種先進的解決方案，在各種類型的影片中都能出色地偵測鏡頭邊界，從動畫到體育轉播皆適用。該工具採用基於鏡頭查詢的影片轉換器，與傳統方法相比，提供了更高的靈敏度和資訊豐富性。處理多樣化影片來源的影片編輯師、內容創作者和研究人員應該考慮使用 OmniShotCut，因為它能夠準確識別突兀的跳接和微妙的轉場如溶解和漸變。對於初次使用該工具的人，首先理解鏡頭查詢機制的核心概念可以提供堅實的基礎。這種方法使模型能夠有效地分析和分類影片中的不同類型的鏡頭變化，特別適合需要對影片編輯過程進行精確控制的專業人士。

實際上，OmniShotCut 通過其複雜的轉換器架構處理影片幀來運作。模型學習根據視覺線索和時間關係區分不同的鏡頭類型。用戶可以從這項技術中獲益良多，特別是在處理需要細緻編輯的大批量影片內容時。自動偵測這些邊界可以節省大量的時間和精力，讓編輯師能夠專注於創意方面而非手動分割。此外，本地 Gradio 介面的加入簡化了實驗和與現有工作流程的整合，即使對那些程式設計經驗有限的人也同樣易於使用。

OmniShotCut 的主要受益者是媒體製作專業人士、研究影片內容的學術研究人員以及從事影片分析應用的開發人員。這些群體可以利用該工具的能力來提升他們項目的品質和效率。然而，需要注意潛在的權衡。雖然 OmniShotCut 在準確性和多功能性方面表現優異，但用戶必須確保擁有足夠的計算資源以高效運行模型。此外，底層轉換器架構的複雜性可能對不熟悉深度學習概念的用戶構成挑戰。因此，基本的機器學習原則理解將會很有幫助。

為了最大化 OmniShotCut 的效益，用戶應從探索提供的 Gradio 示範開始。這種親手實踐的體驗可以提供對模型性能的洞察，並有助於理解其輸出。觀察的重點包括模型如何處理不同類型的影片以及其鏡頭變化偵測的準確性。透過實驗各種輸入影片，用戶可以對將 OmniShotCut 應用於特定需求充滿信心。此外，在推理過程中考慮 clean_shot 模式可以簡化結果，提供僅聚焦於有效鏡頭而無轉場或突兀跳接的乾淨輸出。

OmniShotCut 代表了鏡頭邊界偵測技術的重大進步。其堅固的設計和多功能應用使其成為任何處理影片內容的人的無價資產。儘管在計算需求和技術知識方面存在某些考量，但使用 OmniShotCut 的好處遠遠超過這些小障礙。隨著影片分析領域的不斷髮展，像 OmniShotCut 這樣的工具無疑將在塑造未來創新中發揮關鍵作用。

Source: https://github.com/UVA-Computer-Vision-Lab/OmniShotCut

Categories: 影像模型, 影像處理, 視覺模型, 視頻模型, 開源

Prompt-Relay：一種推論階段、即插即用的多事件生成時間控制方法

GordonChen19/Prompt-Relay 在 GitHub 上

Prompt Relay 是一種令人信服的解決方案，適用於那些應對視頻生成中時間控制複雜性的挑戰。這種由 Gordon Chen、Ziqi Huang 和 Ziwei Liu 開發的推論階段方法，解決了當前視頻擴散模型中的一個重要缺口：管理視頻中多個事件的精確時間、持續時間和順序的能力。通過在交叉注意力機制中引入時間路徑先驗，Prompt Relay 確保每個提示被定位到其預定的片段，從而改善時間對齊、轉場自然性和視覺質量。這對於需要連貫敘事的應用特別有價值，例如電影級合成或詳細動畫。

對於希望增強視頻生成能力的創作者和開發者，Prompt Relay 提供了一個簡單的起點。該方法專注於通過距離基於的懲罰修改交叉注意力機制，抑制潛在查詢和提示令牌在其指定區間之外的注意力。這種方法允許用戶在不需重新訓練基礎模型的情況下，微調視頻生成的時間方面。這種即插即用解決方案的簡單性意味著用戶可以快速將其整合到現有流程中，使其適用於廣泛的應用。

在實踐中，Prompt Relay 通過採用一個全局提示來條件整個視頻和一系列本地提示，每個本地提示對應一個特定的時間段。全局提示有助於在整個視頻中維持一致的角色、物件和場景上下文，而本地提示則為個別片段提供詳細指令。這種雙提示系統確保視頻的每個部分都由適當的指令引導，減少語義滲漏並改善整體一致性。用戶應專注於編寫清晰和具體的提示，以最大化這種方法的好處。

Prompt Relay 的創作者通過各種定性結果展示了其有效性。該方法顯著改善了時間對齊，確保每個事件在其預定的時間框架內發生。它還增強了轉場自然性，使不同事件之間的交接更為順暢和無縫。此外，Prompt Relay 通過最小化交叉注意力中的不必要的競爭，提升了視覺質量，從而實現更清晰和更穩定的多事件生成。這些改進在與基線提示策略和一些最近的強大模型如 Kling 3.0 相比時尤為顯著。

提示中繼功能改進：

時間對齊，即將每條指令限制在其分配的段落內。
透過確保事件在不同時間點之間的平穩交接，實現過渡的自然性。
透過減少不必要的注意力交叉競爭來提高視覺品質。

Prompt Relay 的性能始終優於基準提示策略，與Kling 3.0等近期推出的優秀模型相比也保持競爭力。尤其值得一提的是，Wan 2.2 + Prompt Relay通常比基礎 Wan 2.2 模型能夠產生更強大的視覺結構和更穩定的多事件。

指標（↓）	索拉（故事板）	Kling 2.6	Veo 3.1	Wan 2.2	Wan 2.2 + 即時中繼（我們的）
時間對齊	4.67	1.30	3.93	4.00	1.10
過渡自然性	4.60	4.43	1.30	3.50	1.17
視覺品質	3.67	2.50	2.0	4.00	2.83

對視頻生成的時間方面進行精確控制的內容創作者、動畫師和開發者。例如，電影製作者可以使用這種方法創建更連貫和引人入勝的敘事線，而動畫師可以產生更順暢和詳細的動畫。需要注意的權衡包括編寫詳細提示的潛在複雜性和為實現最佳結果而需仔細校準距離基於的懲罰。用戶應嘗試不同的設置和提示結構，以找到適合其特定需求的最佳配置。

雖然 Prompt Relay 中使用的具體模型沒有明確提及，但似乎與各種視頻擴散模型兼容，包括 Wan 2.2。這種兼容性允許用戶利用不同模型的優勢，同時受益於 Prompt Relay 提供的時間控制。該方法的靈活性和易於整合性使其成為任何希望增強視頻生成能力的人的寶貴工具。通過應對時間控制的挑戰，Prompt Relay 為視頻合成領域的創意和技術應用打開了新的可能性。

總之，Prompt Relay 提供了一種實用且有效的解決方案，用於改善視頻生成中的時間控制。其簡單的實現和顯著的好處使其成為內容創作者和開發者的有吸引力的選擇。通過專注於編寫詳細的提示和仔細校準該方法的參數，用戶可以實現更連貫、自然和視覺上更具吸引力的視頻。儘管可能需要考慮一些權衡，但 Prompt Relay 的整體優勢使其成為任何視頻生成工具包的值得添加的內容。

Source: https://github.com/GordonChen19/Prompt-Relay/

Categories: 影像處理, 視頻模型, 開源

OmniShow 全方位人體物件互動影片生成模型

OmniShow 標誌 — Correr-Zhou/OmniShow 在 GitHub 上

OmniShow 提出了一種突破性的人體物件互動影片生成（HOIVG）解決方案，提供了一個統一的框架，整合了文字、參考圖像、音訊和姿態條件。這個多功能模型特別吸引電腦視覺和多媒體處理領域的研究人員和開發人員，他們希望推動影片合成技術的邊界。對於考慮使用此工具的人，首先應該關注其核心功能以及如何應用於各種任務，例如音訊驅動的化身、物件交換和影片混音。

該模型的有效性在於其能夠無縫處理多種類型的輸入數據。在實踐中，OmniShow 使用 統一通道條件 來整合參考圖像和姿態，使用由參考重建損失監督的偽幀增強影片令牌。這確保生成的影片與輸入數據保持語義一致性。此外，閘控局部上下文注意力 在對齊音訊特徵與影片幀方面發揮了重要作用，確保精確同步。分離然後聯合訓練 策略允許高效使用多樣化的數據集，最初在單個任務上訓練專業模型，然後將它們合併以實現全面的多模式能力。

從 OmniShow 中受益最大的研究人員和開發人員是那些從事需要高保真影片生成和複雜多模式輸入的專案的人。該模型在單一框架內支援 R2V（參考到影片）、RA2V（參考+音訊到影片）、RP2V（參考+姿態到影片）和 RAP2V（參考+音訊+姿態到影片）等任務的靈活性，使其成為無價的工具。它啟用廣泛的應用，從創建對音訊輸入做出反應的逼真化身，到生成準確反映指定姿態和物件的影片。

然而，需要考慮權衡。OmniShow 架構的複雜性可能對那些新接觸先進影片生成模型的人構成挑戰。使用者應當準備好面對陡峭的學習曲線和由於模型的全面性可能導致的較長訓練時間。此外，對多種模式的高品質輸入數據的要求可能很嚴苛，因為劣質輸入可能會導致不滿意的輸出。

為了充分利用 OmniShow，使用者應從探索 HOIVG-Bench 開始，這是一個專門的基準測試，提供在各種多模式條件下對 HOIVG 的系統評估。該基準測試包括 135 個精心挑選的樣本，配有詳細的文字說明、參考圖像、音訊和姿態序列，提供了一個全面的數據集，用於測試和驗證模型的性能。通過檢查這些樣本，使用者可以了解 OmniShow 如何處理不同類型的輸入數據，並識別潛在改進的領域。

OmniShow 是任何參與先進影片生成任務的人的強大工具。其將多種模式統一到單一連貫框架中的能力使其與其他模型區別開來。儘管它提供了顯著的好處，使用者應當注意與其複雜性和數據需求相關的挑戰。通過仔細考慮這些因素並專注於模型的核心優勢，研究人員和開發人員可以釋放其全部潛力，並推動人體物件互動影片生成領域的創新。

Source: https://github.com/Correr-Zhou/OmniShow

Categories: 香港大學, 香港中文大學, 騰訊, 視頻模型, 開源

LGTM – 0.5 秒重建 3D 場景

LGTM 是首個原生支援 4K 饋送前向（feed-forward）方法，透過預測緊湊的高斯原語（Gaussian primitives）搭配每個原語的紋理（textures），解耦幾何複雜度與渲染解析度，避免傳統方法隨解析度增加而原語數量二次方爆炸。這是由 Yixing Lao（香港大學博士生）領導的 3D 高斯噴濺（Gaussian Splatting）研究項目，已被 ICLR 2026 接受。

Categories: 香港大學, 視覺模型, 視頻模型, 開源

Pulse of Motion 讓影片更自然

Pulse of Motion 讓你在觀看影片時「感覺更舒服」，但看不到技術本身。目前很多生成影片（如 SVD、Pika 等）的動作時間常常跑偏，作者稱這種現象為 chronometric hallucination，也就是「看起來平滑但實際上時間尺度錯亂」。

現在很多生成模型會「時間錯亂」角色走路太快／太慢；手勢、動作和音效不搭；看起來動作很順，但「感覺怪怪的」。這套技術可以用來：調整生成模型的輸出（例如：自動快慢放或重採樣），讓影片「更像真實拍攝」，看起來更舒服。自動檢測影片的 真實時間尺度；

Categories: 影像處理, 視頻模型, 開源, 中國

LumosX 精準個性化數字人

LumosX 是一個針對 個性化多主體視訊生成（personalized multi‑subject video generation）提出的框架，重點在：

讓每個「身份」（例如不同人物）和其對應的屬性（年齡、外貌、服飾、動作等）有明確、精準的對齊；
用關係性注意力機制來強化「組內一致性」（同一組人物屬性一致）和「組間區分度」，減少多主體時的屬性糾纏（attribute entanglement）。

簡單說：一樣可以做 text‑to‑video + ID conditioning，但對多個人物、每個人對應什麼屬性，控制得更精細、更一致「可控視訊生成」與「多主體個性化內容」場景，例如多角色劇本生成、廣告、虛擬試衣、多角色 VTuber 相容演出等。

Categories: 阿里巴巴, 數字人, 視頻模型, 開源

Matrix-Game 3.0 記憶增強世界模型

Matrix‑Game 3.0 是一個基於 Diffusion Transformer（DiT）的記憶增強世界模型，目標是做 720p 解析度、可達 40 FPS 的實時長序列互動視訊生成，用於第一人稱、第三人稱等遊戲／虛擬世界場景。它能根據滑鼠＋鍵盤輸入一邊生成新畫面，一邊維持場景長時間的一致性（例如分鐘級序列），並可擴展到 2×14B 甚至 28B MoE 規模。

三大技術層面

Data Engine
- 用 Unreal Engine 生成合成資料，加上對 AAA 遊戲的大規模自動錄製、與真實影片資料增強，產出高品質的 Video–Pose–Action–Prompt 四元資料。
- 這種「工業級無限資料機器」讓模型能學習大量互動式行為與視角變化。
記憶增強模型（Memory‑augmented DiT）
- 基礎模型是一個統一的雙向 DiT，把過去的潛在畫面、當前加噪畫面與動作輸入（滑鼠／鍵盤）放在同一個架構裡。
- 用 residual error buffer 收集預測殘差，再以「error injection」把誤差加回訓練，讓模型學會在長時間序列上自我修正，增強長時一致性。
- 加入 camera‑aware memory retrieval，只撿選視角相關的歷史畫面作為記憶條件，用 Plücker 編碼處理幾何關係，並用一個「sink latent」（第一幀）錨定場景整體風格。
高效實時推論（Distillation + Quantization）
- 採用多段式的自生成 few‑step distillation（基於 Distribution Matching Distillation），讓「學生模型」在訓練時就模擬實際的少量步數 autoregressive 推論流程，做到訓練與推論對齊。
- 搭配 INT8 量化、輕量化 VAE 解碼器（MG‑LightVAE）以及 GPU 加速的記憶檢索，單個 5B 模型可在 8 張 GPU 上達到 720p @ 40 FPS，而 2×14B 模型則在更長時間和更複雜場景下表現更好。

Categories: 影像模型, 視頻模型, 開源

daVinci‑MagiHuman 單流數字人

daVinci‑MagiHuman 是一個 15B 參數、專注數字人（human‑centric）的文本到視頻生成模型，同時支援視頻與音頻 token 的聯合生成，主打「人類主體」表現力。daVinci‑MagiHuman 由 SII‑GAIR Lab（中國上海人工智慧實驗室 SII‑GAIR）與 Sand.ai 這兩方聯合開發

單流 Transformer — 一個統一的 150 億參數、40 層的 Transformer，僅透過自註意力機制即可聯合處理文字、視訊和音訊。無需交叉注意力，也無需多流處理。
🎭卓越的以人為本的品質— 富有表現力的面部表情、自然的語音表達協調、逼真的身體動作以及準確的音視頻同步。
🌍多語言— 支援中文（國語和粵語）、英語、日語、韓語、德語和法語。
⚡超快推理－在單一 H100 GPU 上，可在2 秒內產生 5 秒 256p 視頻，在38 秒內產生5 秒 1080p 影片。
🏆最先進的結果—在超過 2,000 次的成對人工評估中，與 Ovi 1.1 的勝率達到80.0% ，與 LTX 2.3 的勝率達到60.9% 。
📦完全開源— 我們發布完整的模型堆疊：基礎模型、精煉模型、超解析度模型和推理程式碼。

Categories: 數字人, 模型, 視頻模型, 開源

Helios – 實時生成分鐘級長視頻

Helios 是一個 140 億參數（14B）自回歸擴散模型（autoregressive diffusion model），設計成可以在單張 NVIDIA H100 GPU 上以約 19.5 FPS 實時生成分鐘級長視頻。它原生支援 Text‑to‑Video（T2V）、Image‑to‑Video（I2V）和 Video‑to‑Video（V2V）三種任務，並有一個統一的輸入表示。

在維持 14B 規模的前提下，不使用 KV‑cache、稀疏/線性注意力、量化等常見加速技術，單卡就能跑到 19.5 FPS。

Helios‑Base（高質量）
Helios‑Mid（中間 checkpoint）
Helios‑Distilled（極端高效、對消費卡更友好），有 YouTuber 甚至在 RTX 4090 級別上跑 33 幀每段、分鐘級長視頻。

Helios - A 14B ByteDance Real-Time Long Video Generation Model Run Locally.

Watch this video on YouTube

Categories: 字節跳動, 視頻模型, 開源

Page 1 of 6

1 2 3 … 6 Next »