PresentAgent-2:將查詢變成影片簡報

image

如果你曾經試過為一個新題目做簡報,就會知道最花時間的往往不是排版,而是先找資料、定重點、再把內容講清楚。PresentAgent-2 想處理的,正正是由一句自然語言提問開始,逐步變成一段有旁白的簡報影片,而不是假設你一開始已經有一份完整文件。

這個專案的流程相當清晰:先把模糊問題收窄成較聚焦主題,再整理候選來源,抽取文字、圖片、GIF 甚至影片素材,之後才規劃簡報結構、生成投影片與講稿,最後合成音畫對齊的影片。對一般用家來說,可以理解為把「搜集資料、寫大綱、做 slides、配音」串成一條自動化工作流。

較有意思的是,它不只做單一講者式內容,還支援多講者討論,以及有根據的互動問答三種形式。另一方面,動態素材會盡量保留為 GIF 或影片,而不是全部截成靜態圖,這令最後成品更接近真正可觀看的解說片,而不只是會動的投影片。

如果你想了解它是否適合自己,較合用的情境包括教學短片、研究題目導讀、產品介紹,或需要快速把一個概念講清楚的內容製作。現階段它更像研究型框架,較適合 AI、多模態內容生成、代理式工作流的開發者與研究者參考,而非即開即用的普通消費工具。

  • 由短查詢出發,不需要先準備完整原稿
  • 可產出投影片、講稿、旁白與最終影片
  • 支援單人講解、多人討論、互動問答
  • 能保留 GIF 與影片等動態素材,表達力較強
  • 評估方式包含選擇題測試與主觀打分,重視內容與呈現效果

相關模型方面,倉庫資料提到以 VLM 參與評估,扮演觀眾回答問題及進行評分,但公開資訊未見完整列出所有底層模型名稱。若你關心的不是單一模型,而是「怎樣把多個能力串成可交付影片」,PresentAgent-2 的參考價值會比單看文字或圖像生成工具更高。

網址: https://github.com/AIGeeksGroup/PresentAgent-2

Categories: 開源, 視頻模型, 中國, 北京大學

Warp-as-History:一段片訓練出「鏡頭操控」

Warp-as-History teaser

如果你對 AI 影片生成有興趣,但又覺得「要大量素材先訓練」門檻太高,Warp-as-History 的吸引力正在於它嘗試只用一段訓練影片完成相機視角控制。簡單講,它想做的是讓系統學會原片中的空間與運鏡關係,再按你指定的鏡頭路徑生成新畫面。

對一般使用者來說,理解這個專案的最好方法,不是把它當作普通文字生片工具,而是視為一個偏向「鏡頭操控」的研究型方案。你需要先準備一段帶有相機資訊的影片,再配合指定模型做推理或訓練;官方列出的預設組合包括 Helios-DistilledWarp-as-History LoRA,而 Helios-Mid 主要用於訓練,另外 README 亦提到 Pi3X

它解決的重點問題,是生成影片時常見的視角不穩、鏡頭移動不連貫,以及難以精準控制觀看方向。這個方法特別強調互動式鏡頭軌跡跟隨與視點調整,定位上與 HappyOyster、Genie 3 這類方向相近,但賣點是把所需訓練資料壓到單一範例,這點相當有研究價值。

  • 一段訓練影片 已是核心設定,對資料收集要求較低
  • 重心不在純文字生成,而在鏡頭路徑與視角控制
  • 相關模型包括 Helios-Distilled、Warp-as-History LoRA、Helios-Mid、Pi3X
  • 較適合研究實驗、效果驗證,未必是即開即用的消費級工具

如果你是做生成式影像研究、互動敘事、虛擬攝影,這個專案值得留意;若你只是想快速剪片或一鍵出成品,可能會覺得前置準備仍然偏技術性。整體來看,Warp-as-History 最有意思的地方,是把「影片歷史資訊」由單純上下文提升為可延續的視角依據,令相機控制這件事更像真正可操作的生成條件。

網址: https://github.com/yyfz/Warp-as-History

Categories: 開源, 影像處理, 視頻模型, 世界模型, 中國

MoCam:用影片重建自然新視角

Og image

MoCam 是一個針對影片「重新取景」的方法,重點是由原有影片生成新的觀看角度。它主打在幾何先驗不完整、失真,甚至場景有動態變化時,仍能產生較連貫而且接近真實感的畫面。

這個方法的核心做法,是把生成過程分成較有結構的去噪步驟:先處理初步的幾何對齊,再逐步修正外觀細節。簡單理解,就是先盡量擺正場景與視角,再補回畫面的質感,藉此減少新視角常見的破碎、跳動或不自然問題。

對一般讀者而言,它適合用來理解新一代影片視角生成技術如何改善傳統方法的限制,特別是面對複雜鏡頭移動,例如大幅度運鏡、推拉鏡,以及 bullet time 一類效果。網站展示亦顯示,它同時面向靜態與動態場景,而不只限於單一物件或簡單背景。

重點可留意:
– 可由影片生成新的鏡頭角度與運鏡效果
– 幾何資訊不足時,仍嘗試維持畫面穩定性
– 以分階段去噪流程兼顧對位與外觀修飾
– 展示涵蓋大幅移動、複雜軌跡、Dolly Zoom 等情境

目前公開頁面以研究簡介和示範效果為主,GitHub 與 Hugging Face 模型仍標示為即將推出,因此暫時未見完整上手文件、安裝方式或量化評測數字。若你是做電腦視覺、影片生成、虛擬攝影,或想了解擴散模型如何應用在新視角合成,這個項目值得持續留意。

網址: https://orange-3dv-team.github.io/MoCam/

Categories: 開源, 影像處理, 視頻模型

AnyFlow:影片生成更靈活的一步

Repository image for nvlabs/AnyFlow

AnyFlow 是 NVIDIA Labs 推出的影片擴散框架,重點不是單純把片生出來,而是讓同一個模型可按你手上的運算時間,自由調整推理步數。簡單講,趕時間時可以用較少步數先出結果;有更多資源時,再加步數換取更穩定的細節表現。

實際使用上,它較適合研究員、開發者或內容生成團隊,用來測試文字轉影片、圖片轉影片,以及影片轉影片。README 顯示它已有示範程式和預訓練模型,代表使用者可直接下載模型試效果,而不一定要由零開始訓練。

這個專案較有新意的地方,是把傳統常見「固定步數」的限制放寬,做成 any-step 生成。對非專業人士來說,可理解為同一套引擎在快出片與慢慢精修之間更有彈性,而不是每種速度都要換另一個模型。

  • 支援 Text-to-Video、Image-to-Video、Video-to-Video
  • 可配合不同推理步數,平衡速度與質素
  • 涵蓋 causalbidirectional 影片擴散架構
  • 已驗證可擴展到 1.3B 至 14B 參數級別

若你要做社交媒體短片原型、廣告分鏡視覺化,或研究影片生成流程,AnyFlow 的定位相當清晰。相關模型方面,README 提到可找到 AnyFlow-FAR-Wan2.1-1.3B-Diffusers、AnyFlow-FAR-Wan2.1-14B-Diffusers、AnyFlow-Wan2.1-T2V-1.3B-Diffusers、AnyFlow-Wan2.1-T2V-14B-Diffusers;名稱反映它既有偏研究框架,也有文字轉影片版本。整體來看,這不是一般即開即用的消費級工具,但對需要靈活控制生成成本與效果的人,確有參考價值。

Source: https://github.com/nvlabs/AnyFlow

Categories: 開源, NVIDIA, 影像模型, 模型, 視頻模型

Relit-LiVE:令影片重新打燈更自然

Nanjing University

Relit-LiVE 是一個用來幫影片「重新打燈」的研究型專案。簡單講,就是把原本影片中的人物或場景,在不改動內容主體下,換成另一種光線效果,並盡量保持整段影片前後一致,不會一時光、一時暗。

這個專案較特別的地方,是它不依賴預先知道鏡頭姿態,並且會一同生成重打燈影片與環境光影片。這種做法有助提升物理一致性,令反光、陰影等細節看起來更合理,對比只逐格處理的方式,更重視時間上的穩定。

實際使用上,它目前較適合有 NVIDIA GPU 的使用者,官方亦建議至少 24GB VRAM,代表一般人未必適合在普通手提電腦直接試。現階段已提供推論程式與模型權重,但訓練流程、完整 inverse-forward pipeline,以及 Gradio 介面似乎仍未完全公開。

如果你是做影像研究、生成式影片實驗,或者想測試影片後期中的光照控制,這類工具會幾有參考價值。它未必是即開即用的消費級產品,但對需要高質感光影變化、又想減少畫面閃爍的人來說,方向相當清晰。

  • 主要用途是把現有影片重新套用新的光照效果
  • 重點創新是聯合生成環境光影片,提升連貫性與真實感
  • 已公開推論代碼與 checkpoints,適合先做效果驗證
  • 硬件要求偏高,較適合研究者或進階創作者
  • 相關模型資訊可見權重路徑提到的 Wan2.1-T2V-1.3B,亦有 Hugging Face 模型發佈頁可供參考

整體來看,Relit-LiVE 最吸引之處不只是「換光」,而是嘗試令影片中的光影變化更像真實世界。若你關心影片生成中的物理合理性、時間穩定性,以及反射和陰影表現,這個專案值得加入觀察名單。

Source: https://github.com/zhuxing0/Relit-LiVE

Categories: 開源, 影像處理, 模型, 視覺模型, 視頻模型, 中國, 清華大學, 南京大學

ToolCUA:電腦代理點樣揀工具先最醒?

tongyi

ToolCUA 是一個面向「電腦代勞」場景的代理系統,目標不是單純模擬人手點擊,而是同時懂得用畫面操作與系統工具完成任務。簡單講,當代理見到桌面程式時,可以選擇按掣、輸入文字、捲動畫面,亦可以在合適時直接呼叫工具處理檔案或應用程式動作。

這個專案最值得留意的地方,是它聚焦在「路徑選擇」而不只是「動作能力」。README 提到,不少模型即使同時擁有 GUI 動作與工具調用能力,仍然會出現判斷混亂:有些幾乎唔用工具,有些又過度依賴工具,結果步驟雖然變少,但任務成功率未必更高。

實際使用上,這個儲存庫較像研究與評估框架,適合想測試混合式電腦代理的人。庫內提供評估資料、代理實作,以及多環境評測程式;如要使用其公開模型,README 有提到 ToolCUA-8B,但整體更偏向研究實驗,而非即裝即用的消費級產品。

重點可概括為:
– 同時處理 GUI 操作與高層工具調用
– 核心問題是判斷何時切換操作路徑
– 以分階段訓練提升工具使用與切換決策
– 提供評估程式與案例,方便研究比較

從公開資料看,ToolCUA 的主要創新在於把 GUI-only 軌跡擴展成 GUI 與工具交錯的訓練資料,再配合強化學習優化整體路徑效率。對企業自動化、桌面任務代理、需要跨應用操作的研究場景尤其有參考價值;如果你想找的是成熟日常助手,現階段可能仍要視乎後續工具鏈與部署支援。

Source: https://github.com/X-PLUG/ToolCUA

Categories: Agentic, 模型, 視頻模型

CausalCine 多鏡頭影片生成

Repository image for yihao-meng/CausalCine

CausalCine 是一個圍繞多鏡頭敘事影片生成的研究型專案,重點不只是生成單一短片,而是讓多個鏡頭能按故事次序逐步產生。從儲存庫描述來看,它主打即時的自回歸生成方式,目標是令影片在切換場景時仍保留敘事連續性。

對一般使用者來說,可以把它理解為一種「先生成前面內容,再根據已生成結果決定下一鏡」的影片製作方法。這種做法特別適合有劇情推進、場景轉換和角色延續的短片構思,而不只是單次輸出一段互不相關的影片畫面。

它較值得留意的創新,在於把多鏡頭影片當成有因果關係的序列來處理,而不是將每個鏡頭完全分開生成。這意味著角色、氣氛或事件發展,理論上更有機會在前後鏡頭之間保持一致;不過實際效果仍應以專案頁面展示和後續公開內容為準。

  • 核心方向:針對多鏡頭、帶故事性的影片生成
  • 主要特色:採用即時自回歸方式,逐步生成後續鏡頭
  • 實際價值:有助提升鏡頭之間的敘事銜接與連貫感
  • 適合對象:研究者、生成式影片創作者、敘事短片原型開發者

如果你關心的是 AI 如何由「會生成片段」走向「會講故事」,這個專案相當值得留意。它最適合用於概念驗證、研究展示,以及需要快速測試多場景腳本的工作流程;若要投入正式商業製作,仍建議先觀察其公開成果、穩定性和可控程度。

Source: https://yihao-meng.github.io/CausalCine/

Categories: 香港科技大學, 視頻模型

MACE-Dance:把音樂變成舞蹈影片

Repository image for AMAP-ML/MACE-Dance

MACE-Dance 是一個面向音樂驅動舞蹈影片生成的研究型專案,核心目標是讓系統根據音樂內容,產生具有舞蹈動作與角色外觀一致性的影片。從名稱與簡介來看,它特別強調 motion 與 appearance 的分工建模,而不是把整個生成流程視為單一路徑處理。

這個專案最值得注意的地方,在於所謂 Motion-Appearance Cascaded Experts 的設計思路。簡單說,它像是把「先決定怎麼跳」與「再決定畫面怎麼呈現」拆成串接的專家模組,這種做法理論上有助於減少動作節奏與人物外觀彼此牽制的問題,也更貼近舞蹈影片生成常見的兩大難點。

實際使用上,這類儲存庫通常更適合已有生成式影音或人體動作研究背景的開發者與研究者。若你想評估模型表現,重點應放在輸入音樂後的動作對拍程度、角色連續性,以及生成影片是否維持合理的視覺一致性;若要延伸研究,則可觀察其模組拆分是否方便替換不同的音樂表徵或影像生成元件。

  • 聚焦音樂到舞蹈影片的多模態生成任務
  • 以動作與外觀分階段處理作為主要方法亮點
  • 適合分析節奏對齊、角色一致性與影片連續性
  • 較偏研究用途,不像一般即裝即用的消費型工具

就應用場景而言,它最適合用在舞蹈生成研究、虛擬人表演合成、音樂視覺化內容製作,以及多模態生成模型的比較實驗。若你正在找的是可快速產出商業級短影音的完整產品,這個專案目前看來更像方法驗證與學術探索平台;但若你的目標是理解音樂驅動角色影片生成的前沿方向,它具備相當明確的研究切入點。

Source: https://github.com/AMAP-ML/MACE-Dance

Categories: 開源, 影像模型, 影像處理, 模型, 視頻模型


Vista4D 使用 4D 點雲進行視頻重拍

Vista4D 預告圖
Eyeline-Labs/Vista4D 在 GitHub 上

Vista4D 提供了一種獨特的視頻重拍方法,通過從新的角度合成場景。它利用 4D 點雲有效地處理現實世界中的視頻缺陷。這使得它特別適合希望擴展其視覺敘事能力的創作者。

在開始使用 Vista4D 時,重點是理解其核心功能——從新穎的角度重拍視頻。該框架對點雲工件的強健性確保了即使在不完美的重建下也能可靠運行。此特性對於維護場景完整性至關重要。

在實際應用中,Vista4D 受益於動態場景擴展和 4D 場景重組的專業人士。它在保留場景內容的同時允許精確的相機控制,為創意編輯打開了大門。用戶可以預期在視頻製作流程中獲得增強的靈活性。

該框架需要一個強大的大型語言模型(LLM)以獲得最佳結果。創作者和編輯人員將發現 Vista4D 因其創新性的視頻操作方法而極具價值。

• 使用新穎視角增強視頻重拍
• 對點雲工件具有強健性
• 適合動態場景擴展和重組

Source: https://github.com/Eyeline-Labs/Vista4D

Categories: 開源, 影像模型, 影像處理, 模型, 視頻模型

Page 3 of 8
1 2 3 4 5 8