用於音訊驅動頭像視訊產生的擴散模型難以合成具有自然音訊同步和身份一致性的長視訊。基於 Wan2.1-1.3B 的 StableAvatar 音訊驅動的頭像視訊效果,是首個端到端視訊擴散變換器,無需後製即可合成無限長的高品質視訊。

用於音訊驅動頭像視訊產生的擴散模型難以合成具有自然音訊同步和身份一致性的長視訊。基於 Wan2.1-1.3B 的 StableAvatar 音訊驅動的頭像視訊效果,是首個端到端視訊擴散變換器,無需後製即可合成無限長的高品質視訊。
FantasyPortrait 支援使用多個單人影片或單一多人影片驅動多個角色,產生細緻的表情和逼真的肖像動畫。
從靜態圖像中製作富有表現力的臉部動畫是一項極具挑戰性的任務。現有方法缺乏對多角色動畫的支持,因為不同個體的驅動特徵經常相互幹擾,使任務變得複雜。FantasyPortrait 提出了 Multi-Expr 資料集和 ExprBench,它們是專門為訓練和評估多角色肖像動畫而設計的資料集和基準。大量實驗表明,FantasyPortrait 在定量指標和定性評估方面均顯著超越了最先進的方法,尤其是在具有挑戰性的交叉重現和多角色情境中表現出色。
Chrome MCP 伺服器是一款基於 Chrome 擴充功能的模型上下文協定 (MCP) 伺服器,它將您的 Chrome 瀏覽器功能開放給 Claude 等 AI 助手,從而實現複雜的瀏覽器自動化、內容分析和語義搜尋。與傳統的瀏覽器自動化工具(例如 Playwright)不同,Chrome MCP 伺服器直接使用您日常使用的 Chrome 瀏覽器,利用現有的使用者習慣、配置和登入狀態,讓各種大型模型或聊天機器人控制您的瀏覽器,真正成為您的日常助理。
邀請了知名 AI 安全專家 Jason Haddix,深入探討了駭客如何滲透、操控 AI 驅動的應用程式,能讓 AI 說出不當言論,更能竊取企業敏感數據如客戶資料或商業機密。
這是 AI 領域的「秘密突破」,僅有頂尖 0.1% 的研究者知曉:直接將原始位元組(raw bytes)輸入大型語言模型(LLMs),並使用代數拓撲(algebraic topology)分析,透過持久同調(persistent homology)揭示傳統模型無法察覺的隱藏資料結構。這可能改變 AI 處理多模態資料(如文字、影像、影片)的未來。
Story2Board 是個無需訓練的框架,用於從自然語言中生成富有表現力的故事板。目標是將敘事呈現為一系列連貫的故事板面板——每個面板描繪不同的場景,同時保留主要角色的身份和外觀。
這是系列影片的第 7 集,聚焦於 AI 研究中的前沿技術:讓大型語言模型(LLMs)直接以位元組(bytes)作為輸入,繞過傳統的標記化(tokenization)限制。
影片的目標是引導觀眾一步步進行 AI 研究,探討如何在開放源碼社區中領先於像 OpenAI 或 xAI 這樣的巨頭。Vuk Rosić 強調,這項技術能讓模型更快、更高效,因為數位世界本質上就是由位元組組成。他分享自己的研究過程,包括想法構思、代碼解釋、實驗設計,並鼓勵觀眾 fork GitHub 儲存庫參與。影片中提到,Elon Musk 最近表示 xAI 將取代 tokenizer,這讓這項研究更具時效性。
Archon 是一款為所有 AI 編程人量身打造,強調知識檢索、專案協作、即時上下文整合的開源編程操作系統,無論是個人或團隊都可極大提升 AI coding 助手的效能、協同與上下文管理力,非常適合想全面解鎖 AI 編程革命的人嘗試使用。
Matrix-Game 2.0 是一套高效、強大的互動世界生成系統,專注於視覺與行動融合,能夠在多種遊戲場景下生成高質量、流暢並可交互的視頻內容,領先於現有主流方案,適合用於前沿AI遊戲和虛擬世界研究。主要由Skywork AI團隊開發。