VINO 多模態模型對齊提示生成圖像與影片

VINO 是個統一的視覺生成工具,能同時處理圖像和影片的創作與編輯,無需針對每種任務去找不同的模型。它的核心架構是把視覺語言模型和多模態擴散轉換器(MMDiT)結合起來,讓文字、參考圖片或影片都能以同一套條件流動的方式被傳遞給擴散過程。

這裡的「可學習查詢 token」扮演的角色是把使用者的簡短指令轉化成模型能理解的細節向量,並在訓練時一起調整,讓指令更精確、模型更穩定。另一個關鍵在於把參考影像或影片所產生的特徵與它在 latent 空間的對應向量用同樣的開始與結束標記包起來,這樣模型就能在語意層面和潛在層面都把同一個參考資源針對地辨識出來,減少身份混淆或屬性遺漏的問題。

Categories: 影像模型, 影像處理, 視覺模型, 視頻模型, 開源

InfiniDepth 解析二維深度圖

InfiniDepth 把傳統的深度圖想成一個可以在任何二維座標上即時查詢的隱式場(Implicit Field),而不是固定在像素格子裡。這樣的表示方式讓模型不再受到訓練解析度的限制,能夠直接輸出任意高解析度的深度圖,同時保留更細緻的幾何細節。  

Categories: 影像處理, 視覺模型, 開源


DreamID-V 開源換臉

DreamID-V 是一個專門為高保真度臉部交換設計的技術,它旨在縮短圖像到視頻之間的差距。這技術在處理各種挑戰性場景時表現出色,包括頭髮遮擋、複雜光照、多樣化的種族和顯著的臉型變化。DreamID-V 的應用範圍廣泛,可以應用於娛樂、廣告和電影製作等領域,考慮到了實際應用中的多種需求和挑戰。提供更加逼真的臉部交換效果。

對於使用者來說,DreamID-V 提供了單 GPU 和多 GPU 推理的選項,並且有詳細的安裝和使用指南。使用者需要準備好相應的模型文件和依賴庫,然後根據提供的腳本進行操作。此外,DreamID-V 還支持不同的模型版本,例如 DreamID-V-Wan-1.3B-DWPose,這進一步提升了姿態檢測的穩定性和魯棒性。

Categories: 字節跳動, 數字人, 視頻模型, 開源



SimpleMem 高效終生記憶框架

SimpleMem 是專為 LLM 代理設計的高效終生記憶框架,透過語義無損壓縮來管理歷史經驗,提升長期互動效能。

SimpleMem 採用三階段管線:語義結構化壓縮(過濾冗餘並轉換為獨立記憶單元)、遞迴記憶整合(異步合併相關單元成抽象表示)和自適應查詢檢索(依查詢複雜度動態調整範圍)。 此設計受互補學習系統理論啟發,解決上下文膨脹和 token 浪費問題。

Categories: Agent, 編程, 開源


Google Antigravity 在幾分鐘打造一個完整的 CRM

Google Antigravity 是 Google 推出的新一代 AI 原生 IDE,不是單純聊天寫程式,而是幫你「指揮一整個虛擬工程師團隊」。 在這支影片裡,創作者示範如何用 Antigravity 的 Agent Manager、規劃模式與多 agent 並行,在幾分鐘內從零打造一個完整的 CRM 工具,包含聯絡人、交易 pipeline 和任務管理。

Master 85% of Google Antigravity In 15 Minutes (You'll Be Unstoppable)

透過 Artifacts,你可以像在 Google Docs 一樣對實作計畫、程式碼與螢幕截圖加註留言,人類負責決策與品管,AI 負責大量重工。 更酷的是,Antigravity 內建 Gemini 3 Pro、Claude Sonnet 4.5 和 GPT‑4,讓你可以把 UI 設計、後端架構與日常雜務分配給最擅長的模型來做。 再結合瀏覽器自動化與客製化 Workflow,你等於擁有一個會自己規劃、自己寫、自己測、還會跟你報告進度的超強開發夥伴,現在還是免費就能用的等級。

Categories: Google, 教學

CoV 提升視覺語言的空間推理能力

CoV (Chain-of-View Prompting for Spatial Reasoning) 可以用於各種需要在複雜三維環境中進行精確空間理解的場景。例如 VR 和 AR,CoV 可以幫助系統更好地理解和響應用戶在虛擬環境中的查詢,提供更自然、更沉浸式的體驗。在自動駕駛領域,CoV 可以增強車輛對周圍環境的理解能力,提高其在複雜道路條件下的導航和決策能力。

CoV 提出一種創新方法,專門針對在三維環境中的具身問答(Embodied Question Answering, EQA)問題。傳統的視覺語言模型(Vision-Language Models, VLMs)受限於固定的輸入視角,這使得它們在推理過程中無法動態地獲取與問題相關的上下文信息,進而限制了複雜空間推理的能力。CoV 通過引入一種免訓練、僅在測試階段運行的框架來解決這一問題,該框架能夠讓 VLMs 變成主動的視角推理器。

Categories: Qwen, 視覺模型, 開源

Page 4 of 65
1 2 3 4 5 6 65