FramePack 是一種新的視頻擴散設計,用壓縮上下文令工作量不會隨著影片的長度而增加,只需一張圖片,就可以令你的 6GB vRAM 的電腦透過 13B 模型生成每秒 30 格影片的 60 秒影片。而用 RTX 4090 的話,最快速度為每格 1.5 秒。
作者 Lvmin Zhang
FramePack 是一種新的視頻擴散設計,用壓縮上下文令工作量不會隨著影片的長度而增加,只需一張圖片,就可以令你的 6GB vRAM 的電腦透過 13B 模型生成每秒 30 格影片的 60 秒影片。而用 RTX 4090 的話,最快速度為每格 1.5 秒。
作者 Lvmin Zhang
Google Firebase Studio 的目標是盡量簡化開發流程,就算你是剛剛開始學寫 App 也不用擔心。只要你有基本了解,Firebase Studio 可以透過 AI 助手 Gemini 幫你寫 Code、Debug 同埋改善效能。完成了之後,無論是全方位的應用程式,抑或 API、後台、前端同埋手機 App,佢都可以幫你自動整合發佈。測試期間,你可以擁有 3 個的免費工作空間。
影片展示了 Visual Studio 的最新 AI 功能,重點介紹了新的 Agent 智能體代理模式,同時引入了模型上下文協議 MCP Model Context Protocol。影片亦示範了完整的應用程式開發,並通過不同的模式與 AI 進行交互:包括詢問,編輯。亦會根據項目要求自動進行修改。這些進步反映了 AI 技術在增強開發工作流程和提高效率方面的快速成長。
Llama 4 Scout 是一個擁有 170 億個活躍參數和 16 個 MOE 的混合專家模型。它被認為是目前同類型最優秀的多模態模型,比前幾代的 Llama 模型更強大。新模型可以用單張 NVIDIA H100 GPU 運作。佢擁有業介領先的 1000 萬 tokens 上下文窗口,並且在廣泛使用的基準測試表現都優勝過 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。它在預訓練和後訓練的過程都用了 256K 的上下文長度。
另一個模型 Maverick 同樣是一個擁有 170 億個活躍參數的模型,但它擁有 128 個 MOE 的混合專家模型。基準測試擊敗了 GPT-4o 和 Gemini 2.0 Flash,而在圖像方面亦表現相當出色,能夠將提示詞同埋相關的視覺概念對齊,將模型的回應鎖定到圖像中的特定區域。兩個模型都有獨特的活躍參數模式,能夠節省一半資源。令開發同應用的價格更低。
WhatsApp MCP 可利用您的個人 WhatsApp 帳戶進行搜索訊息、聯絡人及群組,並能向個人或群組發送訊息。所有訊息會自動儲存到本地的 S Q Lite 資料庫,確保私隱同控制權。用戶只需要掃描 QR code 就可以驗證帳戶並開始使用。WhatsApp MCP 整合了 Claude Desktop,利用語言模型來增強訊息的處理功能,十分適合需要高效管理 WhatsApp 通訊的用戶。
ComfyUI-Manager 在 3 月 28 日遷移至 ComfyUI 開發團隊所在的 GitHub Repository。因此我相信 ComfyUI 能夠持續提升使用者體驗。提供一鍵安裝、節點管理。如果您經常探索最新的 AI 繪圖技術,抑或需要特定的圖像處理節點,ComfyUI Manager 都能夠令相關操作流程更為簡易及高效。
InfiniteYou 的獨特之處在於其強大的身份保留技術!透過核心組件 InfuseNet,即使在生成全新場景或是不同風格的相片,也能精準保留相片中的人物特徵。您可以僅以文字描述,就能讓同一人物出現在不同情境、穿著不同的衫,甚至呈現不同的風格。它亦支援 ControlNet 和 LoRA 的進階控制,令創意揮灑的同時,也能精細調整生成結果,直至符合您需要的獨特內容!(ByteDance)
LHM (Large Animatable Human Reconstruction Model) 是一個高效及高質量的 3D 人體重建方案模型,能夠在幾秒鐘內生成影片。模型利用了多模態的 Transformer 架構,以注意力機制,對人體特徵和影像特徵進行編碼,能夠詳細保存服裝的幾何形狀和紋理。為了進一步增強細節,LHM 提出了一種針對頭部特徵的金字塔型編碼方案,能夠生成頭部區域的多種特徵。(阿里巴巴)
VisoMaster 是一個功能強大的面部替換與編輯工具,無論是靜態圖片還是動態影片,都能夠輕鬆地進行面部替換。替換後的結果非常自然流暢,幾乎看不出任何人工編輯的痕跡。而且可以根據需求定制模型和微調參數,以獲得更個性化的面部替換效果。