InfiniteYou 的獨特之處在於其強大的身份保留技術!透過核心組件 InfuseNet,即使在生成全新場景或是不同風格的相片,也能精準保留相片中的人物特徵。您可以僅以文字描述,就能讓同一人物出現在不同情境、穿著不同的衫,甚至呈現不同的風格。它亦支援 ControlNet 和 LoRA 的進階控制,令創意揮灑的同時,也能精細調整生成結果,直至符合您需要的獨特內容!(ByteDance)

InfiniteYou 的獨特之處在於其強大的身份保留技術!透過核心組件 InfuseNet,即使在生成全新場景或是不同風格的相片,也能精準保留相片中的人物特徵。您可以僅以文字描述,就能讓同一人物出現在不同情境、穿著不同的衫,甚至呈現不同的風格。它亦支援 ControlNet 和 LoRA 的進階控制,令創意揮灑的同時,也能精細調整生成結果,直至符合您需要的獨特內容!(ByteDance)
LHM (Large Animatable Human Reconstruction Model) 是一個高效及高質量的 3D 人體重建方案模型,能夠在幾秒鐘內生成影片。模型利用了多模態的 Transformer 架構,以注意力機制,對人體特徵和影像特徵進行編碼,能夠詳細保存服裝的幾何形狀和紋理。為了進一步增強細節,LHM 提出了一種針對頭部特徵的金字塔型編碼方案,能夠生成頭部區域的多種特徵。(阿里巴巴)
VisoMaster 是一個功能強大的面部替換與編輯工具,無論是靜態圖片還是動態影片,都能夠輕鬆地進行面部替換。替換後的結果非常自然流暢,幾乎看不出任何人工編輯的痕跡。而且可以根據需求定制模型和微調參數,以獲得更個性化的面部替換效果。
Qwen 2.5-Omni,是一個由阿里巴巴團隊開發的端對端多模態模型。它的主要目的是統一處理輸入的文字、圖像、音訊和影片,能同時生成文字和自然語音作為回應。模型在多模態輸入的感知、文字與語音的同步生成以及串流處理的優化等方面都採用了創新技術同埋架構,例如 TMRoPE 時間對齊編碼和 Thinker-Talker 架構。下面的影片詳細示範了 Qwen 在不同的應用場景下的優秀表現。
FlashVideo 由香港大學、香港科技大學及 ByteDance 聯合開發,你只需要準備一張或者幾張參考圖片,加上文字提示詞,就可以生成高解像度的影片。過程主要分為兩部份,第一部分是優先處理提示詞,同時以低解像度處理圖片,減少 DIT 的運算時間。第二部分會建立低解像度和高解像度之間的匹配。結果能夠以高速生成 1 0 8 0 P 的高清影片。[DiT] Diffusion Transformer | [NFE ] Number of Function Evaluations
NotaGen 針對160 萬首樂曲進行了訓練,亦根據高品質古典樂譜數據進行了微調。當中包括 8 千 948 張古典樂譜、152 位作曲家,並規劃成為巴洛克、古典及浪漫等三個時期。NotaGen 採用 CLaMP-DPO 強化學習,無需經過人工註釋甚至預先定義的獎勵。結果可以輕易生成非常出色的 Full Score 樂章節同埋五線譜樂章。
相關函式庫:DCML 語料庫、OpenScore 弦樂四重奏語料庫、OpenScore 歌曲語料庫、
ATEPP、KernScores
Stability AI 最新發佈的研究預覽模型「Stable Virtual Camera」是一個創新的多視角擴散模型,無需複雜的 3D 建模,就能夠將 2D 圖像轉換成為具有真實深度和透視感的沉浸式 3D 影片。同時,它亦提供了靈活的 3D 攝影機控制,用家可以自定攝影軌跡,而預設的 14 種動態攝影機路徑包括 360°、雙紐線、螺旋、移動推拉、平移和滾動等等。並且能夠由一張或者最多 32 張的圖片生成長達 1000 frames 的連貫影片。這模型目前以非商業授權,主要作為學術研究。而相關的論文、模型權重和程式碼都已經公開下載。其它 Stability 3D 模型
gptme 是一個私人 的 AI 助理,透過終端的命令行 C L I,就可以叫系統執行一系列的工作,例如編輯檔案、執行程式、瀏覽網站、資料分析。我們亦可以透過自然語言去執行 Linux Shell 的指令,意思係話,我們不再需要死記指令來操作系統。佢甚至可以通過 AI 視覺進行互動教學。
DeepHermes 3 Preview 是世界上第一批能夠將推理和正常 L L M 模式整合的模型之一。它包括高級的代理能力、更好的角色扮演、推理、能夠保持十分長的上下文連貫性對話。而且只要簡單的系統提示詞,就可以即刻啟動推理能力 Reasoning。
影片介紹如何用 LangGraph、Agentic RAG、Nano-GraphRAG 和 Claude 3.7 Sonnet 製作一個具備推理能力的代理 Agent。作者透過展示了使用不同的工具,令 AI 模型能夠使用計算機、字典和搜尋引擎來增強 AI 模型的能力。