多模態模型

Whisk – Google Deepmind 新整合

Google Labs 宣佈了幾個重要更新。除影片生成外，Whisk 最受矚目！

Google 推出了Veo 2 和 Imagen 3 的改良版本，分別在影片和圖片生成方面達到業界頂尖水準，並整合到 VideoFX 和 ImageFX 工具中。此外，一個名為 Whisk 的新工具也正式亮相，它允許使用者以圖片作為提示，結合 Imagen 3 和 Gemini 的技術，創造出獨特的影像。文章最後還介紹了這些工具的應用範圍以及未來發展計畫，例如在 YouTube Shorts 和 Vertex AI 上的整合。整體而言，文章旨在展示Google在AI影像與影片生成技術上的最新進展，以及其對提升使用者創造力和拓展應用場景的努力。

Categories: 多模態模型, 影像處理, 新聞

Google Veo2 – 比 Sora 更高質！

Veo 2 是一款最先進的影片生成模型

Google DeepMind 的 Veo 2 能生成高品質、逼真的影片，解析度最高可達 4K，並具有精細的攝影機控制選項，能準確地模擬真實世界的物理現象和多種視覺風格。

Googles VEO 2 Just STUNNED The ENTIRE INDUSTRY! (Quantum Leap in AI Video)

Watch this video on YouTube

Categories: 多模態模型, 影像處理

Ollama3.2-vision 本地部處教學

影片示範使用 OLAMA 平台，離線運行 Llama 3.2 vision 模型。重點在於說明如何使用終端機或 Open Web UI 與圖片互動，以及運用 Python 和 JavaScript SDK 建立應用程式。影片涵蓋基本設定到進階應用程式開發，並提供詳細程式碼範例，協助 Llama 3.2 vision 模型進行圖像識別和描述等任務，展現消費級硬體上的強大能力。

Llama 3.2 Vision + Ollama: Chat with Images LOCALLY

Watch this video on YouTube

MAC Image

Categories: LLaMa, Ollama, 多模態模型

Motion Prompting 可控影像模型

用於控制影片生成模型

利用點軌跡 (point trajectories) 作為提示，以極其靈活的方式編碼單點或大量點的運動，甚至包含物體運動、場景變化、遮擋和稀疏運動。研究者訓練一個以任意動作為條件的影片生成模型，並透過設計不同的動作提示來操控影片生成結果，例如控制物體運動、模擬物理現象、控制攝影機視角，甚至是動作轉移和影像編輯。網站分享了不同參數（如軌跡密度、文字提示）對結果的影響，並與其他相關方法進行比較。