更新包括:
🖊️ 頻道輸入指示器:準確了解誰在您的頻道中即時輸入,從而增強協作並保持每個人的參與。
👤 使用者狀態指示器:透過點擊頻道中的個人資料圖像來快速查看使用者的狀態,以獲得更好的協調和可用性見解。
🔒 可設定的 API 金鑰驗證限制:靈活配置 API 金鑰驗證的端點限制,現在預設為關閉,以便在受信任的環境中更順利地進行設定。

2017 年夏天,一群 Google Brain 研究人員悄悄發表了一篇將永遠改變人工智慧發展軌跡的論文。這份 “注意力就是你所需要的一切” (Attention Is All You Need) 的學術論文。當時人工智慧研究界之外很少有人知道這一點,但這篇論文將為你今天聽說過的幾乎所有主要生成式人工智慧模型奠定基礎,從 OpenAI 的 GPT 到 Meta 的 LLaMA 變體、BERT、 Claude、Bard 等。
新的架構於 2020 年已經出現,例如 Performer、Longformer 和 Reformer,旨在提高超長序列的注意力效率。目前其他人正在嘗試混合方法,將 Transformer 區塊與其他專用層結合。這個領域絕非停滯不前。展望未來,每一項新提案都將受到審查、興奮,甚至恐懼。
一文搞懂 Transformer(總體架構 & 三種注意力層)
騰訊開源模型 Hunyuan (混元) 能生成高品質 AI 影片,具有出色的動作穩定性、場景切換和逼真的視覺效果。ComfyUI 官網介紹了如何免費使用「Hunyuan Video」模型首先必需安裝幾個主要檔案:
hunyuan_video_t2v_720p_bf16.safetensors
(主要的影片生成模型) 放入 -> ComfyUI/models/diffusion_models/ clip_l.safetensors
放入 -> ComfyUI/models/text_encoders/llava_llama3_fp8_scaled.safetensors
(文字編碼器) 放入 -> ComfyUI/models/text_encoders/hunyuan_video_vae_bf16.safetensors
(變分自動編碼器 VAE) 放入 -> ComfyUI/models/vae/模型亦支援生成靜態圖片,只需將影片長度設定為 1 即可。最後亦提供了一個 JSON 格式的工作流程範例,方便使用者快速上手。
Odyssey 公司開發的「Explorer」,一個能將圖片轉換成逼真三維世界的生成式世界模型,強調「故事至上」的理念,如同 Pixar 的成功經驗,科技應服務於故事和說故事的人。Explorer 利用高斯點雲 (gaussian splats) 技術建構細節豐富的場景,並能與現有 3D 創作軟體整合,實現手動編輯的功能。目前 Explorer 應用於電影、遊戲製作的虛擬製作流程中,未來目標是實現即時世界生成,並拓展更多應用,文中也提及與 Pixar 共同創辦人 Ed Catmull 的合作,突顯其在該領域的領先地位和遠大抱負。
Genesis 是一個強大的、通用物理引擎,旨在為機器人和更廣泛的應用程式(如具身 AI 和物理 AI)提供服務。它不僅是一個輕量級且超快速的模擬平台,擁有易於使用的 Python 介面和逼真的渲染系統,更是一個生成式數據引擎,能根據自然語言提示生成各種模態的數據,例如物理準確的影片、機器人策略、以及複雜的 3D 場景和角色動作。其核心是從零開始重建的物理引擎,結合多種物理求解器,並由上層的生成式代理框架進一步增強,實現數據生成的自動化。目前已公開發布物理引擎和模擬平台的原始碼,生成式框架將逐步推出。 Genesis 的目標是大幅提升模擬效率和數據生成能力,促進機器人學及相關領域的研究與發展。
本片中展示 AI Studio 上 Gemini 2.0 中的入門應用程式之一 「視訊分析器」,並詳細介紹如何使用 Python 程式碼和新的統一 SDK 從多角度分析影片內容。
Google Labs 宣佈了幾個重要更新。除影片生成外,Whisk 最受矚目!
Google 推出了Veo 2 和 Imagen 3 的改良版本,分別在影片和圖片生成方面達到業界頂尖水準,並整合到 VideoFX 和 ImageFX 工具中。 此外,一個名為 Whisk 的新工具也正式亮相,它允許使用者以圖片作為提示,結合 Imagen 3 和 Gemini 的技術,創造出獨特的影像。 文章最後還介紹了這些工具的應用範圍以及未來發展計畫,例如在 YouTube Shorts 和 Vertex AI 上的整合。 整體而言,文章旨在展示Google在AI影像與影片生成技術上的最新進展,以及其對提升使用者創造力和拓展應用場景的努力。