透過 Gemini 的互動式影像,加深理解知識

科學研究不斷表明,真正的學習需要積極參與。這正是 Gemini 幫助您學習的根本所在。除了簡單的文字和靜態圖像,我們現在還在Gemini 應用中推出互動式圖像——這項新功能旨在幫助您以視覺化的方式探索複雜的學術概念。

想像你在研究消化系統或細胞結構。現在,你不再只能看到標籤,而是可以直接點擊圖表中的特定部分,解鎖一個互動式面板。此面板提供即時定義、詳細解釋以及可供深入研究的內容。

透過與圖像互動,Gemini 將學習方式從被動觀看轉變為主動探索。現在,透過某些影像,您可以獲得更多相關主題資訊並提出後續問題。這標誌著學習方式朝著更直覺、更動態、更易於理解的方向邁出了重要一步。

原文

Categories: Gemini, 教學

OVI 11B 低 VRAM 顯卡上做 10 秒影片

影片教你怎樣用「ComfyUI + OVI 11B」在低 VRAM 顯示卡上做 10 秒有畫又有聲嘅影片生成功能,重點係一步步教你放啱模型檔、設定 workflow,同埋用 LoRA 喺低 steps 都保持畫質。

ComfyUI OVI Workflow: Text & Image to 10s Video on Low VRAM

主要功能

  • 用 ComfyUI 的 OVI workflow,一套 graph 就可以同時支援「text to video」同「image to video」,唔需要兩個 workflow。​
  • 支援 OVI 11B FP8 或 BF16,針對低 VRAM / 中高 VRAM 有唔同精度選擇。​
  • 一次 render 就生成 10 秒影片連同步音訊,包括對白同環境聲。
Categories: 數字人, 阿里巴巴, 教學, 影像模型

檢索增強生成流程中融合 HyDE

I asked them to show me their RAG pipeline...

在 RAG(檢索增強生成,Retrieval-Augmented Generation)流程中融合 HyDE 技術,特別是在社交群組 AI 助理的應用場景。影片詳細說明了 RAG 的基本原理、技術演進、現實挑戰,以及 HyDE 方法如何解決多輪群聊語意檢索問題、具體提升個人化推薦的效果。

  • 語意密度失衡:單一查詢若囊括多個主題(如運動、用餐、過敏),其向量可能遠離相關用餐記錄,導致錯誤檢索。HyDE 協助切分查詢語意,生成能精準接近真正目標向量的候選,提升召回率。​
  • 模型選型與延遲:現成 embedding 模型雖然容易部署,但當候選文檔增加,模型必須在準確率、延遲、用戶體驗之間平衡(過多候選會加劇延遲及降低內容相關性)。​
  • Tone Matching:HyDE 生成的假想對話需盡量貼近用戶原始語境;目前主流 embedding 更偏向語意,語氣風格次要,但理想設計仍會嘗試符合真實對話氛圍。

這案例對 RAG 技術實戰落地非常有啟發,尤其在社群、記憶建構、個人化需求場景的處理方式。若你有自己的群聊 AI 專案,這種查詢增強流程、高維語意檢索建議、如何平衡效率與準確,是值得深入借鑑的。

Categories: 教學, RAG

AI 代理才是真正的智慧

AI代理人運作的邏輯與人類極為相似: 感知(Perceive):理解環境與任務。 決策(Decide):由大型語言模型(LLM)推理與規劃。 行動(Act):執行指令、嘗試任務、回饋結果。 這樣的循環讓AI不再只是「輸入輸出」,而是能根據情境持續學習與調整。

AI 代理才是真正的智慧:AI Agent 究竟如何完成你的工作!?
Categories: 教學, Agent

認識 Token

Token 是什麼?
Token 是語言模型運算與計費的基本單位。模型會將輸入句子切分為 token,這些 token 可能是單字、子詞、甚至單一字元,每個 token 在模型內都有一個數字編號,模型實際運算都是在這些數值上進行。​

不同模型為什麼 token 計算不一樣?
每個模型的 tokenizer(分詞器)都有自己的 vocab(詞彙表)與切分規則。例如同一句「Hello world」經 OpenAI 的 tokenizer 會產生 3 個 token,但用 Google 或 Anthropic 服務則可能是 4 個或更多/更少,這取決於各家詞彙表設計與切分策略。​

Token 如何產生?
Tokenizer 首先會從語料訓練出一套詞彙表。簡易的做法如「字符級」切分,每一字元都是一個 token,這會造成 token 數暴增。進化的方法是將高頻出現的詞組合成較長的子詞(subword),減少 token 數,進而提升效率。​

罕見詞與特殊語言怎麼分詞?
像人名、亂碼、稀有單詞、冷門語言等若在語料中較少見,會被切成更多更小的 token。這代表使用模型處理中文、粵語、小語種或非主流程式語言時,token 數可能顯著增加,導致 API 成本上升。​

Most devs don't understand how LLM tokens work

Categories: 教學


NVidia Cosmos 重組光源

開源 Cosmos DiffusionRenderer 是一個視訊擴散框架,用於高品質影像和視訊的去光和重光。它是原始
DiffusionRenderer 的重大更新,在 NVIDIA 改進的資料管理流程的支持下,實現了顯著更高品質的結果。

最低要求
Python 3.10
NVIDIA GPU 至少配備 16GB VRAM,建議配備 >=48GB VRAM
NVIDIA 驅動程式和 CUDA 12.0 或更高版本
至少 70GB 可用磁碟空間
Relight Any Scene with AI: NVIDIA Research Unveils DiffusionRenderer

教學:

NVIDIA's new AI Just Made Any Video Relightable (DiffusionRenderer Demo)
Categories: 開源, 視頻模型, 教學, Linux, 影像處理


TRAE 2.0 SOLO 實測結果

TRAE 2.0 SOLO 是一款全自動AI編程助理,用戶只需用自然語言描述想法,AI便能自動編寫需求文檔(PRD)、規劃架構、設定技術棧,完成前後端編碼、資料庫連接,並部署至雲端。

整體而言,這是一款功能強大且易用的AI全能開發助手,幫助用戶用一句話完成從設計到部署的整個應用開發過程。

TRAE 2.0 SOLO Review: Zero Bugs AI Coding
Categories: 免費試用, 編程, 教學

Qwen-Image-Edit

Qwen-Image-Edit 是 Qwen-Image 的圖像編輯版本,基於20B模型進一步訓練,支持精准文字編輯和語義/外觀雙重編輯能力。它具備多項關鍵功能與技術優勢:

  • 精準文字編輯:支援中英文文字的增、刪、改,並能保留原始文字的大小、字體與樣式。這得益於 Qwen-Image 獨特的文字渲染能力被擴展至編輯任務。
  • 雙重語義/外觀編輯:不僅能進行風格轉換、物件增刪等視覺外觀編輯,也支援 IP 創作、物件旋轉等高層次語義編輯。這透過將輸入影像同時饋入 Qwen2.5-VL(語義控制)和 VAE 編碼器(外觀控制)實現。
  • 強大跨基準效能:在多個公開基準測試中,Qwen-Image-Edit 在編輯任務上取得了最先進(SOTA)成果。
This new AI image editor is a BEAST. Qwen Image Edit tutorial
Categories: 開源, 阿里巴巴, 教學, 影像模型, 影像處理

Page 1 of 14
1 2 3 14