Infer News

用comfyui工作流制作PS免费插件

用comfyui工作流制作PS免费插件，全攻略本地版！

Watch this video on YouTube

Categories: ComfyUI, 影像處理

透過 Gemini 的互動式影像，加深理解知識

科學研究不斷表明，真正的學習需要積極參與。這正是 Gemini 幫助您學習的根本所在。除了簡單的文字和靜態圖像，我們現在還在Gemini 應用中推出互動式圖像——這項新功能旨在幫助您以視覺化的方式探索複雜的學術概念。

想像你在研究消化系統或細胞結構。現在，你不再只能看到標籤，而是可以直接點擊圖表中的特定部分，解鎖一個互動式面板。此面板提供即時定義、詳細解釋以及可供深入研究的內容。

透過與圖像互動，Gemini 將學習方式從被動觀看轉變為主動探索。現在，透過某些影像，您可以獲得更多相關主題資訊並提出後續問題。這標誌著學習方式朝著更直覺、更動態、更易於理解的方向邁出了重要一步。

原文

Categories: Gemini, 教學

OVI 11B 低 VRAM 顯卡上做 10 秒影片

影片教你怎樣用「ComfyUI + OVI 11B」在低 VRAM 顯示卡上做 10 秒有畫又有聲嘅影片生成功能，重點係一步步教你放啱模型檔、設定 workflow，同埋用 LoRA 喺低 steps 都保持畫質。

ComfyUI OVI Workflow: Text & Image to 10s Video on Low VRAM

Watch this video on YouTube

主要功能

用 ComfyUI 的 OVI workflow，一套 graph 就可以同時支援「text to video」同「image to video」，唔需要兩個 workflow。
支援 OVI 11B FP8 或 BF16，針對低 VRAM / 中高 VRAM 有唔同精度選擇。
一次 render 就生成 10 秒影片連同步音訊，包括對白同環境聲。

Categories: 數字人, 阿里巴巴, 教學, 影像模型

檢索增強生成流程中融合 HyDE

I asked them to show me their RAG pipeline...

Watch this video on YouTube

在 RAG（檢索增強生成，Retrieval-Augmented Generation）流程中融合 HyDE 技術，特別是在社交群組 AI 助理的應用場景。影片詳細說明了 RAG 的基本原理、技術演進、現實挑戰，以及 HyDE 方法如何解決多輪群聊語意檢索問題、具體提升個人化推薦的效果。

語意密度失衡：單一查詢若囊括多個主題（如運動、用餐、過敏），其向量可能遠離相關用餐記錄，導致錯誤檢索。HyDE 協助切分查詢語意，生成能精準接近真正目標向量的候選，提升召回率。
模型選型與延遲：現成 embedding 模型雖然容易部署，但當候選文檔增加，模型必須在準確率、延遲、用戶體驗之間平衡（過多候選會加劇延遲及降低內容相關性）。
Tone Matching：HyDE 生成的假想對話需盡量貼近用戶原始語境；目前主流 embedding 更偏向語意，語氣風格次要，但理想設計仍會嘗試符合真實對話氛圍。

這案例對 RAG 技術實戰落地非常有啟發，尤其在社群、記憶建構、個人化需求場景的處理方式。若你有自己的群聊 AI 專案，這種查詢增強流程、高維語意檢索建議、如何平衡效率與準確，是值得深入借鑑的。

Categories: 教學, RAG

UniVA 全能型影片處理框架

一套開源、多代理的「全能型影片處理框架」UniVA，目的是將影片理解、分割、剪輯與生成等功能統合成自動化且可擴展的工作流程。

主要創新與架構

Plan-and-Act 雙代理架構：系統分成「規劃代理」與「執行代理」。規劃代理會解析用戶意圖，分解成結構化的多步影片處理任務；執行代理則利用模組化的工具伺服器（MCP-based servers）來完成分析、生成、剪輯、追蹤等步驟。
分層記憶機制：建立了全球知識、任務上下文與用戶偏好三層記憶，確保長時段推理、上下文連續性及代理間溝通，有助於符合用戶風格或偏好的一致性影片製作。
端到端全能影片工作流：支援任何條件（文字、圖片、影片等）進行生成 → 多輪剪輯 → 物件分割 → 合成等自由流程，而非單一模型侷限的功能。
模組化擴展生態系：架構原生支援加入新工具與模型，方便根據需求進行功能擴充，提升系統柔性與持續性開發。

Categories: 開源, 影像處理

ComfyUI Fusion LoRA 教學

ComfyUI Tutorial Fusion LoRA Easy Compositing

Categories: ComfyUI, 開源, 影像模型, 影像處理

视频也能 P Comfyui 最强视频工作流

视频也能P Comfyui最强视频工作流三连发

Categories: ComfyUI, 開源, 影像模型, 影像處理

AI 代理才是真正的智慧

AI代理人運作的邏輯與人類極為相似：感知（Perceive）：理解環境與任務。決策（Decide）：由大型語言模型（LLM）推理與規劃。行動（Act）：執行指令、嘗試任務、回饋結果。這樣的循環讓AI不再只是「輸入輸出」，而是能根據情境持續學習與調整。

AI 代理才是真正的智慧：AI Agent 究竟如何完成你的工作！？

Watch this video on YouTube

Categories: 教學, Agent

最近 AI 生成技術越來越流行應用 image to video，其中最常見的是駛用（first frame）和（last frame）作為提示（prompt）來引導 AI 模型產生更平滑的影片延續效果。令到生成的影片更加有連貫性。例如想由一個影片平滑過渡到另一個影片。ElFrame 正是專為這種工作流設計的簡單輔助工具，它專注影片快速提取最後一幀，用家能夠輕鬆攞到這些關鍵圖像作為後續 AI 生成的輸入。

ElFrame 是一個免費的（Video Frame Extractor），可以快速提取影片的任何一幀。這些提取出的圖像可以直接用於像 Wan 2.1 的 First-Last-Frame to Video 或者其他類似的 AI 工具（例如 Veo3、Luma Dream Machine、Runway ML），作為生成影片的邊界提示，減少生成過程的抖動和不連貫問題。順帶一提，呢個免費服務係由 OpenSpec 協助一邊睇戲一邊自動生成！

Categories: Image, 影像處理, 線上服務

Gemini CLI v0.9.0 互動式終端

Google 在最新的官方開發者更新中宣布，Gemini CLI v0.9.0 現已支援完整的「互動式終端命令」體驗，這是該工具迄今最大的架構升級之一。

主要更新特點

互動式命令支援：使用者現在可以直接在 Gemini CLI 內運行 vim 編輯器、top 系統監控、
git rebase -i 等互動性命令，而無需離開 CLI 環境。

Pseudo-terminal（PTY） 整合：CLI 現在透過 node-pty 函式庫啟動虛擬終端（pseudo-terminal）進程，讓作業系統識別該 session 為終端機應用，使應用可如原生環境般運行。

即時輸出串流：新增的 serializer 元件能持續擷取虛擬終端的畫面快照（包含文字、顏色、游標位置等），並即時串流回使用者端，呈現如「直播」般的互動視覺效果。

雙向通訊能力：CLI 支援將鍵盤輸入即時傳送至背景進程，並能隨視窗大小自動調整顯示區域，就像原生 shell 一樣。

增強的色彩輸出：輸出渲染引擎改進，能正確顯示彩色終端輸出，呈現更完整的命令列視覺效果。

快捷鍵焦點切換：可使用 Ctrl + F 專注於互動終端視窗。

安裝與升級方式

Gemini CLI v0.9.0 起預設啟用此互動式 shell，可透過下列指令升級至最新版本：

npm install -g @google/gemini-cli@latest

背後技術亮點

這項更新的核心在於引入 pseudo-terminal (PTY) 與 即時序列化/串流處理機制，構成完整的「可觀察、可輸入、可重繪」終端環境，使 Google 的 Gemini CLI 同時具備 AI 輔助與原生 shell 操作體驗。

Categories: 開源, 編程

Page 2 of 58

« Previous 1 2 3 4 … 58 Next »