InferNews

Gen-Searcher 準確同貼近現實圖片

Gen-Searcher 係全球首個專為圖像生成設計嘅多模態深度研究代理，佢會先上網搜尋資料、瀏覽證據同埋搵視覺參考，先至開始繪圖。呢個模型透過專門嘅訓練數據同強化學習，令生成嘅圖片更準確同貼近現實。佢喺多個測試基準上表現出色，仲可以輕鬆轉移應用到唔同嘅圖像生成模型上。所有代碼、模型同數據都已經完全開源，方便開發者直接使用。影像產生使用
Qwen/Qwen-Image-Edit-2509 和 FastAPI 進行服務。(MMLab, CUHK)

Categories: 香港中文大學, 庫, 影像模型, 開源, 中國

LGTM – 0.5 秒重建 3D 場景

LGTM 是首個原生支援 4K 饋送前向（feed-forward）方法，透過預測緊湊的高斯原語（Gaussian primitives）搭配每個原語的紋理（textures），解耦幾何複雜度與渲染解析度，避免傳統方法隨解析度增加而原語數量二次方爆炸。這是由 Yixing Lao（香港大學博士生）領導的 3D 高斯噴濺（Gaussian Splatting）研究項目，已被 ICLR 2026 接受。

Categories: 香港大學, 視覺模型, 視頻模型, 開源

掌控生成方向！LTX-2.3 IC-LORA 多重控制

【AIGC实战课 99】全面掌控生成方向！LTX-2.3 IC-LORA 多重控制引导生成

Categories: ComfyUI, 影像處理, 教學, 數字人

Claude Code 源碼洩露的 11 個隱藏秘密

刚刚 Claude Code 源码泄露！我扒出了 11 个隐藏秘密

Categories: Agent, Anthropic

ClawKeeper 安全插件

ClawKeeper 是 SafeAI-Lab-X 開發的開源專案，提供 OpenClaw 自主代理的全面即時安全框架。

ClawKeeper 透過三層架構保護 OpenClaw 代理：技能層（指令級政策注入）、插件層（運行時執行與監控）、監視器層（獨立外部監督，可中斷高風險動作）。
它防範提示注入、憑證洩漏、代碼注入等威脅，並支援跨平台與雲端部署。

Categories: 開源, OpenClaw

四個提升作業效能的開源工具

You NEED to try these open-source AI projects right now...

Watch this video on YouTube

GStack 由 Y Combinator 總裁 Garry Tan 開發，已獲近 5 萬 GitHub 星標，提供 20+ 角色工具如 CEO 審核、工程經理和 QA。
安裝簡單，只需在 Claude Code 貼上指令，即可透過 /gstack 命令啟用辦公室會議、程式碼審核等流程。
適合 solo 開發者模擬矽谷團隊，基於 Tan 的創業經驗。

NousResearch 的 Hermes Agent 類似 OpenClaw，已有 12k+ 星標，具自改善迴圈，能從經驗產生技能並優化。
支援終端介面、多聊天 app（如 Telegram）、並行子代理和記憶遷移。
強調自主學習，適合想探索 OpenClaw 替代者的你。

Obra 的 Superpowers 插件給 Claude Code 超能力，已超 11 萬星標，聚焦 TDD（測試驅動開發）和工作樹平行化。
安裝只需 claude plugin install superpowers，即用 /s brainstorm 等命令規劃、執行和審核程式碼。
強調從腦storm 到部署的全流程，適合開發導向使用者。

Paperclip 旨在打造零人力公司，33k+ 星標，使用 Node.js 和 React UI 協調 AI 代理團隊追蹤目標、成本和工單。
如 CEO、CTO 等角色自動處理 issue，支援心跳排程和審計日誌，但作者警告不易立即獲利。
未來將加知識庫和 OpenClaw 整合，適合實驗自主業務。

Categories: 新聞, 開源

Pulse of Motion 讓影片更自然

Pulse of Motion 讓你在觀看影片時「感覺更舒服」，但看不到技術本身。目前很多生成影片（如 SVD、Pika 等）的動作時間常常跑偏，作者稱這種現象為 chronometric hallucination，也就是「看起來平滑但實際上時間尺度錯亂」。

現在很多生成模型會「時間錯亂」角色走路太快／太慢；手勢、動作和音效不搭；看起來動作很順，但「感覺怪怪的」。這套技術可以用來：調整生成模型的輸出（例如：自動快慢放或重採樣），讓影片「更像真實拍攝」，看起來更舒服。自動檢測影片的 真實時間尺度；

Categories: 影像處理, 視頻模型, 開源, 中國

LumosX 精準個性化數字人

LumosX 是一個針對 個性化多主體視訊生成（personalized multi‑subject video generation）提出的框架，重點在：

讓每個「身份」（例如不同人物）和其對應的屬性（年齡、外貌、服飾、動作等）有明確、精準的對齊；
用關係性注意力機制來強化「組內一致性」（同一組人物屬性一致）和「組間區分度」，減少多主體時的屬性糾纏（attribute entanglement）。

簡單說：一樣可以做 text‑to‑video + ID conditioning，但對多個人物、每個人對應什麼屬性，控制得更精細、更一致「可控視訊生成」與「多主體個性化內容」場景，例如多角色劇本生成、廣告、虛擬試衣、多角色 VTuber 相容演出等。

Categories: 阿里巴巴, 數字人, 視頻模型, 開源

TRIBE v2 (Meta) 全腦神經活動資訊

TRIBE v2（Trimodal Brain Encoder）是一個多模態基礎模型，用於輸入一段影片、音訊或文字，然後輸出一個對應的「全腦神經活動圖」（約 7 萬個體素的 fMRI‑style 活動預測）。
它在 Algonauts 2025 獲獎架構上進一步提升，準確度約是上一代 2–3 倍，空間解析度提高約 70 倍，並支援跨受試者、跨語言、跨任務的 zero‑shot 預測。

可以當成一個「神經科學可視化工具」，用來研究。例如內容設計（影片、廣告、UI）如何觸發大腦特定區域（視覺皮層、語言區等）。又或者多模態 embedding 是否真的對齊人類大腦的處理路徑。

若你在做 RAG、多模態搜尋或 Brain‑AI 類實驗，可以拿這個 demo 來：比較不同 prompt／多模態輸入對「腦激活圖」的差異（例如：同一段文字用不同語氣、圖片風格重製）。

Categories: Medical醫學, 視覺模型, 開源, Meta

PrismAudio 視訊立體聲模型框架

PrismAudio 是一個把視訊畫面轉成立體聲（stereo）音訊的 AI 模型框架，目標是在四個維度上同時優化：

語義合理性（Semantic）
音視同步性（Temporal synchrony）
音質美感（Aesthetic quality）
空間準確度（Spatial accuracy）

作者的關鍵點是：現有模型通常把這些目標混在一個損失函數裡，會造成「目標互相干擾」（objective entanglement），而 PrismAudio 用 分解式 Chain‑of‑Thought（CoT）推理＋多維度強化學習（RL） 來避免這個問題。

Categories: 聲效, 視覺模型, 開源

Page 4 of 71

« Previous 1 2 3 4 5 6 … 71 Next »