daVinci‑MagiHuman 單流數字人

daVinci‑MagiHuman 是一個 15B 參數、專注數字人(human‑centric)的文本到視頻生成模型,同時支援視頻與音頻 token 的聯合生成,主打「人類主體」表現力。daVinci‑MagiHuman 由 SII‑GAIR Lab(中國上海人工智慧實驗室 SII‑GAIR)與 Sand.ai 這兩方聯合開發

  • 單流 Transformer — 一個統一的 150 億參數、40 層的 Transformer,僅透過自註意力機制即可聯合處理文字、視訊和音訊。無需交叉注意力,也無需多流處理。
  • 🎭卓越的以人為本的品質— 富有表現力的面部表情、自然的語音表達協調、逼真的身體動作以及準確的音視頻同步。
  • 🌍多語言— 支援中文(國語和粵語)、英語、日語、韓語、德語和法語。
  • 超快推理-在單一 H100 GPU 上,可在2 秒內產生 5 秒 256p 視頻,在38 秒內產生5 秒 1080p 影片。
  • 🏆最先進的結果—在超過 2,000 次的成對人工評估中,與 Ovi 1.1 的勝率達到80.0% ,與 LTX 2.3 的勝率達到60.9% 。
  • 📦完全開源— 我們發布完整的模型堆疊:基礎模型、精煉模型、超解析度模型和推理程式碼。
Categories: 開源, 模型, 數字人, 視頻模型

Helios – 實時生成分鐘級長視頻

Helios 是一個 140 億參數(14B)自回歸擴散模型(autoregressive diffusion model),設計成可以在 單張 NVIDIA H100 GPU 上以約 19.5 FPS 實時生成分鐘級長視頻。它原生支援 Text‑to‑Video(T2V)、Image‑to‑Video(I2V)和 Video‑to‑Video(V2V) 三種任務,並有一個統一的輸入表示。

在維持 14B 規模的前提下,不使用 KV‑cache、稀疏/線性注意力、量化等常見加速技術,單卡就能跑到 19.5 FPS。

  • Helios‑Base(高質量)
  • Helios‑Mid(中間 checkpoint)
  • Helios‑Distilled(極端高效、對消費卡更友好),有 YouTuber 甚至在 RTX 4090 級別上跑 33 幀每段、分鐘級長視頻。
Helios - A 14B ByteDance Real-Time Long Video Generation Model Run Locally.

Categories: 開源, 字節跳動, 視頻模型

Utonia – Point Cloud 的單一編碼器

Utonia 是一個統一的自監督點雲 Transformer 編碼器,目標是「一個編碼器適用於所有點雲域」,也就是在不同感測器與場景(遙感、戶外 LiDAR、室內 RGB‑D、物件級 CAD 模型、單目視頻轉 3D 點雲等)上共享同一個 backbone,讓預訓練特徵能跨域遷移。

Utonia 在大量異構點雲資料上 jointly 預訓練一個單一的 Point Transformer V3 編碼器,不依賴 domain‑specific 的頭或模組,只用一個 shared representation space。

跨域資料混合
研究中混合了遙感(衛星/航拍)、自駕車用 LiDAR、室內 RGB‑D 掃描、CAD 物件模型、以及從 RGB 影片 lift 上來的點雲,一起放入 masked autoencoding 式的自監督訓練流程。

Categories: 開源, 香港中文大學, 影像模型, 影像處理




OpenClaw 翻車實錄 | 10 分鐘設定安全防護指南 | 防止 Indirect Prompt Injection !

OpenClaw 翻車實錄 | 10 分鐘設定安全防護指南 | 防止 Indirect Prompt Injection !

減少 Compacted History

由 4 個方向落手。根據 OpenClaw 文件,COMPACTED HISTORY 係因為 session 接近 model context window,系統就會自動將舊對話摘要化,保留最近訊息繼續跑。

  • 同一個 session 傾好耐
  • 經常 read 大檔案/貼長內容
  • 有好多工具輸出

就好容易觸發 compaction。

最有效減少出現的方法:

1. 少啲喺同一個 session 累積太多嘢

最簡單直接。

做法:

  • 一個大主題開一個新 session
  • 任務做完就 /new
  • 唔好乜都塞入同一條長命對話

適合你:

  • debug 一單野開一個 session
  • 寫文、做 config、查資料,各自分開

2. 減少大段工具輸出同長文灌入 context

文件講得好清楚,工具結果、讀檔內容、附件都會計入 context。

所以盡量:

  • 唔好一次 read 成個超大檔
  • 用較細 offset / limit 分段睇
  • command output 太長時,只攞重點
  • 唔好成段 log / transcript 原封不動貼入對話

即係:

  • 要睇 log:先 grep 關鍵字
  • 要睇 code:先讀 relevant block
  • 要分析文章:先摘要,再深挖局部

3. 用 /compact 主動壓縮,而唔係等佢爆

文件建議可以手動做 compaction,而且可以加指示。

例如:

  • /compact Focus on API design decisions
  • /compact 保留而家 debug 到嘅根因、已試過嘅方法同未解決問題

咁好處係:

  • 你控制摘要重點
  • 唔會等到 context 太滿先被動壓
  • 壓完之後 session 仲可以繼續,但重點較穩

如果你知自己開始傾長咗,主動 compact 其實幾好用。

4. 把重要規則移出對話,寫入持久檔

文件區分得好清:

  • context = 今次 run 送畀 model 睇嘅內容
  • memory / files = 可以落地保存,之後再載入

即係話,重要但長期有效嘅嘢,唔好淨係留喺聊天紀錄。

你可以放去:

  • MEMORY.md
  • 專案說明檔
  • 任務 notes
  • checklist / spec

咁之後就算 compact 咗,我都仲可以由檔案重新抓返重點,而唔使靠長對話尾巴硬撐。

5. 如你成日用好多工具輸出,可以考慮 pruning

OpenClaw 文件有提:

  • compaction = 摘要舊對話
  • pruning = 修剪舊 tool results

如果你個問題主要係工具輸出太大,pruning 會比單純 compaction 更對症。文件甚至直接講:如果 compact 得太頻密,試下開 session pruning。

6. 檢查 workspace 注入檔案有冇太大

文件講每次 run 都會注入:

  • AGENTS.md
  • SOUL.md
  • TOOLS.md
  • IDENTITY.md
  • USER.md
  • HEARTBEAT.md

如果其中某啲檔好大,會長期食 context。尤其 TOOLS.mdMEMORY.md 類型如果日積月累變肥,context 壓力會大。

你可以做:

  • 保持呢啲檔精簡
  • 長資料搬去專門 notes
  • 只保留真正會每次都用到嘅內容喺 injected files

7. 如果你想從根本改善,要改 config

文件提到 compaction 相關設定喺:
agents.defaults.compaction

而且如果 compaction 太頻繁,文件明講可能係:

  • model context window 細
  • tool output 太大
  • 應考慮 session pruning

如果你想,我可以幫你再查你本機 config,睇下有冇:

  • pruning 可開
  • compaction keepRecentTokens 可調
  • notifyUser 可開
  • 甚至有冇其他 session/context 設定可以優化

我嘅實際建議排序係:

  1. 分 session
  2. 減少長輸出進 context
  3. 主動 /compact,加明確 focus
  4. 重要資訊寫入檔案
  5. 再研究 pruning / config

Categories: Agentic, 教學

Code2World 基於動作預測的 GUI 代理

Code2World 本身不是一個「GUI 設計工具」,但它可以用在「優化 GUI 設計」的流程裡,特別是幫你 驗證設計是否好操作、是否容易出錯、是否符合使用者行為預期。Code2World 以靈活的方式顯著提升了下游導航的成功率,在 AndroidWorld 導航方面,其性能比 Gemini-2.5-Flash 提升了 9.5%。

它透過產生可渲染的程式碼來模擬下一個視覺狀態。實驗表明,Code2World-8B 在下一界面 UI 預測方面表現卓越,足以媲美 GPT-5 和 Gemini-3-Pro-Image 等競爭對手。(Huggingface 模型及數據集出現 404)(圖為預測介面的結果)

Categories: 開源, 阿里巴巴, Agentic, 模型, 編程

PaperBanana 賦每個創意工作流程

PaperBanana 是一個開源的自動化學術圖表生成框架,由 Google Research 開發。這個工具專為 AI 研究人員設計,能夠自動生成符合出版標準的方法論圖表、代理架構和統計圖 。

PaperBanana 還擁有強大的潤色功能。您可以輸入手繪草圖或示意圖,系統會將它們精修成專業的向量圖。Google 聲稱兩星期後會提供開源實作版本,亦有第三方的版本可在 GitHub 下載使用。

Categories: 開源, Google, Gemini, Agentic

InteractAvatar 互動數字人

InteractAvatar 能從一張靜態參考圖生成「人與物體互動」的視頻,同時保持音畫同步(lip‑sync + co‑speech gestures)。同時能夠執行基於場景的人機互動 (GHOI)。與以往僅限於簡單手勢的方法不同,我們的模型可以從靜態參考圖像中感知環境,並產生複雜的、文本引導的與物體的交互,同時保持高保真度的唇部同步。

雙流 Diffusion Transformer(DiT)架構:一個分支做「感知與互動規劃」(Perception and Interaction Module, PIM),負責理解圖片裡的物體位置與關係,並生成對齊文字指令的動作序列。另一個分支做「音訊‑互動感知生成」(Audio‑Interaction Aware Generation Module, AIM),把動作與語音融合成高品質視頻。

Categories: 開源, 騰訊, 影像模型, 影像處理, 數字人, 視頻模型

Page 30 of 96
1 28 29 30 31 32 96