openclaw 最新版本重點速覽

Og image

今次 openclaw 2026.5.12 發佈內容,重點放在模組拆分同安裝體驗優化。根據版本說明,Amazon Bedrock 以及 Bedrock Mantle 相關 provider 套件已由核心程式分離,代表一般核心安裝唔再自動拉入 AWS SDK 依賴,只有真正需要這些 provider 時先另外安裝。

實際使用上,呢個改動對開發者同部署人員最直接。若你只用核心功能,可以保留較精簡環境;如果要接入 Amazon Bedrock,先再安裝對應 provider 套件,令依賴管理更清楚,亦較容易控制映像大小、安裝時間同維護成本。

呢個專案今次最明顯的創新,不是新增大量表面功能,而是把供應商整合能力改成按需載入思路。對插件系統來說,這類 externalize 做法通常有助減少不必要耦合,讓核心與外掛邊界更清晰,對長遠擴充同版本管理較有利。

受惠工作主要包括雲端整合、平台維運、DevOps、企業內部工具開發,以及需要多環境部署的團隊。尤其當不同專案未必都用 AWS 服務時,拆分 provider 可避免每個安裝都承受相同依賴負擔。

  • 核心安裝不再預設包含 AWS SDK 依賴
  • Amazon Bedrock 與相關 provider 改為獨立安裝
  • 更適合按需要啟用外掛與雲端整合
  • 有助簡化部署、維護與套件管理

性能與評估方面,頁面可見資訊未提供具體跑分、延遲或資源使用數據,因此較穩妥的結論是:這次更新較偏向架構與依賴優化,預期可改善安裝體積與管理效率,但實際效能提升幅度仍要視部署方式同使用的 provider 組合而定。

網址: https://github.com/openclaw/openclaw/releases/tag/v2026.5.12

Categories: 開源, Agent, OpenClaw

HiDream-O1-Image:一個模型包辦生圖與改圖

Artificial Analysis Text to Image Arena

HiDream-O1-Image 是一個開源影像生成模型,主打把文字、圖片像素和不同任務條件放進同一個系統處理。對一般用家來說,可以將它理解為一個不只會「生圖」,亦能處理改圖、角色一致化,甚至長文字排版的多功能工具。

實際使用上,它較適合拿來做文字生成圖片、按指令修改現有圖片,或者用同一角色、產品去延伸出不同場景。官方亦提供 Hugging Face 上的模型與線上體驗,因此未必一定要自行搭建環境先感受到效果。

這個專案最值得留意的創新,是它採用所謂 Pixel-Level Unified Transformer,聲稱不依賴外部 VAE 或分開的文字編碼器。簡單講,即是想用更統一的方法直接理解像素與文字,理論上有助減少不同模組之間的割裂,對複雜提示、版面安排和文字渲染會更有幫助。

  • 支援text-to-image、圖片編輯、主體個人化等多種任務
  • 可原生輸出最高 2048×2048,較適合需要細節的畫面
  • 內建 reasoning-driven prompt agent,強調先處理布局與隱含需求
  • 提供 8B 規模版本,並有 distilled 與 undistilled 變體

若你常做海報草圖、分鏡、品牌角色延伸,這類模型會特別實用;如果重視圖片內長文字、指定區域排版,HiDream-O1-Image 亦屬值得關注的一類。不過實際效果仍會受提示寫法、任務類型和版本選擇影響,尤其編輯任務方面,官方就建議優先考慮完整模型。

硬體需求

GPU:需要 CUDA 支援的 NVIDIA GPU 。模型本身有兩個版本 — 標準版(Full)和蒸餾版(Dev)。標準版需要 50 個推理步驟,蒸餾版則需要 28 個步驟,因此蒸餾版對硬體的需求更低。

根據社群資訊,使用 FP8 量化的蒸餾版本可以用約 10GB VRAM 的 GPU 運行 。如果使用全精度模型(Full),VRAM 需求會更高,具體取決於生成的影像解析度(最高支持 2048×2048)。

軟體依賴

安裝後需要執行 pip install -r requirements.txt 。官方強烈建議安裝 flash-attn 以優化注意力運算,如果無法安裝,則需要手動編輯 models/pipeline.py 第 291 行,將 "use_flash_attn": True 改為 "use_flash_attn": False,否則推理會失敗 。

推理模式選擇

  • Dev 模式(蒸餾版):28 步,guidance scale 為 0.0,適合資源受限的環境
  • Full 模式(標準版):50 步,guidance scale 為 5.0,品質更高但運算成本更大

網址 https://github.com/HiDream-ai/HiDream-O1-Image

網址 https://huggingface.co/HiDream-ai/HiDream-O1-Image

Categories: 開源, 影像模型, 模型, 視覺模型

MiniCPM-V-4.6:手機都跑到的多模態模型

Og image

如果你想要一個不一定依賴雲端、又能理解圖片同影片內容的 AI,MiniCPM-V 系列會幾值得留意。它屬於多模態模型,即是可以同時處理文字、影像,部分版本更進一步支援語音同即時串流互動。

實際使用上,它比較適合做圖片問答、文件與畫面內容理解、影片片段分析,甚至可延伸到手機上的 AI 助手。根據專案資料,MiniCPM-V 4.6 可部署到 iOS、Android 同 HarmonyOS,對想做裝置端應用的團隊尤其實際。

這個專案最值得講的,是它不只追求效果,亦非常重視效率。MiniCPM-V 4.6 只有 1.3B 參數,但官方表示表現可超越部分更大的模型,並透過 intra-ViT early compression 把視覺編碼計算成本降低五成以上,對手機或邊緣裝置來說相當關鍵。

另一條支線 MiniCPM-o 4.5 則更著重即時互動,支援視覺、語音、文字一齊運作,並有全雙工串流能力,即是「睇、聽、講」可以同步進行,不用等其中一項完成先再回應。這類設計特別適合即時助理、陪伴互動或主動提醒場景。

重點摘要:
– MiniCPM-V 4.6:主打高效率影像與影片理解,偏向手機端部署
– MiniCPM-o 4.5:加入語音與即時多模態互動,功能更全面
– 視覺壓縮技術有助減少運算成本,對流暢度與耗電更有幫助
– 適合 OCR、畫面理解、行動助理、即時視聽互動等場景
– 相關模型可留意 Gemma4-E2B-it、Qwen3.5-0.8B、Gemini 2.5 Flash、LLaVA-UHD v4

整體來看,MiniCPM-V 系列的吸引力不只是「開源」,而是它把多模態 AI 拉近到真正可落地的裝置使用。若你重視本地運行、回應速度同跨平台部署,這個專案比起單純追求大型模型規模,方向更加清晰。

Source: https://github.com/OpenBMB/MiniCPM-V

Categories: 開源, 模型, 視覺模型

AnyFlow:影片生成更靈活的一步

Repository image for nvlabs/AnyFlow

AnyFlow 是 NVIDIA Labs 推出的影片擴散框架,重點不是單純把片生出來,而是讓同一個模型可按你手上的運算時間,自由調整推理步數。簡單講,趕時間時可以用較少步數先出結果;有更多資源時,再加步數換取更穩定的細節表現。

實際使用上,它較適合研究員、開發者或內容生成團隊,用來測試文字轉影片、圖片轉影片,以及影片轉影片。README 顯示它已有示範程式和預訓練模型,代表使用者可直接下載模型試效果,而不一定要由零開始訓練。

這個專案較有新意的地方,是把傳統常見「固定步數」的限制放寬,做成 any-step 生成。對非專業人士來說,可理解為同一套引擎在快出片與慢慢精修之間更有彈性,而不是每種速度都要換另一個模型。

  • 支援 Text-to-Video、Image-to-Video、Video-to-Video
  • 可配合不同推理步數,平衡速度與質素
  • 涵蓋 causalbidirectional 影片擴散架構
  • 已驗證可擴展到 1.3B 至 14B 參數級別

若你要做社交媒體短片原型、廣告分鏡視覺化,或研究影片生成流程,AnyFlow 的定位相當清晰。相關模型方面,README 提到可找到 AnyFlow-FAR-Wan2.1-1.3B-Diffusers、AnyFlow-FAR-Wan2.1-14B-Diffusers、AnyFlow-Wan2.1-T2V-1.3B-Diffusers、AnyFlow-Wan2.1-T2V-14B-Diffusers;名稱反映它既有偏研究框架,也有文字轉影片版本。整體來看,這不是一般即開即用的消費級工具,但對需要靈活控制生成成本與效果的人,確有參考價值。

Source: https://github.com/nvlabs/AnyFlow

Categories: 開源, NVIDIA, 影像模型, 模型, 視頻模型

Relit-LiVE:令影片重新打燈更自然

Nanjing University

Relit-LiVE 是一個用來幫影片「重新打燈」的研究型專案。簡單講,就是把原本影片中的人物或場景,在不改動內容主體下,換成另一種光線效果,並盡量保持整段影片前後一致,不會一時光、一時暗。

這個專案較特別的地方,是它不依賴預先知道鏡頭姿態,並且會一同生成重打燈影片與環境光影片。這種做法有助提升物理一致性,令反光、陰影等細節看起來更合理,對比只逐格處理的方式,更重視時間上的穩定。

實際使用上,它目前較適合有 NVIDIA GPU 的使用者,官方亦建議至少 24GB VRAM,代表一般人未必適合在普通手提電腦直接試。現階段已提供推論程式與模型權重,但訓練流程、完整 inverse-forward pipeline,以及 Gradio 介面似乎仍未完全公開。

如果你是做影像研究、生成式影片實驗,或者想測試影片後期中的光照控制,這類工具會幾有參考價值。它未必是即開即用的消費級產品,但對需要高質感光影變化、又想減少畫面閃爍的人來說,方向相當清晰。

  • 主要用途是把現有影片重新套用新的光照效果
  • 重點創新是聯合生成環境光影片,提升連貫性與真實感
  • 已公開推論代碼與 checkpoints,適合先做效果驗證
  • 硬件要求偏高,較適合研究者或進階創作者
  • 相關模型資訊可見權重路徑提到的 Wan2.1-T2V-1.3B,亦有 Hugging Face 模型發佈頁可供參考

整體來看,Relit-LiVE 最吸引之處不只是「換光」,而是嘗試令影片中的光影變化更像真實世界。若你關心影片生成中的物理合理性、時間穩定性,以及反射和陰影表現,這個專案值得加入觀察名單。

Source: https://github.com/zhuxing0/Relit-LiVE

Categories: 開源, 影像處理, 模型, 視覺模型, 視頻模型, 中國, 南京大學, 清華大學

Multi-Stream LLMs:多路思考LLM實驗評析

Repository image for seal-rg/streaming

seal-rg/streaming 是一個研究型專案,核心概念是令大型語言模型不再只按單一路徑逐步讀、想、答,而是把輸入、推理過程與輸出拆成多條「stream」並行處理。對一般讀者來說,可以理解成模型一邊讀題、一邊解題,甚至另一條路同時做檢查,減少傳統逐字等待的阻塞感。

實際使用上,這個儲存庫不是即開即用的聊天工具,而是分成三個可獨立運行的實驗資料夾,分別研究效率、安全性及可監察性。若你是研究員或工程團隊,可以按目標選擇對應部分,例如想測試「邊讀邊答」就看效率章節,想研究提示攻擊防護則集中安全章節。

它最有意思的創新,在於多串流共用權重的設計:不是為每條思路各自建一個完整模型,而是在同一模型內並行安排多個資訊通道。README 顯示它涵蓋 2、3 甚至 10 個 streams,並把思考、使用者輸入與模型輸出拆開處理;其中較大型版本還提到每個 stream 的 Gated-DeltaNet 狀態,顯示作者不只追求速度,亦想提升內部行為的可觀察程度。

  • 三個重點面向:效率、安全、可監察性
  • 相關模型包括:Qwen2.5-7B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3.5-27B
  • 已知實驗名稱包括:Stream-8B、Stream-27B
  • 評估任務涵蓋 GSM8K、MATH500、SQuAD、PubMedQA、TensorTrust、IFEval 等

最適合的應用場景,是想研究下一代 LLM 推理流程的人,而不是只想部署一般客服機械人。特別是需要同時兼顧回答速度、抗攻擊能力,以及想更清楚監察模型「正在怎樣想」的團隊,這個專案提供了相當具體的實驗框架;不過它主要仍屬研究代碼,實際產品化前應預期要自行整合與驗證。

使用方法
這個模型需要 自定義推理代碼(標準 Hugging Face Transformers 不能直接支援 Multi-Stream 格式),推薦使用官方推理代碼。

Source: https://github.com/seal-rg/streaming

Categories: 開源, 模型

POISE:語言模型用自己狀態做強化學習

Og image

POISE 是一個用於語言模型強化學習的方法,重點是讓模型在生成答案時,直接利用自己已有的隱藏狀態與熵等訊號,估計回報基線。簡單來說,它希望模型「一邊作答,一邊判斷自己表現大概應該有幾好」,從而更有效更新訓練方向。

實際使用上,這類方法特別適合有可驗證結果的任務,例如數學題最終答案是否正確。傳統做法通常要額外訓練一個 critic 模型,或者對同一提示做多次 rollout 來估基線;POISE 則改為重用 actor 本身生成時已計算出的資訊,理論上可減少訓練成本。

它的主要創新,在於把模型內部表徵重新納入 RL 更新流程,而不是依賴獨立的大型評分器。網站內容指出,這個估值器會隨政策變化持續更新,配合當前及近期 rollout,目標是令線上學習更穩定。

  • 以 actor 自身隱藏狀態做 value estimation
  • 不需要獨立 critic 模型
  • 減少同一 prompt 的額外取樣開銷
  • 適合有明確對錯驗證的任務
  • 著重更輕量與穩定的 RL 訓練流程

在初步評估方面,POISE 在 held-out 的 DAPO-Math rollouts 上,內部狀態探針的 Pearson r 為 0.870、MAE 為 0.141。對比一個由 Qwen3-4B 微調而成的 critic,其 r 為 0.676、MAE 為 0.262,顯示 actor 內部訊號至少在這項基準中具有不錯的預測能力。

受惠工作包括數學解題、可程式驗證推理,以及其他能以結果回饋作訓練的語言模型流程。不過目前頁面展示內容以方法概念與初步結果為主,較完整的泛化表現與不同任務上的最終效益,仍要留意論文後續公開分析。

實驗結果

模型方法Avg@32 (數學推理)訓練時間 (B200 GPU)
Qwen3-4BDAPO0.50849 小時
Qwen3-4BPOISE0.50036 小時 
DeepSeek-R1-Distill-Qwen-1.5BDAPO0.29624 小時
DeepSeek-R1-Distill-Qwen-1.5BPOISE0.30318 小時 

POISE 在數學推理基準 (AMC23/24, AIME24/25/26, HMMT25, BRUMO25) 上達到與 DAPO 相當的性能,但計算成本更低 。

Categories: , 模型訓練, 深度學習

PASA:AI改寫都難甩的文字水印方案

overview

PASA 是一個研究型專案,目標是替大型語言模型生成的文字加入可檢測的「水印」。它特別針對一個常見難題:即使用家把句子改寫、換同義詞,甚至做段落重述,只要意思大致不變,系統仍希望辨認到這段文字原本由 AI 產生。

和不少只看字面詞彙的做法不同,PASA 把重點放在語意層面。簡單講,它不是只標記某些字,而是利用嵌入空間中的語意群組去安排生成與檢測,因此面對 paraphrase 這類「保留意思但改寫表達」的攻擊時,理論上會更穩定。

實際使用上,這個儲存庫主要提供研究重現流程:用 generation.py 進行生成與檢測,並配合語言模型、輔助模型、本地資料集及一份 token 對應語意群組的映射檔來跑實驗。換句話說,它比較適合研究人員或進階開發者驗證效果,而不是一般用家即裝即用的成品工具。

重點可簡單整理如下:
– 針對 AI 文字加入可檢測水印,並強調抗改寫能力
– 核心創新是把水印放到語意嵌入空間,不只看表面用字
– 設計目標包括提升檢測穩定性,同時盡量維持文字品質
– 儲存庫提供官方實作,重點在實驗重現與結果驗證

如果你的場景是內容來源追蹤、平台風險管理,或學術上研究 AI 文字識別,PASA 會很值得留意。相反,若你只是想快速做網站內容偵測,這個專案目前看來仍偏研究導向,需要自行準備資料與模型環境。

從論文與專案說明來看,PASA 的價值不只在「能不能驗出」,而是在改寫攻擊下仍保持可檢測性,這點對現實應用尤其重要。不過它是否適合你的流程,仍要視乎你有沒有能力配置實驗環境,以及是否需要面對高強度的語意改寫情境。

Source: https://github.com/ai-kunkun/PASA

Categories: 開源, 香港科技大學, 框架

Agent-ValueBench:AI 代理有冇價值觀?這個基準想測清楚

Agent-ValueBench logo

Agent-ValueBench 係一個用嚟評估 AI 代理「價值取向」嘅基準工具。簡單講,佢唔只睇模型答得啱唔啱,而係觀察一個會用工具嘅語言模型代理,喺有衝突嘅情境入面,實際行動會偏向邊一種價值。

呢個專案較特別嘅地方,係將抽象嘅價值問題變成可執行任務。資料庫包含 28 套價值系統、332 個價值維度、394 個沙盒環境,同 4,335 個價值衝突任務;每個案例都會定義任務、可用工具、執行環境,同評分規則,令比較唔再停留喺主觀印象。

實際使用上,研究者可以先用現成案例同環境,令代理喺指定任務中運行,再記錄成條行為軌跡,之後用已儲存嘅 rubric 去評分,分析代理較支持邊一方價值。對一般開發團隊嚟講,佢更似係一套測試框架,用嚟檢查代理系統喺敏感決策情境下是否一致、可比較。

  • 重點唔係知識問答,而係代理喺工具使用過程中點樣作取捨
  • 有完整流程,由環境生成、案例建立、軌跡生成,到評分與整體分析
  • 可執行沙盒環境 令測試更貼近真實操作,而唔只係紙上談兵
  • 用 rubric 評分,有助將價值判斷變成較有系統嘅比較

如果你關心 AI 安全、代理治理、企業內部自動化助手,或者想比較唔同代理喺價值衝突下嘅表現,呢個專案相當適合。相反,如果你只係想快速部署聊天功能,呢個儲存庫未必直接幫到手,因為佢主要價值在於研究、測試同評估,而唔係即用型產品。

Source: https://github.com/ValueByte-AI/Agent-ValueBench

Categories: 開源, Agent, 北京大學

LoopUS點樣令語言模型更識「諗多步」

LoopUS framework

LoopUS 是一個針對大型語言模型的後訓練框架,核心想法不是叫模型輸出更長答案,而是先在內部隱藏表示上反覆「再諗一次」。簡單講,它把原本一次過運作的模型,拆成編碼、循環推理、解碼三部分,讓中間的推理區塊可以重用多次。

這種做法的實際用途,主要是令模型在回答較需要推理的問題時,可按需要投入更多計算量,而毋須由零開始訓練全新的循環式架構。對研究人員或工程團隊來說,這代表可以基於現有預訓練檢查點做改造,兼顧部署現實與訓練成本。

LoopUS 的創新之處,在於它不是盲目重覆中間層,而是先根據模型內部表示隨深度變化的特徵,決定邊部分適合拿來循環使用。同時,它加入選擇性閘門去減少反覆更新時的狀態漂移,並用較節省記憶體的監督方式訓練長迴圈,另外還有信心分數機制,推論時可提早停止,避免不必要的額外步數。

重點摘要:
– 把預訓練 LLM 重組成編碼器、循環推理區塊、解碼器
– 主要在隱藏空間做反覆精修,而非單純拉長輸出內容
– 以選擇性閘門穩定多輪迭代,減低表示崩壞風險
– 支援按輸入難度調節推論計算量,較重視效率
– 評估流程結合 lm-eval,訓練程式亦集中處理 checkpoint 與續跑

若你是做研究原型、推理能力比較,或想測試「同一模型可否用更多思考步數換取更好表現」,LoopUS 會特別值得留意。相對一般只追求生成更長文字的方法,它更像在模型腦內做多輪整理;不過實際收益仍取決於基礎模型、資料與任務設定。

Source: https://github.com/Thrillcrazyer/LoopUS

Categories: 開源, 框架

Page 1 of 76
1 2 3 76