Multi-Stream LLMs:多路思考LLM實驗評析

Repository image for seal-rg/streaming

seal-rg/streaming 是一個研究型專案,核心概念是令大型語言模型不再只按單一路徑逐步讀、想、答,而是把輸入、推理過程與輸出拆成多條「stream」並行處理。對一般讀者來說,可以理解成模型一邊讀題、一邊解題,甚至另一條路同時做檢查,減少傳統逐字等待的阻塞感。

實際使用上,這個儲存庫不是即開即用的聊天工具,而是分成三個可獨立運行的實驗資料夾,分別研究效率、安全性及可監察性。若你是研究員或工程團隊,可以按目標選擇對應部分,例如想測試「邊讀邊答」就看效率章節,想研究提示攻擊防護則集中安全章節。

它最有意思的創新,在於多串流共用權重的設計:不是為每條思路各自建一個完整模型,而是在同一模型內並行安排多個資訊通道。README 顯示它涵蓋 2、3 甚至 10 個 streams,並把思考、使用者輸入與模型輸出拆開處理;其中較大型版本還提到每個 stream 的 Gated-DeltaNet 狀態,顯示作者不只追求速度,亦想提升內部行為的可觀察程度。

  • 三個重點面向:效率、安全、可監察性
  • 相關模型包括:Qwen2.5-7B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3.5-27B
  • 已知實驗名稱包括:Stream-8B、Stream-27B
  • 評估任務涵蓋 GSM8K、MATH500、SQuAD、PubMedQA、TensorTrust、IFEval 等

最適合的應用場景,是想研究下一代 LLM 推理流程的人,而不是只想部署一般客服機械人。特別是需要同時兼顧回答速度、抗攻擊能力,以及想更清楚監察模型「正在怎樣想」的團隊,這個專案提供了相當具體的實驗框架;不過它主要仍屬研究代碼,實際產品化前應預期要自行整合與驗證。

使用方法
這個模型需要 自定義推理代碼(標準 Hugging Face Transformers 不能直接支援 Multi-Stream 格式),推薦使用官方推理代碼。

Source: https://github.com/seal-rg/streaming

Categories: 開源, 模型

POISE:語言模型用自己狀態做強化學習

Og image

POISE 是一個用於語言模型強化學習的方法,重點是讓模型在生成答案時,直接利用自己已有的隱藏狀態與熵等訊號,估計回報基線。簡單來說,它希望模型「一邊作答,一邊判斷自己表現大概應該有幾好」,從而更有效更新訓練方向。

實際使用上,這類方法特別適合有可驗證結果的任務,例如數學題最終答案是否正確。傳統做法通常要額外訓練一個 critic 模型,或者對同一提示做多次 rollout 來估基線;POISE 則改為重用 actor 本身生成時已計算出的資訊,理論上可減少訓練成本。

它的主要創新,在於把模型內部表徵重新納入 RL 更新流程,而不是依賴獨立的大型評分器。網站內容指出,這個估值器會隨政策變化持續更新,配合當前及近期 rollout,目標是令線上學習更穩定。

  • 以 actor 自身隱藏狀態做 value estimation
  • 不需要獨立 critic 模型
  • 減少同一 prompt 的額外取樣開銷
  • 適合有明確對錯驗證的任務
  • 著重更輕量與穩定的 RL 訓練流程

在初步評估方面,POISE 在 held-out 的 DAPO-Math rollouts 上,內部狀態探針的 Pearson r 為 0.870、MAE 為 0.141。對比一個由 Qwen3-4B 微調而成的 critic,其 r 為 0.676、MAE 為 0.262,顯示 actor 內部訊號至少在這項基準中具有不錯的預測能力。

受惠工作包括數學解題、可程式驗證推理,以及其他能以結果回饋作訓練的語言模型流程。不過目前頁面展示內容以方法概念與初步結果為主,較完整的泛化表現與不同任務上的最終效益,仍要留意論文後續公開分析。

實驗結果

模型方法Avg@32 (數學推理)訓練時間 (B200 GPU)
Qwen3-4BDAPO0.50849 小時
Qwen3-4BPOISE0.50036 小時 
DeepSeek-R1-Distill-Qwen-1.5BDAPO0.29624 小時
DeepSeek-R1-Distill-Qwen-1.5BPOISE0.30318 小時 

POISE 在數學推理基準 (AMC23/24, AIME24/25/26, HMMT25, BRUMO25) 上達到與 DAPO 相當的性能,但計算成本更低 。

Categories: , 模型訓練, 深度學習

PASA:AI改寫都難甩的文字水印方案

overview

PASA 是一個研究型專案,目標是替大型語言模型生成的文字加入可檢測的「水印」。它特別針對一個常見難題:即使用家把句子改寫、換同義詞,甚至做段落重述,只要意思大致不變,系統仍希望辨認到這段文字原本由 AI 產生。

和不少只看字面詞彙的做法不同,PASA 把重點放在語意層面。簡單講,它不是只標記某些字,而是利用嵌入空間中的語意群組去安排生成與檢測,因此面對 paraphrase 這類「保留意思但改寫表達」的攻擊時,理論上會更穩定。

實際使用上,這個儲存庫主要提供研究重現流程:用 generation.py 進行生成與檢測,並配合語言模型、輔助模型、本地資料集及一份 token 對應語意群組的映射檔來跑實驗。換句話說,它比較適合研究人員或進階開發者驗證效果,而不是一般用家即裝即用的成品工具。

重點可簡單整理如下:
– 針對 AI 文字加入可檢測水印,並強調抗改寫能力
– 核心創新是把水印放到語意嵌入空間,不只看表面用字
– 設計目標包括提升檢測穩定性,同時盡量維持文字品質
– 儲存庫提供官方實作,重點在實驗重現與結果驗證

如果你的場景是內容來源追蹤、平台風險管理,或學術上研究 AI 文字識別,PASA 會很值得留意。相反,若你只是想快速做網站內容偵測,這個專案目前看來仍偏研究導向,需要自行準備資料與模型環境。

從論文與專案說明來看,PASA 的價值不只在「能不能驗出」,而是在改寫攻擊下仍保持可檢測性,這點對現實應用尤其重要。不過它是否適合你的流程,仍要視乎你有沒有能力配置實驗環境,以及是否需要面對高強度的語意改寫情境。

Source: https://github.com/ai-kunkun/PASA

Categories: 開源, 香港科技大學, 框架

Agent-ValueBench:AI 代理有冇價值觀?這個基準想測清楚

Agent-ValueBench logo

Agent-ValueBench 係一個用嚟評估 AI 代理「價值取向」嘅基準工具。簡單講,佢唔只睇模型答得啱唔啱,而係觀察一個會用工具嘅語言模型代理,喺有衝突嘅情境入面,實際行動會偏向邊一種價值。

呢個專案較特別嘅地方,係將抽象嘅價值問題變成可執行任務。資料庫包含 28 套價值系統、332 個價值維度、394 個沙盒環境,同 4,335 個價值衝突任務;每個案例都會定義任務、可用工具、執行環境,同評分規則,令比較唔再停留喺主觀印象。

實際使用上,研究者可以先用現成案例同環境,令代理喺指定任務中運行,再記錄成條行為軌跡,之後用已儲存嘅 rubric 去評分,分析代理較支持邊一方價值。對一般開發團隊嚟講,佢更似係一套測試框架,用嚟檢查代理系統喺敏感決策情境下是否一致、可比較。

  • 重點唔係知識問答,而係代理喺工具使用過程中點樣作取捨
  • 有完整流程,由環境生成、案例建立、軌跡生成,到評分與整體分析
  • 可執行沙盒環境 令測試更貼近真實操作,而唔只係紙上談兵
  • 用 rubric 評分,有助將價值判斷變成較有系統嘅比較

如果你關心 AI 安全、代理治理、企業內部自動化助手,或者想比較唔同代理喺價值衝突下嘅表現,呢個專案相當適合。相反,如果你只係想快速部署聊天功能,呢個儲存庫未必直接幫到手,因為佢主要價值在於研究、測試同評估,而唔係即用型產品。

Source: https://github.com/ValueByte-AI/Agent-ValueBench

Categories: 開源, Agent, 北京大學

LoopUS點樣令語言模型更識「諗多步」

LoopUS framework

LoopUS 是一個針對大型語言模型的後訓練框架,核心想法不是叫模型輸出更長答案,而是先在內部隱藏表示上反覆「再諗一次」。簡單講,它把原本一次過運作的模型,拆成編碼、循環推理、解碼三部分,讓中間的推理區塊可以重用多次。

這種做法的實際用途,主要是令模型在回答較需要推理的問題時,可按需要投入更多計算量,而毋須由零開始訓練全新的循環式架構。對研究人員或工程團隊來說,這代表可以基於現有預訓練檢查點做改造,兼顧部署現實與訓練成本。

LoopUS 的創新之處,在於它不是盲目重覆中間層,而是先根據模型內部表示隨深度變化的特徵,決定邊部分適合拿來循環使用。同時,它加入選擇性閘門去減少反覆更新時的狀態漂移,並用較節省記憶體的監督方式訓練長迴圈,另外還有信心分數機制,推論時可提早停止,避免不必要的額外步數。

重點摘要:
– 把預訓練 LLM 重組成編碼器、循環推理區塊、解碼器
– 主要在隱藏空間做反覆精修,而非單純拉長輸出內容
– 以選擇性閘門穩定多輪迭代,減低表示崩壞風險
– 支援按輸入難度調節推論計算量,較重視效率
– 評估流程結合 lm-eval,訓練程式亦集中處理 checkpoint 與續跑

若你是做研究原型、推理能力比較,或想測試「同一模型可否用更多思考步數換取更好表現」,LoopUS 會特別值得留意。相對一般只追求生成更長文字的方法,它更像在模型腦內做多輪整理;不過實際收益仍取決於基礎模型、資料與任務設定。

Source: https://github.com/Thrillcrazyer/LoopUS

Categories: 開源, 框架

ToolCUA:電腦代理點樣揀工具先最醒?

tongyi

ToolCUA 是一個面向「電腦代勞」場景的代理系統,目標不是單純模擬人手點擊,而是同時懂得用畫面操作與系統工具完成任務。簡單講,當代理見到桌面程式時,可以選擇按掣、輸入文字、捲動畫面,亦可以在合適時直接呼叫工具處理檔案或應用程式動作。

這個專案最值得留意的地方,是它聚焦在「路徑選擇」而不只是「動作能力」。README 提到,不少模型即使同時擁有 GUI 動作與工具調用能力,仍然會出現判斷混亂:有些幾乎唔用工具,有些又過度依賴工具,結果步驟雖然變少,但任務成功率未必更高。

實際使用上,這個儲存庫較像研究與評估框架,適合想測試混合式電腦代理的人。庫內提供評估資料、代理實作,以及多環境評測程式;如要使用其公開模型,README 有提到 ToolCUA-8B,但整體更偏向研究實驗,而非即裝即用的消費級產品。

重點可概括為:
– 同時處理 GUI 操作與高層工具調用
– 核心問題是判斷何時切換操作路徑
– 以分階段訓練提升工具使用與切換決策
– 提供評估程式與案例,方便研究比較

從公開資料看,ToolCUA 的主要創新在於把 GUI-only 軌跡擴展成 GUI 與工具交錯的訓練資料,再配合強化學習優化整體路徑效率。對企業自動化、桌面任務代理、需要跨應用操作的研究場景尤其有參考價值;如果你想找的是成熟日常助手,現階段可能仍要視乎後續工具鏈與部署支援。

Source: https://github.com/X-PLUG/ToolCUA

Categories: Agent, 模型, 視頻模型

CausalCine 多鏡頭影片生成

Repository image for yihao-meng/CausalCine

CausalCine 是一個圍繞多鏡頭敘事影片生成的研究型專案,重點不只是生成單一短片,而是讓多個鏡頭能按故事次序逐步產生。從儲存庫描述來看,它主打即時的自回歸生成方式,目標是令影片在切換場景時仍保留敘事連續性。

對一般使用者來說,可以把它理解為一種「先生成前面內容,再根據已生成結果決定下一鏡」的影片製作方法。這種做法特別適合有劇情推進、場景轉換和角色延續的短片構思,而不只是單次輸出一段互不相關的影片畫面。

它較值得留意的創新,在於把多鏡頭影片當成有因果關係的序列來處理,而不是將每個鏡頭完全分開生成。這意味著角色、氣氛或事件發展,理論上更有機會在前後鏡頭之間保持一致;不過實際效果仍應以專案頁面展示和後續公開內容為準。

  • 核心方向:針對多鏡頭、帶故事性的影片生成
  • 主要特色:採用即時自回歸方式,逐步生成後續鏡頭
  • 實際價值:有助提升鏡頭之間的敘事銜接與連貫感
  • 適合對象:研究者、生成式影片創作者、敘事短片原型開發者

如果你關心的是 AI 如何由「會生成片段」走向「會講故事」,這個專案相當值得留意。它最適合用於概念驗證、研究展示,以及需要快速測試多場景腳本的工作流程;若要投入正式商業製作,仍建議先觀察其公開成果、穩定性和可控程度。

Source: https://yihao-meng.github.io/CausalCine/

Categories: 香港科技大學, 視頻模型

WorldReasonBench:AI 識唔識用影片推演真實世界?

WorldReasonBench overview

WorldReasonBench 係一個用嚟評估影片生成模型嘅基準,重點唔係畫面是否逼真,而係模型能否根據起始狀態同事件,合理推演之後個世界會點變。簡單講,即係測試 AI 係「識畫面」定真係「識道理」。

呢個專案收錄 436 個測試案例,覆蓋 4 個推理面向同 22 個細分類,並比較多個影片生成器嘅表現。它亦加入約 6,000 組專家偏好配對,令評分唔只靠單一數字,而係更貼近人點樣判斷一段影片合唔合理。

實際使用上,研究團隊或開發者可以用佢去壓力測試自家模型:先生成影片,再由視覺語言模型回答片中問題,之後交由大型語言模型判斷答案是否正確。專案亦提出 Score PR,同時考慮答對程度同動態推理質素,另外用 Δ RG 觀察模型喺有提示同冇提示下嘅能力落差。

相比一般只看畫質、流暢度或人類偏好嘅評測,呢個專案較有新意嘅地方係將影片生成重新理解為「未來世界狀態預測」。換句話說,它關心物理、社會、邏輯同資訊層面有冇前後一致,呢點對真正需要可靠推演嘅應用特別重要。

  • 不只評畫面:核心係測試世界演化是否合理
  • 評估方法較完整:結合問答、判分同偏好配對
  • 指標較實用:可同時睇準確度與推理穩定性
  • 適合比較模型:方便橫向檢視不同生成器表現

如果你係做 AI 影片研究、模型選型,或者想知道一個生成器係咪只會「整靚片」,呢個基準幾值得留意。對一般用家嚟講,它亦提供一個更貼地嘅角度:一段 AI 影片可信唔可信,未必只靠觀感,而係要睇內容有冇按常理發展。

Source: https://github.com/UniX-AI-Lab/WorldReasonBench

Categories: 開源, 香港科技大學, Agent, 影像處理, 框架

AutoRubric-as-Reward:用明文評分準則教 AI 揀靚圖

Repository image for OpenEnvision/AutoRubric-as-Reward

這個專案的核心,不是再訓練一個「黑盒」分數模型,而是先把人對圖片好壞的偏好,整理成可讀的文字評分準則。簡單講,系統會看一小批已標示「邊張較好」的圖片對,抽出判斷依據,再交給視覺語言模型作裁判,輸出成對訓練有用的獎勵訊號。

實際使用上,它較適合已有偏好資料的人員:例如你手上有兩張生成圖,並知道哪張較符合要求,系統就可根據這些例子自動產生 rubric。之後你可以檢查、保存和重用同一份準則文件,令後續訓練或比較更一致,而不是每次靠隱藏分數重新估計。

我認為這個專案最有意思的地方,是它把「評分理由」由隱性變成顯性。它不只會生成準則,還會用已標記例子反覆驗證與修訂;若準則判錯,就再調整,這比單純叫模型直接揀贏家更容易追查問題。論文亦指出,這類做法有助減少位置偏差,並提升少量標註下的效率。

  • 最大特色:獎勵不再是看不到的分數,而是可閱讀的文字準則
  • 流程較可驗證:生成後會對照標註樣本檢查,失敗就修訂
  • 支援範圍實用:可用於文字生圖,也可處理帶來源圖的編輯任務
  • 重用性高:準則可存成檔案,之後重複用於較穩定的訓練流程

最適合的場景,是你想微調圖片生成或圖片編輯模型,但又希望知道模型究竟憑甚麼作出偏好判斷。此專案已接好文字生圖的 FLUX.1-dev LoRA RPO,以及圖片編輯的 Qwen-Image-Edit LoRA RPO;作裁判的視覺語言模型則可用本地 Qwen3-VL(經 vLLM)或 OpenAI 相容端點。

整體來看,AutoRubric-as-Reward較像一套「把審美與要求寫清楚」的工具鏈,而不只是另一個評分器。對研究或進階開發者而言,它的價值在於透明、可檢查、可重現;但對一般用家來說,前提仍是你需要有成對偏好資料,以及願意花時間檢視準則是否真的反映你的標準。

以下係條式嘅詳細拆解:

1. 左手邊:$P^*(y^+ \succ y^- | x)$

  • $x$:係指輸入嘅內容(Input/Prompt)。
  • $y^+$ 同 $y^-$:係一對輸出。通常 $y^+$ 代表人類偏好嗰個(好嘅),$y^-$ 代表被捨棄嗰個(差嘅)。
  • $\succ$:呢個符號代表「優於」或者「偏好」。
  • 意思係「喺已知 $input$ 嘅情況下,人類偏好 $y^+$ 多過 $y^-$ 嘅機率」。

2. 右手邊:分數分配

呢個部分係用嚟將「好感度」量化:

  • $r^*(x, y)$:呢個係獎勵函數 (Reward Function)。你可以想像成模型幫每一個輸出打嘅「分」。分數越高,代表嗰個輸出越符合人類偏好。
  • $\exp(\dots)$:即係指數函數 $e^x$。用指數係為咗確保計出嚟嘅數值係正數,而且可以放大分數之間嘅差距。

3. 成條式嘅邏輯

$$P^*(y^+ \succ y^- | x) = \frac{\exp(r^*(x, y^+))}{\exp(r^*(x, y^+)) + \exp(r^*(x, y^-))}$$

呢個結構其實同我哋平時見嘅 Softmax 或者 Sigmoid 函數好似:

  • 分子:係偏好輸出 ($y^+$) 嘅得分。
  • 分母:係兩個輸出($y^+$ 同 $y^-$)得分嘅總和。
  • 結論:如果 $y^+$ 嘅得分比 $y^-$ 高好多,分子就會佔分母好大比例,機率就會接近 1(代表好肯定人類會揀 $y^+$)。如果兩者得分差唔多,機率就會接近 0.5(代表人類覺得兩個都差唔多)。

總結

呢條式喺訓練 AI(例如 RLHF 或者 DPO)嗰陣好重要,佢幫模型學識點樣根據人類嘅選擇,去調整背後嗰個 $r^*$ 獎勵分數,令模型之後生成嘅嘢越來越接近人類鍾意嘅答案。

Source: https://github.com/OpenEnvision/AutoRubric-as-Reward

Categories: 開源, 香港中文大學, 影像處理, 框架

X-OmniClaw:讓手機自己跨App辦事的AI代理

X-OmniClaw

X-OmniClaw是一個運行在Android裝置上的多模態代理系統,重點不是停留在模擬器或虛擬環境,而是直接對真實手機畫面作判斷,再執行點擊、輸入、開啟App等操作。對一般用家來說,可以把它理解為一個會「睇畫面、記住進度、自己禁掣」的手機助手。

實際使用上,它適合處理需要跨App完成的多步驟任務,例如根據畫面內容作搜尋、在不同應用之間切換,或跟隨語音與視覺資訊持續執行工作。專案資料顯示,它能串流顯示每一步動作、工具呼叫與結果,亦會累積模型使用成本,方便觀察整個流程是否合理。

這個專案較有新意的地方,在於把感知、記憶、行動放在同一套手機原生流程內。它不只讀取UI狀態,亦可結合真實世界影像與音訊;再配合工作記憶與較長期的個人化記憶,令任務可以延續,不需要每一步都由頭理解。

另外,X-OmniClaw似乎特別重視穩定性,而不只是「做到一次」。例如多輪任務有預算控制與迴圈偵測,失敗後會嘗試收斂並繼續執行;裝置工具亦加入防誤觸與穩定性保護,這些設計對真機操作尤其重要。

  • 直接在實體Android手機上運作,不依賴虛擬環境
  • 可整合畫面、鏡頭、語音作任務理解
  • 內建統一裝置工具,支援點擊、輸入、截圖、啟動App等操作
  • 有多步驟任務控制、可觀察執行過程與成本統計

如果你的場景是手機自動化、智能助理、跨App工作流,甚至需要結合現場鏡頭資訊去決策,X-OmniClaw會比一般只看文字指令的方案更有參考價值。不過從公開資料看,它較偏研究與系統架構展示,真正落地時仍要留意裝置相容性、任務複雜度,以及背後雲端推理的依賴。

Source: https://github.com/OPPO-Mente-Lab/X-OmniClaw

Categories: 開源, Agent, 框架

Page 1 of 75
1 2 3 75