開源 Archives - Page 18 of 43

AnyFlow：影片生成更靈活的一步

2026 年 5 月 15 日

AnyFlow 是 NVIDIA Labs 推出的影片擴散框架，重點不是單純把片生出來，而是讓同一個模型可按你手上的運算時間，自由調整推理步數。簡單講，趕時間時可以用較少步數先出結果；有更多資源時，再加步數換取更穩定的細節表現。

實際使用上，它較適合研究員、開發者或內容生成團隊，用來測試文字轉影片、圖片轉影片，以及影片轉影片。README 顯示它已有示範程式和預訓練模型，代表使用者可直接下載模型試效果，而不一定要由零開始訓練。

這個專案較有新意的地方，是把傳統常見「固定步數」的限制放寬，做成 any-step 生成。對非專業人士來說，可理解為同一套引擎在快出片與慢慢精修之間更有彈性，而不是每種速度都要換另一個模型。

支援 Text-to-Video、Image-to-Video、Video-to-Video
可配合不同推理步數，平衡速度與質素
涵蓋 causal 與 bidirectional 影片擴散架構
已驗證可擴展到 1.3B 至 14B 參數級別

若你要做社交媒體短片原型、廣告分鏡視覺化，或研究影片生成流程，AnyFlow 的定位相當清晰。相關模型方面，README 提到可找到 AnyFlow-FAR-Wan2.1-1.3B-Diffusers、AnyFlow-FAR-Wan2.1-14B-Diffusers、AnyFlow-Wan2.1-T2V-1.3B-Diffusers、AnyFlow-Wan2.1-T2V-14B-Diffusers；名稱反映它既有偏研究框架，也有文字轉影片版本。整體來看，這不是一般即開即用的消費級工具，但對需要靈活控制生成成本與效果的人，確有參考價值。

Source: https://github.com/nvlabs/AnyFlow

Categories: 開源, NVIDIA, 影像模型, 模型, 視頻模型

Relit-LiVE：令影片重新打燈更自然

2026 年 5 月 14 日

Relit-LiVE 是一個用來幫影片「重新打燈」的研究型專案。簡單講，就是把原本影片中的人物或場景，在不改動內容主體下，換成另一種光線效果，並盡量保持整段影片前後一致，不會一時光、一時暗。

這個專案較特別的地方，是它不依賴預先知道鏡頭姿態，並且會一同生成重打燈影片與環境光影片。這種做法有助提升物理一致性，令反光、陰影等細節看起來更合理，對比只逐格處理的方式，更重視時間上的穩定。

實際使用上，它目前較適合有 NVIDIA GPU 的使用者，官方亦建議至少 24GB VRAM，代表一般人未必適合在普通手提電腦直接試。現階段已提供推論程式與模型權重，但訓練流程、完整 inverse-forward pipeline，以及 Gradio 介面似乎仍未完全公開。

如果你是做影像研究、生成式影片實驗，或者想測試影片後期中的光照控制，這類工具會幾有參考價值。它未必是即開即用的消費級產品，但對需要高質感光影變化、又想減少畫面閃爍的人來說，方向相當清晰。

主要用途是把現有影片重新套用新的光照效果
重點創新是聯合生成環境光影片，提升連貫性與真實感
已公開推論代碼與 checkpoints，適合先做效果驗證
硬件要求偏高，較適合研究者或進階創作者
相關模型資訊可見權重路徑提到的 Wan2.1-T2V-1.3B，亦有 Hugging Face 模型發佈頁可供參考

整體來看，Relit-LiVE 最吸引之處不只是「換光」，而是嘗試令影片中的光影變化更像真實世界。若你關心影片生成中的物理合理性、時間穩定性，以及反射和陰影表現，這個專案值得加入觀察名單。

Source: https://github.com/zhuxing0/Relit-LiVE

Categories: 開源, 影像處理, 模型, 視覺模型, 視頻模型, 中國, 南京大學, 清華大學

Multi-Stream LLMs：多路思考LLM實驗評析

2026 年 5 月 14 日

seal-rg/streaming 是一個研究型專案，核心概念是令大型語言模型不再只按單一路徑逐步讀、想、答，而是把輸入、推理過程與輸出拆成多條「stream」並行處理。對一般讀者來說，可以理解成模型一邊讀題、一邊解題，甚至另一條路同時做檢查，減少傳統逐字等待的阻塞感。

實際使用上，這個儲存庫不是即開即用的聊天工具，而是分成三個可獨立運行的實驗資料夾，分別研究效率、安全性及可監察性。若你是研究員或工程團隊，可以按目標選擇對應部分，例如想測試「邊讀邊答」就看效率章節，想研究提示攻擊防護則集中安全章節。

它最有意思的創新，在於多串流共用權重的設計：不是為每條思路各自建一個完整模型，而是在同一模型內並行安排多個資訊通道。README 顯示它涵蓋 2、3 甚至 10 個 streams，並把思考、使用者輸入與模型輸出拆開處理；其中較大型版本還提到每個 stream 的 Gated-DeltaNet 狀態，顯示作者不只追求速度，亦想提升內部行為的可觀察程度。

三個重點面向：效率、安全、可監察性
相關模型包括：Qwen2.5-7B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3.5-27B
已知實驗名稱包括：Stream-8B、Stream-27B
評估任務涵蓋 GSM8K、MATH500、SQuAD、PubMedQA、TensorTrust、IFEval 等

最適合的應用場景，是想研究下一代 LLM 推理流程的人，而不是只想部署一般客服機械人。特別是需要同時兼顧回答速度、抗攻擊能力，以及想更清楚監察模型「正在怎樣想」的團隊，這個專案提供了相當具體的實驗框架；不過它主要仍屬研究代碼，實際產品化前應預期要自行整合與驗證。

使用方法
這個模型需要自定義推理代碼（標準 Hugging Face Transformers 不能直接支援 Multi-Stream 格式），推薦使用官方推理代碼。

Source: https://github.com/seal-rg/streaming

Categories: 開源, 模型

PASA：AI改寫都難甩的文字水印方案

2026 年 5 月 13 日

PASA 是一個研究型專案，目標是替大型語言模型生成的文字加入可檢測的「水印」。它特別針對一個常見難題：即使用家把句子改寫、換同義詞，甚至做段落重述，只要意思大致不變，系統仍希望辨認到這段文字原本由 AI 產生。

和不少只看字面詞彙的做法不同，PASA 把重點放在語意層面。簡單講，它不是只標記某些字，而是利用嵌入空間中的語意群組去安排生成與檢測，因此面對 paraphrase 這類「保留意思但改寫表達」的攻擊時，理論上會更穩定。

實際使用上，這個儲存庫主要提供研究重現流程：用 generation.py 進行生成與檢測，並配合語言模型、輔助模型、本地資料集及一份 token 對應語意群組的映射檔來跑實驗。換句話說，它比較適合研究人員或進階開發者驗證效果，而不是一般用家即裝即用的成品工具。

重點可簡單整理如下：
– 針對 AI 文字加入可檢測水印，並強調抗改寫能力
– 核心創新是把水印放到語意嵌入空間，不只看表面用字
– 設計目標包括提升檢測穩定性，同時盡量維持文字品質
– 儲存庫提供官方實作，重點在實驗重現與結果驗證

如果你的場景是內容來源追蹤、平台風險管理，或學術上研究 AI 文字識別，PASA 會很值得留意。相反，若你只是想快速做網站內容偵測，這個專案目前看來仍偏研究導向，需要自行準備資料與模型環境。

從論文與專案說明來看，PASA 的價值不只在「能不能驗出」，而是在改寫攻擊下仍保持可檢測性，這點對現實應用尤其重要。不過它是否適合你的流程，仍要視乎你有沒有能力配置實驗環境，以及是否需要面對高強度的語意改寫情境。

Source: https://github.com/ai-kunkun/PASA

Categories: 開源, 香港科技大學, 框架

Agent-ValueBench：AI 代理有冇價值觀？這個基準想測清楚

2026 年 5 月 13 日

Agent-ValueBench 係一個用嚟評估 AI 代理「價值取向」嘅基準工具。簡單講，佢唔只睇模型答得啱唔啱，而係觀察一個會用工具嘅語言模型代理，喺有衝突嘅情境入面，實際行動會偏向邊一種價值。

呢個專案較特別嘅地方，係將抽象嘅價值問題變成可執行任務。資料庫包含 28 套價值系統、332 個價值維度、394 個沙盒環境，同 4,335 個價值衝突任務；每個案例都會定義任務、可用工具、執行環境，同評分規則，令比較唔再停留喺主觀印象。

實際使用上，研究者可以先用現成案例同環境，令代理喺指定任務中運行，再記錄成條行為軌跡，之後用已儲存嘅 rubric 去評分，分析代理較支持邊一方價值。對一般開發團隊嚟講，佢更似係一套測試框架，用嚟檢查代理系統喺敏感決策情境下是否一致、可比較。

重點唔係知識問答，而係代理喺工具使用過程中點樣作取捨
有完整流程，由環境生成、案例建立、軌跡生成，到評分與整體分析
可執行沙盒環境 令測試更貼近真實操作，而唔只係紙上談兵
用 rubric 評分，有助將價值判斷變成較有系統嘅比較

如果你關心 AI 安全、代理治理、企業內部自動化助手，或者想比較唔同代理喺價值衝突下嘅表現，呢個專案相當適合。相反，如果你只係想快速部署聊天功能，呢個儲存庫未必直接幫到手，因為佢主要價值在於研究、測試同評估，而唔係即用型產品。

Source: https://github.com/ValueByte-AI/Agent-ValueBench

Categories: 開源, Agentic, 北京大學

LoopUS點樣令語言模型更識「諗多步」

2026 年 5 月 13 日

LoopUS 是一個針對大型語言模型的後訓練框架，核心想法不是叫模型輸出更長答案，而是先在內部隱藏表示上反覆「再諗一次」。簡單講，它把原本一次過運作的模型，拆成編碼、循環推理、解碼三部分，讓中間的推理區塊可以重用多次。

這種做法的實際用途，主要是令模型在回答較需要推理的問題時，可按需要投入更多計算量，而毋須由零開始訓練全新的循環式架構。對研究人員或工程團隊來說，這代表可以基於現有預訓練檢查點做改造，兼顧部署現實與訓練成本。

LoopUS 的創新之處，在於它不是盲目重覆中間層，而是先根據模型內部表示隨深度變化的特徵，決定邊部分適合拿來循環使用。同時，它加入選擇性閘門去減少反覆更新時的狀態漂移，並用較節省記憶體的監督方式訓練長迴圈，另外還有信心分數機制，推論時可提早停止，避免不必要的額外步數。

重點摘要：
– 把預訓練 LLM 重組成編碼器、循環推理區塊、解碼器
– 主要在隱藏空間做反覆精修，而非單純拉長輸出內容
– 以選擇性閘門穩定多輪迭代，減低表示崩壞風險
– 支援按輸入難度調節推論計算量，較重視效率
– 評估流程結合 lm-eval，訓練程式亦集中處理 checkpoint 與續跑

若你是做研究原型、推理能力比較，或想測試「同一模型可否用更多思考步數換取更好表現」，LoopUS 會特別值得留意。相對一般只追求生成更長文字的方法，它更像在模型腦內做多輪整理；不過實際收益仍取決於基礎模型、資料與任務設定。

Source: https://github.com/Thrillcrazyer/LoopUS

Categories: 開源, 框架

WorldReasonBench：AI 識唔識用影片推演真實世界？

2026 年 5 月 13 日

WorldReasonBench 係一個用嚟評估影片生成模型嘅基準，重點唔係畫面是否逼真，而係模型能否根據起始狀態同事件，合理推演之後個世界會點變。簡單講，即係測試 AI 係「識畫面」定真係「識道理」。

呢個專案收錄 436 個測試案例，覆蓋 4 個推理面向同 22 個細分類，並比較多個影片生成器嘅表現。它亦加入約 6,000 組專家偏好配對，令評分唔只靠單一數字，而係更貼近人點樣判斷一段影片合唔合理。

實際使用上，研究團隊或開發者可以用佢去壓力測試自家模型：先生成影片，再由視覺語言模型回答片中問題，之後交由大型語言模型判斷答案是否正確。專案亦提出 Score PR，同時考慮答對程度同動態推理質素，另外用 Δ RG 觀察模型喺有提示同冇提示下嘅能力落差。

相比一般只看畫質、流暢度或人類偏好嘅評測，呢個專案較有新意嘅地方係將影片生成重新理解為「未來世界狀態預測」。換句話說，它關心物理、社會、邏輯同資訊層面有冇前後一致，呢點對真正需要可靠推演嘅應用特別重要。

不只評畫面：核心係測試世界演化是否合理
評估方法較完整：結合問答、判分同偏好配對
指標較實用：可同時睇準確度與推理穩定性
適合比較模型：方便橫向檢視不同生成器表現

如果你係做 AI 影片研究、模型選型，或者想知道一個生成器係咪只會「整靚片」，呢個基準幾值得留意。對一般用家嚟講，它亦提供一個更貼地嘅角度：一段 AI 影片可信唔可信，未必只靠觀感，而係要睇內容有冇按常理發展。

Source: https://github.com/UniX-AI-Lab/WorldReasonBench

Categories: 開源, 香港科技大學, Agentic, 影像處理, 框架

AutoRubric-as-Reward：用明文評分準則教 AI 揀靚圖

2026 年 5 月 13 日

Repository image for OpenEnvision/AutoRubric-as-Reward

這個專案的核心，不是再訓練一個「黑盒」分數模型，而是先把人對圖片好壞的偏好，整理成可讀的文字評分準則。簡單講，系統會看一小批已標示「邊張較好」的圖片對，抽出判斷依據，再交給視覺語言模型作裁判，輸出成對訓練有用的獎勵訊號。

實際使用上，它較適合已有偏好資料的人員：例如你手上有兩張生成圖，並知道哪張較符合要求，系統就可根據這些例子自動產生 rubric。之後你可以檢查、保存和重用同一份準則文件，令後續訓練或比較更一致，而不是每次靠隱藏分數重新估計。

我認為這個專案最有意思的地方，是它把「評分理由」由隱性變成顯性。它不只會生成準則，還會用已標記例子反覆驗證與修訂；若準則判錯，就再調整，這比單純叫模型直接揀贏家更容易追查問題。論文亦指出，這類做法有助減少位置偏差，並提升少量標註下的效率。

最大特色：獎勵不再是看不到的分數，而是可閱讀的文字準則
流程較可驗證：生成後會對照標註樣本檢查，失敗就修訂
支援範圍實用：可用於文字生圖，也可處理帶來源圖的編輯任務
重用性高：準則可存成檔案，之後重複用於較穩定的訓練流程

最適合的場景，是你想微調圖片生成或圖片編輯模型，但又希望知道模型究竟憑甚麼作出偏好判斷。此專案已接好文字生圖的 FLUX.1-dev LoRA RPO，以及圖片編輯的 Qwen-Image-Edit LoRA RPO；作裁判的視覺語言模型則可用本地 Qwen3-VL（經 vLLM）或 OpenAI 相容端點。

整體來看，AutoRubric-as-Reward較像一套「把審美與要求寫清楚」的工具鏈，而不只是另一個評分器。對研究或進階開發者而言，它的價值在於透明、可檢查、可重現；但對一般用家來說，前提仍是你需要有成對偏好資料，以及願意花時間檢視準則是否真的反映你的標準。

以下係條式嘅詳細拆解：

1. 左手邊：$P^*(y^+ \succ y^- | x)$

$x$：係指輸入嘅內容（Input/Prompt）。
$y^+$ 同 $y^-$：係一對輸出。通常 $y^+$ 代表人類偏好嗰個（好嘅），$y^-$ 代表被捨棄嗰個（差嘅）。
$\succ$：呢個符號代表「優於」或者「偏好」。
意思係「喺已知 $input$ 嘅情況下，人類偏好 $y^+$ 多過 $y^-$ 嘅機率」。

2. 右手邊：分數分配

呢個部分係用嚟將「好感度」量化：

$r^*(x, y)$：呢個係獎勵函數 (Reward Function)。你可以想像成模型幫每一個輸出打嘅「分」。分數越高，代表嗰個輸出越符合人類偏好。
$\exp(\dots)$：即係指數函數 $e^x$。用指數係為咗確保計出嚟嘅數值係正數，而且可以放大分數之間嘅差距。

3. 成條式嘅邏輯

$$P^*(y^+ \succ y^- | x) = \frac{\exp(r^*(x, y^+))}{\exp(r^*(x, y^+)) + \exp(r^*(x, y^-))}$$

呢個結構其實同我哋平時見嘅 Softmax 或者 Sigmoid 函數好似：

分子：係偏好輸出 ($y^+$) 嘅得分。
分母：係兩個輸出（$y^+$ 同 $y^-$）得分嘅總和。
結論：如果 $y^+$ 嘅得分比 $y^-$ 高好多，分子就會佔分母好大比例，機率就會接近 1（代表好肯定人類會揀 $y^+$）。如果兩者得分差唔多，機率就會接近 0.5（代表人類覺得兩個都差唔多）。

總結

呢條式喺訓練 AI（例如 RLHF 或者 DPO）嗰陣好重要，佢幫模型學識點樣根據人類嘅選擇，去調整背後嗰個 $r^*$ 獎勵分數，令模型之後生成嘅嘢越來越接近人類鍾意嘅答案。

Source: https://github.com/OpenEnvision/AutoRubric-as-Reward

Categories: 開源, 香港中文大學, 影像處理, 框架

X-OmniClaw：讓手機自己跨App辦事的AI代理

2026 年 5 月 13 日

X-OmniClaw是一個運行在Android裝置上的多模態代理系統，重點不是停留在模擬器或虛擬環境，而是直接對真實手機畫面作判斷，再執行點擊、輸入、開啟App等操作。對一般用家來說，可以把它理解為一個會「睇畫面、記住進度、自己禁掣」的手機助手。

實際使用上，它適合處理需要跨App完成的多步驟任務，例如根據畫面內容作搜尋、在不同應用之間切換，或跟隨語音與視覺資訊持續執行工作。專案資料顯示，它能串流顯示每一步動作、工具呼叫與結果，亦會累積模型使用成本，方便觀察整個流程是否合理。

這個專案較有新意的地方，在於把感知、記憶、行動放在同一套手機原生流程內。它不只讀取UI狀態，亦可結合真實世界影像與音訊；再配合工作記憶與較長期的個人化記憶，令任務可以延續，不需要每一步都由頭理解。

另外，X-OmniClaw似乎特別重視穩定性，而不只是「做到一次」。例如多輪任務有預算控制與迴圈偵測，失敗後會嘗試收斂並繼續執行；裝置工具亦加入防誤觸與穩定性保護，這些設計對真機操作尤其重要。

直接在實體Android手機上運作，不依賴虛擬環境
可整合畫面、鏡頭、語音作任務理解
內建統一裝置工具，支援點擊、輸入、截圖、啟動App等操作
有多步驟任務控制、可觀察執行過程與成本統計

如果你的場景是手機自動化、智能助理、跨App工作流，甚至需要結合現場鏡頭資訊去決策，X-OmniClaw會比一般只看文字指令的方案更有參考價值。不過從公開資料看，它較偏研究與系統架構展示，真正落地時仍要留意裝置相容性、任務複雜度，以及背後雲端推理的依賴。

Source: https://github.com/OPPO-Mente-Lab/X-OmniClaw

Categories: 開源, Agentic, 框架

mv-split：千層級圖像生成實驗，效能與相容性兼顧

2026 年 5 月 12 日

mv-split 是一個用來產生圖片的研究型專案，核心是名為 MVSplit-DiT 的超深層模型，整體深度達 1000 層。它不是一般即裝即用的圖片工具，而是較適合想測試新一代生成架構、比較效能，或者重現論文結果的人使用。

實際使用上，流程算清晰：先準備模型權重、FLUX.2 的自編碼器，以及 Qwen3 文字編碼器，之後透過 sample.py 輸入提示詞、指定輸出資料夾，就可以生成圖片。它亦支援從範例提示詞清單逐行抽樣、隨機抽樣，甚至一次過跑完整批提示，方便做測試和比較。

這個專案最值得留意的地方，是它同時提供 Triton 核心加速與 PyTorch 後備路徑。換句話說，就算機器沒有 Triton，理論上仍可運行；只是對於 1000 層這種深度，README 已明確提醒 CPU 雖可作後備，但實際上並不實用，較合適的環境仍是 PyTorch 2.x 配合 CUDA。

採用超深層 DiT 架構，定位偏研究與高階實驗
以 Triton 核心加速多個關鍵運算，同時保留 PyTorch 後備
可直接用自訂提示詞、提示詞檔案或批次方式生成圖片
會輸出 PNG 圖片及 metadata.jsonl，方便記錄實驗結果

從設計來看，它的主要創新不只在「層數夠深」，亦包括把多個底層運算元件拆得相當明確，例如 RoPE、RMSNorm、QK-Norm 和 SwiGLU 都有獨立實作，顯示作者很重視推論路徑的效率與可替換性。這種做法對一般用家未必直接有感，但對開發者或研究者來說，代表更容易針對效能瓶頸做調整。

最適合的應用場景，包括生成模型研究、推論效能測試、比較 Triton 與 PyTorch 後備表現，以及重現論文方法。若你只是想簡單輸入一句文字就穩定出圖，這個專案的門檻會偏高；但若你需要一個結構清楚、可觀察推論細節的實驗平台，它就相當有參考價值。相關模型方面，需配合 FLUX.2 AutoEncoder 與 Qwen/Qwen3-0.6B 文字編碼器。

Source: https://github.com/erwold/mv-split

Categories: 開源, 影像模型, 框架

Page 18 of 43

« Previous 1 … 16 17 18 19 20 … 43 Next »