開源 Archives - Page 16 of 43

Lighthouse Attention：長上下文訓練新思路

2026 年 5 月 17 日

Repository image for ighoshsubho/lighthouse-attention

如果你有留意大型語言模型，應該知道文字愈長，運算成本往往升得愈快。Lighthouse Attention 針對的正正是這個痛點：在極長上下文訓練時，用分層挑選的方法，先縮細需要重點處理的內容，再交回現成的高效注意力流程處理。

這個儲存庫不是一個即開即用的聊天程式，而是建基於 PyTorch 的 torchtitan 訓練框架之上，以補丁形式整合。換句話說，較適合本身已經做模型訓練、想比較不同注意力機制的人；一般用家未必會直接跑起，但讀它的設計仍很有參考價值。

它較特別的地方，在於不是把稀疏機制硬塞進自訂核心，而是先做選擇，再沿用現有的 FlashAttention 密集計算路線。這樣的好處是較易受惠於上游優化，也減少為新方法重寫整套底層核心的負擔。資料顯示，它提供 norm、dilated 和 gla 三種評分變體，亦支援可選的 context parallel 路徑。

如果你想上手，較實際的做法是先把它當成研究原型：按版本要求準備好 torchtitan、對應提交版本、兩個額外原始檔及補丁，再用 configs 內不同設定比較 top-K、pool、大細層數與 scorer 差異。官方資訊亦提到，它曾在 530M Llama-3 規模、以及最高百萬 token 訓練情境下驗證。

重點可以這樣看：
– 主要用途是降低超長上下文訓練時的注意力成本
– 核心做法是分層挑選重要片段，再交由密集注意力計算
– 已列出多組可比較設定：top-K、pool、levels、scorer、CP
– 相關評分或路線包括 norm、dilated、gla
– 較適合模型研究、訓練基建開發及長文本實驗場景

只要是標準的 decoder-only Transformer / causal LM，基本都可以替換它的 Q/K/V self-attention 層。

判斷標準
只要模型滿足下面幾點，就通常能做這種替換：
有 self-attention 層，而不是依賴複雜的外部編碼器。
層裡能清楚找到 q_proj / k_proj / v_proj 或等價實現。
是 decoder-only 架構，使用 causal mask。
沒有把 attention 邏輯寫死成特別難拆的自定義模塊。

最適合的模型類型
Llama 系列：最常見，結構標準，Q/K/V 分明，最容易改。
Qwen 系列：也是標準 decoder-only 路線，通常同樣適合做 attention 替換。
Mistral 系列：同樣屬於 decoder-only LLM，理論上也適合。
GPT-style / LLaMA-style 自回歸模型：只要是單向 causal attention，一般都能改。

整體來說，Lighthouse Attention 最吸引之處，不只是追求更快，而是嘗試在訓練期保留與現有生態的相容性。對需要探索 98K、512K 甚至更長上下文訓練的人，它是一個值得細看、但明顯偏研究與工程用途的專案。

網址： https://github.com/ighoshsubho/lighthouse-attention

網址： https://nousresearch.com/lighthouse-attention

Categories: 開源, 模型訓練, 深度學習

Orthrus如何令Qwen3生成更快

2026 年 5 月 17 日

Orthrus 是一個圍繞 Qwen3 模型建立的生成框架，重點不是做全新聊天模型，而是想辦法令文字生成更快，同時保持與原本基礎模型一致的輸出分佈。對一般讀者來說，可以理解成它想保留傳統逐字生成的準確感，又借用擴散式並行生成的速度優勢。

這類工具主要針對大型模型生成時「要逐個字等」的樽頸。Orthrus 提出雙重架構做法，讓同一個模型同時具備兩種觀看方式，並強調結果是無損的，也就是目標並非用近似答案換速度；根據專案資料，生成可有最高約 7.8 倍加速。

如果你想上手，最直接方法不是自行訓練，而是先試用作者提供的模型檢查點，再用 Hugging Face 的常見載入流程做推理。現時公開型號包括 Orthrus-Qwen3-1.7B、Orthrus-Qwen3-4B 和 Orthrus-Qwen3-8B，分別對應 Qwen3 的 1.7B、4B 與 8B 基礎模型。

值得留意的是，它不是靠把整個模型重訓來換速度，而是只微調部分參數，基礎 LLM 保持凍結，同時兩種生成視角可共用同一套高保真 KV cache。對部署者來說，這代表它除了講求快，亦有意控制額外記憶體成本，這點對長輸出或高頻推理場景特別實際。

以 Qwen3 為骨幹，現有 1.7B、4B、8B 幾個版本
重點在提升生成吞吐，而非改變模型用途
強調結果與原基礎模型保持一致，而非近似加速
額外記憶體開銷較低，較適合推理部署評估
對研究者、模型工程師及需要大量文字生成的團隊較有參考價值

整體來看，Orthrus 最吸引之處在於它把「快」與「不走樣」放在同一個方案內處理。若你正關注本地或伺服器端 LLM 推理效能，尤其已經在使用 Qwen3 生態，這個專案很適合作為實驗與比較基準；至於與 vLLM 或 SGLang 的更原生整合，則似乎仍在後續規劃中。

網址： https://github.com/chiennv2000/orthrus

Categories: 開源, Qwen, 模型, 模型訓練, 中國

PresentAgent-2：將查詢變成影片簡報

2026 年 5 月 17 日

如果你曾經試過為一個新題目做簡報，就會知道最花時間的往往不是排版，而是先找資料、定重點、再把內容講清楚。PresentAgent-2 想處理的，正正是由一句自然語言提問開始，逐步變成一段有旁白的簡報影片，而不是假設你一開始已經有一份完整文件。

這個專案的流程相當清晰：先把模糊問題收窄成較聚焦主題，再整理候選來源，抽取文字、圖片、GIF 甚至影片素材，之後才規劃簡報結構、生成投影片與講稿，最後合成音畫對齊的影片。對一般用家來說，可以理解為把「搜集資料、寫大綱、做 slides、配音」串成一條自動化工作流。

較有意思的是，它不只做單一講者式內容，還支援多講者討論，以及有根據的互動問答三種形式。另一方面，動態素材會盡量保留為 GIF 或影片，而不是全部截成靜態圖，這令最後成品更接近真正可觀看的解說片，而不只是會動的投影片。

如果你想了解它是否適合自己，較合用的情境包括教學短片、研究題目導讀、產品介紹，或需要快速把一個概念講清楚的內容製作。現階段它更像研究型框架，較適合 AI、多模態內容生成、代理式工作流的開發者與研究者參考，而非即開即用的普通消費工具。

由短查詢出發，不需要先準備完整原稿
可產出投影片、講稿、旁白與最終影片
支援單人講解、多人討論、互動問答
能保留 GIF 與影片等動態素材，表達力較強
評估方式包含選擇題測試與主觀打分，重視內容與呈現效果

相關模型方面，倉庫資料提到以 VLM 參與評估，扮演觀眾回答問題及進行評分，但公開資訊未見完整列出所有底層模型名稱。若你關心的不是單一模型，而是「怎樣把多個能力串成可交付影片」，PresentAgent-2 的參考價值會比單看文字或圖像生成工具更高。

網址： https://github.com/AIGeeksGroup/PresentAgent-2

Categories: 開源, 視頻模型, 中國, 北京大學

RealICU：測試AI能否真正讀懂深切治療數據

2026 年 5 月 17 日

RealICU 是一個用來評估大型語言模型在深切治療部情境下表現的基準。重點不在於AI有沒有照抄以往醫生做過的決定，而是看它面對長時間、資訊密集又持續變化的病人資料時，能否作出較接近臨床正確性的判斷。

如果你對醫療人工智能有興趣，RealICU-Bench 值得留意。它聚焦深切治療部入面又長又密集的病人資料，目的唔係叫模型照抄過往醫生做法，而係測試模型面對完整病程時，能否作出更合理判斷。

這個項目針對一個很實際的問題：ICU 決策往往要在高壓下，快速整合大量檢驗、監測和病程資訊。現有不少評估方法把歷史醫療行為當作標準答案，但原始決策當時可能資訊未齊全，因此未必最理想；RealICU 改用事後回顧整個病人歷程的標註方式，嘗試更公平地評估AI推理能力。

如果你想了解或使用這個項目，最適合由它定義的四類任務入手：病人目前情況、急性問題、建議處置，以及需要避免的危險行動。網站亦提供論文與程式碼入口，而資料集顯示仍有部分內容即將推出；若你是研究者，可先用 RealICU-Gold 和 RealICU-Scale 的設計思路，理解其評估框架。

由超過30位臨床醫生共同界定核心任務
包含 930 個醫生共識樣本，以及 11,862 個大規模評估視窗
引入經醫生驗證的 LLM 評估器作大規模標註
提出 ICU-Evo，以結構化記憶研究長時序推理
發現前沿模型存在召回與安全之間的取捨，以及錨定偏差

這個項目的創新之處，在於它把評估焦點由「像不像醫生以前做過的事」轉向「是否真正理解病情演變」。另外，ICU-Evo 用多種結構化記憶整理臨床上下文，較貼近醫生思考方式；不過作者亦明確指出，這類方法雖有助長程推理，仍不足以保證安全。

整體而言，RealICU 特別適合醫療AI研究者、醫院創新團隊，以及關注高風險場景AI安全的人士。從現有結果看，這不是一個宣稱模型已可直接臨床部署的項目，而是一個更嚴謹的測試場，幫助大家看清AI在真實重症決策支援中的能力與限制。

層級	作用	規模	標註方式
RealICU	整體 benchmark	全部框架	包含 Gold 和 Scale 兩部分
RealICU-Gold	高品質基準集	930 windows / 94 patients	醫師共識標註
RealICU-Scale	大規模延伸集	11,862 windows	Oracle 自動擴展標註

在 RealICU-Gold 上，Gemini-3.1-pro + ICU-Evo 達到 Patient Status 0.459、Action Recommendation Recall@5 0.534；同時，structured memory 雖然提升了長程推理，但仍然沒有徹底解決安全失敗和 anchoring bias. 也就是說，ICU-Evo 是“更好的 memory-based agent”，但不是把 RealICU 這個 benchmark 作為最終方案。

RealICU
├─ RealICU-Gold
│  └─ 930 個 window，來自 94 個 ICU stays
│     └─ 由多位 ICU 醫師做 hindsight consensus 標註
└─ RealICU-Scale
   └─ 11,862 個 window
      └─ 用 Oracle（醫師驗證過的 LLM hindsight evaluator）自動擴展標註

網址： https://chengzhi-leo.github.io/RealICU-Bench/

Categories: 開源, Medical醫學, 框架

SU-01：數理推理模型的新示範

2026 年 5 月 17 日

如果你對「AI識答數學題」有興趣，SU-01是一個幾有代表性的案例。它是一個 30B-A3B 推理模型，目標不是單靠背答案，而是嘗試完成較長步驟、較講求證明結構的數學與科學題目，尤其接近競賽題風格。

對一般讀者而言，最易理解的用法，是把它當成一個專注於複雜解題的模型來看，而不是萬能聊天機械人。官方資訊顯示，模型已公開權重，亦有技術報告與專案頁面；如果你本身會用 Hugging Face 一類平台，就可以進一步了解它的輸出表現與測試方式。

SU-01較特別的地方，在於它不依賴外部工具、寫程式執行，或者專門符號求解器，仍然想把長鏈條推理做好。訓練上，它用了較有策略的資料排序方式，以及分兩階段強化學習，先追求可驗證答案，再逐步改善證明質素，這點對處理多步驟題目尤其重要。

重點放在數學、物理等需要嚴謹步驟的解題
嘗試處理長篇推理與證明修正，而非只輸出最終答案
在 IMO 2025（第66屆國際數學奧林匹亞）、USAMO 2026(美國數學奧林匹亞）、IPhO 2024/2025 有高水準成績
相關模型可留意同類推理系統，例如 DeepSeek-R1、OpenAI o1 類型模型，以及其他數理導向大型語言模型

如果你是研究員、教育科技開發者，或者想比較不同推理模型在高難度題目的差異，SU-01很值得觀察。對一般學生來說，它未必是即開即用的溫習工具，但作為理解 AI 如何由「識答題」走向「識證明」的例子，參考價值相當高。

整體來看，SU-01吸引之處不只在分數，而是在方法上走一條相對簡潔統一的路線。從公開資料判斷，它更像是一個展示「後訓練如何提升嚴謹推理」的研究型專案，適合關心 AI 推理上限的人細看。

網址： https://github.com/Simplified-Reasoning/SU-01

Categories: 開源, 香港中文大學, 模型, 深度學習, 中國

Warp-as-History：一段片訓練出「鏡頭操控」

2026 年 5 月 17 日

如果你對 AI 影片生成有興趣，但又覺得「要大量素材先訓練」門檻太高，Warp-as-History 的吸引力正在於它嘗試只用一段訓練影片完成相機視角控制。簡單講，它想做的是讓系統學會原片中的空間與運鏡關係，再按你指定的鏡頭路徑生成新畫面。

對一般使用者來說，理解這個專案的最好方法，不是把它當作普通文字生片工具，而是視為一個偏向「鏡頭操控」的研究型方案。你需要先準備一段帶有相機資訊的影片，再配合指定模型做推理或訓練；官方列出的預設組合包括 Helios-Distilled、Warp-as-History LoRA，而 Helios-Mid 主要用於訓練，另外 README 亦提到 Pi3X。

它解決的重點問題，是生成影片時常見的視角不穩、鏡頭移動不連貫，以及難以精準控制觀看方向。這個方法特別強調互動式鏡頭軌跡跟隨與視點調整，定位上與 HappyOyster、Genie 3 這類方向相近，但賣點是把所需訓練資料壓到單一範例，這點相當有研究價值。

一段訓練影片 已是核心設定，對資料收集要求較低
重心不在純文字生成，而在鏡頭路徑與視角控制
相關模型包括 Helios-Distilled、Warp-as-History LoRA、Helios-Mid、Pi3X
較適合研究實驗、效果驗證，未必是即開即用的消費級工具

如果你是做生成式影像研究、互動敘事、虛擬攝影，這個專案值得留意；若你只是想快速剪片或一鍵出成品，可能會覺得前置準備仍然偏技術性。整體來看，Warp-as-History 最有意思的地方，是把「影片歷史資訊」由單純上下文提升為可延續的視角依據，令相機控制這件事更像真正可操作的生成條件。

網址： https://github.com/yyfz/Warp-as-History

Categories: 開源, 影像處理, 視頻模型, 世界模型, 中國

MoCam：用影片重建自然新視角

2026 年 5 月 17 日

MoCam 是一個針對影片「重新取景」的方法，重點是由原有影片生成新的觀看角度。它主打在幾何先驗不完整、失真，甚至場景有動態變化時，仍能產生較連貫而且接近真實感的畫面。

這個方法的核心做法，是把生成過程分成較有結構的去噪步驟：先處理初步的幾何對齊，再逐步修正外觀細節。簡單理解，就是先盡量擺正場景與視角，再補回畫面的質感，藉此減少新視角常見的破碎、跳動或不自然問題。

對一般讀者而言，它適合用來理解新一代影片視角生成技術如何改善傳統方法的限制，特別是面對複雜鏡頭移動，例如大幅度運鏡、推拉鏡，以及 bullet time 一類效果。網站展示亦顯示，它同時面向靜態與動態場景，而不只限於單一物件或簡單背景。

重點可留意：
– 可由影片生成新的鏡頭角度與運鏡效果
– 幾何資訊不足時，仍嘗試維持畫面穩定性
– 以分階段去噪流程兼顧對位與外觀修飾
– 展示涵蓋大幅移動、複雜軌跡、Dolly Zoom 等情境

目前公開頁面以研究簡介和示範效果為主，GitHub 與 Hugging Face 模型仍標示為即將推出，因此暫時未見完整上手文件、安裝方式或量化評測數字。若你是做電腦視覺、影片生成、虛擬攝影，或想了解擴散模型如何應用在新視角合成，這個項目值得持續留意。

網址： https://orange-3dv-team.github.io/MoCam/

Categories: 開源, 影像處理, 視頻模型

PhyMotion點樣令人物動作更似真

2026 年 5 月 17 日

做人物影片生成，最難往往不是畫面靚唔靚，而係人郁動時有冇「似真」。PhyMotion針對的正是這個痛點：它提供一套較細緻的評分方法，專門檢查生成影片中的人體動作是否合理，例如會否出現腳步飄浮、失去平衡，或者動作雖然順眼但其實不合物理常識。

它的做法幾有意思。團隊先從影片還原出3D人體網格，使用SMPL表示身體，再把動作轉到MuJoCo的人形物理模擬環境內，從三方面評估：關節運動是否自然、接觸與平衡是否一致、以及整體動態是否可行。比起只靠2D畫面觀感打分，這種方法更能指出問題究竟出在哪一層。

如果你想上手，較合理的方式不是把它當成一般剪片工具，而是當成研究或訓練流程中的「動作評審」。儲存庫提供有 PhyMotion-CausalForcing-1.3B 相關權重與 LoRA 形式檢查點，較適合已經在做人像影片生成、後訓練或獎勵設計的人逐步接入。

重點不在直接生成影片，而在替影片中的人體動作評分
結合 SMPL 與 MuJoCo，比純2D評估更重視身體結構與物理性
適用於自回歸與雙向類型的影片生成訓練流程
相關資源包括論文、模型、資料集，以及 PhyMotion-CausalForcing-1.3B

整體來看，PhyMotion最有價值的地方，是把「睇落順眼」進一步拆成可分析的幾個部分，令改進方向更清楚。它特別適合研究員、AI 影片開發者，或者想提升人物動作真實感的團隊；對一般用家來說，未必是即裝即用，但作為理解下一代人物影片質素點樣提升，這個項目相當值得留意。

網址： https://github.com/h6kplus/PhyMotion

Categories: 開源, 影像模型, 影像處理, 數字人

OpenHuman：把個人AI助手帶到桌面

2026 年 5 月 17 日

如果你對 AI 有興趣，但又唔想由指令列、插件同繁複設定開始，OpenHuman 這類桌面式助手會幾易入口。按項目說明，它偏向圖形介面操作，安裝後可用較短流程連接日常帳戶，幾下點擊就能開始使用，對一般用家算友善。

它真正想解決的，不是「答你一條問題」咁簡單，而是將分散喺 Gmail、Notion、GitHub、Slack、Calendar、Drive、Jira、Linear 等工具入面嘅資訊，整理成可持續使用嘅個人上下文。系統會自動抓取連接資料，並建立本機優先嘅記憶結構，令助手唔使每次都由零開始理解你做緊乜。

較有意思的地方，是它將記憶、工具同語音互動放埋一齊。資料會轉成較易處理的 Markdown 片段，存入 SQLite，亦可同步成相容 Obsidian 的筆記庫；同時又內建網頁搜尋、抓取、檔案操作、git、測試，以及語音輸入輸出，甚至提到可加入 Google Meet。模型方面，項目表示會按任務路由到不同類型模型，亦可選用本機 Ollama；相關能力涉及推理型、快速型、視覺型模型，語音輸出則提到 ElevenLabs。

The Karpathy-Style Super Intelligence Layer for your AI Agents (OpenHuman)

Watch this video on YouTube

重點可以咁睇：
– 以桌面介面為先，較少依賴技術設定
– 可連接 118+ 第三方服務，減少資料分散
– 本機記憶庫加 Obsidian 相容筆記，方便追蹤與整理
– 內建工具鏈較完整，唔使逐個插件補功能
– 透過 TokenJuice 壓縮內容，官方稱可降低成本與延遲

如果你係內容工作者、獨立開發者、創業團隊，或者本身已經有一堆雲端工具要管理，OpenHuman 的方向會幾吸引。不過它仍屬早期測試階段，實際穩定性、授權連接體驗同記憶準確度，較適合抱住嘗鮮加觀望心態去試。

網址： https://github.com/tinyhumansai/openhuman

Categories: 開源, Agentic

Awesome-WAM：看懂機械人點樣先諗後做

2026 年 5 月 17 日

Temporal evolution and taxonomy of representative works on World Action Models (WAMs).

如果你對機械人或 AI 有興趣，但又唔想一開始就埋頭讀大量論文，Awesome-WAM 其實幾好入手。它本身唔係一個直接拿來部署的機械人程式，而係一個系統化整理庫，集中介紹 World Action Models 這個新方向，並附有每篇論文的重點摘要，方便讀者由概念開始慢慢建立理解。

這個主題想解決的核心問題，其實幾直觀：不少模型能夠由影像或文字直接產生動作，但未必真係「理解」下一步世界會點變。WAM 的做法，是將環境變化預測同動作生成放埋一齊考慮，令機械人唔只係反應快，亦更似先模擬後行動。

這個儲存庫最有價值的地方，在於它唔單止列論文，而係嘗試用統一框架整理整個領域，例如分開 Cascaded 與 Joint 兩類路線，亦有提到訓練資料來源、評估方式，以及與 Vision-Language-Action 發展之間的關係。對初學者來講，這種分類比單看論文名更易掌握全貌。

提供系統化總覽，適合先建立概念再深入讀文獻
有每篇文章的簡短導讀，節省篩選時間
涵蓋相關模型與方向，如 RT-2、OpenVLA、π0，以及庫內收錄的 DREMA、RoboScape、Ctrl-World
重視架構分類、數據來源與評估方法，唔只係單純清單

如果你想上手，最實際做法係先看它對 WAM 的整體定義，再沿分類去揀有興趣的論文摘要閱讀。研究人員、學生、做機械人產品規劃的人都會受用；即使你未必會親自訓練模型，這個整理庫都能幫你較快分清哪些方法偏向預測世界、哪些更強調動作生成控制。

整體來說，Awesome-WAM 比較似一張持續更新的地圖，而唔係單一工具。對想跟進 embodied AI、VLA 與 world model 交叉發展的人，它的價值在於幫你用較低成本看清研究脈絡，同時保留足夠細節，方便之後再深入追文。

網址： https://github.com/OpenMOSS/Awesome-WAM

網址： https://openmoss.github.io/Awesome-WAM/

Categories: 開源, 世界模型

Page 16 of 43

« Previous 1 … 14 15 16 17 18 … 43 Next »