Lighthouse Attention:長上下文訓練新思路

Repository image for ighoshsubho/lighthouse-attention

如果你有留意大型語言模型,應該知道文字愈長,運算成本往往升得愈快。Lighthouse Attention 針對的正正是這個痛點:在極長上下文訓練時,用分層挑選的方法,先縮細需要重點處理的內容,再交回現成的高效注意力流程處理。

這個儲存庫不是一個即開即用的聊天程式,而是建基於 PyTorch 的 torchtitan 訓練框架之上,以補丁形式整合。換句話說,較適合本身已經做模型訓練、想比較不同注意力機制的人;一般用家未必會直接跑起,但讀它的設計仍很有參考價值。

它較特別的地方,在於不是把稀疏機制硬塞進自訂核心,而是先做選擇,再沿用現有的 FlashAttention 密集計算路線。這樣的好處是較易受惠於上游優化,也減少為新方法重寫整套底層核心的負擔。資料顯示,它提供 normdilatedgla 三種評分變體,亦支援可選的 context parallel 路徑。

如果你想上手,較實際的做法是先把它當成研究原型:按版本要求準備好 torchtitan、對應提交版本、兩個額外原始檔及補丁,再用 configs 內不同設定比較 top-K、pool、大細層數與 scorer 差異。官方資訊亦提到,它曾在 530M Llama-3 規模、以及最高百萬 token 訓練情境下驗證。

重點可以這樣看:
– 主要用途是降低超長上下文訓練時的注意力成本
– 核心做法是分層挑選重要片段,再交由密集注意力計算
– 已列出多組可比較設定:top-K、pool、levels、scorer、CP
– 相關評分或路線包括 normdilatedgla
– 較適合模型研究、訓練基建開發及長文本實驗場景

只要是標準的 decoder-only Transformer / causal LM,基本都可以替換它的 Q/K/V self-attention 層。

判斷標準
只要模型滿足下面幾點,就通常能做這種替換:
有 self-attention 層,而不是依賴複雜的外部編碼器。
層裡能清楚找到 q_proj / k_proj / v_proj 或等價實現。
是 decoder-only 架構,使用 causal mask。
沒有把 attention 邏輯寫死成特別難拆的自定義模塊。

最適合的模型類型
Llama 系列:最常見,結構標準,Q/K/V 分明,最容易改。
Qwen 系列:也是標準 decoder-only 路線,通常同樣適合做 attention 替換。
Mistral 系列:同樣屬於 decoder-only LLM,理論上也適合。
GPT-style / LLaMA-style 自回歸模型:只要是單向 causal attention,一般都能改。

整體來說,Lighthouse Attention 最吸引之處,不只是追求更快,而是嘗試在訓練期保留與現有生態的相容性。對需要探索 98K、512K 甚至更長上下文訓練的人,它是一個值得細看、但明顯偏研究與工程用途的專案。

網址: https://github.com/ighoshsubho/lighthouse-attention

網址: https://nousresearch.com/lighthouse-attention

Categories: 開源, 模型訓練, 深度學習

Orthrus如何令Qwen3生成更快

Orthrus logo

Orthrus 是一個圍繞 Qwen3 模型建立的生成框架,重點不是做全新聊天模型,而是想辦法令文字生成更快,同時保持與原本基礎模型一致的輸出分佈。對一般讀者來說,可以理解成它想保留傳統逐字生成的準確感,又借用擴散式並行生成的速度優勢。

這類工具主要針對大型模型生成時「要逐個字等」的樽頸。Orthrus 提出雙重架構做法,讓同一個模型同時具備兩種觀看方式,並強調結果是無損的,也就是目標並非用近似答案換速度;根據專案資料,生成可有最高約 7.8 倍加速。

如果你想上手,最直接方法不是自行訓練,而是先試用作者提供的模型檢查點,再用 Hugging Face 的常見載入流程做推理。現時公開型號包括 Orthrus-Qwen3-1.7BOrthrus-Qwen3-4BOrthrus-Qwen3-8B,分別對應 Qwen3 的 1.7B、4B 與 8B 基礎模型。

值得留意的是,它不是靠把整個模型重訓來換速度,而是只微調部分參數,基礎 LLM 保持凍結,同時兩種生成視角可共用同一套高保真 KV cache。對部署者來說,這代表它除了講求快,亦有意控制額外記憶體成本,這點對長輸出或高頻推理場景特別實際。

  • 以 Qwen3 為骨幹,現有 1.7B、4B、8B 幾個版本
  • 重點在提升生成吞吐,而非改變模型用途
  • 強調結果與原基礎模型保持一致,而非近似加速
  • 額外記憶體開銷較低,較適合推理部署評估
  • 對研究者、模型工程師及需要大量文字生成的團隊較有參考價值

整體來看,Orthrus 最吸引之處在於它把「快」與「不走樣」放在同一個方案內處理。若你正關注本地或伺服器端 LLM 推理效能,尤其已經在使用 Qwen3 生態,這個專案很適合作為實驗與比較基準;至於與 vLLM 或 SGLang 的更原生整合,則似乎仍在後續規劃中。

網址: https://github.com/chiennv2000/orthrus

Categories: 開源, Qwen, 模型, 模型訓練, 中國

PresentAgent-2:將查詢變成影片簡報

image

如果你曾經試過為一個新題目做簡報,就會知道最花時間的往往不是排版,而是先找資料、定重點、再把內容講清楚。PresentAgent-2 想處理的,正正是由一句自然語言提問開始,逐步變成一段有旁白的簡報影片,而不是假設你一開始已經有一份完整文件。

這個專案的流程相當清晰:先把模糊問題收窄成較聚焦主題,再整理候選來源,抽取文字、圖片、GIF 甚至影片素材,之後才規劃簡報結構、生成投影片與講稿,最後合成音畫對齊的影片。對一般用家來說,可以理解為把「搜集資料、寫大綱、做 slides、配音」串成一條自動化工作流。

較有意思的是,它不只做單一講者式內容,還支援多講者討論,以及有根據的互動問答三種形式。另一方面,動態素材會盡量保留為 GIF 或影片,而不是全部截成靜態圖,這令最後成品更接近真正可觀看的解說片,而不只是會動的投影片。

如果你想了解它是否適合自己,較合用的情境包括教學短片、研究題目導讀、產品介紹,或需要快速把一個概念講清楚的內容製作。現階段它更像研究型框架,較適合 AI、多模態內容生成、代理式工作流的開發者與研究者參考,而非即開即用的普通消費工具。

  • 由短查詢出發,不需要先準備完整原稿
  • 可產出投影片、講稿、旁白與最終影片
  • 支援單人講解、多人討論、互動問答
  • 能保留 GIF 與影片等動態素材,表達力較強
  • 評估方式包含選擇題測試與主觀打分,重視內容與呈現效果

相關模型方面,倉庫資料提到以 VLM 參與評估,扮演觀眾回答問題及進行評分,但公開資訊未見完整列出所有底層模型名稱。若你關心的不是單一模型,而是「怎樣把多個能力串成可交付影片」,PresentAgent-2 的參考價值會比單看文字或圖像生成工具更高。

網址: https://github.com/AIGeeksGroup/PresentAgent-2

Categories: 開源, 視頻模型, 中國, 北京大學

RealICU:測試AI能否真正讀懂深切治療數據

Og image

RealICU 是一個用來評估大型語言模型在深切治療部情境下表現的基準。重點不在於AI有沒有照抄以往醫生做過的決定,而是看它面對長時間、資訊密集又持續變化的病人資料時,能否作出較接近臨床正確性的判斷。

如果你對醫療人工智能有興趣,RealICU-Bench 值得留意。它聚焦深切治療部入面又長又密集的病人資料,目的唔係叫模型照抄過往醫生做法,而係測試模型面對完整病程時,能否作出更合理判斷。

這個項目針對一個很實際的問題:ICU 決策往往要在高壓下,快速整合大量檢驗、監測和病程資訊。現有不少評估方法把歷史醫療行為當作標準答案,但原始決策當時可能資訊未齊全,因此未必最理想;RealICU 改用事後回顧整個病人歷程的標註方式,嘗試更公平地評估AI推理能力。

如果你想了解或使用這個項目,最適合由它定義的四類任務入手:病人目前情況、急性問題、建議處置,以及需要避免的危險行動。網站亦提供論文與程式碼入口,而資料集顯示仍有部分內容即將推出;若你是研究者,可先用 RealICU-Gold 和 RealICU-Scale 的設計思路,理解其評估框架。

  • 由超過30位臨床醫生共同界定核心任務
  • 包含 930 個醫生共識樣本,以及 11,862 個大規模評估視窗
  • 引入經醫生驗證的 LLM 評估器作大規模標註
  • 提出 ICU-Evo,以結構化記憶研究長時序推理
  • 發現前沿模型存在召回與安全之間的取捨,以及錨定偏差

這個項目的創新之處,在於它把評估焦點由「像不像醫生以前做過的事」轉向「是否真正理解病情演變」。另外,ICU-Evo 用多種結構化記憶整理臨床上下文,較貼近醫生思考方式;不過作者亦明確指出,這類方法雖有助長程推理,仍不足以保證安全。

整體而言,RealICU 特別適合醫療AI研究者、醫院創新團隊,以及關注高風險場景AI安全的人士。從現有結果看,這不是一個宣稱模型已可直接臨床部署的項目,而是一個更嚴謹的測試場,幫助大家看清AI在真實重症決策支援中的能力與限制。

層級作用規模標註方式
RealICU整體 benchmark全部框架包含 Gold 和 Scale 兩部分 
RealICU-Gold高品質基準集930 windows / 94 patients醫師共識標註 
RealICU-Scale大規模延伸集11,862 windowsOracle 自動擴展標註 

在 RealICU-Gold 上,Gemini-3.1-pro + ICU-Evo 達到 Patient Status 0.459、Action Recommendation Recall@5 0.534;同時,structured memory 雖然提升了長程推理,但仍然沒有徹底解決安全失敗和 anchoring bias. 也就是說,ICU-Evo 是“更好的 memory-based agent”,但不是把 RealICU 這個 benchmark 作為最終方案。

RealICU
├─ RealICU-Gold
│  └─ 930 個 window,來自 94 個 ICU stays
│     └─ 由多位 ICU 醫師做 hindsight consensus 標註
└─ RealICU-Scale
   └─ 11,862 個 window
      └─ 用 Oracle(醫師驗證過的 LLM hindsight evaluator)自動擴展標註

網址: https://chengzhi-leo.github.io/RealICU-Bench/

Categories: 開源, Medical醫學, 框架

SU-01:數理推理模型的新示範

SU-01 training and inference pipeline

如果你對「AI識答數學題」有興趣,SU-01是一個幾有代表性的案例。它是一個 30B-A3B 推理模型,目標不是單靠背答案,而是嘗試完成較長步驟、較講求證明結構的數學與科學題目,尤其接近競賽題風格。

對一般讀者而言,最易理解的用法,是把它當成一個專注於複雜解題的模型來看,而不是萬能聊天機械人。官方資訊顯示,模型已公開權重,亦有技術報告與專案頁面;如果你本身會用 Hugging Face 一類平台,就可以進一步了解它的輸出表現與測試方式。

SU-01較特別的地方,在於它不依賴外部工具、寫程式執行,或者專門符號求解器,仍然想把長鏈條推理做好。訓練上,它用了較有策略的資料排序方式,以及分兩階段強化學習,先追求可驗證答案,再逐步改善證明質素,這點對處理多步驟題目尤其重要。

  • 重點放在數學、物理等需要嚴謹步驟的解題
  • 嘗試處理長篇推理與證明修正,而非只輸出最終答案
  • 在 IMO 2025(第66屆國際數學奧林匹亞)、USAMO 2026(美國數學奧林匹亞)、IPhO 2024/2025 有高水準成績
  • 相關模型可留意同類推理系統,例如 DeepSeek-R1、OpenAI o1 類型模型,以及其他數理導向大型語言模型

如果你是研究員、教育科技開發者,或者想比較不同推理模型在高難度題目的差異,SU-01很值得觀察。對一般學生來說,它未必是即開即用的溫習工具,但作為理解 AI 如何由「識答題」走向「識證明」的例子,參考價值相當高。

整體來看,SU-01吸引之處不只在分數,而是在方法上走一條相對簡潔統一的路線。從公開資料判斷,它更像是一個展示「後訓練如何提升嚴謹推理」的研究型專案,適合關心 AI 推理上限的人細看。

網址: https://github.com/Simplified-Reasoning/SU-01

Categories: 開源, 香港中文大學, 模型, 深度學習, 中國

Warp-as-History:一段片訓練出「鏡頭操控」

Warp-as-History teaser

如果你對 AI 影片生成有興趣,但又覺得「要大量素材先訓練」門檻太高,Warp-as-History 的吸引力正在於它嘗試只用一段訓練影片完成相機視角控制。簡單講,它想做的是讓系統學會原片中的空間與運鏡關係,再按你指定的鏡頭路徑生成新畫面。

對一般使用者來說,理解這個專案的最好方法,不是把它當作普通文字生片工具,而是視為一個偏向「鏡頭操控」的研究型方案。你需要先準備一段帶有相機資訊的影片,再配合指定模型做推理或訓練;官方列出的預設組合包括 Helios-DistilledWarp-as-History LoRA,而 Helios-Mid 主要用於訓練,另外 README 亦提到 Pi3X

它解決的重點問題,是生成影片時常見的視角不穩、鏡頭移動不連貫,以及難以精準控制觀看方向。這個方法特別強調互動式鏡頭軌跡跟隨與視點調整,定位上與 HappyOyster、Genie 3 這類方向相近,但賣點是把所需訓練資料壓到單一範例,這點相當有研究價值。

  • 一段訓練影片 已是核心設定,對資料收集要求較低
  • 重心不在純文字生成,而在鏡頭路徑與視角控制
  • 相關模型包括 Helios-Distilled、Warp-as-History LoRA、Helios-Mid、Pi3X
  • 較適合研究實驗、效果驗證,未必是即開即用的消費級工具

如果你是做生成式影像研究、互動敘事、虛擬攝影,這個專案值得留意;若你只是想快速剪片或一鍵出成品,可能會覺得前置準備仍然偏技術性。整體來看,Warp-as-History 最有意思的地方,是把「影片歷史資訊」由單純上下文提升為可延續的視角依據,令相機控制這件事更像真正可操作的生成條件。

網址: https://github.com/yyfz/Warp-as-History

Categories: 開源, 影像處理, 視頻模型, 世界模型, 中國

MoCam:用影片重建自然新視角

Og image

MoCam 是一個針對影片「重新取景」的方法,重點是由原有影片生成新的觀看角度。它主打在幾何先驗不完整、失真,甚至場景有動態變化時,仍能產生較連貫而且接近真實感的畫面。

這個方法的核心做法,是把生成過程分成較有結構的去噪步驟:先處理初步的幾何對齊,再逐步修正外觀細節。簡單理解,就是先盡量擺正場景與視角,再補回畫面的質感,藉此減少新視角常見的破碎、跳動或不自然問題。

對一般讀者而言,它適合用來理解新一代影片視角生成技術如何改善傳統方法的限制,特別是面對複雜鏡頭移動,例如大幅度運鏡、推拉鏡,以及 bullet time 一類效果。網站展示亦顯示,它同時面向靜態與動態場景,而不只限於單一物件或簡單背景。

重點可留意:
– 可由影片生成新的鏡頭角度與運鏡效果
– 幾何資訊不足時,仍嘗試維持畫面穩定性
– 以分階段去噪流程兼顧對位與外觀修飾
– 展示涵蓋大幅移動、複雜軌跡、Dolly Zoom 等情境

目前公開頁面以研究簡介和示範效果為主,GitHub 與 Hugging Face 模型仍標示為即將推出,因此暫時未見完整上手文件、安裝方式或量化評測數字。若你是做電腦視覺、影片生成、虛擬攝影,或想了解擴散模型如何應用在新視角合成,這個項目值得持續留意。

網址: https://orange-3dv-team.github.io/MoCam/

Categories: 開源, 影像處理, 視頻模型

PhyMotion點樣令人物動作更似真

teaser image

做人物影片生成,最難往往不是畫面靚唔靚,而係人郁動時有冇「似真」。PhyMotion針對的正是這個痛點:它提供一套較細緻的評分方法,專門檢查生成影片中的人體動作是否合理,例如會否出現腳步飄浮、失去平衡,或者動作雖然順眼但其實不合物理常識。

它的做法幾有意思。團隊先從影片還原出3D人體網格,使用SMPL表示身體,再把動作轉到MuJoCo的人形物理模擬環境內,從三方面評估:關節運動是否自然、接觸與平衡是否一致、以及整體動態是否可行。比起只靠2D畫面觀感打分,這種方法更能指出問題究竟出在哪一層。

如果你想上手,較合理的方式不是把它當成一般剪片工具,而是當成研究或訓練流程中的「動作評審」。儲存庫提供有 PhyMotion-CausalForcing-1.3B 相關權重與 LoRA 形式檢查點,較適合已經在做人像影片生成、後訓練或獎勵設計的人逐步接入。

  • 重點不在直接生成影片,而在替影片中的人體動作評分
  • 結合 SMPLMuJoCo,比純2D評估更重視身體結構與物理性
  • 適用於自回歸與雙向類型的影片生成訓練流程
  • 相關資源包括論文、模型、資料集,以及 PhyMotion-CausalForcing-1.3B

整體來看,PhyMotion最有價值的地方,是把「睇落順眼」進一步拆成可分析的幾個部分,令改進方向更清楚。它特別適合研究員、AI 影片開發者,或者想提升人物動作真實感的團隊;對一般用家來說,未必是即裝即用,但作為理解下一代人物影片質素點樣提升,這個項目相當值得留意。

網址: https://github.com/h6kplus/PhyMotion

Categories: 開源, 影像模型, 影像處理, 數字人

OpenHuman:把個人AI助手帶到桌面

The Tet

如果你對 AI 有興趣,但又唔想由指令列、插件同繁複設定開始,OpenHuman 這類桌面式助手會幾易入口。按項目說明,它偏向圖形介面操作,安裝後可用較短流程連接日常帳戶,幾下點擊就能開始使用,對一般用家算友善。

它真正想解決的,不是「答你一條問題」咁簡單,而是將分散喺 Gmail、Notion、GitHub、Slack、Calendar、Drive、Jira、Linear 等工具入面嘅資訊,整理成可持續使用嘅個人上下文。系統會自動抓取連接資料,並建立本機優先嘅記憶結構,令助手唔使每次都由零開始理解你做緊乜。

較有意思的地方,是它將記憶、工具同語音互動放埋一齊。資料會轉成較易處理的 Markdown 片段,存入 SQLite,亦可同步成相容 Obsidian 的筆記庫;同時又內建網頁搜尋、抓取、檔案操作、git、測試,以及語音輸入輸出,甚至提到可加入 Google Meet。模型方面,項目表示會按任務路由到不同類型模型,亦可選用本機 Ollama;相關能力涉及推理型、快速型、視覺型模型,語音輸出則提到 ElevenLabs。

The Karpathy-Style Super Intelligence Layer for your AI Agents (OpenHuman)

重點可以咁睇:
– 以桌面介面為先,較少依賴技術設定
– 可連接 118+ 第三方服務,減少資料分散
– 本機記憶庫加 Obsidian 相容筆記,方便追蹤與整理
– 內建工具鏈較完整,唔使逐個插件補功能
– 透過 TokenJuice 壓縮內容,官方稱可降低成本與延遲

如果你係內容工作者、獨立開發者、創業團隊,或者本身已經有一堆雲端工具要管理,OpenHuman 的方向會幾吸引。不過它仍屬早期測試階段,實際穩定性、授權連接體驗同記憶準確度,較適合抱住嘗鮮加觀望心態去試。

網址: https://github.com/tinyhumansai/openhuman

Categories: 開源, Agentic

Awesome-WAM:看懂機械人點樣先諗後做

Temporal evolution and taxonomy of representative works on World Action Models (WAMs).

如果你對機械人或 AI 有興趣,但又唔想一開始就埋頭讀大量論文,Awesome-WAM 其實幾好入手。它本身唔係一個直接拿來部署的機械人程式,而係一個系統化整理庫,集中介紹 World Action Models 這個新方向,並附有每篇論文的重點摘要,方便讀者由概念開始慢慢建立理解。

這個主題想解決的核心問題,其實幾直觀:不少模型能夠由影像或文字直接產生動作,但未必真係「理解」下一步世界會點變。WAM 的做法,是將環境變化預測同動作生成放埋一齊考慮,令機械人唔只係反應快,亦更似先模擬後行動。

這個儲存庫最有價值的地方,在於它唔單止列論文,而係嘗試用統一框架整理整個領域,例如分開 Cascaded 與 Joint 兩類路線,亦有提到訓練資料來源、評估方式,以及與 Vision-Language-Action 發展之間的關係。對初學者來講,這種分類比單看論文名更易掌握全貌。

  • 提供系統化總覽,適合先建立概念再深入讀文獻
  • 有每篇文章的簡短導讀,節省篩選時間
  • 涵蓋相關模型與方向,如 RT-2、OpenVLA、π0,以及庫內收錄的 DREMA、RoboScape、Ctrl-World
  • 重視架構分類、數據來源與評估方法,唔只係單純清單

如果你想上手,最實際做法係先看它對 WAM 的整體定義,再沿分類去揀有興趣的論文摘要閱讀。研究人員、學生、做機械人產品規劃的人都會受用;即使你未必會親自訓練模型,這個整理庫都能幫你較快分清哪些方法偏向預測世界、哪些更強調動作生成控制。

整體來說,Awesome-WAM 比較似一張持續更新的地圖,而唔係單一工具。對想跟進 embodied AI、VLA 與 world model 交叉發展的人,它的價值在於幫你用較低成本看清研究脈絡,同時保留足夠細節,方便之後再深入追文。

網址: https://github.com/OpenMOSS/Awesome-WAM

網址: https://openmoss.github.io/Awesome-WAM/

Categories: 開源, 世界模型

Page 16 of 43
1 14 15 16 17 18 43