system-prompts-and-models-of-ai-tools:拆解 AI 工具幕後設定的熱門資料庫

Latitude Logo

如果你一直好奇不同 AI 工具背後是怎樣被「設定」出來,這個 GitHub 專案正正提供了一個集中參考點。它主要收集各類 AI 產品的系統提示與所用模型資料,讓人可以從實際例子觀察這些工具如何定義角色、限制回應方式,以及安排功能邏輯。

對一般讀者來說,上手方式不算複雜:直接按工具名稱瀏覽內容,對比不同產品的寫法與模型選擇即可。即使你不寫程式,也可以把它當成一份 AI 產品觀察筆記,了解一個聊天機械人或助理服務背後,原來有不少隱藏規則在控制輸出表現。

這個專案最有價值的地方,在於它把分散、難找、而且經常變動的資料集中整理,節省搜尋時間。它同時提醒了一個現實問題:不少 AI 產品的內部設定一旦外洩,就可能暴露產品策略、安全風險,甚至提示設計上的弱點。

  • 集中收錄多款 AI 工具的系統提示與模型線索
  • 適合做產品研究、提示工程參考及競品觀察
  • 可用來比較不同工具的語氣、限制與任務設計
  • 亦反映 AI 產品在保安與資料外洩上的風險

從儲存庫名稱可見,內容焦點不只在提示文字,亦包括模型資訊;相關例子大致圍繞各類 AI tools 使用的模型配置,但具體覆蓋名單可能會持續更新。若你是開發者、研究 AI 產品的人、內容團隊,甚至單純想更懂 AI 回應為何有某種風格,這個專案都值得收藏,但閱讀時仍要保持審慎,因為部分資料的時效性與來源背景可能需要自行核實。

網址: https://github.com/x1xhlol/system-prompts-and-models-of-ai-tools

Categories: 開源, 提示詞

MacDraw:在 Mac 螢幕即畫即講

MacDraw preview

MacDraw 係一個專為 macOS 而設的桌面工具,重點好直接:開住之後,你可以喺螢幕畫面上層即時塗寫,好似用透明膠片覆蓋住畫面咁。對於要講解流程、直播示範,或者同人遠端睇同一個畫面時,它比起截圖再加工快得多。

實際使用上,它預設唔會長期進入繪圖狀態,平時較似待命;要臨時畫兩筆,可以按住 Control 再點擊或拖曳,講完就放手。若果你想持續書寫,亦可切換成鎖定模式,而按 Escape 就可以即刻停用,對避免誤觸幾有幫助。

它吸引之處,在於做法相當貼近 macOS 原生操作,而且支援多個已連接顯示器一齊覆蓋,對雙螢幕或外接顯示器用家特別實用。除咗自由手繪,亦有矩形框選、擦膠、筆刷顏色與粗幼調整、復原同清除,另有可調時間的殘影效果,適合用來短暫標示路徑或視線焦點。

  • 適合場景清晰:網上教學、產品示範、技術支援、會議講解都用得着
  • 操作門檻低:用快捷鍵臨時畫、即時停用,唔需要學複雜介面
  • 功能夠實際:手繪、矩形、擦除、清空、復原都屬常用配套
  • 多螢幕友善:可覆蓋所有已連接顯示器,唔局限單一畫面
  • 表現方向明確:以原生 macOS AppKit 介面配合透明畫布為主

如果你本身用 Mac 做教學、簡報或錄影,MacDraw 屬於一類「平時未必諗起,但用過會覺得方便」的工具。從程式結構來看,項目主要圍繞控制面板、覆蓋視窗、畫布繪製與鍵盤控制幾部分,暫時見到的重點較集中喺桌面即時標註,而唔係進階圖像編輯;對想要簡單、直接、低干擾體驗的人,方向相當對路。

註:100% Codex 作品!

網址: https://github.com/elbartohub/MacDraw

Categories: 開源, Mac

Causal-Forcing 點樣令影片動作更豐富

overview

如果你對 AI 生成影片有興趣,Causal-Forcing 最值得留意的地方,不只是「出片快」,而是它特別著重動作變化是否合理。很多影片模型可以生成靚畫面,但人物移動、鏡頭轉換或物件軌跡,往往會有忽快忽慢、前後不連貫的情況;呢個專案正正是針對這類動態問題下手。

它的核心想法,是用更符合時間先後關係的方法,去引導自回歸式影片生成。簡單講,模型不只是學每一格畫面「似唔似」,而是更重視每一步動作點樣接續上一刻,令運動軌跡更穩定。README 亦明確指出,Causal Forcing 在視覺品質之外,對 motion dynamics 的表現比 Self Forcing 更好,而且訓練成本與推理效率大致維持同一水平。

對一般使用者而言,上手方向算清晰:它已提供推理與訓練流程,並支援文字生成影片,以及由圖片延伸成影片的形式。特別是 frame-wise 版本,因為按逐格方式處理,較容易理解為直接面向每個時間步,對需要細緻控制動作延續的人會更有吸引力。

  • 重點放在動作連貫性,不只追求單幀畫面靚
  • 支援 chunk-wise 與 frame-wise 兩類模型設計
  • 涵蓋 T2V、I2V,實用場景較廣
  • Causal Forcing++ 再進一步提供 1-step、2-step frame-wise 模型
  • 相關版本可留意 Causal Forcing、Causal Forcing++,以及 README 提到的 Self Forcing 作比較對象

再看它的創新位,關鍵在於用 Causal ODE,或在 Causal Forcing++ 中改用 causal Consistency Distillation,去做一個更合理的初始化,再配合 asymmetric DMD。從專案說明可見,作者很強調「生成軌跡要對齊」這件事,亦因此在某些階段要使用自回歸老師模型,這對保持動作隨時間推進的一致性尤其重要。

如果你的重點是互動式影片、角色連續動作、長一點的鏡頭推進,呢個專案比起只看單張效果的模型更值得研究。它未必是最易即學即用的大眾化工具,但對於想改善 AI 影片「會動但唔自然」這個老問題的人,方向相當明確。

網址: https://github.com/thu-ml/Causal-Forcing

網址: https://arxiv.org/pdf/2605.15141

Categories: 開源, 視頻模型, 清華大學

Lighthouse Attention:長上下文訓練新思路

Repository image for ighoshsubho/lighthouse-attention

如果你有留意大型語言模型,應該知道文字愈長,運算成本往往升得愈快。Lighthouse Attention 針對的正正是這個痛點:在極長上下文訓練時,用分層挑選的方法,先縮細需要重點處理的內容,再交回現成的高效注意力流程處理。

這個儲存庫不是一個即開即用的聊天程式,而是建基於 PyTorch 的 torchtitan 訓練框架之上,以補丁形式整合。換句話說,較適合本身已經做模型訓練、想比較不同注意力機制的人;一般用家未必會直接跑起,但讀它的設計仍很有參考價值。

它較特別的地方,在於不是把稀疏機制硬塞進自訂核心,而是先做選擇,再沿用現有的 FlashAttention 密集計算路線。這樣的好處是較易受惠於上游優化,也減少為新方法重寫整套底層核心的負擔。資料顯示,它提供 normdilatedgla 三種評分變體,亦支援可選的 context parallel 路徑。

如果你想上手,較實際的做法是先把它當成研究原型:按版本要求準備好 torchtitan、對應提交版本、兩個額外原始檔及補丁,再用 configs 內不同設定比較 top-K、pool、大細層數與 scorer 差異。官方資訊亦提到,它曾在 530M Llama-3 規模、以及最高百萬 token 訓練情境下驗證。

重點可以這樣看:
– 主要用途是降低超長上下文訓練時的注意力成本
– 核心做法是分層挑選重要片段,再交由密集注意力計算
– 已列出多組可比較設定:top-K、pool、levels、scorer、CP
– 相關評分或路線包括 normdilatedgla
– 較適合模型研究、訓練基建開發及長文本實驗場景

只要是標準的 decoder-only Transformer / causal LM,基本都可以替換它的 Q/K/V self-attention 層。

判斷標準
只要模型滿足下面幾點,就通常能做這種替換:
有 self-attention 層,而不是依賴複雜的外部編碼器。
層裡能清楚找到 q_proj / k_proj / v_proj 或等價實現。
是 decoder-only 架構,使用 causal mask。
沒有把 attention 邏輯寫死成特別難拆的自定義模塊。

最適合的模型類型
Llama 系列:最常見,結構標準,Q/K/V 分明,最容易改。
Qwen 系列:也是標準 decoder-only 路線,通常同樣適合做 attention 替換。
Mistral 系列:同樣屬於 decoder-only LLM,理論上也適合。
GPT-style / LLaMA-style 自回歸模型:只要是單向 causal attention,一般都能改。

整體來說,Lighthouse Attention 最吸引之處,不只是追求更快,而是嘗試在訓練期保留與現有生態的相容性。對需要探索 98K、512K 甚至更長上下文訓練的人,它是一個值得細看、但明顯偏研究與工程用途的專案。

網址: https://github.com/ighoshsubho/lighthouse-attention

網址: https://nousresearch.com/lighthouse-attention

Categories: 開源, 模型訓練, 深度學習

Orthrus如何令Qwen3生成更快

Orthrus logo

Orthrus 是一個圍繞 Qwen3 模型建立的生成框架,重點不是做全新聊天模型,而是想辦法令文字生成更快,同時保持與原本基礎模型一致的輸出分佈。對一般讀者來說,可以理解成它想保留傳統逐字生成的準確感,又借用擴散式並行生成的速度優勢。

這類工具主要針對大型模型生成時「要逐個字等」的樽頸。Orthrus 提出雙重架構做法,讓同一個模型同時具備兩種觀看方式,並強調結果是無損的,也就是目標並非用近似答案換速度;根據專案資料,生成可有最高約 7.8 倍加速。

如果你想上手,最直接方法不是自行訓練,而是先試用作者提供的模型檢查點,再用 Hugging Face 的常見載入流程做推理。現時公開型號包括 Orthrus-Qwen3-1.7BOrthrus-Qwen3-4BOrthrus-Qwen3-8B,分別對應 Qwen3 的 1.7B、4B 與 8B 基礎模型。

值得留意的是,它不是靠把整個模型重訓來換速度,而是只微調部分參數,基礎 LLM 保持凍結,同時兩種生成視角可共用同一套高保真 KV cache。對部署者來說,這代表它除了講求快,亦有意控制額外記憶體成本,這點對長輸出或高頻推理場景特別實際。

  • 以 Qwen3 為骨幹,現有 1.7B、4B、8B 幾個版本
  • 重點在提升生成吞吐,而非改變模型用途
  • 強調結果與原基礎模型保持一致,而非近似加速
  • 額外記憶體開銷較低,較適合推理部署評估
  • 對研究者、模型工程師及需要大量文字生成的團隊較有參考價值

整體來看,Orthrus 最吸引之處在於它把「快」與「不走樣」放在同一個方案內處理。若你正關注本地或伺服器端 LLM 推理效能,尤其已經在使用 Qwen3 生態,這個專案很適合作為實驗與比較基準;至於與 vLLM 或 SGLang 的更原生整合,則似乎仍在後續規劃中。

網址: https://github.com/chiennv2000/orthrus

Categories: 開源, Qwen, 模型, 模型訓練, 中國

PresentAgent-2:將查詢變成影片簡報

image

如果你曾經試過為一個新題目做簡報,就會知道最花時間的往往不是排版,而是先找資料、定重點、再把內容講清楚。PresentAgent-2 想處理的,正正是由一句自然語言提問開始,逐步變成一段有旁白的簡報影片,而不是假設你一開始已經有一份完整文件。

這個專案的流程相當清晰:先把模糊問題收窄成較聚焦主題,再整理候選來源,抽取文字、圖片、GIF 甚至影片素材,之後才規劃簡報結構、生成投影片與講稿,最後合成音畫對齊的影片。對一般用家來說,可以理解為把「搜集資料、寫大綱、做 slides、配音」串成一條自動化工作流。

較有意思的是,它不只做單一講者式內容,還支援多講者討論,以及有根據的互動問答三種形式。另一方面,動態素材會盡量保留為 GIF 或影片,而不是全部截成靜態圖,這令最後成品更接近真正可觀看的解說片,而不只是會動的投影片。

如果你想了解它是否適合自己,較合用的情境包括教學短片、研究題目導讀、產品介紹,或需要快速把一個概念講清楚的內容製作。現階段它更像研究型框架,較適合 AI、多模態內容生成、代理式工作流的開發者與研究者參考,而非即開即用的普通消費工具。

  • 由短查詢出發,不需要先準備完整原稿
  • 可產出投影片、講稿、旁白與最終影片
  • 支援單人講解、多人討論、互動問答
  • 能保留 GIF 與影片等動態素材,表達力較強
  • 評估方式包含選擇題測試與主觀打分,重視內容與呈現效果

相關模型方面,倉庫資料提到以 VLM 參與評估,扮演觀眾回答問題及進行評分,但公開資訊未見完整列出所有底層模型名稱。若你關心的不是單一模型,而是「怎樣把多個能力串成可交付影片」,PresentAgent-2 的參考價值會比單看文字或圖像生成工具更高。

網址: https://github.com/AIGeeksGroup/PresentAgent-2

Categories: 開源, 視頻模型, 中國, 北京大學

RealICU:測試AI能否真正讀懂深切治療數據

Og image

RealICU 是一個用來評估大型語言模型在深切治療部情境下表現的基準。重點不在於AI有沒有照抄以往醫生做過的決定,而是看它面對長時間、資訊密集又持續變化的病人資料時,能否作出較接近臨床正確性的判斷。

如果你對醫療人工智能有興趣,RealICU-Bench 值得留意。它聚焦深切治療部入面又長又密集的病人資料,目的唔係叫模型照抄過往醫生做法,而係測試模型面對完整病程時,能否作出更合理判斷。

這個項目針對一個很實際的問題:ICU 決策往往要在高壓下,快速整合大量檢驗、監測和病程資訊。現有不少評估方法把歷史醫療行為當作標準答案,但原始決策當時可能資訊未齊全,因此未必最理想;RealICU 改用事後回顧整個病人歷程的標註方式,嘗試更公平地評估AI推理能力。

如果你想了解或使用這個項目,最適合由它定義的四類任務入手:病人目前情況、急性問題、建議處置,以及需要避免的危險行動。網站亦提供論文與程式碼入口,而資料集顯示仍有部分內容即將推出;若你是研究者,可先用 RealICU-Gold 和 RealICU-Scale 的設計思路,理解其評估框架。

  • 由超過30位臨床醫生共同界定核心任務
  • 包含 930 個醫生共識樣本,以及 11,862 個大規模評估視窗
  • 引入經醫生驗證的 LLM 評估器作大規模標註
  • 提出 ICU-Evo,以結構化記憶研究長時序推理
  • 發現前沿模型存在召回與安全之間的取捨,以及錨定偏差

這個項目的創新之處,在於它把評估焦點由「像不像醫生以前做過的事」轉向「是否真正理解病情演變」。另外,ICU-Evo 用多種結構化記憶整理臨床上下文,較貼近醫生思考方式;不過作者亦明確指出,這類方法雖有助長程推理,仍不足以保證安全。

整體而言,RealICU 特別適合醫療AI研究者、醫院創新團隊,以及關注高風險場景AI安全的人士。從現有結果看,這不是一個宣稱模型已可直接臨床部署的項目,而是一個更嚴謹的測試場,幫助大家看清AI在真實重症決策支援中的能力與限制。

層級作用規模標註方式
RealICU整體 benchmark全部框架包含 Gold 和 Scale 兩部分 
RealICU-Gold高品質基準集930 windows / 94 patients醫師共識標註 
RealICU-Scale大規模延伸集11,862 windowsOracle 自動擴展標註 

在 RealICU-Gold 上,Gemini-3.1-pro + ICU-Evo 達到 Patient Status 0.459、Action Recommendation Recall@5 0.534;同時,structured memory 雖然提升了長程推理,但仍然沒有徹底解決安全失敗和 anchoring bias. 也就是說,ICU-Evo 是“更好的 memory-based agent”,但不是把 RealICU 這個 benchmark 作為最終方案。

RealICU
├─ RealICU-Gold
│  └─ 930 個 window,來自 94 個 ICU stays
│     └─ 由多位 ICU 醫師做 hindsight consensus 標註
└─ RealICU-Scale
   └─ 11,862 個 window
      └─ 用 Oracle(醫師驗證過的 LLM hindsight evaluator)自動擴展標註

網址: https://chengzhi-leo.github.io/RealICU-Bench/

Categories: 開源, Medical醫學, 框架

SU-01:數理推理模型的新示範

SU-01 training and inference pipeline

如果你對「AI識答數學題」有興趣,SU-01是一個幾有代表性的案例。它是一個 30B-A3B 推理模型,目標不是單靠背答案,而是嘗試完成較長步驟、較講求證明結構的數學與科學題目,尤其接近競賽題風格。

對一般讀者而言,最易理解的用法,是把它當成一個專注於複雜解題的模型來看,而不是萬能聊天機械人。官方資訊顯示,模型已公開權重,亦有技術報告與專案頁面;如果你本身會用 Hugging Face 一類平台,就可以進一步了解它的輸出表現與測試方式。

SU-01較特別的地方,在於它不依賴外部工具、寫程式執行,或者專門符號求解器,仍然想把長鏈條推理做好。訓練上,它用了較有策略的資料排序方式,以及分兩階段強化學習,先追求可驗證答案,再逐步改善證明質素,這點對處理多步驟題目尤其重要。

  • 重點放在數學、物理等需要嚴謹步驟的解題
  • 嘗試處理長篇推理與證明修正,而非只輸出最終答案
  • 在 IMO 2025(第66屆國際數學奧林匹亞)、USAMO 2026(美國數學奧林匹亞)、IPhO 2024/2025 有高水準成績
  • 相關模型可留意同類推理系統,例如 DeepSeek-R1、OpenAI o1 類型模型,以及其他數理導向大型語言模型

如果你是研究員、教育科技開發者,或者想比較不同推理模型在高難度題目的差異,SU-01很值得觀察。對一般學生來說,它未必是即開即用的溫習工具,但作為理解 AI 如何由「識答題」走向「識證明」的例子,參考價值相當高。

整體來看,SU-01吸引之處不只在分數,而是在方法上走一條相對簡潔統一的路線。從公開資料判斷,它更像是一個展示「後訓練如何提升嚴謹推理」的研究型專案,適合關心 AI 推理上限的人細看。

網址: https://github.com/Simplified-Reasoning/SU-01

Categories: 開源, 香港中文大學, 模型, 深度學習, 中國

Warp-as-History:一段片訓練出「鏡頭操控」

Warp-as-History teaser

如果你對 AI 影片生成有興趣,但又覺得「要大量素材先訓練」門檻太高,Warp-as-History 的吸引力正在於它嘗試只用一段訓練影片完成相機視角控制。簡單講,它想做的是讓系統學會原片中的空間與運鏡關係,再按你指定的鏡頭路徑生成新畫面。

對一般使用者來說,理解這個專案的最好方法,不是把它當作普通文字生片工具,而是視為一個偏向「鏡頭操控」的研究型方案。你需要先準備一段帶有相機資訊的影片,再配合指定模型做推理或訓練;官方列出的預設組合包括 Helios-DistilledWarp-as-History LoRA,而 Helios-Mid 主要用於訓練,另外 README 亦提到 Pi3X

它解決的重點問題,是生成影片時常見的視角不穩、鏡頭移動不連貫,以及難以精準控制觀看方向。這個方法特別強調互動式鏡頭軌跡跟隨與視點調整,定位上與 HappyOyster、Genie 3 這類方向相近,但賣點是把所需訓練資料壓到單一範例,這點相當有研究價值。

  • 一段訓練影片 已是核心設定,對資料收集要求較低
  • 重心不在純文字生成,而在鏡頭路徑與視角控制
  • 相關模型包括 Helios-Distilled、Warp-as-History LoRA、Helios-Mid、Pi3X
  • 較適合研究實驗、效果驗證,未必是即開即用的消費級工具

如果你是做生成式影像研究、互動敘事、虛擬攝影,這個專案值得留意;若你只是想快速剪片或一鍵出成品,可能會覺得前置準備仍然偏技術性。整體來看,Warp-as-History 最有意思的地方,是把「影片歷史資訊」由單純上下文提升為可延續的視角依據,令相機控制這件事更像真正可操作的生成條件。

網址: https://github.com/yyfz/Warp-as-History

Categories: 開源, 影像處理, 視頻模型, 世界模型, 中國

MoCam:用影片重建自然新視角

Og image

MoCam 是一個針對影片「重新取景」的方法,重點是由原有影片生成新的觀看角度。它主打在幾何先驗不完整、失真,甚至場景有動態變化時,仍能產生較連貫而且接近真實感的畫面。

這個方法的核心做法,是把生成過程分成較有結構的去噪步驟:先處理初步的幾何對齊,再逐步修正外觀細節。簡單理解,就是先盡量擺正場景與視角,再補回畫面的質感,藉此減少新視角常見的破碎、跳動或不自然問題。

對一般讀者而言,它適合用來理解新一代影片視角生成技術如何改善傳統方法的限制,特別是面對複雜鏡頭移動,例如大幅度運鏡、推拉鏡,以及 bullet time 一類效果。網站展示亦顯示,它同時面向靜態與動態場景,而不只限於單一物件或簡單背景。

重點可留意:
– 可由影片生成新的鏡頭角度與運鏡效果
– 幾何資訊不足時,仍嘗試維持畫面穩定性
– 以分階段去噪流程兼顧對位與外觀修飾
– 展示涵蓋大幅移動、複雜軌跡、Dolly Zoom 等情境

目前公開頁面以研究簡介和示範效果為主,GitHub 與 Hugging Face 模型仍標示為即將推出,因此暫時未見完整上手文件、安裝方式或量化評測數字。若你是做電腦視覺、影片生成、虛擬攝影,或想了解擴散模型如何應用在新視角合成,這個項目值得持續留意。

網址: https://orange-3dv-team.github.io/MoCam/

Categories: 開源, 影像處理, 視頻模型

Page 1 of 78
1 2 3 78