Embedding

Temporal-Distance-JEPA 訓練世界模型能懂「時間距離」

2026 年 8 月 1 日

Repository image for HKBU-KnowComp/Temporal-Distance-JEPA

香港浸會大學 HKBU KnowComp 的 Jiaxin Bai 公開了 Temporal-Distance-JEPA 論文重現項目，核心不是再做一個更複雜的世界模型，而是修正 JEPA 規劃常見的落差：訓練時學短期 latent prediction，規劃時卻往往直接拿 latent Euclidean distance 當成目標進度。這個項目屬於模型研究重現項目，處理的是離線示範沒有 reward 時，planner 點樣判斷哪條想像路徑更接近目標。

作者保留 LeWM encoder–predictor 與 SIGReg backbone，但不再只依賴 embedding 幾何，而是從 reward-free demonstration logs 挖出 directed temporal cost。做法沿住論文邏輯很清楚：同一條 trajectory 的先後步序提供 positive targets，跨 trajectory 配對充當 heuristic negatives，再用 rollout-consistency 令學到的成本更貼近 planner horizon。這種 framing 直接回應舊範式把 latent L2 當成進度代理的限制，因為拓撲主導任務未必適合只看幾何距離。

結果在 Two-Room、Reacher 這類 topology-dominated tasks，規劃時直接部署 mined cost d_psi；到了 Push-T、OGB-Cube 這類 contact-rich tasks，則改用同一個 temporally trained checkpoint 上的 latent l2 planning。locked evaluation 下，Two-Room 成功率提升到 100.0%，高於 LeWM 的 97.4%；OGB-Cube 亦比 LeWM 高 14.2 分，並且整體上對 LeWM 與 RC-aux baseline 都能持平或更好。

建基於 stable-worldmodel、stable-pretraining 與 LeWM 既有布局，重點在訓練目標與規劃成本的重新對齊
公開庫是 paper-reproduction release，保留 Python CLI，但刻意不附 cluster／Slurm 包裝
資料以 HDF5 形式放在 STABLEWM_HOME，涵蓋 Push-T、Two-Room、Reacher、OGB-Cube
採用 10 epochs，並附有 locked results、cost matrix、diagnostics 等結果資料

這個庫比較像給已有研究工作流的人接手重跑：有 Python 環境、requirements、Hydra config、資料位置與 checkpoint 輸出方式，但沒有替不同排程系統準備現成封裝。歷史上的 contrastive SoftJEPA 相容程式仍可能留在 losses.py 或 jepa.py，不屬於公開配置；換句話說，閱讀與重現時要以 td_jepa 設定為準。對做 world model、offline RL、latent MPC 的研究團隊來說，這個項目最有價值的地方，是它把「表示學到什麼」與「規劃要怎樣排序未來」重新綁在一起。

GitHub · Paper

Categories: 開源, 香港, Embedding, Python, 模型訓練, 世界模型, 中國, 浸會大學

ARI 用 RAG 修復韓國朝鮮古籍殘字

2026 年 7 月 28 日

最值得留意的，不是模型把缺字補回來本身，而是它專門處理古籍修復最棘手的一類內容：人名、地名等 Named Entities。ARI 屬於一個結合 Retrieval-Augmented Generation（RAG）的文獻修復框架，針對朝鮮王朝實錄與承政院日記這類韓文漢字史料，補足只靠局部語境時經常失準的缺口。

現有做法多數依賴 masked language modeling，擅長根據前後文猜測一般字詞，但一遇到需要外部史實支持的專名就容易失手。ARI 的取向很清楚：先用 BM25 從歷史語料找出前 20 份相關文本，再以字串相似度 0.8 過濾重複內容，將這些外部證據交給模型一併生成，修正通用 LLM 容易出現的幻覺。

模型部分不是從零開始，而是建基於 Qwen3 32B 與 Qwen3 8B 微調成 ARI-32B 和 ARI-8B，並加入 25% named entity-prioritized masking 訓練策略，把學習重點放在知識密集片段。論文亦指出，對漢字材料而言，詞彙層面的 BM25 檢索比 embedding-based retrieval 更有效，這一點頗有說服力，因為表意文字的字形與字詞對應關係本身就影響檢索效果。

適合歷史文獻整理、數位人文研究與古籍校勘團隊參考
主要強項在於修復需要外部知識支撐的 Named Entities
ARI-32B 與 ARI-8B 同步提供，前者追求表現，後者較重視運算成本
論文結果顯示，它在 named entity 與隨機遮罩字元修復都勝過多個基線與通用模型

把它視為一個已有公開模型與方法說明的研究項目。對需要先驗證效果的人來說，現階段較合理的路線會是先查看論文設定與模型頁面，再判斷是否足以接入自己的古籍修復工作流。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, Embedding, RAG, 模型, 語音, Dataset 數據集

TrajLoc 把路線描述對準衛星圖

2026 年 7 月 26 日

A trajectory can be queried as dense video or as abstract language — both retrieve the same satellite tile.

只靠一張街景相去配對衛星圖，遇到轉彎、路口相似、視角受限時好容易失手；TrajLoc改為追蹤整段移動路線，將街景影片、自然語言路線描述，或者兩者結合後對應到帶地理標記的衛星瓦片。它屬於跨視角 geo-localization 模型連同 benchmark 項目，處理的是「把連續路徑準確放回地圖」這個問題。

現有 cross-view 資料多數停留在 single-image、video-only 或 text-only 範式，作者認為這樣會拆散同一條路線入面本來互相補強的時序線索與語意線索，因此一併推出 SeqGeo-VL。呢個 benchmark 收錄 38,863 組對齊的 video-text-satellite triplets，並有 91.8% human verification pass rate，重點不是再加大資料量，而是把 sequential 同 linguistic 兩種證據放入同一任務。

TrajLoc沒有另起一套龐大時序架構，而是由 pretrained CLIP ViT-L/14 延伸成 video、text 同 satellite encoders，再用 co-training curriculum 將三種查詢模式放入同一個表示空間。作者另外加入 TrajMod，將路線幾何資訊 tau={(Δx_i, Δy_i, θ_i)} 轉成 FiLM 的 scale/shift 參數，直接調節 query embedding；做法比單靠提示詞更明確，亦保留 frozen encoders 的可重用性。

支援 video、plain language、video+text 三種查詢方式
SeqGeo-VL 是首個同時包含 sequential 與 linguistic cross-view benchmark
TrajMod 只用 waypoint offsets 與 headings，不靠 map 或 POI metadata
項目提供 agent-ready tool interface、persistent Python API 同 JSON CLI

從示範與說明看，TrajLoc的定位很清楚：它不是通用多模態聊天模型，而是給 spatial reasoning、戶外機械人、導航研究同 multimodal agents 調用的專門工具。225 ms 的示例檢索速度對互動式流程有吸引力，但目前公開資訊主要集中在 benchmark 與檢索能力，部署前仍要留意資料覆蓋範圍、地區泛化，以及自己的工作流是否真有影片或路線文本可供查詢。

項目主頁 · GitHub · 模型

Categories: 開源, Qwen, Agentic, API, Video, Image, AI productions, Embedding, Python, 多模態模型, 模型訓練, Dataset 數據集

PixelRAG 想用截圖重寫 RAG 檢索

2026 年 7 月 18 日

PixelRAG — Visual Retrieval-Augmented Generation

遇到表格、版面層次、插圖同文字混排內容，單靠文字檢索好容易漏掉關鍵線索；PixelRAG 就係衝住呢個缺口而來。它屬於一個面向 Retrieval-Augmented Generation 的開源工具項目，核心做法係先把頁面或文件渲染成 screenshots，再按畫面內容建立可搜尋索引，讓 Claude 之類模型唔只讀字，亦可以靠視覺內容搵資料。

呢個取向同傳統 RAG 最大分別，在於它假設「文件點樣呈現」本身就係訊息，而唔係只抽文字再做 embedding。代價亦好直接：前處理多咗一層 render，索引與搜尋流程會更倚賴視覺管線；但換來的好處，是面對網頁、圖文混排文件，甚至靠版面先分得清的內容時，命中機會更高。

目前公開資訊已經交代得幾清楚：安裝後可以先用 pixelshot 把任意頁面輸出成 screenshot tiles，再接上搜尋流程；亦可以直接調用官方託管 API，對既有的 8.28M Wikipedia pages 索引做查詢，連本地建庫都未必需要。它仲支援用文字查詢，並提供 visual search，意味住輸入端都唔再局限於純文字。

把文件先轉成 screenshots，再做檢索，而唔係只抽文字
適合網頁、表格、圖文混排等重視版面結構的內容
可直接試用 hosted API，亦可自行跑 render 與 search 流程
與 Claude 配合時，重點在於補足模型對畫面資訊的讀取能力

受益最大的一般會係做 RAG 應用、文件搜尋、知識助理同企業內部資料檢索的團隊，尤其手上資料唔係乾淨純文字，而係大量網頁截圖感強、排版複雜的內容。名稱已經講明「Web Screenshots Beat Text for Retrieval-Augmented Generation」，定位相當鮮明；不過 README 暫時未交代完整基準數字同部署成本，現階段更適合視為一條值得驗證的新路線，而唔係即刻取代所有文字檢索方案。

GitHub

Categories: 開源, API, Embedding, RAG, 框架

MultiRef-Compass：多模態影片不再各自為政

2026 年 7 月 17 日

同一段生成影片，畫面可能順眼、聲畫卻唔對位；角色外觀接近參考圖，指令跟從又未必準。MultiRef-Compass 抓住呢種常見落差，定位成一個開源評測工具包，處理 multi-reference multimodal video generation 的比較問題，重點唔係逐條片人手睇，而係用可重現的方法把不同模型放到同一把尺上量度。

它的取向相當明確：偏向研究比較，而唔係臨時檢查作品。項目用固定的 CSV 輸入欄位，接收文字、視覺參考、音訊參考同生成影片，再輸出 per_sample.csv、model_summary.csv、ranking.md 同 details.json。這種設計的好處，是團隊可以用同一批樣本反覆測不同模型；代價是流程較講究資料整理，較適合已有實驗管線的人。

跟只看單一分數的做法相比，MultiRef-Compass 把結果拆成四組共 14 個公開指標，包括 Basic Quality、Entity Fidelity、Audio-Video Consistency 同 Instruction Following。它同時混合 classical media-analysis pipelines、learned quality models、speaker embeddings，以及 multimodal language model judges，所以看到的不只是整體高低，仲會知道問題出在 anatomy、reference fidelity、voice timbre similarity，定係 temporal order。

用統一 schema 比較不同影片生成模型，較容易做橫向排名
保留 sample-level diagnosis，同時支援 model-level ranking
支援 text、visual-reference、audio-reference 三種條件一齊評測
著重公開 metric taxonomy，同類研究較易重現結果

現有資訊未見到完整安裝細節，但理解方式已很清楚：先準備符合欄位要求的 CSV manifest，再按指標群組跑評測後端。受益最大的，會是做多模態影片生成、聲畫對齊、角色一致性與指令跟從研究的團隊。相關能力圍繞 Visual Quality、Audio Quality、Entity Fidelity、Speech-Lip Synchronization、Voice Timbre Similarity 等指標展開；它未必幫你直接提升模型質素，卻能先把模型到底差在哪一環講清楚。

GitHub · 模型

Categories: 開源, Video, Audio, Embedding, 多模態模型, 視頻模型, 語音

EgoMemo 讓助手懂得幾時先開口

2026 年 7 月 17 日

助手最難處理的，不是看見了甚麼，而是判斷幾時該出聲、幾時應該保持安靜。EgoMemo對準的正是這個空位：它屬於一個面向連續第一身影片的記憶增強代理系統，同時附上 benchmark，目標是讓系統根據累積情境主動提供服務，而不只是等人發問或對每個事件都作反應。

現有做法多數落在兩個範式：reactive，只會被問到先答；semi-proactive，偵測到預先定義事件就回應。作者認為這兩類方法都欠缺對使用者歷史、當前活動與介入時機的判斷，所以用 EgoServe 重新定義問題，把主動協助視為 context-dependent decision problem，再由 EgoMemo用 three-level temporal memory graph、semantic knowledge graph 同 visual embedding archives 做 retrieval-augmented reasoning。

這個 GitHub 項目不止放出模型思路，亦包含 memory-graph construction + retrieval pipeline、evaluation suite、dataset annotation 與 streaming demo。理解部署方式並不複雜：先準備 Python 3.10 環境與 .env 內的 API keys、資料路徑，再下載 EgoServe 註釋及對應來源影片，之後按不同資料集分開執行 processing 與 retrieval 兩階段，前者建立記憶圖，後者生成 proactive-service response。

EgoServe 收錄超過 3,000 個 service instances，橫跨 4 個 temporal memory horizons 與 10 類服務
EgoMemo 採用 training-free 設計，重點放在記憶組織與檢索，而不是再訓練一個大模型
項目同時支援 EgoLife、HoloAssist、CaptainCook4D、EyeWo / ESTP-Bench、OVO-Bench 等資料來源
retrieval 可切換 caption retrieval、visual retrieval 等設定，方便做 ablation

EgoMemo 不是追求單次問答表現，而是補上長時間情境累積後的判斷能力。受益最大的是做 egocentric AI、智能助理、穿戴式裝置或多模態 Agentic 項目的研究團隊；限制也同樣直接，整個流程依賴外部影片資料、API keys 與多階段處理，重點更接近研究基線與評測框架，而未算一個即裝即用的消費級產品。相關模型與組件方面，儲存庫示例已出現 QwenVL 3 8B Instruct、GPT-5、Gemini 等作為 caption 或 response 端選項。

項目主頁 · GitHub · Paper

Categories: 開源, Gemini, OpenAI, Agentic, API, KnowledgeGraph, Embedding, Python, 多模態模型, 模型訓練, Dataset 數據集

Needle 想把微型 AI 帶落手機同手錶

2026 年 7 月 13 日

想喺手機、手錶或者眼鏡一類裝置放入可用嘅個人 AI，卡位往往唔係模型夠唔夠大，而係夠唔夠細、夠唔夠快，仲要肯做工具呼叫。Needle 就係朝呢個位置落手：一個以 Simple Attention Network 為核心嘅微型模型項目，重點處理 single-shot function call，目標唔係長篇對話，而係幫個人 AI 更穩定咁叫工具做事。

呢個項目最值得留意嘅地方，在於佢將 Gemini 3.1 蒸餾到 26M 參數，並且保留到可以喺 Mac/PC 本地 finetune 嘅路線。對開發者同產品團隊嚟講，意思好直接：你未必要綁死雲端大模型，亦可以先用開放權重同資料生成流程，試自己嘅工具介面、指令格式同 function schema，再按需要微調。

Cactus Needle - The 26M Function Calling Model

Watch this video on YouTube

同類小模型通常會喺「尺寸、速度、泛化能力」之間拉扯，Needle 明顯揀咗功能導向呢一邊。README 已經講得很坦白：佢喺 single-shot function call 勝過 FunctionGemma-270m、Qwen-0.6B、Graninte-350m、LFM2.5-350m，但呢類較大模型喺對話範圍同容量上仍然更強，所以 Needle 比較似一把專用工具，而唔係通才助手。

類型上屬於開源模型項目，集中解決小裝置上嘅 function call 效率與部署成本。
權重同 dataset generation 都已開放，適合拿來測試自家工具鏈同微調流程。
生產環境配合 Cactus，可達 6000 toks/sec prefill 同 1200 decode speed，取向非常著重吞吐。
預訓練用 16 TPU v6e 跑 200B tokens，之後再用 2B tokens 嘅 single-shot function call dataset 做 post-training。

模型結構亦反映咗呢種取向：Simple Attention Network 採用 encoder-decoder 佈局，配合 GQA+RoPE、Cross Attn、ZCRMSNorm 同 shared embedding，目的係用更細規模支撐工具呼叫輸出。要留意嘅限制同樣清楚，小模型本身比較 finicky，對資料格式、工具定義同微調質素會更敏感；需要穩定多輪對話或者更廣知識覆蓋嘅場景，仍然未必係 Needle 最合適。

GitHub

Categories: 開源, Qwen, Gemini, Embedding, Mac, 模型, 模型訓練, Dataset 數據集

ARDY 讓 3D 角色動作可即時受控

2026 年 7 月 10 日

一邊輸入文字、一邊指定角色要去邊、幾時抬手或者身體要擺成咩姿勢，系統仍然可以即時生成自然動作；ARDY瞄準的正正是呢種互動式 3D human motion generation 場景。呢類能力對動畫、模擬同 humanoid robotics 都重要，因為傳統離線方法雖然控制精準，但速度未必跟得上互動需求；純即時方法又常常在語意理解、長距離目標同約束服從度上打折扣。

ARDY 採用 autoregressive diffusion model，同時配合 hybrid representation，把角色移動軌跡相關的 root features 同 latent body embedding 結合。咁樣做的用意很直接：一方面保留對路徑與朝向的明確控制，另一方面維持生成模型學習複雜全身動作時的效率與彈性。配合 two-stage autoregressive transformer denoiser，同一套框架可以處理 online text prompting，亦能接住較長時間範圍的 kinematic constraints。

它支援的約束方式幾完整，包括 root paths、waypoints、full-body keyframes，以及 sparse joint positions/rotations，亦可混合使用。更重要的是，約束唔一定只限當前生成視窗，較遠將來的目標都可以先講定，令角色更容易朝長程目標連續行動，而唔係每幾步就失去方向。

支援 online text-to-motion generation，可即時改提示詞
可加入 root paths、waypoints、full-body keyframes 同 sparse joint constraints
兼顧即時反應、動作品質同長距離控制
面向動畫、模擬、humanoid robotics 等互動工作流

資料提到，ARDY 以大型 motion capture dataset 訓練，並直接用文字標籤與來自真實姿勢抽樣的 kinematic constraints 作條件，令模型原生學會受控生成。研究團隊亦展示了互動式 demo，涵蓋動態文字控制、關鍵幀約束、路徑跟隨同即時 locomotion control；定位上，它較適合需要邊調邊看結果的內容製作與研究場景。

項目主頁 · 模型

Categories: NVIDIA, Video, 軟件, 3D, Embedding, 動畫, 提示詞, 模型訓練, Robotic, 世界模型, VLA, Dataset 數據集, 框架

TESSERA 把全年衛星影像壓成地表嵌入圖

2026 年 7 月 10 日

做地表分類、樹冠高度預測，或者想先整理一塊區域的衛星時序資料，卡位通常出在雲遮、感測器差異同時間序整理。TESSERA 屬於地球觀測 foundation model，核心做法係把一年份 Sentinel-1 同 Sentinel-2 觀測壓成 10m 解析度、逐像素的 representation（embedding）map，讓後續任務直接食用較穩定的特徵，而唔使每次由原始影像重新清洗。

TESSERA 同常見只做 cloud-free composite 或單時點特徵抽取唔同。作者明顯想保留 temporal-spectral 訊息，將不規則觀測、光學與雷達資料一齊編碼，所以它較像先建好一層通用地表表示，再交畀分類、回歸或視覺化項目使用；代價係流程唔算輕量，現階段亦仍然係 alpha，對外存取有限。

部署流程分成資料預處理、推理、再把輸出的分塊結果拼回最終 representation map；輸入會包括 ROI 的 TIFF、Sentinel-1/2 的起止日期，而且目前 downsample rate 只支援 1，即維持 10m 解析度。README 亦提到要先看完整教學，並涉及 Docker 與一定硬件需求，較適合有遙感或資料工程能力的團隊測試。

把全年 Sentinel-1 與 Sentinel-2 壓成逐像素 embedding，而唔係只輸出單次影像結果
適合接駁土地分類、樹冠高度預測、表示視覺化等下游任務
目前偏研究與內部測試階段，外部使用門檻仍然存在
10m resolution、TIFF 輸入、按時間範圍抽取資料，工作流相對完整但較重

相關模型 TESSERA 前身為 BTFM；延伸資料亦顯示 TESSERA v2 研究緊 pixel-wise EO foundation models 點樣擴展，並包含 0.5B、1B，以及訓練中的 2B 模型，再蒸餾成較細的 student。當中 21M 參數的 distilled 版本主打 embeddings-as-data 部署，仲提供 MATRYOSHKA representations，16 維前綴已可保留大部分 128 維表現。對想長期經營遙感特徵底座的團隊，呢個方向比逐任務重訓更有吸引力。

項目主頁 · GitHub · Paper

Categories: 開源, NVIDIA, Embedding, 模型, Dataset 數據集

[技術文章] Gemma 4：更快更慳算力的多模態開放模型

2026 年 7 月 8 日

Google 正式發佈 Gemma 4 技術報告文章：

當模型要同時處理文字、圖片同音訊，常見做法多數靠獨立 encoder 加上大型語言模型組合；能力雖然完整，但記憶體佔用、推理速度同長上下文成本都容易變重。Gemma 4 Technical Report 針對的正是呢個矛盾：唔只追求更強表現，亦想把多模態理解、推理能力同計算效率放到同一條路線上處理。

Gemma 4 屬於 open-weight、natively multimodal language models，涵蓋 dense 同 Mixture-of-Experts（MoE）架構，規模由 2.3B 到 31B。報告最值得留意的對比，在於作者唔再只沿用「更大模型加外掛模組」呢種固定範式，而是加入 thinking mode，令模型先產生 reasoning trace 再回答；同時用長上下文優化、KV cache sharing，以及在 12B 版本引入 unified, encoder-free architecture，把 raw audio 同 image patches 直接投影到 LLM embedding space。

呢種設計帶來的好處幾實際：一方面，長上下文下的記憶體壓力有機會減輕，報告提到 global KV cache footprint 最多可減 37.5%；另一方面，模型亦提供用 quantization-aware training（QAT）訓練的量化版本，盡量在不明顯犧牲品質下減少參數記憶體佔用同延遲。另有 autoregressive multi-token prediction（MTP）drafter head，配合 speculative decoding 提升解碼速度。

支援文字、圖片、音訊，多個型號覆蓋不同硬件需求
以 thinking mode 加強數學、編程等重推理任務
透過 p-RoPE、KV cache sharing 等方法改善長上下文效率
12B 型號採用 encoder-free 路線，減少獨立 encoder 帶來的記憶體碎片化

性能方面，報告指 Gemma 4 在 STEM、多模態同長上下文 benchmark 有明顯進步，亦在 Arena 等 human-rated tasks 接近更大型的 frontier open models。原始資料未提供安裝步驟或完整使用流程，但已清楚交代模型系列的核心取向：用較可控的成本，換取更接近前沿水準的多模態推理能力，並以 Apache 2.0 授權開放。

Paper

Categories: Google, Gemini, Image, Audio, Embedding, 多模態模型, 模型, 模型訓練, Dataset 數據集

Page 1 of 3

1 2 3 Next »