開源 – Page 5 – InferNews

Color Pass-Through 重新做色彩校準

2026 年 7 月 26 日

想像你透過手機或頭戴裝置睇現場畫面，明明場景喺眼前，畫面顏色同亮度卻總有一層隔膜。Color Pass-Through 針對的正正係呢種 camera-display 不一致：它屬於影像處理研究項目，以端到端方式學習固定裝置上的 camera-display 路徑，目標唔係單獨校正相機或螢幕，而係令人經過裝置觀看時，感知上更接近真實場景。

作者明確反對傳統 ICC workflow 呢種兩段式校準範式。舊做法會先分開處理相機同顯示器，再靠預先定義的中介色彩空間接駁，誤差容易逐步累積；Color Pass-Through 改為直接學完整投影路徑，並為每位觀察者做 one-step calibration。呢個取向的好處係更貼近人眼最終見到的結果，代價就係它依賴特定 device pair，同時帶有 observer-specific 設定，泛化方式同傳統標準化流程唔一樣。

目前公開資訊顯示，項目已放出完整 training and inference pipeline，並提供兩款支援裝置的 pretrained checkpoints，所以較合理的理解方式係：它首先係研究原型，其次先係可重現的程式碼。資料集仲準備公開，Android toy example 亦仍在開發中，部署重點暫時仍然放喺已支援裝置上重現論文結果，而唔係即插即用地套入任何手機。

核心改動係把 camera 與 display coupling，唔再經固定中介色域分開校正
以每位使用者一次校準換取更貼近主觀觀感的色彩與亮度表現
人類評分提升 +2.0 分（5 分制），亮度 4.32/5，色彩 4.03/5
定量結果亦有明顯優勢，PSNR、ΔE、STRESS 在兩款商用手機上都優於列出的基線

同類方法很多時會加強 white balance、ColorChecker mapping，或者在既有 ISP 後面再補一層修正；這個項目則直接把問題重寫成特定裝置、特定觀察者的整體感知重建。對做 AR/VR pass-through、顯示校準、計算攝影研究的人最有參考價值，尤其當重點唔係標準色彩流程有幾完整，而係人眼最後見到的畫面到底似唔似真景。

項目主頁 · GitHub · Paper

Categories: 開源, 香港中文大學, 華為, 模型訓練, 蘋果, Dataset 數據集

ProVisE 用像素答案重做空間評測

2026 年 7 月 26 日

當一條空間題目本來應該用圈選、標記路徑或者遮罩去表達，硬要模型交出座標、選項字母或文字描述，結果往往唔係能力差，而係答題介面同模型表達方式錯位。ProVisE屬於評測框架，處理的正是呢個落差：它唔改原本 benchmark 任務本身，只改回應介面，讓圖像生成模型用像素空間交答案，再轉回 benchmark 可計分的結構化輸出。

現有 spatial benchmarks 多數沿用 text-only interface，假設所有模型都應該以 coordinates、option labels 或 textual descriptions 回答。作者認為這種固定範式會壓縮 regions、paths、affordances 呢類本身偏視覺的判斷，因此提出 Protocolized Visual Evaluation：先由 task-aware router 指派 visual protocol，再用固定 guidance prompt 同 parser 約束輸出，最後仍然交回 original benchmark metric 評分。Text-output VLMs 就維持原本答題空間，兩類模型可以在同一套任務語義下比較。

ZJU-OmniAI/ProVisE 在於把「模型唔識答」同「評測方法逼錯答案格式」分開處理。配套的 SpatialGen-Bench 收錄 470 個 curated samples，涵蓋 14 個 subtasks，同時分成 perception、understanding、reasoning、interaction 四個 capability levels；研究結論亦相當直接，image-generation models 在可把判斷外化成像素標記的任務上有競爭力，但 text-output VLMs 在另外一些題型仍然較穩定，兩者並非誰全面取代誰。

保留原有 benchmark metric，只替換答案介面，方便同既有結果對照
用 visual protocol 限制生成內容，減少任意畫圖帶來的解析歧義
SpatialGen-Bench 把空間能力拆成 14 個 subtasks，唔再只看單一總分
適合研究 VLM、image-generation models、agent 空間理解能力的團隊採用

安裝門檻看來不高，程式環境以 Python 3.10+ 為主，並已公開 code、project page 與 Hugging Face 上的 SpatialGen-Bench。現階段它更像研究與評測項目，不是即插即用產品；重點也不在部署成服務，而是在你想驗證模型空間認知時，能否用更貼近模型輸出形式的方式做比較。對做多模態模型、視覺評測或 Agentic 系統的人來說，ProVisE提供了一個相當清晰的檢查角度。

項目主頁 · GitHub · Paper

Categories: 開源, Agentic, Image, Python, 多模態模型, 視覺模型, Dataset 數據集

VCSD 點樣逼可以 Vision-Language Models 真係睇圖

2026 年 7 月 26 日

不少 Vision-Language Models 會表面上處理圖片，實際卻沿住語言慣性作答。VCSD 屬於模型訓練方法，針對嘅正正係呢種「答案似乎合理，但未必真係由圖像帶動」嘅問題：它讓同一個 EMA teacher 分別看原圖同內容被抹走嘅 control input，再用兩者對每個 response token 嘅分佈差異，提煉出更依賴視覺內容嘅學習目標。

現有 on-policy self-distillation（OPSD）多數靠 privileged answers 或 visual evidence 製造 teacher 比 student 更強嘅訊號，VCSD反過來把 image-content removal 變成非對稱來源。做法唔係直接獎勵某幾個字，而係用原圖分佈 p_hi 同控制輸入分佈 p_ctrl 嘅 log-probability 差，配合 α 調整對比強度，再用 β-plausibility mask 限制只喺 teacher 原本已視為可信嘅 token 集合內重新分配機率；README 亦講明 β 設成 0.0 會令訓練崩潰，代表呢個護欄唔係裝飾，而係方法成立嘅關鍵。

項目目前仍然係 work in progress，代碼、設定同文件都可能再改。倉庫已放出訓練資料格式線索，例如 train.parquet 需要 prompt 同 image 欄位，train_answer.parquet、val_answer.parquet 用作 answer-conditioned validation；訓練則建基於繼承自 verl 嘅 GRPO/PPO 流程，VCSD 相關改動集中喺 verl/trainer/ppo/vcsd.py、verl/workers/actor/dp_actor.py 同 actor 設定檔，表示它比較似可插入現有 RL 訓練管線嘅附加目標，而唔係一套獨立框架。

核心取向係用 visual contrast 代替 privileged answers 或 visual evidence
學生模型學習嘅係 full-vocab KL 目標，唔係逐 token 手動加權
control input 可設成 black、degrade 或 noimg，用來測試答案有幾多真係靠圖像
已公開結果顯示，VCSD 在 ViRL39K 上對 Qwen3-VL 與 Qwen3.5 系列均比 matched OPSD 更好

從已公開數字看，Qwen3-VL 在七個 benchmark aggregate 上由 2B 的 62.27 升到 67.04、4B 由 71.30 升到 73.16、8B 由 72.51 升到 76.26，方向相當清楚：它想改善嘅唔係推理時計算量，而係訓練期間點樣把「圖片真正提供咗乜嘢」變成更乾淨嘅監督訊號。對已經有 Vision-Language Models RL 訓練流程、又想減少外部 teacher 與額外標註依賴嘅研究團隊，呢個項目值得跟進；不過現階段仍要接受文件未齊、介面可能變動，以及結果主要來自論文與項目頁面披露。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, Image, 多模態模型, 視覺模型, Robotic, VLA, Dataset 數據集, 框架

TableVerse 想補上機械臂數據缺口

2026 年 7 月 26 日

機械臂要學會喺凌亂桌面執放物件，卡位通常唔在控制器，而在訓練資料太乾淨、太想像化。TableVerse 屬於Dataset 數據集加上資料生成流程，重點不是再用文字幻想場景，而是用 Real2Sim 從網上真實圖片重建可放進模擬器的桌面配置，直接處理泛化操作最缺的場景真實感。

現有做法常見兩條路：text-to-layout hallucination，或者較簡化的 procedural generation。作者批評前者容易做出物理上唔合理的擺位，後者又捉唔到人類日常環境常見的密集雜物；因此 TableVerse 改成 deterministic reconstruction，從非結構化的 in-the-wild image data 還原具備 metric scales、authentic topologies 同 verified mechanical stability 的場景，取向明顯偏向可落地訓練，而唔係只追求合成速度。

項目現時最重要的成果是 TableVerse-100K，公開了 100,000 個 physically consistent 的桌面環境，並配對 interactive manipulation trajectories。網站資料顯示，它還接上自動化 task-conditioned trajectory generation，先由 MLLM 根據場景視角提出 object-to-target 配對，再生成 collision-free pick-and-place demonstrations，令數據不只得靜態場景，亦包含可直接餵給操作策略學習的示範。

以真實圖片重建桌面，而非只靠生成式佈局
提供 100K 場景與 pick-and-place 軌跡，規模夠大
強調物理一致性、機械穩定性與模擬可用性
適合做 generalizable manipulation 與桌面操作研究

部署角度上，這個 GitHub 儲存庫目前更接近論文與資料入口，主要連到 arXiv、HuggingFace dataset 同項目網站，未見完整訓練或評測程式公開。換句話說，研究團隊現階段較可能把它理解為高品質資料來源與方法參考，而不是即裝即跑的機械臂框架；對做 robotic manipulation、模擬訓練數據建構，或者研究 Real2Sim 流程的人，參考價值很高。

項目主頁 · GitHub · Paper

Categories: 開源, 字節跳動, Image, 多模態模型, Robotic, Dataset 數據集

GraphVid 把圖生影片拆解成圖節點關係圖

2026 年 7 月 26 日

PLAN-Lab（伊利諾伊大學厄巴納-香檳分校）開源的 GraphVid 採用 Diffusers 框架，用 Stable Diffusion 類的 Diffusion Pipeline 配 bfloat16 精度載入，適用於 CUDA 與 Apple MPS 裝置。這個名稱裡的「Graph」不是社群網絡圖，而是把影片拆成多個關鍵畫面節點，再用一張小型關係檔 graph.pth（約 118 MB）描述節點之間如何銜接——模型先理解這些畫面該怎樣排序與過渡，再交由 transformer、VAE 等模組逐段生成。

頁面沒有公開 base model 來源，也沒有說明訓練資料或評測指標，因此難以判斷它的整體品質，只能從架構面推測它把控制粒度從「逐幀文字描述」轉移到「節點拓樸」。使用 DiffusionPipeline.from_pretrained 配合 torch_dtype=torch.bfloat16，屬於現今影片擴散模型常見的省記憶體做法。

從模型卡提供的程式碼範例可見，GraphVid 直接接受文字 prompt 即可生成畫面，毋須手動編排節點，這層抽象對一般使用者比較友善；進階用家則可透過 graph.pth 微調節點關係，控制運鏡節奏。整個 gvc_ckpt_folder 容量約 64.3 GB，包含 scheduler、text_encoder、tokenizer、transformer、VAE 等標準組件，搭配 Hugging Face 提供的 Colab / Kaggle 範例即可快速試跑。

關係圖驅動：以 graph.pth 定義畫面節點與時序關係，再交由擴散模型生成影片。
Diffusers 相容：透過 DiffusionPipeline 載入，支援 bfloat16 與 CUDA / MPS。
Apache-2.0 授權：可自由下載研究與再分發，但頁面未提供量化版本。
硬體需求高：完整 checkpoint 約 64.3 GB，建議使用高階 GPU。
缺乏評測數據：原始頁面沒有提供基準分數或與其他影片模型的直接比較，採用前宜自行測試。

若以本地消費級 GPU 試跑，建議先把 torch_dtype 設為 bfloat16，並留意 VRAM 是否足以容納 transformer 與 VAE 的權重；想進一步壓縮，可留意社群後續是否釋出量化或 LoRA 版本。

項目主頁

Categories: 開源, Google, NVIDIA, Stable Diffusion, Image, Python, 教學, 蘋果, 框架

OpenWorker – Andrew Ng 開發桌面 AI 龍蝦

2026 年 7 月 26 日

對好多打工仔嚟講，最大嘅困擾唔係 AI 唔夠聰明，而係佢只識得「答問題」而唔識得「做完件事」。OpenWorker 嘅切入點正正喺呢度：佢定位係一個會跑喺你電腦上面嘅 AI 同事，可以幫你整理 calendar、寫 follow-up email、甚至自動出一份 customer brief，最後畀你一份可以直接開嚟用嘅文件，唔係一串對話。

OpenWorker 由 Andrew Ng（吳恩達）相關團隊推出，引擎建基於佢哋自己開發嘅 Python 開源庫 aisuite，呢個庫提供統一嘅 chat-completions API 以及支援工具調用（tool calling）、MCP 等功能。簡單講，OpenWorker 唔係從零寫起嘅 wrapper，而係將 aisuite 包成一個真正面向桌面用戶嘅應用，並且喺原本 aisuite 倉庫入面開發咗一段時間之後，先搬出嚟獨立成 repo。

目前支援 macOS（Apple Silicon）以及 Windows 10/11，用家可以貼上自己嘅 API key 去用 OpenAI、Anthropic、Google Gemini、DeepSeek、Kimi、Qwen、Mistral 等模型，亦可以經 Ollama 完全本地跑開源模型。所有嘢都喺本機行，只有用家授權嘅 model call 或者連接工具先會接觸到網絡。對於注重私隱或者公司政策唔畀數據出 cloud 嘅人，呢個係一個幾實際嘅選擇。

OPENWORKER: The Free AI Desktop Agent That Isn't Locked to One Model

Watch this video on YouTube

佢亦內建 25+ 個整合，包括 GitHub、Slack、Jira、Notion、Linear、HubSpot、Outlook、Gmail、Google Calendar 等，亦支援任何可以經 MCP（Model Context Protocol）接駁到嘅工具。最令筆者欣賞嘅係佢嘅審批機制：寫訊息、發送郵件、執行 shell 指令呢類「對外有影響」嘅動作，全部都要先經你確認先至會執行，唔會自己靜靜雞撳掣。

以下係幾個用家會比較關心嘅重點：

定位係桌面 AI 同事，目標係交到「成品」而唔止係聊天回覆，例如 HTML brief、Markdown 報告、排好嘅 calendar 更新等。
完全開源、MIT 授權，由 Andrew Ng 團隊開發，引擎建基於佢哋嘅 aisuite 開源庫。
模型自選，支援多間主流 cloud provider，亦可以經 Ollama 完全本地執行開源模型。
重視私隱，對話、token、API key 都儲喺本機 secret store，唔需要登入亦可以用。
MCP + 審批機制，所有對外動作（發訊息、執行指令）都會先問過你先做，減低「AI 自行撳掣」嘅風險。

如果你係一個人或者小型團隊，想搵一個可以幫你「跑手」而唔係淨係「傾偈」嘅 AI 工具，又唔想將公司敏感資料送去閉源服務，OpenWorker 算係一個值得試嘅選擇。佢而家仲喺 open beta，官方表示會自動更新、不斷執吓啲 bugs，畀用家提交 issue。適合想認真將 AI 融入日常工作流、對私隱同可控性有要求嘅人。

項目主頁 · GitHub

Categories: 開源, Qwen, Google, Gemini, DeepSeek, OpenAI, API, MCP, 工具, Mac, Ollama, Python, Anthropic, 蘋果, Kimi

eeg-difflogic：邊緣 EEG 分類改用邏輯電路

2026 年 7 月 26 日

Workflow for EEG classification using differentiable logic gate networks

這份項目對準的是要在邊緣裝置即時分析 EEG 的場景，核心矛盾很直接：傳統神經網絡雖然準，但浮點運算和記憶體開銷會拖慢部署。它屬於研究型工具／框架，處理的是把 Differentiable Logic Gate Networks (Diff-Logic) 用在 EEG 分類，並在推理階段編譯成 Boolean circuits，以 bitwise CPU operations 跑得更輕。

作者同時看了兩類任務：臨床失智分類與情緒辨識。前者用 Power Spectral Density (PSD)，後者用 Differential Entropy (DE)，再配合 fold-wise Min-Max normalization、thermometer encoding 和多層 differentiable logic gates，最後把學到的 soft gates 硬化成可執行的布林電路。

和 Multi-Layer Perceptrons (MLPs) 及 Binarized Neural Networks (BNNs) 比起來，這個項目不追求單純堆大模型，而是用 iso-parameter evaluation 去看同等參數量下的表現與效率。論文報告在 dementia screening 上 Diff-Logic 拿到 80.2% Macro F1，較 MLP 高 6.8%；在 emotion recognition 上 MLP 準度略有優勢，但部署到 NVIDIA Jetson Orin Nano 單核心 CPU 時，延遲高 2.3 倍、模型體積大 14 倍。

推理路徑清楚：先訓練，再轉成 Boolean circuits 做 inference
適合關心低延遲、低記憶體、能在 edge device 跑的 EEG 系統
評測覆蓋 CN vs. AD、CN vs. FTD，以及三類情緒辨識資料集
在較大規模下，Diff-Logic 的推理時間幾乎保持不變
這個項目最有價值的地方，不在於取代所有 EEG 模型，而是在資源受限環境下提供另一條更貼近硬件的路線

GitHub · Paper

Categories: 開源, NVIDIA, Medical醫學, 模型, 框架, Dataset 數據集

TrajLoc 把路線描述對準衛星圖

2026 年 7 月 26 日

A trajectory can be queried as dense video or as abstract language — both retrieve the same satellite tile.

只靠一張街景相去配對衛星圖，遇到轉彎、路口相似、視角受限時好容易失手；TrajLoc改為追蹤整段移動路線，將街景影片、自然語言路線描述，或者兩者結合後對應到帶地理標記的衛星瓦片。它屬於跨視角 geo-localization 模型連同 benchmark 項目，處理的是「把連續路徑準確放回地圖」這個問題。

現有 cross-view 資料多數停留在 single-image、video-only 或 text-only 範式，作者認為這樣會拆散同一條路線入面本來互相補強的時序線索與語意線索，因此一併推出 SeqGeo-VL。呢個 benchmark 收錄 38,863 組對齊的 video-text-satellite triplets，並有 91.8% human verification pass rate，重點不是再加大資料量，而是把 sequential 同 linguistic 兩種證據放入同一任務。

TrajLoc沒有另起一套龐大時序架構，而是由 pretrained CLIP ViT-L/14 延伸成 video、text 同 satellite encoders，再用 co-training curriculum 將三種查詢模式放入同一個表示空間。作者另外加入 TrajMod，將路線幾何資訊 tau={(Δx_i, Δy_i, θ_i)} 轉成 FiLM 的 scale/shift 參數，直接調節 query embedding；做法比單靠提示詞更明確，亦保留 frozen encoders 的可重用性。

支援 video、plain language、video+text 三種查詢方式
SeqGeo-VL 是首個同時包含 sequential 與 linguistic cross-view benchmark
TrajMod 只用 waypoint offsets 與 headings，不靠 map 或 POI metadata
項目提供 agent-ready tool interface、persistent Python API 同 JSON CLI

從示範與說明看，TrajLoc的定位很清楚：它不是通用多模態聊天模型，而是給 spatial reasoning、戶外機械人、導航研究同 multimodal agents 調用的專門工具。225 ms 的示例檢索速度對互動式流程有吸引力，但目前公開資訊主要集中在 benchmark 與檢索能力，部署前仍要留意資料覆蓋範圍、地區泛化，以及自己的工作流是否真有影片或路線文本可供查詢。

項目主頁 · GitHub · 模型

Categories: 開源, Qwen, Agentic, API, Video, Image, AI productions, Embedding, Python, 多模態模型, 模型訓練, Dataset 數據集

CrisperWhisper 把語音逐字稿變成可控制輸出

2026 年 7 月 26 日

Repository image for nyrahealth/CrisperWhisper

做會議紀錄、訪談整理或臨床語音分析時，最大落差往往唔係辨識到幾多字，而係系統究竟寫出「講咗乜」定「本來想表達乜」。CrisperWhisper 屬於開源語音辨識模型項目，核心價值係將 verbatim 同 intended 兩種轉錄模式變成可明確控制的輸出，令逐字稿唔再受訓練資料風格左右。

呢個取向同一般 speech-to-text 系統好唔同。常見做法會不一致地刪走 filler、重複、停頓同 cut-off，CrisperWhisper 2.0 就刻意保留呢啲語音細節，或者按需要輸出整理後版本；同一段錄音可以得出兩份用途完全不同嘅文本。對做 TTS 資料整理、醫療或研究訪談分析、需要精準字幕時間碼嘅團隊，呢種分流比單純追求可讀性更有用。

項目另一個關鍵位係時間對齊同長音訊處理。它提供 word-level timings，讀稿語音平均邊界誤差約 30 ms，對話語音約 41 ms；長音訊則用 conditional continuation 避免一般分段轉錄常見嘅重複漏字。README 亦提到推理端基於 CTranslate2，配合 speculative decoding，同時減輕 Whisper 常見 looping-hallucination 問題，方向明顯係朝住 production inference。

verbatim 與 intended 兩種模式分開控制，適合同一錄音對應不同工作流
支援 multilingual，覆蓋多數 Whisper 支援語言
可用 Verbatimize 依據音訊加乾淨文本補回真實語氣詞與口誤
長音訊轉錄著重連續性，減少 chunk 邊界造成嘅錯漏
Nyra Verbatim Speech Benchmark 以 disfluency F1 等指標衡量保真能力

安裝與部署方向相對清晰：模型可經 PyPI、Hugging Face 同文件使用，推理路線圍繞 CTranslate2 runtime，而唔係只停留喺研究展示。要留意嘅取捨亦好直接，當你要的是可讀、可發布文本，intended 模式更合適；當你要保留猶豫、重複、笑聲同語音事件，verbatim 模式先真正發揮價值。呢個項目唔係單靠更高 WER 成績去吸引人，而係重新界定逐字稿應否忠於說話表面形式，並且用 benchmark 將呢件事量化。

項目主頁 · GitHub · 模型

Categories: 開源, NVIDIA, 文字轉語音, Medical醫學, 模型, 語音, Dataset 數據集

Self Gradient Forcing 補長影片一致性缺口

2026 年 7 月 26 日

生成影片拉長到幾分鐘之後，角色樣貌、鏡頭方位同場景佈局愈來愈唔穩，往往不是畫質問題，而是模型早段寫入的歷史記憶愈來愈幫不到後面幀。Self Gradient Forcing（SGF）屬於訓練方法項目，核心是替自回歸影片擴散模型補回一段原本缺失的 context-gradient path，處理 long-video extrapolation 時常見的 identity drift、scene break 同 temporal instability。

作者點名現有做法多建基於 Self Forcing：模型用自己 rollout 出來的歷史作訓練，的確能減少 exposure bias，但 historical key-value cache 在後續生成裡只是 frozen rollout state，未能讓未來幀的損失回頭教早前的記憶應該怎樣寫得更有用。SGF 的做法是 bounded two-pass replay，第一輪先照推理方式無梯度 rollout，第二輪只重建抽樣步驟所需的 context-gradient，避開完整長序列反向傳播的成本，同時保住 causal memory 的可訓練性。

項目現時已放出訓練碼、推理碼同 checkpoint，底層接到 Wan2.1-T2V-1.3B 與 Wan2.1-T2V-14B，亦依賴 Causal-Forcing 的初始化權重。配置分成 framewise 同 chunkwise 兩路，預設推理可生成 963 個 latent frames，解碼後約 240 秒、16 fps，環境足夠時會用 8 GPUs，否則退回單卡串行生成；這個門檻說明它較接近研究與算力密集型內容生產流程，而不是輕量即開即用工具。

針對 Self Forcing 的 historical context-gradient gap，而不是單純調參延長影片
用 bounded two-pass replay 補監督，取捨在於訓練更複雜，但比全序列回傳梯度更可控
同時提供 framewise 與 chunkwise 設定，方便比較不同長片生成路線
依賴 Wan 基座模型與 Causal-Forcing 初始化，部署前要先備好對應權重

就已公開描述來看，SGF 的價值不在另起一套全新生成架構，而是在保留 native autoregressive training objective 的前提下，修正自生成記憶無法被未來損失有效監督的缺口。對研究 long-horizon video generation、需要單一 prompt 與 seed 維持數分鐘敘事一致性的團隊，這個項目有相當清晰的參考價值。

項目主頁 · GitHub · Paper

Categories: 開源, Video, 模型訓練, 視頻模型

Page 5 of 66

« Previous 1 … 3 4 5 6 7 … 66 Next »