影像處理 – Page 2

CtrlVTON 把虛擬試穿變成可控編輯

2026 年 7 月 14 日

網購試衫最常見的落差，不是像不像，而是你根本無法指定件衫要點樣著。CtrlVTON 屬於影像生成與虛擬試穿項目，處理的是 Virtual try-on (VTO) 長期欠缺的可控性：同一件衫可以鬆身或貼身、束入或放出、打開或扣上，甚至改變穿著位置與疊穿方式。

現有做法多數把 VTO 當成 inpainting 問題，擅長補畫衣物，卻不容易精準跟住使用者指定的版型同位置。CtrlVTON 改用 image editing framing，再配合 segmentation mask 做 pixel-level control，重點不是單純生成得自然，而是令版面安排真正聽話。論文亦明確指出，它在服裝忠實度接近強勢 proprietary editing systems 的同時，對使用者提供的布局跟隨得更準。

支撐這套方法的另一半，是 Visual-Instance-Prompt Segmentation 與對應模型 VIP-SAM。以往常見的是 category-level visual-reference segmentation，但作者針對的是 instance-level 任務：先給你一張平拍服裝圖，再從人物穿著照片中分出同一件衣物。這一步對同類衣物干擾、遮擋，以及布料變形都更敏感，所以 VIP-SAM 會把 support features 提早注入 SAM backbone，目標是令定位更穩。

把 VTO 由 inpainting 轉成 image editing，控制粒度更細
用 segmentation masks 指定服裝大小、風格與身體上的位置
VIP-SAM 先解決「相中究竟係邊一件衫」的 instance-level 分割問題
一個框架內處理 garment swapping、layering、selective switching、multi-garment composition
已公開 VITON-HD-edit dataset，並有 arXiv 論文可交叉核對方法與結果

理解這個項目的較合理方式，不是把它當成即裝即用成品，而是研究型原型加資料集組合。，測試與部署會圍繞論文、GitHub 儲存庫，以及 Hugging Face 上的 VITON-HD-edit dataset 展開；較適合做可控試穿研究、電商影像流程驗證，或想比較 LoRA 式輕量微調能否取代大型封閉編輯服務的團隊。限制也很清楚：Project Page 尚未公開，README 釋出的安裝與推理細節仍不完整，現階段更適合有影像模型基礎的人先跟論文設定重現，再評估能否接入產品流程。

GitHub · Paper

Categories: 開源, Image, 影像模型, 影像處理, Dataset 數據集

phone-metrics：少量標註做語音音素切分

2026 年 7 月 14 日

Repository image for stephenmac7/phone-metrics

做語音分析時，最麻煩的不只是辨認講了甚麼音，還要知道每個 phone 在哪一刻開始、哪一刻結束。phone-metrics 對應的是一個語音研究項目，重點放在 phone segmentation 與 phone recognition 一起處理，目標是減少標註成本，同時保住辨識效果。

在語音處理中，有兩個核心任務：音素分割（Phone Segmentation）：找出一段話中，每個發音與下一個發音之間的「時間邊界」（例如在哪一毫秒從 [s] 轉變到 [z]）。音素識別（Phone Recognition）：認出這個發音到底是什麼音（類似音標）。傳統的做法：這兩個任務通常是分開用不同的 AI 模型處理。而且，要訓練這種模型需要專家耗費大量時間（標註 1 小時的語音往往需要專家花 40 到 100 小時），成本極高。

現有做法常把 segmentation 和 recognition 分開建模，但這項工作認為兩者其實共享同一套語音結構，分開做會浪費訊號。作者改為從 self-supervised speech model（S3M）的表示中抽出 phonological feature activations，並用 SPAM（S3M-based Phonological Activation Mapping）把每個時間 frame 轉成像 voicing、nasality 這類語音特徵，再接兩個輕量、毋須 gradient descent 的 prediction heads，分別負責切分與辨識。

這個取向最值得留意的地方，是它對資料量要求很低。資料指出，少於一分鐘、而且帶 time-aligned phonetic transcriptions 的標註已可運作；同時它還能處理訓練期間未見過的 phones，對低資源語言、zero-shot phonetic analysis，甚至做跨語言比較都幾有吸引力。

把 phone segmentation 與 phone recognition 聯合處理，唔再拆成兩個獨立流程
依賴 self-supervised speech model（S3M）內部已有的語音結構，而唔係完全重新學起
SPAM 先把 frame 映射成 phonological activations，再交由兩個輕量 prediction heads 輸出結果
標註需求非常低，少量 time-aligned phonetic transcriptions 已可測試方法價值
已報稱在多個資料集上達到 SOTA phone segmentation，並取得穩健的 recognition 表現

部署和驗證這類項目時，較合理的理解方式不是把它當成即裝即用產品，而是研究型 pipeline：先準備語音資料與對齊好的音素標註，再接入 S3M 表示，之後檢查 segmentation 邊界與 recognition 輸出。它較適合語音研究團隊、低資源語言項目，或者想用更少標註測試新語音單位分析方法的人；若你要的是完整語音轉文字應用，它就不是直接替代 ASR 的那一路。

項目主頁 · GitHub · Paper

Categories: 開源, DeepSeek, Medical醫學, 影像處理, 語音, Dataset 數據集

ReChannel：用生成模型做密集預測

2026 年 7 月 14 日

一張 RGB 圖像想同時拿到深度、surface normal、matting 同 referring segmentation，通常意味住要換幾套模型；ReChannel偏偏反其道而行，將預訓練 text-to-image DiT 的空間 token 直接改作密集預測讀出。這不是完整訓練流程釋出，而是偏向 inference／質性展示的 GitHub 項目，定位很清楚：展示 FLUX-Klein 骨幹除咗生圖，亦可以做 pixel-space dense prediction。

它的類型更接近研究型模型讀出方法＋推理示範工具，實際解決的是「可否沿用生成模型已有的空間表示，避免為每個密集任務重建一套重型解碼器」。做法上，骨幹維持 frozen，只為每個任務加 LoRA，再配一個 token-local linear head；標量任務頭部大約 33K 參數，surface normals 約 99K，沒有 convolution、沒有 upsampling，也沒有 target-side VAE decoder。

同類方法很多會把功夫放在額外解碼器或多尺度結構，ReChannel的取向剛好相反：盡量把空間結構留在 DiT token field 內，最後只做通道重映射。這種設計夠輕，但取捨亦直接，現有儲存庫沒有完整 benchmark pipeline，姿態估計亦未放入最小示範，所以更適合用來理解方法潛力，而非直接拿來做嚴格橫向比較。

支援單張圖片推理，可輸出 depth、normal、matting、refseg，refseg 需要輸入文字描述
依賴 CUDA GPU，首次執行會自動下載 black-forest-labs/FLUX.2-klein-base-4B 與對應 LoRA、線性頭權重
depth、normal、matting 會保留長寬比並可用 horizontal-flip TTA；refseg 固定在 512² 單次前向
已公開的是 demo/inference 版本，不是論文表格所用的完整評測流程

受益最大的人，會是研究 dense prediction、生成模型再利用、或者想測試 LoRA 能否把同一骨幹轉成多任務視覺讀出的團隊。相關模型核心是 black-forest-labs/FLUX.2-klein-base-4B，再疊加每任務 LoRA adapters；對想研究生成模型表示能否外借到視覺理解工序的人，這個項目相當值得留意。

GitHub

Categories: 開源, 香港科技大學, NVIDIA, Stable Diffusion, Image, txt2img, 影像處理, Dataset 數據集

PanoWorld 把 360 影片生成拉回真實場景

2026 年 7 月 14 日

做 360° 影片生成，最易穿崩的往往不是單幀畫質，而是鏡頭轉了一大圈之後，場景記憶是否仍然連貫。PanoWorld屬於世界模型兼影片生成模型，針對全景 world model 的 long-range memory 問題，目標是生成更符合空間幾何與物理一致性的 panoramic video。

這個項目的取向幾明確：不是單純追求更短時間出片，而是利用 omnidirectional representations 的 rotation-equivariant 特性，將旋轉視為隱含幾何變換，再把相機軌跡簡化成固定朝向下的平移。核心做法包括 Dense Panoramic Ray-Conditioning (DPRC) 與 Geometry-aware Memory Augmentation (GMA)，並建基於 Wan2.2 backbone 的 triple-stream DiT，處理當前動作建模與長程記憶。

現階段公開資訊較適合做推理測試與結果驗證，訓練代碼仍未釋出。環境要求也不算輕：Linux（已測 Ubuntu 22.04）、CUDA 12.8 以上、Python 3.10，並需要至少 20GB VRAM 的 CUDA GPU；README 亦提供 demo assets，可先用來跑 inference，觀察 81-frame 與 161-frame panoramic video 的生成表現。

重點放在 long-range memory，而非只提升單段片段觀感
可生成 81-frame、161-frame 的 panoramic video
評測依託 World360，涵蓋真實全景無人機片段與 AirSim360 模擬資料
官方表示在 World360 上明顯勝過其他方法，但目前公開細節以展示頁與推理資源為主

受益最明顯的，會是做 360 內容生成、沉浸式視覺、無人機視角模擬，或研究世界模型長時序一致性的團隊。它未必是最容易部署的項目，但定位很清楚：當一般 video model 在大範圍空間變化與光照變化下容易失憶，PanoWorld正面處理這個痛點，並且連同 World360 一起把評測場景拉近真實世界。

項目主頁 · GitHub

Categories: 開源, NVIDIA, Video, 3D, Linux, Python, 影像處理, 視頻模型, 世界模型, Dataset 數據集, 清華大學

GenCeption 單一模型多種視覺任務

2026 年 7 月 14 日

做影像理解時，很多人最頭痛的不是單一任務做唔到，而是每做一種任務就要換一套模型。GenCeption 屬於通用視覺模型，目標是把深度估計、法線、相機姿態、分割、2D/3D 關鍵點甚至 4D grounding 放入同一個流程，並且用文字指令控制輸出。

它處理的核心問題，是電腦視覺長期依賴任務專用模型，工作流容易分散、訓練與部署成本亦高。GenCeption 的做法，是先用 video generative diffusion model 做預訓練，吸收空間與時間上的 world priors，以及原生的 vision-language alignment，再經過 multi-task post-training，把原本偏生成式、多步驟的骨幹，改造成單步 feed-forward 推理模型。

這種路線跟常見做法最大分別，在於它不是為每個任務各自砌一個模型，而是用單一、task-agnostic architecture 應付 dense 與 sparse vision tasks。資料上亦以 synthetic data 為主，重點放在學習效率、sim-to-real transfer，以及遇到 out-of-distribution 物件類別時的泛化能力。

支援多種視覺任務，包含 depth、surface normal、camera pose、segmentation、2D/3D keypoint prediction
透過文字指令切換任務，保持同一模型介面
把影片生成預訓練轉成 feed-forward 視覺推理，而不是停留在多步生成流程
官方描述指它在多個任務上可與專用 SOTA 模型競爭，對比對象包括 DepthAnything3、D4RT、VGGT-Ω、SAM3、Sapiens、DAVID

對研究多模態模型、通用機械視覺，或者想整合複數感知任務的人來說，GenCeption 值得留意。現時公開內容仍以研究展示為主，Code 亦標示為 TBA，所以較適合先理解方法方向與能力邊界，再觀察後續開源與可重現程度。

項目主頁

Categories: Google, Video, 3D, 多模態模型, 影像處理, 模型, 模型訓練, 視覺模型, 視頻模型

PhyMRI-SR：MRI 超解像唔只靠放大

2026 年 7 月 10 日

Repository image for weilihua0205/PhyMRI-SR

做 MRI 超解像時，問題往往唔係「放大得夠唔夠」，而係高解析度同 SNR 會互相拉扯。PhyMRI-SR 把這個矛盾放到核心處理；它屬於一個醫學影像超解像模型／研究項目，目標不是盲目追求最高輸入解析度，而是找出更有結構資訊的重建位置。

現有做法多數把低解析度 MRI 當成一般影像放大；作者認為這種 fixed paradigm 忽略 MRI acquisition physics，亦未必對應最有資訊量的輸入條件。PhyMRI-SR 因而改用 physics-aware Gaussian splatting，把組織先驗、MR signal equations 同 continuous-scale super-resolution 合併，嘗試沿住 resolution-SNR spectrum 找到更合理的平衡點。

它不是直接生成高解像圖，而是先經 segmentation-guided primitive allocation 分配 Gaussian primitives，再由 prior-aware representation 預測位置偏移與協方差，之後用 physics-constrained signal modeling 根據 tissue properties（例如 alpha、R2）計算訊號強度，最後經 differentiable splatting 合成影像。另加 meta-learning-based adaptation，用來縮窄 synthetic training 與真實 low-field MRI 之間的 domain gap。

與一般影像式 SR 比較，重點放在物理一致性，唔係純粹視覺銳化
支援 arbitrary-resolution 輸入，同 continuous-scale MRI super-resolution 取向一致
結構上結合 segmentation、Gaussian representation 同 MR signal equations
結果顯示最佳表現未必出現在最高輸入解析度，回應作者的核心假設

項目列出 simulated 與 real multi-resolution MRI datasets 的比較：模擬資料在 x0.7 時錄得 PSNR 28.10 dB、SSIM 0.9234、HFEN 0.3051、DISTS 0.1148；真實資料在 x0.76 時取得最低 HFEN 0.4570，其他指標亦有競爭力。這類結果較適合醫學影像研究、MRI 重建與超解像團隊參考；部署與測試細節仍需回到 GitHub 程式碼確認，但整體定位已很清楚：它不是通用修圖工具，而是面向 MRI 成像規律的專門方法。

項目主頁 · GitHub · Paper

Categories: 開源, Medical醫學, 影像處理, 模型訓練, Meta, 中國, Dataset 數據集

SenseNova-Vision 把視覺任務收進同一模型

2026 年 7 月 8 日

SenseNova-Vision handles diverse vision tasks in a unified model

做視覺項目最麻煩的，往往不是單一任務做不到，而是偵測、OCR、分割、深度估計同多視角幾何各有各套輸出格式。SenseNova-Vision把這些工作收斂到 unified multimodal model（UMM）的生成介面之內，屬於多模態模型項目，重點是用自然語言指令加可選視覺提示，統一處理結構化理解與密集預測。

它的取向幾明確：不再為每類視覺任務各自設計頭部與輸出器，而是把 boxes、points、OCR strings、keypoints、camera parameters 交由文字生成，把 segmentation masks、depth maps、surface normals、multi-view point maps 交由影像生成，亦支援文字加影像混合回應。這種做法的好處是工作流一致，代價則是推理解碼與評測轉換要做得夠穩，否則通用性未必等於每一項都最強。

目前公開內容包括推理程式、模型權重 SenseNova-Vision-7B-MoT、資料集 SenseNova-Vision-Corpus-50M，以及可試用的 Demo。要理解它點樣測試，最直接是先用 Demo 看同一張圖在不同指令下可否輸出可解碼結果，再配合倉庫的 Evaluation Guide 對標準 benchmark 檢查文字、影像或混合輸出的還原能力。

同一模型覆蓋 結構化視覺理解、分割、dense geometric prediction 與 multi-view visual geometry
輸出形式統一：文字、影像、混合文字影像都可作為回應
已公開資源完整：inference code、SenseNova-Vision-7B-MoT、SenseNova-Vision-Corpus-50M、Demo
適合場景明確：研究團隊、視覺產品原型、要整合多任務流程的工程工作

這個項目最適合不想為每個任務維護一套模型堆疊的團隊，尤其是同時要做偵測、文字辨識、分割與幾何估計的組合型流程。現有資料指出它在多類視覺任務上有不錯結果，但倉庫摘要未列出完整數字；現階段更值得留意的，是它用可解碼生成格式統一 benchmark 輸出的能力，這比單看某一項分數更能反映其定位。

GitHub · 模型

Categories: 開源, 香港, Image, 多模態模型, 影像處理, 模型, Dataset 數據集

SIEVE 點樣揀出更值錢的機械人示範數據

2026 年 7 月 8 日

機械人示範資料最常見的問題，不是數量不夠，而是重複、嘈雜，甚至長段任務其實只是不斷重演相似動作。SIEVE 屬於一個面向 imitation learning 的資料篩選工具，同時帶有研究方法性質，重點不是逐條 trajectory 粗略評分，也不是只看 state-action，而是把長任務拆成可重用的 visuo-motor primitives 與 transition interfaces，再決定哪些 episode 更值得留下來訓練 VLA 模型。

它批評的舊範式相當明確：現有 data selection 方法多數只在 trajectory level 或 state-action level 做判斷，因而忽略長時序行為內部可重用的結構。SIEVE 的做法是先用 end-effector pose 與控制訊號做 segmentation，再抽取 V-JEPA 特徵、用 PCA 壓到預設 256 維、以 MiniBatchKMeans 找出 primitive pattern，之後按 cluster-sequence pattern 做兩階段 episode selection，最後可以匯出回 LeRobot 格式，方便直接接回原本訓練流程。

這種取向的好處，在於它不是單純挑「最好」或「最乾淨」的示範，而是優先保留結構覆蓋度與可重用性。論文提供的訊息亦相當直接：SIEVE 在多個 datasets、benchmarks 與 VLA models 上，都比競爭性的 baseline 更穩定，甚至在只用 50% demonstrations 和 50% training steps 的情況下，表現可以超過 full-data training。當然，這也代表它較適合已有一定規模示範資料、並且願意先跑一輪離線整理流程的團隊，而不是追求即插即用的小型腳本。

以 LeRobot v2 資料根目錄作輸入，支援單一或多個 dataset
流程由 segmentation、feature extraction、dimensionality reduction、clustering、selection 組成
特徵抽取依賴 V-JEPA，輸出中間結果到 Zarr，再匯出選中的 LeRobot episodes
核心差異是按 reusable structure 揀數據，不是只按整條 trajectory 或逐步 state-action 打分

部署理解上，這個項目更像一條可重複執行的離線資料處理 pipeline，而不是一個直接提供推理服務的套件。適合用來整理大型 robot demonstration corpus、為 VLA imitation learning 減少冗餘訓練樣本；相關模型與技術脈絡包括 Vision-Language-Action (VLA) models、V-JEPA，以及輸出端相容的 LeRobot。

GitHub · Paper

Categories: 開源, 香港, 香港科技大學, 多模態模型, 影像處理, 模型, 模型訓練, 視覺模型, Robotic, 中國, VLA, Dataset 數據集

LingBot-Vision 補強密集空間感知

2026 年 7 月 8 日

做深度估計、語意分割或者影片物件分割時，最麻煩往往唔係有冇大模型，而是編碼器抽出的特徵夠唔夠貼近物件輪廓。LingBot-Vision屬於模型，更準確地說是自監督預訓練的 Vision Transformer 視覺骨幹，處理的是密集空間感知裏面「語意有了，但邊界唔夠準」這個老問題。

它的取向幾明確：唔係一味追求分類式語意表示，而是用 masked boundary modeling 去逼模型同時保留空間結構與語意訊息。凍結後的 patch tokens 已經可以直接支援輕量 readout，涵蓋 depth estimation、semantic segmentation、video object segmentation，亦作為 LingBot-Depth 2.0 的 visual encoder 初始化，這種設計比起只偏重全局語意的 ViT 骨幹，更適合需要逐像素判斷的工作流。

這個項目較接近「取用預訓練骨幹再接下游任務」的用法，而唔係即裝即用的完整應用。模型已放到 Hugging Face 與 ModelScope，較合理的理解方式，是把不同尺寸的 LingBot-Vision 權重接入現有 dense prediction pipeline，先測 frozen features 的表現，再決定需唔需要額外微調。

重點不在生成內容，而在提高 dense spatial perception 的特徵品質
已公開多個相關模型：ViT-S/16、ViT-Base、ViT-L/16，以至 1.1B 參數的 ViT-g/16
支援的方向包括 depth estimation、semantic segmentation、video object segmentation、depth completion
與同類做法相比，更重視 boundary-faithful features，而唔係只強化高層語意表示

受益最大的會是做機械人視覺、3D 感知、影像理解基建的團隊，尤其當你手上已有 segmentation 或 depth 項目，只差一個更穩定的 encoder。性能方面，README 用「substantial performance gains」形容 LingBot-Depth 2.0 在換上 LingBot-Vision 編碼器後的提升，但公開內容未列出完整基準數字，所以現階段較值得先留意其特徵可遷移性，以及在邊界敏感任務上的潛力。

項目主頁 · GitHub · 模型

Categories: 開源, Video, 3D, 多模態模型, 影像處理, 模型, Robotic, VLA

Google Flow Storyboard 教學

2026 年 7 月 7 日

Google Flow Storyboard: Full Video From Script (100% FREE)

Categories: Google, Video, 多模態模型, 影像處理, 教學, 視覺模型, 視頻模型

Page 2 of 20

« Previous 1 2 3 4 … 20 Next »