香港科技大學

See2Think 驗證多模態模型有冇「睇圖再諗」

2026 年 8 月 1 日

See2Think — Do Multimodal Models Really Use Intermediate Visual States?

見到模型會畫線、裁圖、標記物件，很多人自然會當它「有睇過先答」。See2Think屬於基準測試加診斷框架，焦點不是只看最後答啱幾多，而是拆開檢查中間視覺狀態有冇被真正用到、渲染是否忠實，以及後續推理有冇因此改變，這點對多模態模型（Multimodal Models）尤其關鍵。

它的核心設計分成兩部分：See2ThinkBench 收錄 1,200 條 visually dependent 問題，涵蓋 2D structured reasoning、3D scene reasoning 同 real-world visual reasoning；另一部分是 Visual Action-of-Thought（VAoT）流程，會把文字思路、structured visual actions、rendered states 同之後的推理串連起來。這種做法比單看 final-answer accuracy 更有診斷力，因為可以分辨模型是在「做出圖像」還是在「依賴圖像」。

同類研究常停留在結果分數，See2Think較著重受控比較。它設有 CoT、NoRender、Full、WrongRender 等 matched comparisons，又會檢查 render-benefit、corrupted-feedback sensitivity，以及 process judging 裡的 relevance、faithfulness、uptake，換句話說，不只問模型答得對不對，還會問中間那一步是否相關、是否被正確執行、以及模型有沒有吸收回來的視覺資訊。

適合研究多模態推理、agent 行為分析、視覺工具鏈設計的團隊
強項在於把「中間圖像是否有用」變成可觀察、可干預的測試問題
覆蓋圖表、幾何、符號結構、3D 空間關係到真實圖片場景
GitHub 已公開程式與 quick start 線索，但論文仍標示為 coming soon，細部實驗設定仍要以後續正式文件核對

對模型評估要求較細緻的情境，這個項目很有參考價值；想拿它直接當應用工具就未必是同一回事。它更像研究型基礎設施，幫團隊判斷多模態系統的推理鏈是否可信，而不是單純追求更高答題分數。

項目主頁 · GitHub

Categories: 開源, 香港科技大學, Agentic, 3D, 多模態模型, 上海人工智慧實驗室, Dataset 數據集

AsySplat：3D 場景重建更省算力

2026 年 7 月 18 日

AsySplat 是一個用於 3D Gaussian Splatting 的重建框架，主力解決長序列、廣覆蓋場景做新視角合成時，訓練和推理都太重的問題。現階段這個 GitHub 儲存庫主要提供項目頁、論文連結和資源，程式碼尚未公開，所以要理解它，重點放在方法設計而不是直接安裝部署。

它的做法是把 geometry branch 和 appearance branch 分開，前者處理較粗粒度的資訊，後者用較少參數補回外觀細節，再用 bilateral connections 互相引導。這種取向和一般把所有資訊一起硬塞進去的做法不同，目標是把算力用在更值得的位置。

從現有資料看，AsySplat 比較適合做多視角場景重建、研究級新視角合成，或需要在較大輸入規模下控制訓練成本的團隊。同時使用 sparse attention module，結合 convolution blocks 和 self attention 來減少開銷，並在 32-view 960P 輸入上取得較少參數和較低訓練、推理負擔的結果。

類型：3D Gaussian Splatting 重建框架
目標：降低 wide-coverage scene modeling 的重複計算
特色：幾何與外觀分流處理，再以 bilateral connections 協調
效能：在 32-view 960P 設定下，宣稱比之前的 generalizable models 更省參數和開銷
相關模型：3D Gaussian Splatting、generalizable 3DGS models、novel view synthesis (NVS)

項目主頁 · GitHub

Categories: 開源, 香港, 香港科技大學, 3D, 香港城市大學, Dataset 數據集

MetaView 補回生成的空間感

2026 年 7 月 17 日

單靠一張圖片生成大角度新視角，很多方法一轉得遠就會出現結構鬆散、比例飄移，鏡頭控制亦未必準。MetaView 屬於影像生成框架，集中處理 monocular novel view synthesis，目標是在不做顯式 3D reconstruction pipeline 的前提下，仍然保住 geometry consistency 同可控的 camera pose rendering。

它的取向幾清楚：唔想被重建流程綁死泛化能力，但又唔接受純 implicit 方法常見的 scale drifting。項目把 Depth Anything 3 提供的 implicit geometry priors 接到 pretrained MM-DiT backbone，做法是加入 non-invasive parallel attention layers；同時再用 modified RoPE，配合 PRoPE 為 z-axis 留出額外子空間，把場景尺度固定在較一致的 3D metric space。

對研究團隊、做 novel view synthesis、3D-aware image generation，或者需要從單張圖控制鏡頭輸出的工作流，這個項目值得留意。現有資訊較像研究原型：README 與 project homepage 已提供 paper、demo 與 model 入口，但未見完整安裝與部署細節，所以現階段較合理的理解方式，是先用 demo 看大視角轉換與 spherical poses control 的效果，再等待公開模型與程式流程補齊。

單張圖片輸入，主打大幅度 viewpoint changes 下仍保持高保真輸出
不走 explicit 3D reconstruction pipelines，換取更高彈性與泛化空間
用 Depth Anything 3 幾何先驗補結構，再用 modified RoPE 處理 scale anchoring
比較對象包括 ViewCrafter、Gen3C、Voyager、PE-Field、HY-World、Lingbot-World

MetaView 在具挑戰性的 monocular large viewpoint changes 測試中，表現優於多個 reconstruction-based 與 implicit 方法，強調的是 geometry consistency、precise controllability 與 generalization。現階段較適合把它視為一個方向鮮明的研究項目：它不是單純追求更靚畫面，而是嘗試把單圖生成長期欠缺的空間尺度感補回來。

項目主頁 · GitHub · 模型

Categories: 開源, 香港, 香港科技大學, Image, 3D, 影像模型, 模型

Motion4Motion：免訓練跨物種動作轉移

2026 年 7 月 14 日

當角色外形差很遠，傳統動作轉移最易卡在骨架對唔上：人、鵝、熊貓根本冇共同骨骼模板，結果常見問題包括動作僵硬、身份漂移，或者腳步滑動。Motion4Motion 屬於影像生成／視頻模型方向的研究，直接避開骨架表示，改為從來源影片抽取密集 motion flow，再把動作帶到另一個目標主體身上。

呢個項目的可取之處，在於 training-free。它唔需要為跨物種或跨拓撲角色另行訓練模型，而係建基於凍結的 Diffusion Transformer（WAN-T2V）做兩階段推理：先找出來源影片主體的運動軌跡，再用 TransPE（Transferring Positional Encoding）把重定向後的位置信息注入注意力過程，令目標外觀跟住動起來。

重點可以整理成幾項：
– 毋須 skeleton，較易處理 human → panda、human → goose 呢類外形差異大嘅轉移
– 毋須額外訓練，推理時完成動作遷移，部署門檻較低
– 用 pixel-level motion flow 取代骨架驅動，減少骨架對齊失效帶來的限制
– 建基於預訓練視頻 diffusion transformer，保留生成式模型對外觀細節的表達能力

它會先用 Grounded SAM-2 在來源首幀取樣主體錨點，再靠 diffusion features 建立來源與目標之間的對應，並以 point tracker 追蹤時間上的軌跡。之後在去噪階段重用目標主體的 K/V，配合來自重定向 motion flow 的 RoPE 位置編碼，令 self-attention 按新動作重組畫面。

現有資料指出，Motion4Motion 在多組實驗與應用展示中勝過強基線，亦示範到跨物種轉移，甚至可出現「教枱行路」呢類非典型案例。適合留意角色動畫、視頻生成、動作重定向工作流嘅讀者；不過目前簡介主要集中在研究展示，具體穩定性與邊界情況仍要等更完整實驗細節支持。

項目主頁

Categories: 香港科技大學, Video, 教學, 模型訓練, 清華大學, 框架

ReChannel：用生成模型做密集預測

2026 年 7 月 14 日

一張 RGB 圖像想同時拿到深度、surface normal、matting 同 referring segmentation，通常意味住要換幾套模型；ReChannel偏偏反其道而行，將預訓練 text-to-image DiT 的空間 token 直接改作密集預測讀出。這不是完整訓練流程釋出，而是偏向 inference／質性展示的 GitHub 項目，定位很清楚：展示 FLUX-Klein 骨幹除咗生圖，亦可以做 pixel-space dense prediction。

它的類型更接近研究型模型讀出方法＋推理示範工具，實際解決的是「可否沿用生成模型已有的空間表示，避免為每個密集任務重建一套重型解碼器」。做法上，骨幹維持 frozen，只為每個任務加 LoRA，再配一個 token-local linear head；標量任務頭部大約 33K 參數，surface normals 約 99K，沒有 convolution、沒有 upsampling，也沒有 target-side VAE decoder。

同類方法很多會把功夫放在額外解碼器或多尺度結構，ReChannel的取向剛好相反：盡量把空間結構留在 DiT token field 內，最後只做通道重映射。這種設計夠輕，但取捨亦直接，現有儲存庫沒有完整 benchmark pipeline，姿態估計亦未放入最小示範，所以更適合用來理解方法潛力，而非直接拿來做嚴格橫向比較。

支援單張圖片推理，可輸出 depth、normal、matting、refseg，refseg 需要輸入文字描述
依賴 CUDA GPU，首次執行會自動下載 black-forest-labs/FLUX.2-klein-base-4B 與對應 LoRA、線性頭權重
depth、normal、matting 會保留長寬比並可用 horizontal-flip TTA；refseg 固定在 512² 單次前向
已公開的是 demo/inference 版本，不是論文表格所用的完整評測流程

受益最大的人，會是研究 dense prediction、生成模型再利用、或者想測試 LoRA 能否把同一骨幹轉成多任務視覺讀出的團隊。相關模型核心是 black-forest-labs/FLUX.2-klein-base-4B，再疊加每任務 LoRA adapters；對想研究生成模型表示能否外借到視覺理解工序的人，這個項目相當值得留意。

GitHub

Categories: 開源, 香港科技大學, NVIDIA, Stable Diffusion, Image, txt2img, 影像處理, Dataset 數據集

SIEVE 點樣揀出更值錢的機械人示範數據

2026 年 7 月 8 日

機械人示範資料最常見的問題，不是數量不夠，而是重複、嘈雜，甚至長段任務其實只是不斷重演相似動作。SIEVE 屬於一個面向 imitation learning 的資料篩選工具，同時帶有研究方法性質，重點不是逐條 trajectory 粗略評分，也不是只看 state-action，而是把長任務拆成可重用的 visuo-motor primitives 與 transition interfaces，再決定哪些 episode 更值得留下來訓練 VLA 模型。

它批評的舊範式相當明確：現有 data selection 方法多數只在 trajectory level 或 state-action level 做判斷，因而忽略長時序行為內部可重用的結構。SIEVE 的做法是先用 end-effector pose 與控制訊號做 segmentation，再抽取 V-JEPA 特徵、用 PCA 壓到預設 256 維、以 MiniBatchKMeans 找出 primitive pattern，之後按 cluster-sequence pattern 做兩階段 episode selection，最後可以匯出回 LeRobot 格式，方便直接接回原本訓練流程。

這種取向的好處，在於它不是單純挑「最好」或「最乾淨」的示範，而是優先保留結構覆蓋度與可重用性。論文提供的訊息亦相當直接：SIEVE 在多個 datasets、benchmarks 與 VLA models 上，都比競爭性的 baseline 更穩定，甚至在只用 50% demonstrations 和 50% training steps 的情況下，表現可以超過 full-data training。當然，這也代表它較適合已有一定規模示範資料、並且願意先跑一輪離線整理流程的團隊，而不是追求即插即用的小型腳本。

以 LeRobot v2 資料根目錄作輸入，支援單一或多個 dataset
流程由 segmentation、feature extraction、dimensionality reduction、clustering、selection 組成
特徵抽取依賴 V-JEPA，輸出中間結果到 Zarr，再匯出選中的 LeRobot episodes
核心差異是按 reusable structure 揀數據，不是只按整條 trajectory 或逐步 state-action 打分

部署理解上，這個項目更像一條可重複執行的離線資料處理 pipeline，而不是一個直接提供推理服務的套件。適合用來整理大型 robot demonstration corpus、為 VLA imitation learning 減少冗餘訓練樣本；相關模型與技術脈絡包括 Vision-Language-Action (VLA) models、V-JEPA，以及輸出端相容的 LeRobot。

GitHub · Paper

Categories: 開源, 香港, 香港科技大學, 多模態模型, 影像處理, 模型, 模型訓練, 視覺模型, Robotic, 中國, Dataset 數據集, VLA

LiveEdit：串流影片編輯走向即時化

2026 年 7 月 5 日

LiveEdit 是一個 diffusion-based streaming video editing 系統，屬於影片編輯模型與方法項目。它的核心任務是根據來源影片加上文字指令，逐段完成 causal chunk-by-chunk editing，並盡量保留背景與沒有修改的區域。

這個項目不是追求離線影片慢慢算到最靚，而是針對接近即時的串流編輯。它建基於 Wan2.1 和 Self-Forcing codebase，並用 three-stage distillation，把雙向編輯 teacher 的能力轉移到串流 student，再配合 AR-oriented Mask Cache 減少重複運算，換來較低延遲。

部署與測試資訊算是完整，提供 inference scripts、training code、checkpoint instructions，也講明建議在 Linux 配合 NVIDIA GPUs 執行；單 GPU 可做 inference，多 GPU torchrun 主要用於訓練。輸入方式是準備一個 JSON，填入 source video 路徑和 instruction，然後配合已釋出的權重與 Wan2.1 base model 進行推理。

有一個相當關鍵的參考值：項目頁列出 12.66 FPS，並表示透過 4-step distilled diffusion generation 達成 real-time streaming inference。這個成績對互動式影片編輯很重要，不過公開資訊未見更完整的硬件條件、顯存需求或不同解析度下的比較，因此判斷效能時仍要保留一點。

重點不是一般文字生片，而是保留原片內容的串流影片編輯
主要技術包括 three-stage distillation、Causal DiT、AR-oriented Mask Cache
已公開 inference 與 training 程式碼，也提供 Hugging Face checkpoint 指引
已知較適合 Linux、NVIDIA GPU 環境，研究團隊或影像生成工程師較易受益
相關模型與基礎包括 Wan2.1-T2V-1.3B、bidirectional editing teacher、streaming student

整體來看，LiveEdit 的價值在於把 streaming video editing 做得更接近可互動系統，而不只是展示級效果。它較適合研究即時影片編輯、互動內容製作、直播視覺處理或需要低延遲生成的團隊；一般用家若想直接在圖形介面一鍵開用，現有資料未提供管理後台整合、免手動設定流程，仍然比較像面向研究與開發者的項目。

項目主頁 · GitHub · 模型

Categories: 開源, 香港科技大學, NVIDIA, Video, Linux, 模型, 視覺模型, 視頻模型, 蘋果, 框架

WorldDirector 14B：可控影片世界模型點樣做長時記憶

2026 年 7 月 3 日

Repository image for pPetrichor/WorldDirector

WorldDirector 是一個影片世界模型框架，屬於研究原型兼開源推理項目。它的核心任務，是讓系統在生成長片段影片時，仍能記住動態物件的身份、位置變化與鏡頭運動，減少角色或物件一離開畫面就「變樣」或失去連續性的情況。

它的做法不是直接把所有事情交畀單一生成模型處理，而是先用 Large Language Model（LLM）規劃 3D 物件軌跡與相機路線，再把規劃投影成 2D 控制訊號交畀視覺生成模組。呢種拆分令項目的取向很清晰：先保住語意層面的動作因果，再處理畫面生成，因此比起只靠像素連續性的世界模型，更重視可控性、物件恆常性同長時段一致性。

目前已公開的是完整 inference code 同 WorldDirector-14B 權重，同時亦交代依賴 Torch 2.4.0、FlashAttention，以及 Hugging Face 下載模型的流程。換句話說，現階段較適合已有 GPU 環境、懂得整理 JSON 規劃輸入的人測試；它不是裝完即用的消費級工具，而較接近可重現論文結果的研究型項目。

項目展示的例子集中在人物、車輛、鏡頭切換與長時間事件編排，重點是物件暫時離開視野後再返回，外觀仍能維持穩定。公開資訊提到它支援 persistent dynamic object memory 同 unrestricted viewpoint exploration，但未見提供完整量化基準細節，因此現階段較適合把它理解為一個方向鮮明、控制力強的世界模型方案，而不是已全面驗證的通用產品。

類型定位：影片世界模型框架，主打可控生成與長時記憶
主要差異：把運動規劃同視覺生成拆開，先處理 3D 語意軌跡
較適合情境：研究團隊、影片生成工作流、需要鏡頭與角色一致性的實驗
部署理解：需先配置依賴、下載 WorldDirector-14B，並準備符合格式的 JSON 計劃輸入
相關模型：WorldDirector-14B；流程中亦依賴 Large Language Model（LLM）參與動作與鏡頭規劃

整體來看，WorldDirector 最有價值的地方，在於它把「世界模擬」由單純畫面續寫，推進到可描述、可規劃、可回放的控制流程。對想研究影片 world model、角色一致性與可操控鏡頭生成的人來說，呢個項目值得留意；對只想快速出片的人，現有門檻仍然偏高。

項目主頁 · GitHub · 模型

Categories: 開源, 香港中文大學, 香港科技大學, Google, NVIDIA, 3D, 世界模型, 蘋果

LISA：讓 ControlNet 訓練快 2.78 倍的正則化方法

2026 年 6 月 28 日

LISA（Likelihood Score Alignment）是一種訓練正則化方法，專門用於加速視覺條件可控生成模型（例如 ControlNet）的訓練過程，同時提升最終生成結果在感知品質與條件遵循度上的表現。

現有做法普遍採用「雙分支範式」（dual-branch paradigm）：訓練一個側網絡（side network）來編碼視覺條件，再將其中間層特徵融合到凍結的預訓練主網絡中。這個範式雖然效果顯著，但側分支的角色定位與訓練效率長期未被深入研究。LISA 從基於分數的生成建模（score-based generative modeling）角度重新審視這個範式：主網絡負責提供先驗的無條件分數（unconditional score），側網絡則透過隱式方式貢獻似然分數（likelihood score）。

LISA 的核心做法是從側網絡的指定層提取特徵，透過一個輕量級解碼器（decoder）將其投影到分數潛在空間（score latent space），然後計算解碼器輸出與近似似然分數目標之間的距離，作為額外的正則化損失（regularization loss）。這個設計讓側網絡的特徵在條件建模中更加解耦（disentangled），且推理階段無需任何額外計算。

根據論文實驗結果，LISA 在多種圖像與影片任務、不同網絡架構（UNet/DiT）以及擴散與流匹配模型上均表現穩定，能夠實現超過 2.78 倍的訓練收斂加速（例如在 ControlNet 上），同時帶來可忽略的額外訓練成本與零推理成本。

這項技術特別適合需要快速迭代 ControlNet 或類似條件控制模型的團隊，例如從事姿態引導圖像生成、組合條件生成或可控影片生成的研究人員與開發者。

重點摘要：

方法類型：訓練正則化技術，適用於雙分支視覺條件可控生成框架
核心創新：將側網絡特徵對齊近似似然分數目標，取代純粹依賴擴散損失的訓練方式
訓練效率：在 ControlNet 等場景實現超過 2.78 倍的收斂加速
推理成本：零額外推理開銷，解碼器僅在訓練階段使用
適用範圍：圖像與影片生成任務，兼容 UNet 與 DiT 架構，支援擴散與流匹配模型

GitHub · Paper

Categories: 開源, 香港, 香港科技大學, 華為, IDE, 模型, 模型訓練, 深度學習, 視覺模型, 框架

UnityShots：多鏡頭影音生成的記憶驅動新方案

2026 年 6 月 26 日

UnityShots 是一個研究性質的多鏡頭影音生成框架，核心任務是解決現有方法在長序列多鏡頭影片中難以維持人物、場景與聲音一致性的問題。它基於已有的單鏡頭影音擴散模型 LTX-2.3（22B 參數）建構，從一段結構化提示詞直接生成 3 至 9 個鏡頭的連續 .mp4 影片，確保角色容貌、場景光影與配音語音在各鏡頭間保持連貫。

現有做法通常依賴三種路線：端到端訓練固定長度序列但難以擴展、以記憶庫逐鏡頭生成但容量隨鏡頭數線性膨脹，或用大型語言模型規劃器調度預訓練生成器而缺乏多鏡頭感知骨幹。UnityShots 的切入點是引入邊界感知門控（Boundary-Aware Gating）與雙槽記憶機制：影片流維持兩個固定大小記憶槽，長期記憶（LTM）錨定開場鏡頭，短期記憶（STM）保留前一鏡頭尾部，兩者在每次剪接時由門控網路更新；音訊流則在每個鏡頭注入參考說話者 token，避免滑動音訊庫的負擔。另一個辨識度高的設計是透過 AdaLN 學習離散剪接類型先驗（cut-type prior），讓使用者可在推論階段調整轉場強度。

以下為重點摘要：

類型：多鏡頭影音生成研究框架，附帶資料集與基準測試。
核心差異：用固定大小雙記憶槽取代線性增長的記憶庫，並加入參考語者 token 維持聲音一致性。
控制能力：剪接類型先驗成為推論時可調旋鈕，使用者可指定轉場強弱。
相關模型：以 LTX-2.3 22B 為基座，整合 AdaLN 門控機制。
資料集：釋出 UnityShotsBench，涵蓋六大文化區域、13 種語言的 200 段多鏡頭序列。

現有評估涵蓋 I2V、T2V、R2V 三種條件模式，UnityShots 在跨鏡頭一致性與音畫品質上與開源及閉源基準相當。對從事多鏡頭敘事、短影音自動化或數位人內容生成的團隊而言，這套框架提供了較完整的記憶與控制設計思路。原始資料庫明確指出，檢查點、訓練程式碼與代理系統尚未釋出，因此目前無法從儲存庫直接取得安裝指令或模型權重；讀者若有興趣部署，需等待官方後續發布。資料集本身可從 Hugging Face 的 KlingTeam/UnityShotsBench 下載，供研究者評測自家模型。授權為 CC BY-NC 4.0，僅限非商業學術用途。

GitHub： https://github.com/JIA-Lab-research/UnityShots

項目主頁： https://jackailab.github.io/Projects/UnityShots/

Paper： https://arxiv.org/pdf/2606.21661

Categories: 開源, 香港, 香港中文大學, 香港科技大學, 字節跳動, Video, 庫, 提示詞, 模型, 數字人, 視頻模型, 語音, 框架, 清華大學, LTX

Page 1 of 5

1 2 3 … 5 Next »