3D – InferNews

See2Think 驗證多模態模型有冇「睇圖再諗」

2026 年 8 月 1 日

See2Think — Do Multimodal Models Really Use Intermediate Visual States?

見到模型會畫線、裁圖、標記物件，很多人自然會當它「有睇過先答」。See2Think屬於基準測試加診斷框架，焦點不是只看最後答啱幾多，而是拆開檢查中間視覺狀態有冇被真正用到、渲染是否忠實，以及後續推理有冇因此改變，這點對多模態模型（Multimodal Models）尤其關鍵。

它的核心設計分成兩部分：See2ThinkBench 收錄 1,200 條 visually dependent 問題，涵蓋 2D structured reasoning、3D scene reasoning 同 real-world visual reasoning；另一部分是 Visual Action-of-Thought（VAoT）流程，會把文字思路、structured visual actions、rendered states 同之後的推理串連起來。這種做法比單看 final-answer accuracy 更有診斷力，因為可以分辨模型是在「做出圖像」還是在「依賴圖像」。

同類研究常停留在結果分數，See2Think較著重受控比較。它設有 CoT、NoRender、Full、WrongRender 等 matched comparisons，又會檢查 render-benefit、corrupted-feedback sensitivity，以及 process judging 裡的 relevance、faithfulness、uptake，換句話說，不只問模型答得對不對，還會問中間那一步是否相關、是否被正確執行、以及模型有沒有吸收回來的視覺資訊。

適合研究多模態推理、agent 行為分析、視覺工具鏈設計的團隊
強項在於把「中間圖像是否有用」變成可觀察、可干預的測試問題
覆蓋圖表、幾何、符號結構、3D 空間關係到真實圖片場景
GitHub 已公開程式與 quick start 線索，但論文仍標示為 coming soon，細部實驗設定仍要以後續正式文件核對

對模型評估要求較細緻的情境，這個項目很有參考價值；想拿它直接當應用工具就未必是同一回事。它更像研究型基礎設施，幫團隊判斷多模態系統的推理鏈是否可信，而不是單純追求更高答題分數。

項目主頁 · GitHub

Categories: 開源, 香港科技大學, Agentic, 3D, 多模態模型, Dataset 數據集, 上海人工智慧實驗室

Wonder：Adobe 把影片變成可探索世界

2026 年 7 月 31 日

由一張圖片或一段影片出發，Wonder會建立一個可以邊走邊看的互動式 Video World Model，處理的是「鏡頭一直移動，但場景仍要連貫」這個難題。你向前推、左右轉，甚至回到之前看過的位置，畫面都要盡量保持幾何、外觀同動態一致，而唔係每一格重新幻想一次。

呢個項目吸引的地方，在於它兼顧了互動感同穩定性。官方資料指出，Wonder支援 image-to-video 同 video-conditioned generation，提供 6-DoF camera control，並以接近固定延遲維持最長一分鐘的探索；對想做可遊走場景、遊戲世界原型、動畫預覽，或者互動式視覺敘事的人來講，呢種體驗比單次生成短片更有用。

為咗令鏡頭控制唔只停留喺抽象指令，Wonder把相機平移與旋轉轉成可對齊畫面的密集視覺證據，再配合 3D scaffold 同 environment map 去建立可導航空間。它亦保留完整歷史的 KV caches，再用 sparse attention 抽取相關記憶，令系統可以在不明顯拖慢回應下，維持較長距離的一致性。

支援 I2V+V2V multimodality，可由圖片或影片開始生成互動世界
提供 6-DoF camera control，重點是可探索而唔係只看固定鏡頭片段
以 sparse attention 配合完整歷史記憶，改善長時段連貫性
官方展示為 16 FPS rollout，頁面上的 32 FPS 影片屬線性插幀後處理

訓練部分用了 Mixture-of-Students 設計，並以 GAN Control Regularization 處理蒸餾時的 camera drift，目標是同時保住控制能力同長期一致性。現階段公開資訊以示範與技術報告為主，Code 同 HuggingFace 尚未釋出；不過單看定位，Wonder已經清楚指向一類更接近「可互動世界」而唔係「一次性影片生成」的世界模型方向。

項目主頁

Categories: 開源, Video, Image, 3D, 模型訓練, 視頻模型, 世界模型

ClinFusion 把醫療影像讀懂再回答

2026 年 7 月 28 日

醫療多模態模型最易失準的位置，往往不是會不會答，而是有沒有真正對準影像內容。ClinFusion屬於模型，更準確地說是面向臨床理解的 vision-centric Multimodal large language models (MLLMs) 系統，重點放在同時處理 2D 圖像、原生 3D NIfTI 影像與文字任務，減少只靠文字對齊時常見的臨床細節流失。

現有做法常把醫療問題當成一般多模態問答處理，但作者認為這種範式忽略了 3D 影像與放射科判讀流程，因此用 compositional and cascaded vision encoder 配合 Cascade Spatial-Aware Locality Fusion，把 2D 與 native 3D 醫療影像放進同一個 fused encoder。另一個關鍵不是只換模型，而是連評測也改寫：加入 MedIF-Bench 檢查 instruction following，並用 region-of-interest-grounded 方法評估報告生成的 factualness。

論文給出的成績相當進取：ClinFusion 在 24 個基準中有 20 個超過 Hulu-Med、Lingshu 等開源醫療 MLLMs，也在 16 個比較裡有 13 個勝過 GPT-5.2 與 Gemini-3-Flash。盲測部分由 board-certified radiologists 進行，報告排名亦拿到最佳，RoI-grounded metric 與專家判斷的相關性也最高，這點比單看自動分數更有說服力。

可接受文字 prompt、2D 圖像路徑，以及 3D NIfTI volumes（.nii.gz）
定位不是通用聊天，而是臨床導向的整體醫療理解
核心取向是把 2D/3D 視覺編碼與臨床一致的評測一併重做
已公開模型推理方向，但儲存庫資訊未完整交代部署流程與完整安裝細節

較適合留意這個項目的，會是做醫療 AI、放射影像、多模態研究或醫療報告生成評測的團隊。它的亮點在於把「模型看見了什麼」與「臨床上是否講得準」放到同一條線上；限制亦很清楚，現有 GitHub 資訊主要集中在作者主張與推理輸入格式，真正要落地到醫院工作流，仍要再看公開模型、硬件需求與後續工具鏈是否齊備。

GitHub · 模型

Categories: 開源, 阿里巴巴, Qwen, Image, 3D, Medical醫學, 多模態模型, 模型, 中國, 清華大學, Dataset 數據集

Google 開源 GNM Head：更完整的人頭 3D 模型

2026 年 7 月 28 日

只做臉部外殼，很多時已經唔夠用；去到動畫、重建同生成式影像控制，眼球、口腔同頭部姿態一旦分離得唔好，效果就會即刻穿崩。google/GNM 目前先開放的 GNM Head，屬於3D parametric statistical human model 項目，焦點是用更完整的人頭幾何表示，處理傳統 3D Morphable Models (3DMMs) 對內部 anatomy 覆蓋不足的問題。

這個項目的取向很鮮明：不只是追求一個可調參的人臉網格，而是把 head、face、neck、eyeballs、teeth、tongue 放進同一個生成式人體測量框架。作者在技術報告指出，現有公開模型多數只覆蓋外部幾何，亦容易受限於低保真掃描資料；GNM 則結合高解析 3D scans 與 anatomy-specific artist-made samples，並加入 ocular 同 intra-oral specialized sub-models，目的就是改善幾何品質同可控性之間的取捨。

現有儲存庫較像一個生態系入口，而唔係即開即用的單一應用程式。README 清楚列出 GNM Head 已提供 NumPy、JAX、PyTorch、TensorFlow 多後端支援，亦有 Linux、macOS、Windows 的 CI；但目前公開資訊以模型與技術報告為主，未見到很完整的產品化操作流程說明，所以較適合研究、角色生成、數碼人、3D 視覺或生成式影像控制團隊按其子目錄文件逐步接入。

補足傳統 3DMM 常見缺口：不只外形，連眼球、牙齒、舌頭都可控
GNM Head 強調 identity、expressions、head pose 的 disentangled control
同時支援 NumPy、JAX、PyTorch、TensorFlow，方便接去不同研究流程
技術報告聲稱在 fitting target 3D face scans 達到 SotA 表現，但具體指標仍要回看原報告

它最吸引人的地方，在於把「可生成、可擬合、可作條件控制」三條路線拉到同一個模型家族內。現階段公開內容仍以 GNM Ecosystem 的起步版本為主，想拿來做完整 production pipeline，仍要自己判斷與現有重建、動畫或生成系統的整合成本；但作為高保真人頭 3DMM 的新基礎，這個項目的研究價值同延展空間都相當高。

GitHub · Paper

Categories: 開源, Google, TensorFlow, 3D, Linux, Mac, Python, 多模態模型, 模型, 語音, Dataset 數據集

FilmOps 將電影語言拆成可分析標籤

2026 年 7 月 28 日

一段影片好不好，不一定只靠整體觀感判斷；鏡頭遠近、構圖、機位、色調同運鏡，往往先係影響觀感的核心。FilmOps 正正瞄準呢個缺口：它不是一般影片生成模型，而是一套開源 operator suite，用來把影片畫面映射成結構化的 cinematographic labels，處理的是電影語言難以被細緻分析與量化的問題。

現有影片 benchmark 多數集中在 general perceptual quality、text alignment 或 temporal smoothness，對專業 cinematographic language 仍然偏粗略；general-purpose MLLMs 又難以穩定辨認 film-specific attributes，而 aesthetic predictors 這類領域模型面對 cinematic content 亦有明顯 domain gap。FilmOps 的取向很清楚：不用單一大模型包辦所有判斷，而是把六個維度拆開，按任務特性分配不同 backbone，令 shot scale、composition、camera angle、color & tone、character layout 同 camera movement 可以分別處理。

它的價值在於更像一套分析管線，而不是只給你一個總分。項目覆蓋 55 個以上子類別，分類定義對齊 Film Art、ASC Manual、Cinematography: Theory and Practice，亦經過 practitioner 驗證；加上 modular architecture，可以獨立用單一 operator，或者走 unified pipeline。對要做影片生成評測、鏡頭標註、資料整理，甚至研究 FilmBench 呢類 cinematic benchmark 的團隊，這種拆解方式會比泛用多模態評分更有解釋力。

屬於開源工具／模型組合，重點是把影片拆成電影語言標籤，而不是直接生成影片
六個 operator 採用 task-specific backbone，包含 DINO ViT-B/14、BEiT Base、ResNet-18、InternVL3-14B
支援 live-action、3D animation、2D animation 同 stylized content，強調 cross-genre consistency
已交代基本部署條件，包括 Python、PyTorch、CUDA 與 ffmpeg，也提供 unified pipeline 與 checkpoints 準備方向

現有資料只明確指出它在所有維度都勝過 general-purpose MLLMs，但細節主要放在論文。配套的 FilmBench 亦用同一套 Cinematic Language 思路建立 benchmark，並聲稱 evaluator 在模型排名上與人工評分高度一致，說明 FilmOps 並非只為展示而做，而是服務整個影片評測流程。不過它始終偏向分析與標註基建，想直接拿來做完整產品，仍要自行處理 checkpoints 下載、推理資源，並接受部分 operator 對 CUDA 與較重模型的依賴。

GitHub · Paper

Categories: 開源, 阿里巴巴, Gemini, NVIDIA, 3D, AI productions, Python, 動畫, 多模態模型, 語音, Dataset 數據集

CrossView 用 3D 數值控制鏡頭：LTX-Video 跨視角生成

2026 年 7 月 28 日

想將一段現成影片改成另一個鏡頭角度，又唔想主體變樣或空間關係散掉，這正是此模型處理的問題。它明確基於 Lightricks/LTX-2.3，屬於 LTX-Video 2.3 22B 的 IC-LoRA 微調，重點不是純文字改鏡頭，而是用輸入影片加相機偏移數值，重建同一場景的新視角。

頁面提供的做法幾清楚：模型同時接收兩段參考影片，一段是由 CrossViewWarp ComfyUI node 產生的 depth-warp 影片，用來保留幾何結構；另一段是原始影片，用來維持主體 identity。這種雙參考分工，反映它優先解決「換角度後仍要似原片」的取捨，比單靠 prompt 描述鏡頭更穩定。

它與同作者的 CrossView Prompt LoRA 差異亦很直接：後者由文字提示選鏡頭角度，這個版本改為輸入 azimuth / elevation / distance 等數值，所以鏡頭控制更精確。頁面亦提到可以在 3D orbit picker 加 keyframes，逐幀插值相機姿態，代表不只可做固定新視角，也可做繞拍式 camera move。

基礎模型已標明為 Lightricks/LTX-2.3，授權為 Apache-2.0。
主要檔案是 LTX2.3-22B_IC-LoRA-CrossView-Warp_v0.9_18000.safetensors。
依賴 ComfyUI-CrossViewWarp 與 Depth Anything V2 節點提供 depth 輸入。
示例包含固定視角偏移與 keyframed 軌道鏡頭，並說明輸出來自真實影片而非合成訓練片段。

這個項目目前仍是 PoC，它較偏向 ComfyUI 工作流驗證，而不是通用本地大語言模型部署。

模型

Categories: 開源, ComfyUI, Video, 3D, AI productions, 視覺模型, 視頻模型, LTX

SeededGrasp 用自然語言指揮機械人精準抓取雜亂物件

2026 年 7 月 26 日

SeededGrasp: Language-Guided Grasping in Complex Scenes with Multiple Embodiments teaser figure

當桌面堆滿不同物件，機械人要聽得明「拎紅色杯旁邊嗰支筆」這類指令，難處不只在辨認物件，仲要同時算準 3D 空間位置同抓取角度。SeededGrasp 針對的正是這類語言引導抓取場景，重點不是端到端硬推整個動作，而是先找對目標，再生成穩定抓取姿態。

它的做法相當清晰：先用預訓練 Vision-Language Model（VLM）把文字指令轉成影像中的 2D 種子點，再投影到 3D 點雲，交給輕量的 flow-matching grasp model 產生 6DOF 抓取姿態。這種拆分方式把高層語意判斷同低層幾何執行分開，減少重新訓練整個系統的成本，也較容易支援多種 embodiment。

相比直接由 VLM 預測抓取，SeededGrasp 保留語言理解的直觀操作，同時補回空間推理不足；相比把 VLM 同抓取模型一併訓練，它對語言標註資料與算力的需求更克制。團隊亦公開多 embodiment 桌面抓取數據集，包含超過 2.56M 個 cluttered scenes 抓取姿態，涵蓋 Franka Panda、Allegro Hand 同 Robotiq 3-Finger。

用簡單文字指令指定目標，適合雜亂桌面抓取情境
以 2D 種子點連接 VLM 與 3D 抓取生成，降低端到端訓練負擔
支援多種 embodiment，不限單一夾爪或手型
公開 2.56M grasp dataset，補足多 embodiment 訓練資源
模擬成功率達 72%，真實環境抓取實驗達 78%

對機械人操作、語言介面同 grasp planning 有興趣的讀者，會較容易感受到這個項目的價值：它沒有把所有問題塞進同一個大模型，而是用較節制的架構處理語意與幾何之間的落差。現階段重點仍在桌面雜亂場景抓取，但它已經展示出多 embodiment 擴展同資料效率上的實用方向。

項目主頁 · Paper

Categories: Google, 3D, 多模態模型, 模型訓練, 視覺模型, Robotic, 框架, Dataset 數據集

Film space：用 iPhone 走出 AI 鏡頭路徑

2026 年 7 月 18 日

拍 AI 風格化影片時，最難控制的往往唔係畫風，而係鏡頭點樣郁、人物點樣企。Film space 把呢個問題拆得幾務實：它屬於 3D 預演工具，用 iPhone ARKit 把你真實行走時的裝置移動，轉成可錄製的虛擬鏡頭路徑，之後再交畀 Seedance 2.0 呢類工具做 AI style transfer 參考。

它的定位唔係直接生成影片，也唔係完整剪接系統，而係補上 AI video workflow 入面最易失真的一段：先用虛擬 studio 做 blocking，再用手機走一次鏡頭。相比純文字提示詞或者只靠模型自己猜運鏡，Film space 換來的是更清楚的鏡頭方向感；代價是你需要親身拿住 iPhone 進行錄製，而且目前明顯偏向單機、裝置端流程。

部署方式：整個流程在裝置上完成，建議橫向畫面使用，錄好的片段會存入相簿，再帶去後續生成工具。場景編排包括棋盤地板、格線、座標軸，亦可加入 human stand-ins 來模擬人物站位；去到 Camera mode，手機的移動、轉向與傾斜會直接變成鏡頭運動，配合 35mm、50mm、75mm、200mm 焦段預覽，對做分鏡、音樂錄像、短片測鏡頭的人尤其有幫助。

把 blocking、走位同運鏡參考集中在同一個 iPhone 流程處理
重點唔在生成畫面，而在為 Seedance 2.0 等模型提供更穩定的鏡頭參考
以 ARKit 驅動 Camera mode，保留真人手持鏡頭的節奏感
有基本 lens simulation 同 stand-ins，足夠做前期預演，但未見到進階場景製作能力

效能數據同正式 benchmark 目前未有公開，因此較難量化追蹤精度或錄製穩定性；現有資訊較能確認的是工作流設計，而唔係模型級指標。Film space 最適合用來做前期測試、概念驗證同低成本鏡頭預演，尤其當你想保留真人運鏡感，但又準備把最終畫面交畀 AI 重新風格化，這個項目的價值就會幾明顯。

GitHub

Categories: 開源, Video, 工具, 3D, AI productions, Dataset 數據集

AsySplat：3D 場景重建更省算力

2026 年 7 月 18 日

AsySplat 是一個用於 3D Gaussian Splatting 的重建框架，主力解決長序列、廣覆蓋場景做新視角合成時，訓練和推理都太重的問題。現階段這個 GitHub 儲存庫主要提供項目頁、論文連結和資源，程式碼尚未公開，所以要理解它，重點放在方法設計而不是直接安裝部署。

它的做法是把 geometry branch 和 appearance branch 分開，前者處理較粗粒度的資訊，後者用較少參數補回外觀細節，再用 bilateral connections 互相引導。這種取向和一般把所有資訊一起硬塞進去的做法不同，目標是把算力用在更值得的位置。

從現有資料看，AsySplat 比較適合做多視角場景重建、研究級新視角合成，或需要在較大輸入規模下控制訓練成本的團隊。同時使用 sparse attention module，結合 convolution blocks 和 self attention 來減少開銷，並在 32-view 960P 輸入上取得較少參數和較低訓練、推理負擔的結果。

類型：3D Gaussian Splatting 重建框架
目標：降低 wide-coverage scene modeling 的重複計算
特色：幾何與外觀分流處理，再以 bilateral connections 協調
效能：在 32-view 960P 設定下，宣稱比之前的 generalizable models 更省參數和開銷
相關模型：3D Gaussian Splatting、generalizable 3DGS models、novel view synthesis (NVS)

項目主頁 · GitHub

Categories: 開源, 香港, 香港科技大學, 3D, 香港城市大學, Dataset 數據集

VideoChat3 一個睇得耐又睇得準的影片模型

2026 年 7 月 17 日

影片理解最麻煩的地方，往往唔係「識唔識睇」，而係要一邊保留動作細節，一邊捱得住長時間片段。VideoChat3 就係朝住呢個矛盾落手：它屬於多模態模型（Multimodal Large Language Model, MLLM），目標係用同一個 4B 模型處理細微動作、長片推理、temporal grounding 同 live streaming 回應。

同類項目好多時只會專注其中一段工作流，例如短片動作辨識，或者長片問答。VideoChat3 的取向係做 generalist video understanding，代價就唔係追求單一場景最極致的規格，而係用 I3D-ViT 同 Adaptive Frame Resolution 平衡 token 成本、時序證據同延遲，令模型唔需要全程用高成本方式讀完整段影片。

重點唔只係睇單格畫面，而係保留跨時間的證據
I3D-ViT 提供 16× spatiotemporal compression，主打效率
Adaptive Frame Resolution 會按需要提高畫面解析度，較適合 streaming 場景
已公開 model weights 同完整訓練數據，但 training code 仍未釋出

部署同測試的理解方式幾直接：現階段較接近研究釋出與模型體驗，適合先經 Hugging Face 取用 models & data，再按示範場景驗證長片問答、時間定位同串流回應表現。README 已列明完整訓練資料包括 Academic2M、LV116K、OL617K，對研究團隊、做 video agent、或者要建構影片檢索與監察流程的團隊最有參考價值。

公開資訊亦交代咗幾個關鍵數字：4B parameters、3M curated instruction samples、2,048 frames 下約 20.4s latency。呢啲數據未必代表所有環境都會有同樣效果，但至少講清楚它想證明的方向：唔靠超大模型，都可以把影片中的時間線索、事件關聯同即時反應放入同一套架構。相關模型與模組則以 VideoChat3、I3D-ViT、Adaptive Frame Resolution 為核心，整體更似一個面向研究與進階應用的開源影片理解項目。

項目主頁 · GitHub · 模型

Categories: 開源, Agentic, Video, 3D, 多模態模型, 模型, 視覺模型, 南京大學, 框架

Page 1 of 7

1 2 3 … 7 Next »