視覺模型 – InferNews

OmniShotCut 在鏡頭邊界偵測任務的最新技術

OmniShotCut 作為一種先進的解決方案，在各種類型的影片中都能出色地偵測鏡頭邊界，從動畫到體育轉播皆適用。該工具採用基於鏡頭查詢的影片轉換器，與傳統方法相比，提供了更高的靈敏度和資訊豐富性。處理多樣化影片來源的影片編輯師、內容創作者和研究人員應該考慮使用 OmniShotCut，因為它能夠準確識別突兀的跳接和微妙的轉場如溶解和漸變。對於初次使用該工具的人，首先理解鏡頭查詢機制的核心概念可以提供堅實的基礎。這種方法使模型能夠有效地分析和分類影片中的不同類型的鏡頭變化，特別適合需要對影片編輯過程進行精確控制的專業人士。

實際上，OmniShotCut 通過其複雜的轉換器架構處理影片幀來運作。模型學習根據視覺線索和時間關係區分不同的鏡頭類型。用戶可以從這項技術中獲益良多，特別是在處理需要細緻編輯的大批量影片內容時。自動偵測這些邊界可以節省大量的時間和精力，讓編輯師能夠專注於創意方面而非手動分割。此外，本地 Gradio 介面的加入簡化了實驗和與現有工作流程的整合，即使對那些程式設計經驗有限的人也同樣易於使用。

OmniShotCut 的主要受益者是媒體製作專業人士、研究影片內容的學術研究人員以及從事影片分析應用的開發人員。這些群體可以利用該工具的能力來提升他們項目的品質和效率。然而，需要注意潛在的權衡。雖然 OmniShotCut 在準確性和多功能性方面表現優異，但用戶必須確保擁有足夠的計算資源以高效運行模型。此外，底層轉換器架構的複雜性可能對不熟悉深度學習概念的用戶構成挑戰。因此，基本的機器學習原則理解將會很有幫助。

為了最大化 OmniShotCut 的效益，用戶應從探索提供的 Gradio 示範開始。這種親手實踐的體驗可以提供對模型性能的洞察，並有助於理解其輸出。觀察的重點包括模型如何處理不同類型的影片以及其鏡頭變化偵測的準確性。透過實驗各種輸入影片，用戶可以對將 OmniShotCut 應用於特定需求充滿信心。此外，在推理過程中考慮 clean_shot 模式可以簡化結果，提供僅聚焦於有效鏡頭而無轉場或突兀跳接的乾淨輸出。

OmniShotCut 代表了鏡頭邊界偵測技術的重大進步。其堅固的設計和多功能應用使其成為任何處理影片內容的人的無價資產。儘管在計算需求和技術知識方面存在某些考量，但使用 OmniShotCut 的好處遠遠超過這些小障礙。隨著影片分析領域的不斷髮展，像 OmniShotCut 這樣的工具無疑將在塑造未來創新中發揮關鍵作用。

Source: https://github.com/UVA-Computer-Vision-Lab/OmniShotCut

Categories: 影像模型, 影像處理, 視覺模型, 視頻模型, 開源

Amaze 獨特的視覺規劃工具

Amaze 提供了一種獨特的視覺規劃方法，透過先進的影像編輯模型來實現。這個儲存庫對於有興趣探索電腦視覺與AI驅動問題解決交集的研究人員和開發人員特別有價值。該專案專注於針對特定任務微調這些模型，例如導航迷宮，這需要對空間關係和模式識別有深入的理解。使用者應首先熟悉支援的模型，包括Bagel、Janus-Pro-7B和Qwen-Image-Edit，以及允許與外部服務靈活整合的API基於的模型。

在實踐中，Amaze通過應用監督式微調（SFT）技術來適應預訓練模型以符合迷宮解決任務的細微差異。該過程涉及使用config/資料夾中詳細指定的參數配置模型，其中maze.py包含Amaze Bench的特定設定。配置完成後，使用者可以進入sft/目錄執行為每個模型量身定做的微調腳本。此步驟對於優化目標任務的性能至關重要，確保模型能夠有效地解釋和操作視覺數據以解決迷宮。

使用Amaze的好處對於那些需要複雜視覺推理能力的專案最為顯著。機器人、自動系統和AI驅動遊戲等領域的研究人員可以利用此工具增強其應用程式在複雜環境中的導航能力。此外，希望將尖端影像編輯技術整合到產品中的開發人員會發現Amaze因其堅固的支持和清晰的文檔而無價。

然而，也有一些權衡需要考慮。對於初學者或沒有豐富機器學習經驗的人來說，設置和微調模型的複雜性可能會構成挑戰。根據專案規模的不同，訓練和推理所需的計算資源也可能相當龐大。使用者應仔細評估其硬體能力並分配足夠的時間進行實驗和優化。

要開始使用，請專注於理解專案結構。該儲存庫組織成幾個關鍵目錄：config/、data/、infer/、scripts/和sft/。每個目錄在工作流程中都具有不同的目的，從管理配置和加載數據集到執行推理和微調過程。特別注意infer/目錄，它包含了生成模型響應和計算評估指標的核心邏輯。該目錄中的maze_metrics.py文件尤其重要，因為它定義了用於評估模型在迷宮解決任務上表現的專業指標。

Amaze提供了一個全面的框架，用於在視覺規劃場景中利用影像編輯模型。雖然它需要一定的專業知識和資源投資，但在增強視覺推理能力方面的潛在收益使其成為相關領域專業人士值得追求的事業。透過仔細瀏覽其特點和功能，使用者可以解鎖AI驅動問題解決的新可能性。

Source: https://github.com/spatigen/amaze

Categories: 庫, 視覺模型, 開源

FORGE：製造場景的細粒度多模態評估

FORGE 標誌 — AI4Manufacturing/FORGE 在 GitHub 上

FORGE 提出了一個全面的評估框架，專門針對視覺語言模型（VLMs）在工業製造異常檢測中的應用。這個工具對於希望評估和改進 VLMs 在實際製造場景中表現的研究人員、工程師和 AI 專業人士特別有價值。該框架涵蓋了三個核心任務和基礎消融研究，提供了一種多維度的方法來理解 VLMs 在檢測異常（如錯誤模型、額外零件和缺失組件）方面的能力和限制。

在深入研究 FORGE 時，用戶應首先專注於理解三個主要任務：錯誤模型檢測、異常分類和額外/錯誤零件檢測。這些任務旨在模擬製造環境中面對的實際挑戰，使用照片和渲染圖像。基礎消融研究進一步探討了空間基礎和跨圖像零件匹配，提供了對 VLMs 空間推理能力的洞察。

在實踐中，FORGE 通過利用多種評估設置（包括零樣本、少樣本和上下文學習（ICL））來運作。用戶可以通過 YAML 文件配置這些設置，這些文件控制所有評估參數，如模型名稱、溫度和最大令牌數。這種靈活性使研究人員能夠根據自己的特定需求和假設量身定製評估過程。該框架支持多種後端，如 OpenRouter、OpenAI、Anthropic 和 Google，使用戶能夠實驗不同的 VLMs 並觀察其性能變化。

最能從 FORGE 中受益的是那些參與製造業 AI 解決方案開發和部署的人士。通過提供標準化的基準，FORGE 幫助這些專業人士識別各種 VLMs 的優缺點，促進在模型選擇和整合方面的明智決策。此外，詳細的輸出文件，包括緊湊結果、帶有原始 API 訊息的完整結果和執行日誌，為分析和報告提供了寶貴的數據。

然而，也有一些權衡需要考慮。框架的複雜性可能對新手構成學習曲線，需要對 VLMs 和異常檢測原理有紮實的理解。此外，運行廣泛評估所需的計算資源可能相當龐大，特別是在處理大型數據集和多種評估設置時。用戶還應當小心數據集中的潛在偏見和評估任務的限制，這些可能無法完全捕捉到實際製造異常的所有方面。

為了充分利用 FORGE，用戶應從探索存儲庫中提供的示例 YAML 配置文件開始。這些文件作為設置和運行評估的實踐指南。熟悉不同任務及其特定要求也是有益的，因為這些知識有助於設計有效的評估策略。此外，利用基礎消融研究可以提供對 VLMs 空間推理能力的更深洞察，這對於涉及零件匹配和空間基礎的任務至關重要。

FORGE 是一個強大的工具，用於評估視覺語言模型在製造異常檢測中的應用。它提供了一種結構化的評估模型性能的方法，涵蓋各種任務和設置，使希望在工業環境中增強 AI 應用的研究人員和工程師受益。儘管存在複雜性和資源需求，但框架的靈活性和全面的輸出使其成為推進製造業 AI 領域的寶貴資產。

City University of Hong Kong | HKUST (Guangzhou) | CUHK (Shenzhen)

Source: https://github.com/AI4Manufacturing/FORGE

Categories: 香港中文大學, 香港科技大學, 庫, 視覺模型, 開源, 香港城市大學

WildDet3D：擴展野外可提示的3D檢測

WildDet3D 的主要受益者是電腦視覺、機器人和擴增實境領域的研究人員和開發人員。在非結構化環境中進行準確的3D檢測為機器人操作等應用打開了新的可能性，其中精確的物件定位至關重要。同樣，在AR/VR中，WildDet3D可以通過準確檢測和渲染現實世界環境中的3D物件，實現更沉浸和互動的體驗。

WildDet3D 在3D檢測領域代表了一個重要的進步，特別是在現實世界、非結構化環境中。這個項目由艾倫人工智慧研究所和華盛頓大學等機構的協作團隊領導，為希望提升3D檢測能力的人們提供了一個多功能的工具包。無論您是探索電腦視覺最新技術的研究人員，還是將先進3D檢測整合到應用中的開發人員，WildDet3D 都提供了堅實的基礎供您建立。

對於新手來說，最直接的重點應該是理解核心功能以及如何將其應用於特定的使用案例。該項目的文檔和示範應用提供了一個明確的起點。例如，HuggingFace 互動示範允許用戶在網頁瀏覽器中直接實驗文本、點和框提示，提供了一個直觀的技術介紹。此外，iPhone 應用展示了實時的裝置上3D檢測，展示了WildDet3D在移動環境中的實際應用。

在實踐中，WildDet3D 通過利用先進的機器學習模型來解讀2D圖像並推斷3D空間資訊。該系統可以處理各種類型的提示，包括文本描述、幾何框輸入和視覺範例，以檢測和定位三維空間中的物件。這種靈活性使其特別適用於需要動態和互動3D物件檢測的應用。例如，將WildDet3D與視覺語言模型整合可以增強系統理解並回應關於3D環境的複雜查詢的能力。

然而，也有一些權衡需要考慮。雖然WildDet3D提供了令人印象深刻的性能，但它需要大量的計算資源，特別是對於實時應用。用戶應確保他們有足夠的硬體能力來支持模型的需求。此外，對高品質輸入數據的依賴，如準確的相機內參和可選的深度輸入，可能影響系統的有效性。要達到最佳結果，仔細的校準和數據預處理是必不可少的。

要開始使用WildDet3D，安裝過程涉及克隆儲存庫並設置具有必要依賴項的Python環境。以下是安裝的代碼塊：

Bash

git clone --recurse-submodules https://github.com/allenai/WildDet3D.git
cd WildDet3D
conda create -n wilddet3d python=3.11 -y
conda activate wilddet3d

安裝所有依賴項
pip install -r requirements.txt

安裝後，用戶可以探索該項目提供的各種推理方法。這些包括基於文本提示、幾何框輸入和視覺範例檢測物件。每種方法都有其優點，適用於不同的使用案例。例如，文本提示對於需要自然語言互動的應用最為理想，而框提示則更適合已知特定物件位置的場景。

總之，WildDet3D 是一個強大的工具，用於擴展現實世界應用中的3D檢測。它為研究人員和開發人員提供了一個靈活且堅實的框架，以探索和整合先進的3D檢測能力。雖然需要仔細考慮計算資源和輸入數據品質，但對於電腦視覺、機器人和AR/VR應用的潛在好處使其成為這些領域工作人員工具包中的寶貴添加。通過專注於核心功能並理解實際影響，用戶可以為其特定需求釋放WildDet3D的全部潛力。

Source: https://github.com/allenai/WildDet3D

Categories: 視覺模型, 開源

LGTM – 0.5 秒重建 3D 場景

LGTM 是首個原生支援 4K 饋送前向（feed-forward）方法，透過預測緊湊的高斯原語（Gaussian primitives）搭配每個原語的紋理（textures），解耦幾何複雜度與渲染解析度，避免傳統方法隨解析度增加而原語數量二次方爆炸。這是由 Yixing Lao（香港大學博士生）領導的 3D 高斯噴濺（Gaussian Splatting）研究項目，已被 ICLR 2026 接受。

Categories: 香港大學, 視覺模型, 視頻模型, 開源

TRIBE v2 (Meta) 全腦神經活動資訊

TRIBE v2（Trimodal Brain Encoder）是一個多模態基礎模型，用於輸入一段影片、音訊或文字，然後輸出一個對應的「全腦神經活動圖」（約 7 萬個體素的 fMRI‑style 活動預測）。
它在 Algonauts 2025 獲獎架構上進一步提升，準確度約是上一代 2–3 倍，空間解析度提高約 70 倍，並支援跨受試者、跨語言、跨任務的 zero‑shot 預測。

可以當成一個「神經科學可視化工具」，用來研究。例如內容設計（影片、廣告、UI）如何觸發大腦特定區域（視覺皮層、語言區等）。又或者多模態 embedding 是否真的對齊人類大腦的處理路徑。

若你在做 RAG、多模態搜尋或 Brain‑AI 類實驗，可以拿這個 demo 來：比較不同 prompt／多模態輸入對「腦激活圖」的差異（例如：同一段文字用不同語氣、圖片風格重製）。

Categories: Medical醫學, 視覺模型, 開源, Meta

PrismAudio 視訊立體聲模型框架

PrismAudio 是一個把視訊畫面轉成立體聲（stereo）音訊的 AI 模型框架，目標是在四個維度上同時優化：

語義合理性（Semantic）
音視同步性（Temporal synchrony）
音質美感（Aesthetic quality）
空間準確度（Spatial accuracy）

作者的關鍵點是：現有模型通常把這些目標混在一個損失函數裡，會造成「目標互相干擾」（objective entanglement），而 PrismAudio 用 分解式 Chain‑of‑Thought（CoT）推理＋多維度強化學習（RL） 來避免這個問題。

Categories: 聲效, 視覺模型, 開源

VLS : 透過視覺語言模型引導預先訓練機器人策略

VLS（Vision-Language Steering）的具體作用是透過視覺語言模型（VLM）即時導向預訓練機器人策略，解決測試時的分布偏移，讓機器人在新環境中保持高成功率，而無需重新訓練。

VLS 針對預訓練擴散策略在空間變化（如新位置）或任務變化（如新物件）下的失效，提供無梯度、無訓練的適應機制，利用 VLM 生成可微分獎勵函數，注入去噪過程。
它將任務分解為順序階段（如「抓取」→「放置」），使用 3D 關鍵點獎勵，避免單一失敗導致整體崩潰。

場景	無 VLS 成功率	有 VLS 成功率	提升幅度
任務擾動	23%	38%	+15%
位置擾動	24%	35%	+11%
真實廚房任務	~50%	85%	+35%

Categories: 視覺模型, 開源, Robotic

ShapeR 隨拍可還原 3D 場景

ShapeR 是以 rectified‑flow 為基礎的生成模型，能直接從日常拍攝的影像序列（即「不規則」捕捉）重建高保真的三維物件。整體流程大致可以分成幾個步驟：

先用現成的視覺‑慣性 SLAM 演算法把鏡頭移動和稀疏點雲拿出來，接著再交給 3D 物件偵測器把每個目標物分割出來。每個偵測到的物件會得到幾張具備相機位姿的多視角圖片、一組稀疏的 SLAM 點，還有一段由視覺語言模型自動產生的文字說明。這些資訊（點雲、多視圖、文字）會被封裝成一個多模态的條件向量，送給訓練好的 rectified‑flow Transformer 去去噪。

Transfomer 輸出的 latent VecSet 接著經過一個 3D VAE 解碼，最後生成完整的三維網格。整個模型只需要在合成資料上先做大量的單物件預訓練，接著再在更具挑戰性的合成場景與真實場景資料上進行兩階段的訓練，過程中會不斷加入各種自然的背景、遮擋、噪聲以及 augmentations，讓模型學會在「雜亂」的環境下仍保持穩定。

研究團隊也釋出了一個專屬的評估資料集：裡面有 178 個真實世界的物件分布在七個場景中，配有完整的地面真值網格、配對好的多視圖影像、SLAM 點雲與文字描述。這筆資料專門用來測試在野外捕捉時的遮擋、雜亂、解析度變化等情況，讓模型在更貼近實務的條件下接受測試。

在測試結果上，ShapeR 在 Chamfer Distance 指標上比目前最好的方法提升了 2.7 倍，顯示出在「不規則」情境下的穩定性確實比先前的單視圖或全局場景重建方式更佳。相較於同樣流行的 SAM3D 方法，ShapeR 的特色在於它利用多視圖的幾何資訊（SLAM 點、相機位姿）來保證形狀的尺度與真實感，而 SAM3D 則依賴單張圖像與互動，對於規模和視角的一致性較弱。兩者其實可以互補——把 ShapeR 的幾何結果再送給 SAM3D 生成更豐富的材質或細節。

總結來說，ShapeR 透過把 SLAM 點雲、3D 偵測、多視圖影像和自動文字說明這幾種資訊全部結合起來，做出一個能在日常拍攝場景下產生高品質、具備度量真實性的單物件三維形狀的生成模型，並提供了完整的測試素材與模型資源讓研究者直接使用。

ShapeR: Robust Conditional 3D Shape Generation from Casual Captures

Watch this video on YouTube

面向	ShapeR	SAM3D
輸入	多視角序列 + SLAM 點 + caption 等多模態	單張影像 +（物件時多半要 mask / 互動)
任務重點	場景級、物件為中心的度量重建與佈局	單視圖高品質幾何 + 貼圖的物體/人體重建
幾何精度	強調 metric accuracy、相對尺度與佈局一致性	可缺乏精確比例與 layout，特別是複雜場景
紋理 / 外觀	較偏幾何與場景結構（官網重點在 shape）	強調 photoreal 紋理與真實外觀 priors
互動需求	不需要使用者互動，pipeline 自動處理	需要物件 mask / prompt，屬於 promptable / interactive workflow
訓練數據	合成多模態場景（SLAM + 多視圖）	大規模真實 image→3D（Objects/Body 各自的 dataset）
適合場景	AR 眼鏡 / 機器人多視角感知、場景 mapping、學術評測	商業應用：電商 AR、human pose & shape、單圖 3D content creation

Categories: 影像處理, 視覺模型, 開源

Step3-VL-10B 輕量但超級視覺模型

Step3-VL-10B 是一款輕量級開源基礎模型，旨在重新定義緊湊高效與前沿多模態智能之間的權衡。儘管僅有 10B 參數，Step3-VL-10B 在視覺感知、複雜推理和人類對齊方面表現卓越。

該模型在 10B 規模以下的模型中始終表現最優，並能媲美甚至超越規模大 10×–20× 的開源模型（如 GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B）以及頂級閉源旗艦模型（如 Gemini 2.5 Pro、Seed-1.5-VL）。

Demo: 根據表格推導”STEPFUN”的莫爾斯編碼

Thinking Process

用户现在需要把每个字母转换成莫尔斯电码，先看每个字母在表中的编码。首先分解"STEPFUN"每个字母：S、T、E、P、F、U、N。

S：看右边第三列第一个，S是···（三个点）。（一个短横）
T：第三列第二个，T是-。
E：左边第一列第五个，E是·（一个点）。
P：中间列（J到R）中P对应的符号是·--·点、短横、短横、点）。
F：最左侧列第六行，F的符号是··-·（两个点、一个短横、一个点）。
U：最右侧列第三行，U的符号是··-（两个点、一个短横）。
N：中间列（J到R）第五行，N的符号是-·一个短横、一个点）。
再将每个字母的编码按顺序拼接（字母间用空格分隔更清晰），"STEPFUN"的莫尔斯电码为：··· - · ·--· ··-· ··- -·

Final Answer
··· - · ·--· ··-· ··- -·

Step3-VL-10B 的成功源於兩大核心設計：高質量多模態語料庫的統一預訓練（1.2T tokens）與規模化多模態強化學習（超過 1,400 次 RL 迭代），並引入 Parallel Coordinated Reasoning (PaCoRe) 實現並行視覺探索的證據聚合。

Categories: 推理引擎, 視覺模型, 開源

Page 1 of 4

1 2 3 4 Next »