RBench and RoVid-X 機器人影片生成

RoVid‑X 號稱是目前最大規模的機器人影片生成開源資料集,約 400 萬 clips,覆蓋 1300+ skills / tasks,解析度達 720p,同時支援多樣機器人形態與多樣文字描述。RoVid‑X 主要解決現有 SOTA video diffusion / transformer 模型,在一般影片生成指標上不錯,但面對需要「因果一致、物理連貫」的機器人操作影片時,常出現物理錯誤、目標物體消失/瞬移、關節極限違反等問題。

RBench 旨在評估面向機器人的視訊生成的表現。它評估任務層面的正確性和視覺保真度。 雖然RBench為識別這些缺陷提供了必要的視角,但要實現物理上的真實性,還需要超越評估層面,解決高品質訓練資料嚴重短缺的問題。基於這些,他們引入了一個改進的四階段數據管道,由此誕生了 RoVid-X——迄今為止最大的開源機器人視頻生成數據集,涵蓋數千個任務,並富含全面的物理屬性標註。這項協同的評估和資料生態系統為視訊模型的嚴格評估和可擴展訓練奠定了堅實的基礎,加速了具身人工智慧向通用智慧的演進。

Categories: 影像模型, 視頻模型, 開源, Robotic

Paper2Rebuttal 反駁智能體框架

REBUTTALBENCH 是第一個將反駁生成重新定義為以證據為中心的規劃任務的多智能體框架。此方法解決了目前直接處理文字方法的局限性,這些方法常常導致臆想、忽略批評意見以及缺乏可驗證的依據。我們的系統將複雜的回饋分解為原子級關注點,透過將壓縮摘要與高保真文本合成來動態建構混合上下文,並整合一個自主的外部搜尋模組來解決需要外部文獻的問題。至關重要的是,REBUTTALAGENT 在撰寫反駁方案之前會產生一個可檢查的回應計劃,確保每個論點都明確地錨定在內部或外部證據之上。我們在提出的 REBUTTALBENCH 上進行的驗證過程表明,REBUTTALAGENT 在覆蓋率、忠實度和策略一致性方面均優於強大的基線系統,為同行評審過程提供了一個透明且可控的輔助工具。下圖總結了我們的工作,並比較了我們的方法與以往的方法。

REBUTTALBENCH 是一個多智能體框架,旨在將反駁過程轉化為結構化且可檢查的工作流程。系統在撰寫最終文本之前會產生與證據相關的中間產物,以確保輸出結果的可靠性和可控性。如下圖所示,該架構將複雜的推理過程分解為多個專業智能體,並配備輕量級檢查器。這種設計突顯了關鍵決策點,使作者能夠保留對策略立場和最終措辭的責任。此流程首先將稿件提煉成結構化的摘要,並提取審查者關注的原子性問題,以確保長期推理的穩定性。在這些關注點的指導下,系統透過從稿件中檢索高保真度的摘錄,並利用網路搜尋添加可驗證的外部文獻,建構證據包。工作流程最後產生一個明確的回應計劃,概述論點和證據鏈接,作者可以透過人機協作機制對其進行完善,之後系統將產生正式的反駁信。

REBUTTALBENCH 使用 LLM 作為評判員的評分標準,從相關性(R 分數)、論證品質(A 分數)和溝通品質(C 分數)三個方面,以 0-5 分制對回覆進行評估。下方的詞雲和高頻詞直方圖突出了評審員反覆關注的幾個方面,例如清晰度、新穎性和可重複性,這些也正是評分標準所明確針對的。

Categories: Agent, 編程, 開源

醫療 SAM3 省卻重新標註

Medical‑SAM3 目標是做一個類似 SAM/Segmentation Foundation 的醫療版,但是真正「通用」到多器官、多疾病、多成像模態(CT、MRI、超音波等),並且支持多種互動式 prompt。

動機在於現有醫療分割模型普遍是單任務 / 單器官 / 單模態,泛化到新醫院、新機器或新部位時效果差,需要大量重新標註。Medical‑SAM3 想以大規模預訓練 + prompt-conditioning 來解決這個問題。因此在新的檢查方式或少數族群資料面前能跨機構使用。

Medical‑SAM3 基於多個公開醫療影像資料集進行大規模預訓練與評估,涵蓋多器官、多模態和多中心資料,以求提升 domain shift 下的泛化能力。

Screenshot
Categories: 香港理工大學, Medical醫學, 開源


PersonaPlex 全雙工對話語音模型

PersonaPlex 是一款即時、全雙工的語音對話模型,它透過基於文字的角色提示和基於音訊的語音訓練來實現角色控制。該模型結合了合成對話和真實對話進行訓練,能夠產生自然、低延遲且角色一致的語音互動。 PersonaPlex 是基於 Moshi 架構和權重。

NVIDIA PersonaPlex: Natural Conversational AI With Any Role and Voice
Categories: NVIDIA, 教學, 語音, 開源

GLM-4.7-Flash 在 Mac 上的測試及比較

GLM-4.7-Flash 是 Zhipu AI 最新發布的 30B 參數 MoE 模型(3B 活躍參數),專為高效本地運行與程式碼生成設計,在同尺寸模型中達到開源 SOTA 效能。​​

影片使用 Inferencer app 在 M3 Ultra Mac Studio (512GB RAM) 測試 GLM-4.7-Flash 的 MLX 量化版本,比較未量化與 Q4/Q5/Q6/Q8 效能。未量化版生成 5000 個 token 的 3D 太陽系程式(含滑鼠互動),優於 Qwen3-Coder 30B (1700 token) 與 Neotron。

​量化後 Q5/Q6 版維持高品質輸出(56 token/s,24-27GB 記憶體),適合 32GB 系統;批次處理 4 個提示達 120 token/s 總吞吐量,但記憶體升至 140GB。​量化指標顯示 Q6 perplexity 1.23、token accuracy 96.65%,僅輕微發散,證明品質接近基模。

Let's Run GLM-4-7-Flash - Local AI Super-Intelligence for the Rest of Us | REVIEW
量化級別PerplexityToken Accuracy記憶體使用 (GB)Token/s (單一批次)
Base1.22100%60
Q5.51.2594.5%2456
Q6.51.2396.7%2756
Q8.51.2397.8%3450
Categories: 模型, 開源

MedGemma 1.5 醫學影像更新

人工智慧在醫療保健領域的應用正以驚人的速度加速發展,其應用速度是整體經濟的兩倍。為了支持這項變革,Google去年透過其健康人工智慧開發者基金會(HAI-DEF) 計畫發布了 MedGemma 開源醫療生成式人工智慧模型集。 MedGemma 等 HAI-DEF 模型旨在為開發者提供評估和調整的起點,以適應其醫療應用場景,並且可以
透過 Vertex AI 在Google雲端 上輕鬆擴展。 MedGemma 的發布反應熱烈,下載量達數百萬次,並
在 Hugging Face 上發布了數百個社區構建的變體

Categories: Google, Medical醫學, 模型, 開源

ShapeR 隨拍可還原 3D 場景

ShapeR 是以 rectified‑flow 為基礎的生成模型,能直接從日常拍攝的影像序列(即「不規則」捕捉)重建高保真的三維物件。整體流程大致可以分成幾個步驟:

先用現成的視覺‑慣性 SLAM 演算法把鏡頭移動和稀疏點雲拿出來,接著再交給 3D 物件偵測器把每個目標物分割出來。每個偵測到的物件會得到幾張具備相機位姿的多視角圖片、一組稀疏的 SLAM 點,還有一段由視覺語言模型自動產生的文字說明。這些資訊(點雲、多視圖、文字)會被封裝成一個多模态的條件向量,送給訓練好的 rectified‑flow Transformer 去去噪。

Transfomer 輸出的 latent VecSet 接著經過一個 3D VAE 解碼,最後生成完整的三維網格。整個模型只需要在合成資料上先做大量的單物件預訓練,接著再在更具挑戰性的合成場景與真實場景資料上進行兩階段的訓練,過程中會不斷加入各種自然的背景、遮擋、噪聲以及 augmentations,讓模型學會在「雜亂」的環境下仍保持穩定。

研究團隊也釋出了一個專屬的評估資料集:裡面有 178 個真實世界的物件分布在七個場景中,配有完整的地面真值網格、配對好的多視圖影像、SLAM 點雲與文字描述。這筆資料專門用來測試在野外捕捉時的遮擋、雜亂、解析度變化等情況,讓模型在更貼近實務的條件下接受測試。

在測試結果上,ShapeR 在 Chamfer Distance 指標上比目前最好的方法提升了 2.7 倍,顯示出在「不規則」情境下的穩定性確實比先前的單視圖或全局場景重建方式更佳。相較於同樣流行的 SAM3D 方法,ShapeR 的特色在於它利用多視圖的幾何資訊(SLAM 點、相機位姿)來保證形狀的尺度與真實感,而 SAM3D 則依賴單張圖像與互動,對於規模和視角的一致性較弱。兩者其實可以互補——把 ShapeR 的幾何結果再送給 SAM3D 生成更豐富的材質或細節。

總結來說,ShapeR 透過把 SLAM 點雲、3D 偵測、多視圖影像和自動文字說明這幾種資訊全部結合起來,做出一個能在日常拍攝場景下產生高品質、具備度量真實性的單物件三維形狀的生成模型,並提供了完整的測試素材與模型資源讓研究者直接使用。

ShapeR: Robust Conditional 3D Shape Generation from Casual Captures
面向ShapeR SAM3D
輸入多視角序列 + SLAM 點 + caption 等多模態單張影像 +(物件時多半要 mask / 互動)
任務重點場景級、物件為中心的度量重建與佈局單視圖高品質幾何 + 貼圖的物體/人體重建​
幾何精度強調 metric accuracy、相對尺度與佈局一致性可缺乏精確比例與 layout,特別是複雜場景​
紋理 / 外觀較偏幾何與場景結構(官網重點在 shape)​強調 photoreal 紋理與真實外觀 priors
互動需求不需要使用者互動,pipeline 自動處理需要物件 mask / prompt,屬於 promptable / interactive workflow​
訓練數據合成多模態場景(SLAM + 多視圖)大規模真實 image→3D(Objects/Body 各自的 dataset)
適合場景AR 眼鏡 / 機器人多視角感知、場景 mapping、學術評測商業應用:電商 AR、human pose & shape、單圖 3D content creation
Categories: 影像處理, 視覺模型, 開源

FrankenMotion 人體動作生成框架

FrankenMotion 是一個以擴散模型為基礎的文本到人體動作生成框架,專注於對單一動作的各個身體部位進行細緻控制。研究團隊先建立名為「FrankenStein」的大規模運動資料集,這份資料集以大型語言模型自動生成的原子化、具備時間感知的逐部份文字敘述,填補了先前資料集只能提供全局或動作層級標註的不足。透過這些高度結構化的部位標註,模型能夠在訓練時同時學習空間(哪個部位在動)與時間(每個部位的具體時間模式)兩層資訊。

實驗結果顯示,相較於先前的 UniMotion、DART、STMC 等模型,FrankenMotion 在語義正確性與運動真實感上都有顯著提升,甚至能創造出訓練時未曾見過的組合動作,例如在坐下的同時抬起左手。

Categories: , 模型, 編程, 開源, Robotic

TranslateGemma 開放式翻譯模型

Google 推出 TranslateGemma,這是一套基於 Gemma 3 構建的全新開放式翻譯模型,提供 4B、12B 和 27B 三種參數規模。它標誌著開放式翻譯領域向前邁出了重要一步,能夠幫助人們跨越 55 種語言進行交流,無論他們身處何地,使用何種設備。

TranslateGemma 含 55 種語言的 WMT24++ 資料集上測試了 TranslateGemma 模型,該資料集涵蓋了多種語言體系,包括高資源、中資源和低資源語言。與基準 Gemma 模型相比,TranslateGemma 在所有語言中均顯著降低了錯誤率,在提高翻譯品質的同時實現了更高的效率。

Categories: Google

Page 1 of 65
1 2 3 65