中國 – Page 3 – InferNews

PhyMRI-SR：MRI 超解像唔只靠放大

2026 年 7 月 10 日

Repository image for weilihua0205/PhyMRI-SR

做 MRI 超解像時，問題往往唔係「放大得夠唔夠」，而係高解析度同 SNR 會互相拉扯。PhyMRI-SR 把這個矛盾放到核心處理；它屬於一個醫學影像超解像模型／研究項目，目標不是盲目追求最高輸入解析度，而是找出更有結構資訊的重建位置。

現有做法多數把低解析度 MRI 當成一般影像放大；作者認為這種 fixed paradigm 忽略 MRI acquisition physics，亦未必對應最有資訊量的輸入條件。PhyMRI-SR 因而改用 physics-aware Gaussian splatting，把組織先驗、MR signal equations 同 continuous-scale super-resolution 合併，嘗試沿住 resolution-SNR spectrum 找到更合理的平衡點。

它不是直接生成高解像圖，而是先經 segmentation-guided primitive allocation 分配 Gaussian primitives，再由 prior-aware representation 預測位置偏移與協方差，之後用 physics-constrained signal modeling 根據 tissue properties（例如 alpha、R2）計算訊號強度，最後經 differentiable splatting 合成影像。另加 meta-learning-based adaptation，用來縮窄 synthetic training 與真實 low-field MRI 之間的 domain gap。

與一般影像式 SR 比較，重點放在物理一致性，唔係純粹視覺銳化
支援 arbitrary-resolution 輸入，同 continuous-scale MRI super-resolution 取向一致
結構上結合 segmentation、Gaussian representation 同 MR signal equations
結果顯示最佳表現未必出現在最高輸入解析度，回應作者的核心假設

項目列出 simulated 與 real multi-resolution MRI datasets 的比較：模擬資料在 x0.7 時錄得 PSNR 28.10 dB、SSIM 0.9234、HFEN 0.3051、DISTS 0.1148；真實資料在 x0.76 時取得最低 HFEN 0.4570，其他指標亦有競爭力。這類結果較適合醫學影像研究、MRI 重建與超解像團隊參考；部署與測試細節仍需回到 GitHub 程式碼確認，但整體定位已很清楚：它不是通用修圖工具，而是面向 MRI 成像規律的專門方法。

項目主頁 · GitHub · Paper

Categories: 開源, Medical醫學, 影像處理, 模型訓練, Meta, 中國, Dataset 數據集

Vidu S1 把即時互動影片拉近一步

2026 年 7 月 10 日

比起先寫好提示詞再等片段輸出，Vidu S1更接近一種可對話的視頻模型：你一邊講，數碼角色一邊跟住反應，處理的是「影片生成能否即時被人打斷、改向、持續延長」這個卡位。項目把重心放在 voice-controlled digital characters，而不是一次過產出完整短片，定位很清楚是互動內容而非傳統文生影片。

現有做法多數仍是 prompt-driven、片段式生成，用戶先提交指令，再等待固定長度輸出；作者主張這種範式難以支援 live interaction。Vidu S1改用 real-time speech control 與 infinite-length real-time interactive generation，讓角色在生成途中持續接受 spoken instructions，方向上更接近直播角色、虛擬主播和即時陪伴互動，而不是 cinematic clip 製作。

支援以語音即時控制角色動作，重點在連續互動而非單次出片
可自訂角色形象與 voice tones，涵蓋真人、二次元、寵物等 avatar
官方資料提到 540p、最高 42 FPS，並可在 consumer GPUs 運行
除了網頁體驗，也提供 API 文件，較適合接入互動產品流程

現有公開資訊較偏向服務化體驗：可先在 Vidu Stream 網頁建立角色、選擇或 clone 聲線，再開啟麥克風與鏡頭進行 live call；團隊要接入自家產品，則更可能經 API 而非直接本地完整重建。GitHub 儲存庫目前公開了論文、說明文件與入口，但未見完整本地訓練或推理流程，較像展示能力與提供接入方式的研究／產品型開源項目。

取捨也很明顯：它強調流暢、低延遲、可長時間互動，代表優先次序未必是最高解析度或最複雜鏡頭語言。受益最大的會是做虛擬主播、互動陪伴、角色扮演、品牌數字人和即時內容演示的團隊；要做電影感分鏡、長敘事剪輯或高度後期控制，現階段未必是它最強的一面。相關模型則包括 Vidu S1 本身，以及同一服務脈絡下的 Vidu Stream 互動入口。

項目主頁 · GitHub · Paper

Categories: 開源, API, Clone, 多模態模型, 數字人, 視覺模型, 視頻模型, 語音, 清華大學, Dataset 數據集

IdeasHaveGenomes：用血統追蹤科研點子

2026 年 7 月 10 日

只會搵相似論文，已經唔足夠判斷 AI scientist 是否真係理解研究想法。IdeasHaveGenomes 把科學點子當成有 lineage 的對象去看，屬於 benchmark／數據集類型的項目，針對的正是 Auto Research 入面最難驗證的一環：模型能否講清楚一個 idea 由邊度嚟、點樣修補舊限制，最後點解值得延伸。

現有做法好多時集中在 related paper retrieval、proposal writing，或者用開放式生成結果做人手印象分。作者認為呢種範式捉唔到 inheritance tracing 同 evolutionary reasoning，所以提出 IdeaGene-Bench（IG-Bench），把任務分成封閉式測試 IG-Exam，同埋用 Population-Evolution Score（PES）評分的 IG-Arena，前者問理解是否精準，後者先看生成內容有冇 lineage 根據。

項目的可取之處，在於它唔只問「像不像新點子」，而係追問 Heredity、Variation、Selection 有冇成立。資料規模亦算完整，包括 1,961 條 golden lineage traces、1,085 個 Idea Genome objects、920 筆 GenomeDiff records，覆蓋 10 個 scientific domains；IG-Exam 進一步拆成 42 類 task、1,029 個 closed-form instances，適合做可重覆比較。

IG-Exam 主要測 abstraction、inheritance tracing、evolutionary reasoning、lineage verification
IG-Arena 針對開放式提案生成，用 PES 檢查血統延續與變化是否合理
項目可用 OpenAI-compatible API 跑 smoke test 或完整評測，不一定綁死單一模型
現有結果反映難度高，最佳 IG-Exam exact accuracy 只有 27.3%，最佳 T4 verification 為 17.4%
榜單涵蓋 GPT、Claude、Qwen、Gemini、DeepSeek，以及 AI Scientist v2、Codex、Claude Code 等系統

部署理解上，這不是拿來直接替代研究助手的成品工具，而是用來測試模型或 agent workflow 是否真的具備「科研點子血統推理」能力。較適合做 AI scientist、research agent、proposal generation pipeline 的團隊評測基準；想比較不同模型、judge 組合，或者檢查生成提案有冇沿住正確 lineage 發展，這個項目比一般文字基準更有辨識度。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, 微軟, Gemini, DeepSeek, OpenAI, Agentic, API, Anthropic, 中國, 框架, Dataset 數據集

SciReasoner 想把科學推理拉回結構本身

2026 年 7 月 10 日

只看文字去判斷蛋白質功能、分子反應性或材料性質，經常會漏掉真正關鍵的空間結構。SciReasoner屬於多模態 scientific foundation model，針對的正是這個落差：把 protein structures、3D molecules、crystals、sequences、formulas 同 text 轉成可對照的 structure-aware evidence tokens，再用來做 scientific QA、prediction、classification 同 generation/design。

與科學資料先「文字化」再交畀大型語言模型處理的做法不同。作者明確押注 native structural reasoning，保留 Foldseek 3Di、ConfSeq、SLICES 呢類結構編碼，令模型唔係淨係讀描述，而係可以沿住 residues、fragments、conformers 甚至晶體配位環境去推理；官網展示的 traces 亦反映出，項目希望連推理路徑都可以檢查，而唔只係輸出答案。

GitHub 上的 models 同 demo 仍標示為 coming soon。換句話說，眼前較合理的理解方式係先把它當成研究型項目：閱讀 benchmark、看案例 traces，判斷它是否適合生物資訊、化學資訊或材料 AI 團隊之後的評測與整合方向，而唔係即刻下載部署到生產流程。

在 86 個評測任務入面，67 個做到 state-of-the-art，對比 generalist LLM baselines 有 75 個任務表現最好
與已發表的 specialist 方法相比，在 33 組比較入面有 26 組持平或更好
範圍唔只化學，亦覆蓋 proteins、DNA/RNA、small molecules、3D molecular structures 同 inorganic crystals
traces 可檢查，雙盲專家評分中，與 DeepSeek-V4-Pro 相比有 98% 判斷屬 preferred 或 comparable

相關模型方面，SciReasoner以 Qwen3-14B 初始化，再對齊 domain-native structural vocabularies。對需要跨蛋白質、核酸、分子同材料做統一推理介面的團隊，呢個方向幾有吸引力；限制同樣明顯，因為公開模型與可直接測試的 demo 尚未提供，現階段更適合當成值得追蹤的研究項目，而唔係可即用工具。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, 香港, 香港中文大學, DeepSeek, 3D, Medical醫學, 多模態模型, 模型, 中國, Dataset 數據集, 南京大學

AI agents 正接手企業故障追查

2026 年 7 月 9 日

當服務一出問題，最花時間往往唔係修復，而係先搵出 root cause analysis。呢篇內容聚焦企業 observability 點樣由 Generative AI 同 agentic AI 推進，令 AI agents 開始負責調查、整理線索同縮窄問題範圍，減少工程團隊喺大量 telemetry 同 log 之間來回切換。

文章提到，企業採用速度已經相當快，約 85% 組織正使用相關 AI 能力，而 Elastic 亦預期多數企業會喺兩年內，將 root cause analysis 更大程度交畀 AI agents。吸引力唔只在於自動化，而係將原本只有少數資深工程師先能處理的觀察與排障流程，慢慢變成更多團隊都可用的能力。

同常見做法相比，分別在於 AI agents 唔止回應查詢，仲會主動串連資料、追查異常脈絡，並以較接近調查員嘅方式處理 incident。呢種模式有機會改善資料存取門檻過高、工具過多同訊號過散嘅問題，但前提仍然係企業要信任結果，並保留人手覆核關鍵判斷。

重點放在 observability、incident investigation 同 root cause analysis
Generative AI 與 agentic AI 正由輔助查詢走向主動調查
約 85% 組織已採用相關 AI 能力，企業導入已進入加速期
目標係降低排障門檻，令更多團隊可直接理解系統狀態

對平台工程、SRE、DevOps 同需要處理大型分散式系統嘅團隊，呢種方向尤其有用。現階段最值得留意嘅唔係模型規格，而係 AI agents 能否喺真實企業環境中提供可追溯、可驗證、又足夠穩定嘅調查流程，呢點會直接影響大規模 adoption。

項目主頁

Categories: Agentic, 軟件, 中國

CGGS 把文字直接變成第一身 3D 場景

2026 年 7 月 8 日

最值得留意的地方，在於 CGGS 沒有沿用單純全景生成再重建的路線，而是直接針對第一身視角 3D 場景去處理視角不連續、幾何變形和文字細節流失。它屬於一個文字轉 3D 的框架，目標是把文字描述變成可渲染的 ego-centric 場景，而不只是產出幾張彼此關係鬆散的圖片。

現有做法常見問題，是多視角之間重疊不足，或者 equirectangular projection 容易在上下邊界拉扯變形；DreamScene360 一類方法也會出現結構扭曲。CGGS 的取向是先用 MV-LDM 生成更一致的多視角 2D 內容，再配合 optical flow、point-track correspondence、深度估計與 3D Gaussian optimization，把粗略 layout 逐步修到可用的 3D Gaussian Splatting（3DGS）場景。

它的流程大致可理解為三段：Ego-centric Generator 負責貼近文字的多視角內容，Layout Decorator 由影像關係推回 dense point clouds，Geometric Refiner 再用 Mutual Information Depth Loss（MID）和 hierarchical optimization 修正幾何與畫質。部署和測試層面，儲存庫已提供實作，並可透過 prompt 檔、視角水平視野 --fov 與垂直軸旋轉角 --deg 控制生成條件，較適合研究、實驗室或要評估 text-to-3D 工作流的人。

走的是 ego-centric 3D scene generation，不是單純全景貼圖
核心差異在 MV-LDM 一致性訓練，加上 3D Gaussian 幾何優化
提供可調視角參數，能用文字檔批量測試不同場景
適合做 3D 內容生成、novel view synthesis 與方法比較

效能數字也有說服力。README 列出的結果中，CGGS 在 CLIP Score 26.253、Q-Align 0.839、PSNR 37.345、SSIM 0.977、LPIPS 0.0193 取得最佳表現，代表它不只文字對齊較好，重建品質與新視角渲染穩定度也更高；不過這仍然是研究型項目，離通用內容製作工具還有一段距離，較大的價值在於它清楚示範了如何把多視角生成與幾何重建更緊密地接起來。

項目主頁 · GitHub · Paper

Categories: 開源, 3D, 多模態模型, 中國, Dataset 數據集

SIEVE 點樣揀出更值錢的機械人示範數據

2026 年 7 月 8 日

機械人示範資料最常見的問題，不是數量不夠，而是重複、嘈雜，甚至長段任務其實只是不斷重演相似動作。SIEVE 屬於一個面向 imitation learning 的資料篩選工具，同時帶有研究方法性質，重點不是逐條 trajectory 粗略評分，也不是只看 state-action，而是把長任務拆成可重用的 visuo-motor primitives 與 transition interfaces，再決定哪些 episode 更值得留下來訓練 VLA 模型。

它批評的舊範式相當明確：現有 data selection 方法多數只在 trajectory level 或 state-action level 做判斷，因而忽略長時序行為內部可重用的結構。SIEVE 的做法是先用 end-effector pose 與控制訊號做 segmentation，再抽取 V-JEPA 特徵、用 PCA 壓到預設 256 維、以 MiniBatchKMeans 找出 primitive pattern，之後按 cluster-sequence pattern 做兩階段 episode selection，最後可以匯出回 LeRobot 格式，方便直接接回原本訓練流程。

這種取向的好處，在於它不是單純挑「最好」或「最乾淨」的示範，而是優先保留結構覆蓋度與可重用性。論文提供的訊息亦相當直接：SIEVE 在多個 datasets、benchmarks 與 VLA models 上，都比競爭性的 baseline 更穩定，甚至在只用 50% demonstrations 和 50% training steps 的情況下，表現可以超過 full-data training。當然，這也代表它較適合已有一定規模示範資料、並且願意先跑一輪離線整理流程的團隊，而不是追求即插即用的小型腳本。

以 LeRobot v2 資料根目錄作輸入，支援單一或多個 dataset
流程由 segmentation、feature extraction、dimensionality reduction、clustering、selection 組成
特徵抽取依賴 V-JEPA，輸出中間結果到 Zarr，再匯出選中的 LeRobot episodes
核心差異是按 reusable structure 揀數據，不是只按整條 trajectory 或逐步 state-action 打分

部署理解上，這個項目更像一條可重複執行的離線資料處理 pipeline，而不是一個直接提供推理服務的套件。適合用來整理大型 robot demonstration corpus、為 VLA imitation learning 減少冗餘訓練樣本；相關模型與技術脈絡包括 Vision-Language-Action (VLA) models、V-JEPA，以及輸出端相容的 LeRobot。

GitHub · Paper

Categories: 開源, 香港, 香港科技大學, 多模態模型, 影像處理, 模型, 模型訓練, 視覺模型, Robotic, 中國, Dataset 數據集, VLA

Light-Omni 想把長影片 Agent 變得更快

2026 年 7 月 8 日

長影片互動最易卡住的位，不是模型看不懂，而是每次都要重新搜尋線索、反覆推理，回應自然會慢。Light-Omni把這件事改寫成一個Agentic video understanding研究項目：用長期多模態記憶處理視覺、語音與文字串流，目標是讓代理在連續對話中更快決定要直接回答、提取記憶，還是補足證據。

現有做法常採用作者所說的 detective-style iterative reasoning，一邊規劃、一邊搜尋、一邊聚合證據；好處是步驟清楚，代價是延遲高、計算開銷大。Light-Omni提出 reflexive video understanding，核心不是拉長 reasoning loop，而是以單次 forward pass 產生全域脈絡與 retrieval embeddings，再配合 Generation Adapter、Memory Adapter、Reaction Adapter 三個模組，分別負責回應、長期記憶整理，以及預測何時檢索。

這個取向的價值很直接：它不是追求最繁複的推理鏈，而是優先解決互動代理在長影片場景的反應速度。項目建基於 Qwen2.5-Omni，示範則用 Qwen3-Omni-30B-A3B-Instruct；記憶設計包含 identity profiles、semantic memory、episodic memory，並加入 sleep-time memory consolidation，把較長時段的觀察壓成緊湊全域狀態，同時保留近期細節。

相比 M3-Agent，平均準確率提升 2.4%
速度達 12.1x，加強長影片互動的即時性
GPU 記憶體效率提升 2.6x，較適合資源有限的部署
倉庫附有 eval.py、Flask/Socket.IO demo、Hugging Face 模型與訓練資料

想驗證這個項目，現時可沿三條路理解：先看 web demo 感受反應方式，再用倉庫內的 eval.py 配合 logs/ 檢查長影片 benchmark 結果，最後參考 thirdparty/ 內已修補的 transformers 與 ms-swift 組件做訓練或推理環境配置。較受用的讀者會是做多模態代理、長影片理解、記憶檢索，或者需要低延遲互動系統的研究團隊；它仍屬研究原型，效能數字主要來自項目提供的 benchmark 與示範，部署前仍要按自己的影片長度、硬件條件與任務形式再核實。

項目主頁 · GitHub · 模型

Categories: 開源, Agentic, Video, Embedding, 多模態模型, 模型, 南京大學, Dataset 數據集

InternVLA-A1.5：機械人策略一體化新路線

2026 年 7 月 8 日

機械人操作最麻煩的地方，往往不是單純辨認畫面，而是要同時理解指令、估計接下來會發生什麼，再穩定地做出連續動作。InternVLA-A1.5屬於開源框架兼機械人政策模型，焦點放在把 vision-language understanding、latent visual foresight 與 action generation 合併，減少多模組串接帶來的延遲與協調成本。

它的取向很清楚：不少做法會把感知、未來預測、控制分開訓練或分開部署，InternVLA-A1.5則把 foresight 放進同一條政策路徑，在訓練期間借助凍結的 WAN2.2-5B video generation model 提供未來動態監督，但推理時丟棄 video branch，只保留動作預測。這個設計的好處是保住「先想一步」的能力，同時避免部署到真實機械人時推理太重。

模型骨幹建基於 Qwen3.5-2B VLM，透過 shared full-attention layers 接上一個輕量 unified action expert，並保留 modality-specific Gated DeltaNet processing；動作輸出則用 flow matching 預測 continuous action chunks。README 亦提到它可用於部署、數據收集和評估真實機器人上訓練有素的操作策略，但公開資訊較集中在模型與 benchmark，具體安裝流程與真機部署步驟未見完整展開。

舊路線常把理解、預測、控制拆開，這個項目改為單一 policy 統一處理
訓練用 WAN2.2-5B 學未來動態，推理時移除相關分支，換取較實際延遲
已在 LeRobot V2.1 dataset 微調，亦結合大規模機械人與多模態資料
基準成績突出：RoboTwin 2.0 為 93.2，LIBERO 為 98.9，LIBERO-Plus 為 84.8
可取得的相關模型包括 InternVLA-A1.5-base、InternVLA-A1.5-RoboTwin、InternVLA-A1.5-Libero

從定位來看，它較適合想把研究原型推近真機驗證的團隊，尤其是同時重視語言理解、視覺泛化與操作成功率的人。現階段最值得留意的，不只是分數高，而是它示範了一種更接近完整機械人工作流的整合方式；限制則是公開說明仍偏研究導向，真正落地前仍需自行補足部署細節與硬件整合資訊。

項目主頁 · GitHub · 模型

Categories: 開源, Qwen, Video, 多模態模型, 視覺模型, 視頻模型, Robotic, VLA, 上海人工智慧實驗室, Dataset 數據集

MrFlow：文字生成圖片提速新路線

2026 年 7 月 3 日

MrFlow 是一個訓練免除的圖像生成加速方法，屬於針對 flow-matching text-to-image diffusion models 的研究原型與實作。它要解決的問題很直接：高解析度出圖太慢，因此先在低解析度完成大部分生成，再用較短的高解析度修補流程補回細節。

現有多解析度加速方法，通常會在 latent space 做上採樣，或者只改動部分區域；作者認為這種固定範式容易帶來模糊感與 artifact。MrFlow 改用 pixel space 的 Real-ESRGAN 做超解析度，之後重新編碼、注入與 scheduler 一致的低強度雜訊，再做短步數 refinement，將昂貴的高解析度 denoising 成本，大幅轉移到較便宜的低解析度階段。

這個項目的取向相當務實，因為它不要求 finetuning、learned upsampler，亦唔需要 model-specific retraining 或 custom kernels，直接建立在 PyTorch、Diffusers 與既有 scheduler 控制之上。部署理解上，它比較像一條可插入現成模型流程的 sampling pipeline：先準備 Diffusers 相容環境、對應的預訓練模型權重，以及 Real-ESRGAN 的 x2 權重，再把 README 內示例腳本的 checkpoint 路徑換成本地設定即可。

效能數字是這個項目的核心賣點。資料指出，MrFlow 在 Qwen-Image 可做到超過 10x end-to-end speedup，論文亦提到相對加速前的 OneIG 差距可控制在 1% 以內；再配合 timestep-distilled models，例如 Pi-Flow 與 FLUX-schnell，整體加速可進一步去到 25x。這種設計也已展示可轉移到 Qwen-Image、FLUX.1-dev、FLUX.2 Klein 與 Z-Image family，代表它不是只綁死單一模型。

類型定位：訓練免除的 staged sampling 加速方法，唔係新底模本身
主要差異：避開 latent space 上採樣路線，改用 pixel space 超解析度加短程高解析度修補
部署重點：依賴 PyTorch、Diffusers、Transformers、Real-ESRGAN，並需自行配置模型與權重路徑
適合場景：要保留畫質、又想縮短生成時間的圖像生成團隊與研究人員
相關模型：Qwen-Image、FLUX.1-dev、FLUX.2 Klein、Z-Image、Pi-Flow、FLUX-schnell

MrFlow 最適合放在已有文字生成圖片流程的項目之中，作為加速層而不是完整替代品。它的限制亦很清楚：仍然依賴外部超解析度模型與既有 backbone 品質，重點在於重新分配算力成本，未必等於所有提示詞、所有畫風都能無代價複製原本高解析度長步數生成的結果。

GitHub · Paper

Categories: 開源, Qwen, NVIDIA, Stable Diffusion, Image, Python, txt2img, 中國

Page 3 of 12

« Previous 1 2 3 4 5 … 12 Next »