中國 – Page 6 – InferNews

當 AI 程式助手遇上滿山數據：CoDA-Bench 想考甚麼？

2026 年 6 月 16 日

現有針對 AI 程式代理（AI coding agents）的評測，大致分為兩類：一類專注於軟件工程任務（例如 SWE-Bench、Terminal-Bench），只考驗代碼本身；另一類專注於數據分析能力（例如 DS-1000、DA-Code、DataSciBench），卻把所需數據直接攤在桌面，等着代理去讀。中國人民大學數據實驗室團隊指出，這種把「代碼」與「數據」分開評估的範式，與真實開發場景脫節——現實中的工程師，往往要在堆滿雜亂檔案的環境中，自己摸索出哪些數據有用，再寫代碼處理它們。

為此他們提出 CoDA-Bench（Code and Data-intensive Benchmark），屬於 benchmark 類型的評測框架。它建構了一個基於 Kaggle 生態的 Linux 沙盒，每個任務環境平均包含約 980 個檔案，總共 1,009 道題目橫跨 31 個主題社區，要求代理先在語意相近的眾多檔案中大海撈針，再整合異質資料、撰寫分析代碼，產出最終答案。

團隊測試了多款頂尖代理後發現，即使表現最好的系統，成功率也只有 61.1%，暴露出現有模型在「數據發現」與「代碼執行」之間缺乏有效銜接。這個缺口正好為下一代研究指明方向：未來的代理不只要會寫代碼，更要懂得在雜亂的檔案系統中自行導航。

如果你從事 Agentic AI 研發、數據分析自動化，或想測試 LLM 在複雜環境中的推理與編程整合能力，這套開源 benchmark 提供了一個貼近現實的試金石。完整題目已釋出於 HuggingFace，評估則可透過 Docker 一鍵執行。

重點摘要：
– 修正舊範式：突破 SWE-Bench 與 DS-1000 把代碼與數據分開考的做法，統一在同一環境內評測。
– 真實規模沙盒：每題約 980 個檔案，模擬 Kaggle 上雜亂而龐大的真實數據環境。
– 雙重能力整合：同時考驗資料探索、檔案導航、跨格式整合與代碼生成四個面向。
– 成績慘淡：頂尖代理在完整題集上僅約 61.1% 成功率，顯示仍有明顯改進空間。
– 完整開源：包含 1,009 道題目、31 個社區數據（約 43 GB），以及 Docker 評測流程。

GitHub： https://github.com/ruc-datalab/CoDA-Bench

Paper： https://arxiv.org/pdf/2606.15300

Categories: 開源, Agentic, 軟件, AI productions, Linux, Vibe Coding, 模型, 編程, 中國, 清華大學, 框架, Dataset 數據集

BRDFusion：物理與生成模型合體，城市街景逆向渲染新框架

2026 年 6 月 16 日

現有的城市場景逆向渲染方法長期面臨兩難：基於物理的渲染（physically-based rendering）雖然能嚴格遵守光學物理，但在重建與渲染階段容易產生雜訊與破圖；生成式模型（generative models，例如 DiffusionRenderer）能產出逼真影像，卻難以精準控制光源，例如車燈這類局部照明往往被忽略。BRDFusion 正是針對這個 trade-off 而設計的混合框架。

這個項目屬於研究型框架，目標是把多視角城市影片分解為幾何（法線、深度）、材質（albedo、roughness、metallic）與 HDR 環境光源，並支援新視角重照明、夜景模擬與動態物件插入等下游應用。具體做法上，它先用物理模型取得明確且一致的場景屬性，再借助生成式先驗（generative priors）緩解優化過程中的歧義；前向渲染時，物理模型負責可控渲染，生成模型則負責去噪與修補瑕疵。

測試方面，作者提供預處理資料集與預訓練權重，研究人員可直接下載並透過 tools/run_pipeline.py 跑推理與評估；硬體需求偏高，建議使用 NVIDIA RTX A6000，RTX 4090 在記憶體允許下可執行部分階段，但 Gen. Render 階段可能突破 24 GB 限制。資料集與評估影片亦同步發佈於 Hugging Face，方便重現結果。

這個項目的創新之處在於把「物理一致性」與「生成式品質」放在同一條管線中互補，而非二選一。對從事自動駕駛模擬、遊戲或影視場景重建的研究團隊而言，這是一個值得關注的方向。

重點摘要

混合範式：物理渲染負責可控性，生成模型負責修補瑕疵，突破單一方法的極限。
完整分解：輸出幾何、材質與 HDR 光源，支援新視角、夜景與物件插入。
高硬體需求：建議 RTX A6000，4090 僅能跑部分階段。
完整開源資源：程式碼、預訓練權重、資料集與評估影片均已公開。
適用場景：自動駕駛模擬、城市數位孿生、影視級場景編輯。

GitHub： https://github.com/shigon255/BRDFusion

Categories: 開源, NVIDIA, Stable Diffusion, Video, Image, 工具, 影像模型, 影像處理, 模型, 模型訓練, 深度學習, 視覺模型, Meta, 清華大學, 框架

DreamX-World：可互動世界模型

2026 年 6 月 16 日

現時不少影片生成模型偏向做短片段合成，畫面可以靚，但一旦要控制鏡頭移動、返回之前看過的位置，或者在同一場景加入事件，往往會出現場景斷裂、風格飄移、前後不一致。DreamX-World 針對的正是這種固定範式的限制，把重點由「生成一段片」改成「維持一個可互動世界」。

這個項目屬於世界模型兼影片生成模型，目標是處理 interactive world simulation，讓文字或圖像驅動的影片不只會動，還能按事件提示改變場景。技術報告提到它支援 camera navigation、重訪已觀察區域，以及 compositional events，亦即多個事件可串連成多步世界變化，這比一般一次性生成更接近遊戲或模擬系統。

DreamX-World

Watch this video on YouTube

它的做法有幾個較鮮明的改動：先用 Unreal Engine 數據、gameplay footage 與 real-world videos 建立資料引擎，再加入 camera estimation 與嚴格過濾；之後用 E-PRoPE、causal forcing、DMD-style distillation、long-rollout training、Memory-Conditioned Scene Persistence 等方法，處理長時段生成常見的記憶斷層與色調漂移。報告亦指出，DreamX-World 1.0 在 5-second basic evaluation 拿到 84.76 overall score、73.75 camera-control score，整體分數高於 HY-WorldPlay 1.5 與 LingBot-World。

如果你想試這個項目，較合理的切入點是先看 DreamX-World-5B-Cam，因為它已公開模型與推理程式，主打 5 秒影片生成；想看長時段能力，就留意 Long-horizon DreamX-World-5B。它較適合研究 world model、互動影片、遊戲 AI 內容生成，或者想比較 autoregressive 與 bidirectional 路線差異的人。

Dreamx World 1.0

Watch this video on YouTube

已公開相關模型包括 DreamX-World-5B-Cam 與 DreamX-World-5B
5B-Cam 偏向短片與鏡頭控制，5B 則支援較長時段生成
核心賣點是場景持續性、鏡頭控制與事件組合，不只追求單段畫質
報告提到最高可達 16FPS（八張 RTX5090），反映它有考慮推理效率

整體來看，DreamX-World 的價值不在於再做一個普通 text/image-to-video 模型，而是把「可回看、可操作、可改變」放進同一個生成系統。現階段公開內容仍以模型與技術報告為主，但方法論已相當清楚，對世界模型這條路有明確野心。

GitHub： https://github.com/AMAP-ML/DreamX-World

Paper： https://arxiv.org/pdf/2606.16993

Categories: 開源, Video, Image, AI productions, 模型, 模型訓練, 視頻模型, 世界模型, 清華大學

ARGAR 直指 AI 審稿可被包裝操控

2026 年 6 月 16 日

現時不少 AI reviewer 評測，默認接受論文的摘要、敘事結構與貢獻陳述，並直接輸出分數或意見；ARGAR 指出這種固定範式未必真正在看科學內容，而可能被 presentation-level content 牽動。作者因此提出 ARGAR（Adversarial Repackaging Gaming AI Review），用 adversarial repackaging 把「內容不變、包裝改寫」變成可反覆驗證的測試流程。

這個項目較像一個研究框架加實驗工具，而不只是單一資料集；它要解決的，是 AI reviewer 有沒有被 narrative structure、abstract 與 contribution statements 系統性影響。核心做法是 closed-loop iterative search：每一輪根據 AI reviewer feedback 改 LaTeX 文字與結構，再比較新版與 baseline 的審稿結果，但 scientific content held fixed。

若想測試它的思路，最合適是先看 round N/source、round N/reviews、judge result.json 和 attack log.json。這樣可以直接觀察同一篇論文在科學內容不變下，經過不同包裝後，AI review 怎樣波動，也能看清每一輪修改決策如何形成。

類型定位：研究框架兼工具，用來檢驗 AI reviewer 是否容易被論文包裝影響
方法重點：只改 abstract、framing、contribution statements、narrative structure，不改 scientific content
輸出結構：保留每輪 LaTeX source、review 結果、pairwise judge 比較與跨輪 attack log
適合場景：AI safety、LLM evaluation、學術審稿自動化研究
限制提醒：項目明確反對把結果用於真實投稿操控，定位是 controlled experiments

創新之處在於它不是討論「AI 審稿準不準」的籠統問題，而是把舊範式拆開，專門測 presentation attack 對評分的影響。從儲存庫資料看，這種設計也方便研究者重播整個攻擊過程，比只看最終分數更有分析價值。

性能數字在這份儲存庫摘要未完整展開，因此不宜代作者下結論；不過評測設計本身已很有辨識度，因為它加入 pairwise judge 與多輪 review 作比較。相關模型方面，項目透過 LiteLLM 路由不同 LLM provider，可接 OpenAI、Anthropic、AWS Bedrock 等 reviewer model、attack model 與 judge model，亦配合 ICLR、NeurIPS、ICML 風格的 review generation。

GitHub： https://github.com/xyimatvoid/ARGAR

Paper： https://arxiv.org/pdf/2606.09813

Categories: 開源, OpenAI, Agentic, 工具, Content Creator, AI productions, IDE, 安全, 庫, 模型, Anthropic, AGI, 清華大學, 框架, Dataset 數據集

iMaC：把機械臂動作變成可預測影像

2026 年 6 月 16 日

現時不少 action-conditioned video models 會把未來動作壓成 compact vectors，再經 learned conditioning modules 交給模型處理；作者認為這種做法要模型自行猜測細微空間後果，遇到 real manipulation 時，幾厘米差距已足以改變接觸、物件移動與任務成敗。iMaC 屬於世界模型與影片生成模型，核心是把 future joint actions 轉成 image-like controls，減少「動作有輸入，但空間關係表達不足」的問題。

這個項目的方法相當具體：先利用 robot URDF 與 forward kinematics，渲染 future robot-observation control videos，也就是 motion images；之後再加入 depth 作為輔助訊號，配合 3D pointclouds 建立 two-stream geometry controls，也就是 contact images。舊範式主要靠抽象向量條件化，iMaC 則把「未來機械臂會出現在哪裡、如何接近場景」直接變成可見控制，這是它最清晰的技術分野。

GitHub 儲存庫提供 training、preprocessing 與 inference code，覆蓋 RND-mix stage-one、stage-two，以及 WorldArena 三條流程。想試這個項目的人，會先由資料前處理、depth 與 3D condition 建立開始，再跑 validation inference 看生成影片是否跟動作一致；若本身做 robotic policy evaluation，還可以接到 WorldArena 或 online RND evaluation 場景。

把 actions 轉成 motion images 與 contact images，空間條件更明確
用 depth encoding 和 3D pointclouds 強化 robot-scene 幾何理解
加入 training-time rollout strategy，目標是支援更長時序生成並減少 exposure bias
儲存庫同時涵蓋訓練、前處理、推論，不只是論文展示模型
相關組件包括 Wan transformer variants、Diffusion inference pipelines、RobotWin 2.0、WorldArena

性能方面，論文指出它在八個長時序真實機械人操作任務中，world-model success estimates 與真實 policy performance 呈強正相關。這個結果的價值不在於取代真機測試，而是在正式落機前，先用生成式 world model 篩選 policy checkpoints；對研究 embodied evaluation、robotics 與世界模型的人來說，iMaC 屬於相當值得跟進的一個方向。

GitHub： https://github.com/imac-wm/iMac

Paper： https://arxiv.org/pdf/2606.09813

Categories: 開源, Stable Diffusion, Video, Image, 3D, AI productions, Mac, Vibe Coding, Win, 庫, 模型, 模型訓練, 編程, 視頻模型, Robotic, 世界模型, 清華大學

RhymeFlow：加快影片生成的新路線

2026 年 6 月 16 日

Repository image for Simon-Dcs/RhymeFlow

現時不少影片生成加速方法，主要仍沿用標準 diffusion pipeline：每一幀都要在所有 diffusion timesteps 完整做一次 dense denoising，再配合 sparse attention 或 KV-caching 減少單步計算。RhymeFlow 指出，這種固定範式忽略了相鄰影格內容與動作高度相關，令自然影片裡大量中間步驟其實屬於重複運算。

這是一個免訓練的影片生成加速框架，核心目標是替 DiT（Diffusion Transformers）影片模型減少推理延遲與運算成本。它將不同影格的 denoising trajectory 拆開處理：先找出主導語意變化的 keyframes，讓 keyframes 保持逐步去噪，非 keyframes 則逐步跳過部分步驟，再用 latent trajectory projection 補回時間一致性。

這個做法的創新，不在於單純把 attention 再稀疏化，而是直接挑戰「所有影格都要同步、密集去噪」的舊假設。論文描述，RhymeFlow 在現有 DiT-based video generation models 上，能同時取得更高 inference speed 與更好 visual quality；不過 GitHub 目前公開重點放在 Wan 2.1 adaptation，HunyuanVideo adaptation 仍在準備中。

如果你想試，較合理的切入點是把它當成 Wan 2.1 的加速實驗框架，比較 dense、svg、sap、rhyme、rhyme_sap 幾種方法輸出時間與畫面差異。環境要求偏高，文件列出 CUDA 12.4 / 12.8 與 PyTorch 2.5.1 / 2.6.0，亦牽涉 FlashInfer、flash-attn 和自訂 kernels，較適合已有 GPU 與 PyTorch 經驗的人。

項目類型：training-free 影片生成加速框架，處理 DiT 影片模型推理太慢的問題
方法重點：keyframes 做 dense denoising，非 keyframes 跳步處理，再用 latent trajectory projection 維持時序一致
可比較方法：dense、svg、sap、rhyme、rhyme_sap
相關模型：Wan 2.1 已有 adaptation，HunyuanVideo adaptation 尚未完整釋出
適合場景：研究影片生成推理優化、比較不同加速策略、測試速度與畫質取捨

整體來看，RhymeFlow 的價值很明確：它不是改模型權重，也不是重新訓練，而是重排 denoising flow scheduling，從流程層面節省計算。對研究者與進階開發者而言，這類思路比單純堆硬件更有參考價值；對一般創作者來說，現階段門檻仍在部署與 GPU 環境。

GitHub： https://github.com/Simon-Dcs/RhymeFlow

Paper： https://arxiv.org/pdf/2606.06309

Categories: 開源, 騰訊, NVIDIA, Video, Content Creator, AI productions, Python, 模型訓練, 深度學習, 視頻模型, 清華大學, 框架

S2L-PO 用小模型帶動大模型推理訓練

2026 年 6 月 16 日

這個項目來自跨校團隊，作者包括 Yiming Ren、Yiran Xu、Zicheng Lin 等人，通訊作者是 Yu Qiao 與 Ruihang Chu；所屬機構包括清華大學、上海人工智慧實驗室、香港中文大學及香港城市大學。以研究背景看，團隊明顯集中在大型語言模型訓練、推理強化學習與數學評測。

這是一個針對 Group Relative Policy Optimization（GRPO）訓練流程的研究型框架，目的是提升大型語言模型在推理任務上的 rollout diversity。現有做法多數靠提高 temperature，從 token-level randomness 增加變化，但論文指出這種固定範式容易在長推理鏈累積噪音，令軌跡變得不連貫。

S2L-PO（Small-to-Large Policy Optimization）換了一個角度：不用同一個大模型不停抽樣，而是找同家族的較小模型做 explorer，先產生一部分 qualitatively different reasoning trajectories，再讓大模型用混合 rollout 依照標準 GRPO 訓練。之後再用 progressive annealing，逐步由 small-model exploration 過渡到 fully on-policy learning，避免中途被小模型能力上限拖慢。

論文提供的結果頗有說服力。以 Qwen3-8B learner 配 1.7B explorer 為例，AIME24 Pass@1 由 15.0 提升到 23.8，AIME25 Pass@1 由 12.1 提升到 22.5；Qwen3-14B learner 配 4B explorer 亦比基線 GRPO 高。作者同時聲稱 rollout compute 還可降低，這點對訓練成本敏感的團隊尤其有吸引力。

如果你想測試這個項目，較合理的方式不是當作即裝即用工具，而是把它視為一個訓練策略參考：先看論文與公開模型設定，再比較自己手上的 GRPO 流程是否同樣受 rollout 同質化影響。硬件門檻不算低，資料列出 8B 模型約需 20 GB GPU 記憶體、14B 模型約需 32 GB，較適合研究人員、模型訓練工程師，或正在做數學推理微調的團隊。

核心判斷：這是模型訓練框架，不是一般聊天應用，重點在改善 GRPO 的探索品質
方法差異：由 token-level randomness 轉向 policy-level diversity，減少長鏈推理失真
主要創新：用較小同家族模型充當 natural explorers，再以 progressive annealing 收回大模型主導權
已列相關模型：Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B
適合場景：數學推理、可驗證獎勵訓練、想提升 RLVR 與 GRPO 收斂效率的項目

GitHub： https://github.com/qishisuren123/S2L-PO

Paper： https://arxiv.org/pdf/2605.30789

Categories: 開源, 阿里巴巴, Qwen, 香港, 香港中文大學, Agentic, 工具, Python, 模型, 模型訓練, 深度學習, 香港城市大學, 清華大學, 框架, 上海人工智慧實驗室

MBench 專看長影片世界模型記憶力

2026 年 6 月 16 日

現時不少長影片評測，仍偏向單幀畫質或短距離 prompt following；畫面一旦切走、角色離鏡，很多模型便容易在回到同一情境時「失憶」。MBench 這個benchmark正是針對這個盲點而設，聚焦 long-video world models 的 memory capability，檢查模型能否在時間拉長後維持一致的世界狀態。

作者把問題拆成三個互相獨立但又彼此關連的方向：Entity Consistency、Environment Consistency、Causal Consistency。這種設計比籠統地給一個總分更有分析價值，因為你能看清模型究竟是忘記角色外觀、搞亂場景空間，還是未能延續畫面外仍在發生的物理過程；同時它再分成 MBench-A 與 MBench-T，分別對應 action-conditioned world models 與 text-segment-conditioned 長影片續寫模型。

如果你本身有影片生成或世界模型項目，這個儲存庫的用途很明確：先準備模型輸出，再用 mbench 這套 contract-driven、plugin-based CLI 跑完整評測流程。儲存庫已提供 12 個官方 metric implementation，亦整合 VLM trigger judge，代表它不只是論文概念，而是一套可落地比較不同模型表現的評測工具鏈。

項目類型：這是一個 benchmark／評測工具鏈，用來量度長影片世界模型是否具備穩定記憶與時序一致性。
創新位置：不是只看畫面質素，而是把「長時間記住世界」正式定義成三條 capability axes。
適合場景：長影片生成、world model 研究、模型比較、內部驗證新版本退步與否。
可讀性高：MBench-A 與 MBench-T 將不同條件設定分開，較容易知道模型失分原因。

從評論角度看，MBench 的價值在於它批評了舊有固定範式：只獎勵 single-frame quality 或 short-horizon prompt following，卻未有檢驗跨鏡頭、跨時間的持續記憶。若你關心的模型包括各類 long-video world models、action-conditioned world models，以及 text continuation 類影片模型，這個項目很值得納入測試流程；不過目前提供的資料以 benchmark 與評測框架為主，是否能全面代表所有真實創作場景，仍要配合你自己的生成任務一併觀察。

GitHub： https://github.com/study-overflow/MBench

Paper： https://arxiv.org/pdf/2606.00793

Categories: 開源, Video, 工具, Win, 庫, 模型, 視頻模型, 世界模型, 清華大學, 框架

ClinHallu 拆解醫療 MLLM 幻覺來源

2026 年 6 月 16 日

ClinHallu 是一個醫療多模態大模型 benchmark 與評測工具，目標不是只計算答對率，而是找出 Medical MLLM 在推理途中哪一段開始出現 hallucination。現有醫療 hallucination benchmark 多數偏重資料收集與最終輸出檢查，作者認為這種範式難以分辨錯誤究竟來自看錯影像、記錯醫學知識，還是把資訊串連時推錯，因此把問題重組成 stage-wise 診斷。

這個項目的核心做法，是把每筆樣本的 reasoning trace 拆成 Visual Recognition、Knowledge Recall、Reasoning Integration 三段，再配合 structured CoT annotations 與 stage-replacement interventions 觀察：如果只修正其中一段，最終答案會否改善。這種設計比單看答案更有分析力，因為它直接對應三種常見錯誤來源：visual hallucination、knowledge hallucination、reasoning hallucination。

ClinHallu 含有 7,031 個驗證過的 instances，並提供評測流程。想試這個項目的人，較合理的路線是先選定 datasets 內要跑的資料集，再對照 models.gold cot、models.model cot、models.judge 的設定，之後查看 results 內的 model cot 與 eval 輸出；若只想生成替換後的 jsonl，也可用 generate 流程。這表示它較適合研究、模型比較與錯誤分析，不是面向一般用家的醫療問答產品。

基準結果也有參考價值。公開表格顯示，Gemini-3-Flash 在整體準確率與三類 hallucination rate 上都屬前列，Avg Acc 為 80.1，而 Qwen3-VL-Plus、Qwen3.5-9B、Qwen3-VL-32B 等模型亦有列入比較。這些數字的重點不是分高下，而是提醒你：同一模型可能答案不差，但在某個階段的 hallucination rate 仍然偏高，之後微調或加防護時就有更清晰方向。

不是只看答對率：它會拆解模型在哪個推理階段出錯。
方法有辨識度：用 structured CoT 與 stage-replacement interventions 做細粒度診斷。
場景很明確：適合醫療 AI 研究、模型評測、trace-supervised fine-tuning 前後比較。
相關模型完整：結果涵蓋 Qwen、Gemini、InternVL、MedGemma、Lingshu 等系列。

如果你在找的是可直接部署的醫療助手，ClinHallu 並不屬於那一類；它更像一把量尺，專門檢查模型推理鏈哪裡開始失真。對研究團隊來說，這比只知道「模型有幻覺」更有用，因為後續可以按 Visual Recognition、Knowledge Recall、Reasoning Integration 分段修正，連 trace-supervised fine-tuning 是否有效都較容易驗證。

GitHub： https://github.com/alibaba-damo-academy/ClinHallu

Paper： https://arxiv.org/pdf/2606.14697

Categories: 開源, 阿里巴巴, Qwen, 香港科技大學, Gemini, Medical醫學, 多模態模型, 清華大學, Dataset 數據集

OmniDirector：免配對數據的多鏡頭運鏡克隆技術

2026 年 6 月 15 日

OmniDirector 由清華大學（Yu-Shen Liu 為北京清華大學團隊）與 Kling Team（快手科技）的研究團隊，共同開發，成員包括 Jiwen Liu、Shujuan Li、Zhixue Fang 等人，團隊來自多個機構，橫跨學術界與業界。研究團隊提出一種無需交叉配對數據的通用多鏡頭相機克隆方法，解決從參考影片中複製運鏡來驅動靜態圖像的難題。

傳統相機控制方法往往依賴大量成對數據進行訓練，而 OmniDirector 的核心創新在於提出「相機網格」（camera grid）表示法。將參考影片的相機姿態渲染為三維空間中的運動軌跡，形成統一的網格表示。配合階層式提示詞擴展代理（hierarchical prompt expansion agent），把多模態控制信號整合成協調的指令。

使用時，使用者只需提供一張源圖像和一段參考影片，OmniDirector 便能克隆其中的運鏡動作，生成動態影片。多鏡頭場景下，新方法支援鏡頭之間的連貫過渡與一致的內容呈現，保持原始的視覺語言。特殊運鏡方面，涵蓋希區柯克式變焦、子彈時間與鏡頭畸變效果，適用的場景類型包括人像、動物、建築及 AIGC 內容等。

OmniDirector: General Multi-Shot Camera Cloning without Cross-Paired Data

Watch this video on YouTube

OmniDirector 適合從事影片創作、動畫製作或需要快速生成動態素材的內容創作者，以及研究相機控制技術的開發者。經過與其他頂尖相機控制方法的對比，新方法在控制穩定性與物件形變方面表現出色。

重點摘要：
– 核心創新為「相機網格」表示法，免依賴交叉配對數據
– 支援極端運鏡、多鏡頭連貫過渡與特殊相機效果
– 場景泛化能力強，涵蓋人像、動物、建築及 AIGC 內容
– 開源提供論文與程式碼，方便研究與應用

目前 github.com/lisj575/OmniDirector 這個倉庫是空的，沒有 source code 或 model 。

項目： https://ymlinfeng.github.io/OmniDirector.github.io/

Categories: Video, AI productions, 模型, 數字人, 視覺模型, 北京大學, 清華大學, 框架

Page 6 of 12

« Previous 1 … 4 5 6 7 8 … 12 Next »