軟件 – Page 5 – InferNews

Apple container：Mac 原生容器新選擇

2026 年 6 月 22 日

container 是一個工具，用來在 Mac 上建立及執行 Linux containers，做法更接近把容器當成輕量虛擬機處理；它要解決的，是 Mac 開發者在本機跑 Linux 工作負載時，如何兼顧隔離、速度與 OCI 相容性。

這個項目最明顯的取向，是 Apple 自己用 Swift 編寫，並且針對 Apple silicon 優化，同時依賴 Containerization 這個 Swift package 處理較底層的 container、image 與 process 管理。跟不少人熟悉的 Docker Desktop 或其他 Mac 容器方案相比，它不是強調整合一大堆開發配套，而是集中做好原生執行、標準映像相容，以及 Apple 平台能力。

安裝不算複雜：官方提供已簽署的安裝包，裝好後要啟動 system service，並且整個項目只支援 Apple silicon 與 macOS 26。這代表門檻很清楚：如果你仍在舊版 macOS，或者團隊有 Intel Mac，這個項目暫時就不會是通用解法。

Apple Just Built WSL for the Mac (Container Machines)

Watch this video on YouTube

它支援讀寫 OCI-compatible container images，所以可以從標準 container registry 拉取映像、建立映像，再推回其他 OCI-compatible application 可用的環境。對開發團隊來說，這點很重要，因為它不是把流程鎖死在 Apple 自家格式，而是保留與現有容器生態互通。

針對 Apple silicon 與 macOS 26，平台限制明確
支援 OCI-compatible container images，可接標準 registry
底層建基於 Containerization，偏向原生與輕量路線
較適合 Mac 開發、測試、映像建置，不是全功能平台替代品

效能方面，暫時沒有提供完整官方基準數字，但外部已有文章把它放到 Docker Desktop、OrbStack 一類方案旁邊看 CPU、記憶體、啟動時間與 I/O。即使未能單靠儲存庫內容下定論，仍可合理判斷：Apple 想做的不是「功能最多」，而是在自家硬件上提供更貼近系統能力的容器執行方式。較受惠的會是以 Mac 為主要開發機、需要 OCI 相容流程、又願意接受新平台限制的工程團隊。

這個項目不是 AI 模型；若要說相關技術組件，主要是 OCI-compatible container images 與 Containerization。

GitHub： https://github.com/apple/container

項目： https://developer.apple.com/videos/play/wwdc2026/389/

Categories: 開源, 工具, Linux, Mac, 庫, 蘋果

MemSlides 把簡報生成變成可記憶代理

2026 年 6 月 22 日

MemSlides hierarchical memory and localized revision overview

不少簡報生成工具仍然走 one-shot source-to-slides conversion：丟一份材料進去，整份投影片一次生成，之後每次修改又大範圍重做。MemSlides 把問題改寫成 stateful authoring process，核心不是單次輸出，而是記住你是誰、這一輪想改甚麼，以及過往哪些工具操作較可靠。

這是一個 Agent Framework，目標是解決 personalized slide generation 與 multi-turn local revision 兩個常見痛點。它把記憶拆成 user profile memory、working memory、tool memory：前者保存跨工作重覆出現的偏好，中段記住當前簡報的限制與暫時要求，後者則保留工具鏈執行經驗，方便之後做相似修改時少走彎路。

跟同類做法相比，最需要留意的是它不主張每次收到新意見就重生整副 deck，而是做 scoped slide-local revision，只更新受影響的最小區域。這種取向的好處是修改更穩定，較易保留原本好的內容；代價是整體品質會依賴記憶管理與局部編輯判斷是否準確。

從倉庫資訊看，這個項目較適合研究 presentation agents、企業內部簡報自動化，或要反覆為不同角色產出版本的團隊。倉庫亦提供 Docker Hub、網站、示範影片與論文連結，理解方式可先看 demo，再決定用容器部署還是按 Python 3.11 與 Node 20 的環境自行搭建；不過公開資訊未見完整量化基準，現階段較像研究型框架，而非已標準化的產品方案。

把簡報生成由一次性輸出改成有狀態的寫作流程
分層記憶是重點：user profile memory、working memory、tool memory
修改時傾向局部修補，不是整份重生成
適合需要 persona-aware 內容、反覆修訂、多人協作的情境
相關元素包括 presentation agents、multi-turn revision、localized editing、tool-chain execution

GitHub： https://github.com/huohua325/Memslides

項目主頁： https://memslides.github.io/

Categories: 開源, Agentic, 工具, IDE, Python, Python NLP, 庫, 清華大學, 框架

PerceptionDLM：多區域圖像描述加速方案

2026 年 6 月 22 日

現時不少 Multimodal Large Language Models (MLLMs) 做區域描述時，仍然依賴 autoregressive (AR) 逐段生成：一張圖有幾多個 mask，就要逐個區域慢慢解讀。PerceptionDLM 提出的方向很明確，改用 Multimodal Diffusion Language Model，同一輪 denoising process 內同時輸出多個區域描述，目標是解決多區域感知在延遲上隨數量線性上升的問題。

這是一個偏向模型加基準測試的開源項目：核心是 PerceptionDLM 與 PerceptionDLM-Base，另加 ParaDLC-Bench、PerceptionDLM-Data 和 Bee / Honey 系列訓練資料配方。作者點名批評舊範式主要卡在 autoregressive region captioning，因此加入 efficient prompting 與 structured attention masking，讓平行生成不只停留在概念，而是落到 sequence level 同 token level。

從公開資料看，這個項目較適合以 Hugging Face 已釋出的模型、資料集與 evaluation suite 來理解和測試；想重現結果的人，亦可沿住訓練資料配方、Training 與 Evaluation 流程部署。對一般開發團隊而言，最有參考價值的不是安裝細節，而是它示範了 diffusion VLM 怎樣處理「多區域同時描述」這種以往較少由 DLM 承擔的任務。

單次 denoising pass 可同時描述多個 masked regions，官方稱在密集多區域情境可有最高 3.4× throughput speedup
PerceptionDLM-Base 據稱在 16 個 multimodal benchmarks 之中，15 個勝過 LLaDA-V
ParaDLC-Bench 不只看 caption quality，也把 inference efficiency 一併納入
已公開 code、model weights、training data recipe、evaluation suite，重現門檻比只放論文低

它較適合做視覺理解、圖像標註、自動資料整理，或者需要一次看多個區域的研究團隊。限制也很清楚：目前公開資訊主力強調 benchmark 與吞吐提升，對一般產品場景的記憶體需求、延遲分佈與部署成本仍要再看實測；相關模型則包括 PerceptionDLM、PerceptionDLM-Base，以及其 backbone LLaDA-8B-Instruct，對比對象則有 LLaDA-V。

GitHub： https://github.com/MSALab-PKU/PerceptionDLM

項目主頁： https://msalab-pku.github.io/projects/PerceptionDLM/index.html

項目： https://huggingface.co/collections/MSALab/perceptiondlm-model-zoo

Categories: 開源, 字節跳動, Stable Diffusion, 多模態模型, 提示詞, 模型, 模型訓練, 視覺模型, 北京大學, Dataset 數據集

PermaVid 令影片修改後仍然連貫

2026 年 6 月 22 日

很多影片生成方法處理編輯任務時，會把過往畫面當成單一記憶來源；一旦做了 style、season、weather 或 time 這類修改，舊記憶就可能變成過時參考，之後生成的鏡頭容易出現人物變樣、場景走位錯亂，或者視角切換後對不上。PermaVid 提出的方向，是把「外觀語意」同「幾何結構」分開保存，避免一次編輯令全部上下文一齊失效。

這是一個影片生成框架，核心工作是讓 edited video 在跨時間、跨視角、跨多次修改之下，仍保持內容連貫。它使用 disentangled context memory：RGB context memory 負責記錄 semantic appearance，depth context memory 則保留 geometry-only structure，再配合 edit-aware memory update and retrieval，把新修改過的資訊逐步寫回記憶。

和一般只靠單一記憶庫或單一路徑條件控制的方法相比，PermaVid 的取捨很清楚：系統更複雜，也要同時處理 RGB 與 depth 兩種脈絡，但換來的是編輯之後的長期一致性。從儲存庫資訊看，項目亦提供 dataset、paper 及 demo，並依賴 Wan2.1-VACE-14B、Qwen-Image-Edit、Qwen3-VL-8B-Instruct 等模型，顯示它不是輕量玩具，而是偏研究型、多模組組合的完整流程。

支援相機移動控制，例如 direction-frames-speed 這類格式
編輯類型涵蓋 style、season、weather、time 等全局變化
重點不只是生成單段片，而是修改之後仍維持後續片段一致
需要較完整環境配置，包含 PyTorch、CUDA 與額外訓練／推理依賴

如果你是做 instruction-based video editing、reference video generation，或者想研究 Computer Vision 同多模態記憶如何影響長片段一致性，這個項目很有參考價值。現有資料提到它在長期 semantic 與 structural consistency 上明顯優於 state-of-the-art methods，但公開資訊未列出完整量化分數；較穩妥的理解，是它的亮點在方法設計與 benchmark 表現方向，而不是即裝即用的消費級工具。

GitHub： https://github.com/YS-IMTech/PermaVid

項目主頁： https://ys-imtech.github.io/projects/PermaVid/

Paper： https://arxiv.org/pdf/2606.16449

Categories: 開源, 阿里巴巴, Qwen, 香港, 香港中文大學, NVIDIA, Video, Image, 工具, Python, 庫, 影像處理, 視覺模型, 視頻模型, 框架, Dataset 數據集

SR-REAL 把空間推理拆成兩條路

2026 年 6 月 21 日

現有 spatial VLM 往往用單一路線回答空間問題，不是純文字 chain-of-thought，就是直接靠感知結果輸出答案；作者認為這種固定範式難以同時處理語意推理與精確幾何判斷。SR-REAL 提出的做法，是把空間推理分成 Language-Only Reasoning（LOR）與 Detect-Then-Reason（DTR）兩條互補路徑，前者逐步文字推理，後者先找 3D 幾何線索，再做明確幾何推斷。

這個項目屬於框架加訓練流程實作，核心是強化 spatial vision-language models 在複雜空間問答中的判斷能力。它不是單純新增資料集，而是從 cold-start supervised fine-tuning 到 reinforcement learning（RL）都重新安排，並加入 region-to-3D 介面，令模型可把 region tokens 連到 3D 座標、中心點或 bounding boxes。

SR-REAL 重點集中在資料準備與訓練前處理。流程上會先用 SPAR、EmbodiedScan 等來源整理物件對應與 3D 座標，再由 expert.py 生成推理鏈，配合 qwen3.py 抽取物件名稱，最後組成 DTR 指令微調資料；若不想自行重建，也可直接下載作者已整理好的 Hugging Face 數據。這表示它較適合有 Python、資料處理及多模態訓練基礎的研究團隊，而不是即裝即用的終端工具。

和同類做法相比，SR-REAL 不假設所有空間問題都應該用同一種 reasoning path。作者的取向很清楚：語意關係適合 LOR，涉及明確位置、距離、中心點、框選區域的題目則交給 DTR；代價是整個資料構建與訓練流程更複雜，對 grounding 資料品質亦更敏感。

重點不在單一模型結構，而在 LOR + DTR 雙路徑推理設計
DTR 會先處理 region tokens 與 3D 幾何線索，再做空間判斷
訓練分為 cold-start supervised fine-tuning 與 reinforcement learning（RL）兩段
已提及 accuracy、format、detection rewards，顯示評測不只看答對與否，也看輸出格式及幾何對齊
相關模型與資料來源包括 spatial VLM、SR-3D、Qwen3、SPAR、EmbodiedScan、SpatialRGPT、Omni3D、CA1M、OmniNOCS

SR-REAL 在多個 spatial benchmarks 有明顯提升，並強調單一 RL-trained model 可同時支援兩條路徑，且不用 per-task tuning 也能跨資料集泛化。不過儲存庫片段未完整列出詳細分數與對照表，因此較穩妥的判斷是：這是一個研究味很重、方法論清晰的項目，適合關注 spatial reasoning、3D grounding、multimodal instruction tuning 的團隊拿來重現與延伸。

GitHub： https://github.com/jiyt17/SR-REAL

項目主頁： https://sr-real.github.io/

Categories: Qwen, 香港, 香港大學, Google, NVIDIA, DeepSeek, OpenAI, Agentic, 工具, 3D, Python, Python NLP, 多模態模型, 庫, 模型, 模型訓練, 編程, 框架

visually_grounded_thinking：讓 VLM 推理同時指向圖片證據

2026 年 6 月 21 日

現時不少 Vision-Language Models（VLMs）做視覺推理時，通常只輸出文字思路，證據其實來自圖片哪一部分，模型未必講得清。作者認為這種 text-only reasoning trace 難驗證、亦難監督，所以提出 visually grounded thinking：在推理文字中插入 <obj>...</obj>，直接標示 point 或 box 座標，將語句同圖片區域綁在一起。

這不是單純加標籤的格式改動，而是一套訓練與評測流程。項目先用 open-source counting 與 spatial reasoning datasets 合成帶視覺依據的思路，再用 SAM3-based grounding agent 產生 mask supervision，之後分別用 SFT 與 GRPO 訓練；RL 階段再靠 grounding-aware reward，以 box IoU 或 point F1 檢查模型指向的物件是否對應正確證據。

同類做法多數關注答案啱唔啱，這個項目連中間引用的圖像證據都計分，取向明顯較重視可驗證性。不過代價亦很清楚：資料製作、物件對齊、reward routing 都更複雜，訓練門檻比只做文字 reasoning 高，較適合已經有 VLM 訓練流程的研究團隊。

在 counting benchmarks 與 spatial reasoning benchmarks，加上 visually grounded thinking 的 Gemma3-4B-IT 普遍優於原版模型與 non-grounded thinking baseline；在部分空間推理任務，4B 版本甚至可追上或超過 Gemma3-27B-IT。作者亦指出 point grounding 較適合 counting，而 box grounding 在 spatial tasks 配合 grounding rewards 效果更突出。

類型上，它屬於 VLM 訓練框架加研究代碼，重點是改善視覺推理過程缺乏可核對證據的問題。
儲存庫已分開 data_synthesis_pipeline、agent、rl_reward、sft_dataset、VLMEvalKit 與 scripts，結構算清晰，理解流程會比直接改模型權重更重要。
部署思路偏研究用途，較可能需要 Docker 環境、SFT/RL 訓練配置，以及自備算力，而不是即裝即用的終端工具。
相關模型與元件包括 Gemma3-4B-IT、Gemma3-27B-IT、SAM3、GRPO、SFT、VLMEvalKit。
適合關注可解釋視覺推理、VQA、counting、spatial reasoning，或者想把中間推理變成可監督訊號的團隊。

GitHub： https://github.com/Jun-Kai-Zhang/visually_grounded_thinking

Paper： https://arxiv.org/pdf/2606.16122

Categories: 開源, Gemini, Agentic, Image, 工具, 多模態模型, 庫, 模型, 模型訓練, 視覺模型, Meta, 框架, Dataset 數據集

S-Agent 把視覺推理帶入 3D 場景記憶

2026 年 6 月 21 日

現時不少 Vision-Language Model 都偏向用單張圖片、單步回答去做空間判斷；就算加入 agent，也常見為 stateless inference，缺少持續記錄場景變化的能力。S-Agent 提出的做法，是把空間推理改寫成 spatio-temporal evidence accumulation：不是即時猜答案，而是逐步收集 2D、3D 和時間序列證據。

這是一個偏向 Agentic 視覺推理框架 的研究項目，目標是解決多視角圖片與影片中的 3D 空間理解問題。它把 Vision-Language Model 當成 semantic planner，再配合 hierarchical spatial tools、Scene Memory 與 Agent Memory，處理 counting、measurement、orientation、relative position 這類單幀方法較易出錯的任務。

同類做法多數停留在 frame-level prediction，S-Agent 的取向明顯不同：先 grounding 物件，再做 2D-to-3D lifting，之後把幾何線索整合成可推理的 scene-centric understanding。這種設計的代價，是系統比單次問答複雜，亦更依賴工具鏈、記憶狀態與多步推理流程，不算是輕量型項目。

S-Agent: Spatial tool-use elicits reasoning for spatial intelligence.sagent demo video

Watch this video on YouTube

目前 GitHub 提供的是論文與示範資訊，code、data、checkpoint 仍標示 coming soon，所以現階段較適合當成研究方向來理解，而不是即裝即跑的工具。若要測試它的價值，較合理的方法是留意之後公開的 inference / evaluation code，並對照 MMSI-Bench 一類 multi-view 與 video spatial reasoning benchmark 的表現。

核心主張是用 spatio-temporal evidence accumulation 取代 isolated frame-level prediction
系統結構包含 VLM semantic planner、hierarchy of spatial tools、Scene Memory、Agent Memory
論文指在 zero-shot 設定下可提升 Gemini-3-Pro，SFT 後的 S-Agent-8B 亦能接近高階 closed-source models
適合研究 spatial intelligence、multi-view reasoning、video understanding 的團隊留意

相關模型方面，文中明確提到 Gemini-3-Pro、Qwen-VL-8B，以及蒸餾後的 S-Agent-8B。若你關心 Computer-use agents、CUAs 以外，AI 如何真正理解連續 3D 世界，這個項目比一般圖片問答更有研究價值。

GitHub： https://github.com/Ropedia/S-Agent

項目：https://ropedia.github.io/S-Agent/

Categories: 開源, 阿里巴巴, Qwen, Gemini, Agentic, 工具, 3D, 多模態模型, 模型, 視覺模型, 框架

FreeStyle：用社群 LoRA 做雙參考生圖

2026 年 6 月 21 日

現時不少 style-reference 生成，只處理單一風格參考；至於 content + style dual-reference，常見難位是資料難整、風格長尾不足，兼且 style reference 容易把人物、物件等內容一併「滲」入結果。FreeStyle 把社群 LoRA 視為風格或內容概念的聚類中心，再配合自動生成與過濾流程，重組出可訓練的雙參考資料，連 benchmark 一起補上。

這不是單純模型，而是一個結合資料管線、benchmark 與 DiT-based model 的影像生成項目，目標是解決 SRef 與 CRef+SRef 兩類任務中，內容保持、風格對齊與 leakage suppression 很難同時兼顧的問題。文中提出 attention-level constraint，以及 RoPE low-frequency modulation，核心取向很清楚：寧可多做約束，也要壓住 style-reference content leakage。

資料規模是 FreeStyle 最有份量的部分。CRef+SRef dataset 提供 480K sequences，涵蓋 1,704 種 styles；SRef dataset 則有 619,302 sequences、622 種 styles。評測亦不只看靚唔靚，還加入 CSD、OneIG、DINOv2、CAS、CLIP-T、aesthetic predictors 及 VLM-as-judge，將 style similarity、content preservation、instruction following 同 leakage rejection 分開量度。

想理解怎樣測試這個項目，較合理的做法是分三層看：先用公開 dataset 與 benchmark 檢查資料結構；再看 repo 提供的 LoRA metadata 與 ComfyUI workflows，理解 triplet 怎樣生成與驗證；最後才研究 checkpoint 表現。它較適合研究團隊、做可控生圖的產品組，或者本身已在用 FLUX、Qwen、Illustrious 生態的人。

把 Civitai、TensorArt、Liblib 的社群 LoRA 變成可用訓練訊號
同時覆蓋 SRef 與 CRef+SRef，而非只做單一風格參考
重點不是單純追求風格像，而是壓低內容洩漏
提供 dataset、benchmark、workflow、checkpoint，便於重現整個流程

相關模型與基礎生態包括 DiT-based model、FLUX、Illustrious、Qwen，以及資料生成用的 ComfyUI workflow。若你關心的是商用穩定性，仍要留意它相當依賴社群 LoRA 品質與過濾流程；作者亦有講明，原始 LoRA 權重本身未必會隨項目再分發。

GitHub： https://github.com/Blue2Giant/FreeStyle

項目： https://blue2giant.github.io/FreeStyle/

Categories: 開源, 阿里巴巴, Qwen, ComfyUI, Stable Diffusion, Image, 工具, Content Creator, Sora, 多模態模型, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, Meta, Dataset 數據集

JanusMesh 把雙提示變成 3D 視覺

2026 年 6 月 21 日

現有 3D visual illusions 做法，多數不是走 optimization-based methods，就是把兩個形體直接拼接。前者慢，還容易出現過飽和顏色；後者雖然直接，但會留下明顯幾何接縫，亦會有 semantic leakage。JanusMesh 提出的不是新訓練模型，而是一條 training-free pipeline，目標是把兩個文字提示融合成一個 3D mesh，並在指定視角各自呈現不同語意。

它的核心分成兩步：先用 cross-space dual-branch denoising，在 voxel 與 Signed Distance Field (SDF) 之間處理形體融合，再配合 CLIP 做 orientation alignment；之後再用 view-conditioned 2D diffusion 補貼圖與外觀。這種拆法的重點，不是單純把兩個物件疊上去，而是先解決幾何是否連貫，再處理不同視角看到的表面語意。

部署上，現有資訊顯示它較適合有 CUDA 環境的研究或圖像團隊，因為要安裝多個 CUDA extensions，例如 flash-attn、nvdiffrast、diff-gaussian-rasterization、pytorch3d。測試思路相當清晰：可先用 case 1 或 case 2 直接生成固定 voxel split 結果，再用 case 3 加入 CLIP pose search，比較視角對齊是否更穩定；另外也可調整 noise guidance、space control、t0 idx value 與 guided structure weight，觀察語意強度與形體穩定度之間的取捨。

JanusMesh 的表現頗有競爭力：生成時間約 3–5 分鐘，主打 geometric integrity、semantic recognizability、efficiency 都比同類方法好。不過它目前更像研究型工具，適合做 3D 內容展示、視覺實驗、生成式藝術或學術比較；若想要任意角度都自然，文中亦明言這類物件在非目標視角本來就可能難以辨認，這其實是 3D 視覺錯覺成立的一部分。

項目類型：一個 training-free 的 3D 生成流程，解決雙語意 3D visual illusions 的幾何接縫、語意外漏與生成速度問題。
最值得留意的差異：不是 per-shape optimization，也不是 direct concatenation，而是先做 cross-space 幾何融合，再做 view-conditioned 外觀細化。
較適合的情境：3D 生成研究、視覺傳達、展覽內容、概念設計，以及想比較多種 3D illusion 範式的團隊。
性能重點：論文聲稱 3–5 分鐘可完成，較傳統 SDS-Based Methods 快，亦減少 oversaturation 與 seams。
相關模型／組件：CLIP、2D diffusion、voxel、Signed Distance Field (SDF)、flash-attn、nvdiffrast、diff-gaussian-rasterization、pytorch3d。

GitHub： https://github.com/siang1105/JanusMesh

項目： https://siang1105.github.io/JanusMesh.github.io/

Categories: 開源, NVIDIA, Image, 工具, 3D, IDE, Python, 模型, 模型訓練, 視覺模型

Holo-World 把天氣與鏡頭控制放進影片生成

2026 年 6 月 21 日

Repository image for XiangchenYin/Holo-World

Holo-World 是一個Video World Model項目，目標不是單純把靜態圖片變成短片，而是由單張首幀出發，按照指定的鏡頭路徑、物件動態與天氣指令生成影片，盡量保留原本場景結構。對一般讀者來說，可把它理解成「你先給一個世界起點，再要求系統改變拍攝方式與天氣，但不要連場景骨架都改走」。

它和常見影片編輯做法的分別，在於不少方法要先有來源影片，甚至依賴已經包含未來結構的重建場景；Holo-World 則強調 first-frame-anchored source-to-state 設定，只由一張圖開始。這種取向更靈活，但難度也高，因為模型要自己補出後續畫面，同時維持鏡頭控制、物件位置和天氣效果不互相打架。

這個項目核心包含 HoloStateData、Unified Scene Adapter 與 Scene-Weather Decomposed CFG。前者是為相機、物件、天氣建立統一監督樣本的資料集；後兩者則把「場景保持」與「天氣轉換」分開處理，目的是減少下雨、下雪、起霧時把整個場景細節一併沖散的情況。論文與項目頁提到，量化與視覺結果都顯示它在 weather-state generation 上優於 video-to-video weather editing baselines，但目前倉庫內容仍偏研究展示，未見完整安裝與推理流程，較適合先當作研究方向理解。

可由單張圖片出發，而非必須先提供完整來源影片
同時控制 camera、object、weather，比單一條件生成更完整
重點取捨在於維持場景結構一致，同時讓天氣效果夠明顯
較適合研究 world model、可控影片生成、合成場景模擬的團隊

如果你關心自動駕駛模擬、生成式影片控制，或想研究世界模型如何把幾種控制訊號整合，這個項目很有參考價值。相關模型與組件可留意 Holo-World 本身，以及資料集 HoloStateData；從現有資料判斷，它現階段更像研究型模型與方法展示，未必是即裝即用的生產工具。

GitHub： https://github.com/XiangchenYin/Holo-World

項目： https://xiangchenyin.github.io/Holo-World/

Categories: 開源, Video, Image, 工具, 庫, 模型, 視覺模型, 視頻模型, 世界模型, 中國

Page 5 of 17

« Previous 1 … 3 4 5 6 7 … 17 Next »