開源 – Page 13 – InferNews

LingBot-World 2.0 把互動世界拉長

2026 年 7 月 10 日

最值得留意的，不是單純生成影片，而是它嘗試把世界模型做成可持續互動的系統：畫面不只要動，還要在長時間互動下維持一致，並且跟得上即時操作。LingBot-World 2.0，也叫 LingBot-World-Infinity，定位上屬於模型項目，處理的是互動式世界生成容易愈玩愈散、反應又唔夠快的問題。

同類做法很多時偏向短片段展示，或者重視視覺效果多於操作連續性；這個版本反而把焦點放在「interaction horizon」拉長，同時保住輸出穩定度。它亦加入 agentic harness，由 pilot agent 規劃角色行為、director agent 補出新環境元素，方向上更接近可演進的遊戲式世界，而唔只係被動播放內容。

現階段最容易理解的試法，是先經 Reactor 的 Web 版本或 LingGuang 的流動平台體驗即時版；README 亦提供 Hugging Face 與 ModelScope 上的模型頁面。官方說明指出，平台版本方便試玩，但完整能力仍以官方設置為準，換句話說，公開體驗較適合感受互動節奏，未必等同完整表現。

支援長時間互動，主打 unbounded interaction horizon
提供即時變體，官方稱可驅動 720p、60 fps 影片串流
動作與事件更豐富，包括攻擊、射箭、施法、射擊等互動
以 pilot agent 與 director agent 分工，推進角色與場景演化

現有資料未見完整基準表或系統化對比結果，性能描述主要來自項目方公開說明，所以較適合把它視為一個展示取向鮮明的前沿模型。相關模型目前可見的是 lingbot-world-v2-14b-causal-fast；而從 Robbyant 整體路線來看，它亦與 LingBot-Vision、LingBot-Depth、LingBot-VLA、LingBot-Video 等項目一起指向 embodied AI 與世界模型的長線布局。

項目主頁 · GitHub · 模型

Categories: 開源, Agentic, Video, 多模態模型, 模型, 世界模型, VLA

LingBot-Video 想做懂物理的生成影片

2026 年 7 月 10 日

生成影片要做到「似真」，唔只係畫面靚，仲要交代到動作、物件同物理世界之間嘅關係。LingBot-Video屬於開源視頻模型，主打 embodied intelligence，想補足一般 T2V 只重視視覺效果、但對任務過程同物理合理性掌握較弱呢個缺口。

呢個項目的取向幾清楚：唔係單純追求更大參數，而係用 MoE（Mixture-of-Experts）架構去平衡容量同推理成本，官方說法指推理可快約 3 倍。訓練資料亦唔只靠網絡影片，仲加入超過 70,000 小時 embodied data，再配合 multi reward system，同時兼顧美感、physical rationality 同 task completion。

部署理解上，它已提供完整模型下載入口，同時覆蓋 Hugging Face、ModelScope 以及文件站；推理路線分成 diffusers 同 SGLang Diffusion，代表團隊唔只放權重，亦有考慮不同推理堆疊。README 亦列出 rewriter，當中包括以 Qwen3.6-27B 為基礎嘅版本，以及 Qwen3.6-27B LoRA adapter，表示提示詞改寫都係整個工作流一部分。

提供 LingBot-Video-Dense 同 LingBot-Video-MoE，前者較像基線路線，後者加入 Refiner
任務覆蓋 T2I、T2V、TI2V，唔只限純文字轉影片
以 embodied data 同多重獎勵機制強化動作合理性
有文件、模型頁同技術報告，較適合研究團隊同進階內容生成流程測試

受益最大嘅，會係想做機械人模擬、具身智能研究、動作導向影片生成，或者需要比較「任務是否完成」而唔只係「畫面是否好睇」嘅團隊。現有資訊未見到完整基準分數整理，所以性能判斷暫時仍要配合官方技術報告同實測；不過以開源定位、MoE 架構、Refiner 同 rewriter 一併公開嚟睇，LingBot-Video明顯係朝住較完整嘅研究與部署鏈路去設計。

項目主頁 · GitHub · 模型

Categories: 開源, Qwen, Video, 多模態模型, 視覺模型, 視頻模型

vLLM 新後端跑出原生級速度

2026 年 7 月 10 日

卡位一直在於：想用 vLLM 的高吞吐推理能力，過去往往要為個別模型寫或等專用實作。呢篇內容講的是 Hugging Face 把 transformers 直接作為 vLLM 的 modeling backend，而且頁面沒有提供 base model 資訊，因為它不是單一模型頁，而是針對推理後端整合的技術更新。

重點價值很直接：模型作者只要已有 transformers 實作，就有機會不用再額外移植到 vLLM，也能拿到接近原生，甚至更快的推理表現。對 LLM 與 VLM 都有意義，因為 serving 設定基本不變，只是加入 --model-impl transformers 旗標。

文中展示了三組 Qwen3 測試：Qwen3-4B 單 GPU、Qwen3-32B 以 tensor parallelism 跑 2 GPU，以及 Qwen3-235B-A22B-FP8 Mixture-of-Experts 在同一個 8×H100 節點上以 data parallelism 加 expert parallelism 執行。結果指向同一件事：transformers backend 的 throughput 已經追平或超過 vLLM 手寫 native implementation。

transformers 已支援 450+ architectures，角色像參考級 modeling library
vLLM 繼續負責 continuous batching、custom attention kernels 等高效推理優化
啟用方式很簡單：升級 vllm，並在 serve 時加入 --model-impl transformers
可與 --tensor-parallel-size、--data-parallel-size、--enable-expert-parallel 一起使用

取捨亦要講清楚：頁面重點在 backend 整合與效能展示，不是 GGUF 發布頁，所以沒有提供 GGUF 格式、量化等級、mmproj、chat template、MTP draft speculation 或 LM Studio／Ollama／llama.cpp 檔案資訊。硬體需求方面，示例至少涵蓋單 GPU、2 GPU，同埋 8×H100 節點；不同模型是否都能複製同樣增益，仍要視架構與部署環境而定。

項目主頁 · GitHub

Categories: 開源, Qwen, Ollama, Python, 庫, 框架

DeepSeek-V4-Flash 本地 GGUF 版

2026 年 7 月 10 日

最值得先講的是，它明確基於 deepseek-ai/DeepSeek-V4-Flash 製作，屬於面向本地部署的 GGUF 量化版本，處理的是大型語言模型喺本機執行時常見的記憶體壓力與部署門檻。頁面同時提醒要配合最新版本的 llama.cpp 或 Unsloth Studio，否則 DeepSeek-V4 可能無法正確運行，代表它對推論框架版本有一定依賴。

Unsloth 把焦點放喺量化後仍盡量保持原模型表現，並提到改良了 DeepSeek-V4 的 chat jinja template，經過超過 4000 段對話測試後，效果與官方 baseline 等效。對使用者來說，呢點比單看可唔可以載入更重要，因為同一個模型換咗模板後，回答風格、工具調用格式甚至思考開關行為都可能出現明顯差異。

檔案資訊方面，頁面清楚列出 UD-Q8_K_XL 屬於 full precision lossless 的建議選項，大小約 162GB，而且只比 Q4 的 UD-Q4_K_XL 大 7GB。描述亦提到 3-bit 可喺 110GB Mac、RAM 或 VRAM 配置運行，full precision lossless 則需要大約 168GB RAM；不過目前提供內容未見完整 GGUF 檔名清單、各量化級別大小、mmproj 附加檔案或上下文長度細節，因此無法逐一確認。

已確認 base model 是 deepseek-ai/DeepSeek-V4-Flash
建議使用最新 llama.cpp 或 Unsloth Studio
UD-Q8_K_XL 約 162GB，主打 lossless
3-bit 版本可面向約 110GB 記憶體配置
chat template 經 4000+ 對話測試，目標貼近官方 baseline

同類模型比較上，呢個項目的差異不在重新訓練，而在於 GGUF 量化封裝、Unsloth Dynamic 2.0 量化方法，以及對 DeepSeek-V4 對話模板的修正。頁面提到 Unsloth Dynamic 2.0 準確度優於其他主流 quants，但未附上完整對比分數； v2 更新內容、檔名變更、MTP draft speculation 支援、Ollama 與 LM Studio 的具體載入方式，現有資料只足以確認支援方向，未足以逐項下定論。

項目主頁 · 模型

Categories: 開源, DeepSeek, Mac, Ollama, 模型

GitHub 規則集新增審核撤銷權限控制

2026 年 7 月 9 日

當團隊依賴 pull request 審核去把關程式碼質素時，最怕唔係冇人批核，而係批核已經完成後，任何唔合適嘅人都可以把審核撤銷。GitHub 今次更新屬於 repository rulesets 功能強化，處理嘅正正係合併前權限邊界唔夠細緻呢個問題。

新設定放入 Require a pull request before merging 規則之中，管理者可以直接指定邊啲 users、teams 同 apps 能夠 dismiss reviews。對比以往較寬鬆或者分散嘅管控方式，呢種做法將審核撤銷權限收返去規則集內統一管理，分支保護流程會更清晰。

重點整理：
– 可限制特定 users、teams、apps 撤銷 pull request reviews
– 設定位置已整合到 repository rulesets 既有審核規則內
– 可透過 UI、REST API 同 GraphQL 配置
– 功能已經 generally available，適用於 github.com 上嘅 repository rulesets

呢個更新最適合有多人協作、需要明確審批責任，或者要配合內部治理要求嘅開發團隊。Rulesets 本身已經係 GitHub 建議用來保護 branches 嘅方式，而家再加上審核撤銷限制，等項目喺合併前多一層可追蹤、可控嘅流程保護。

使用上做法唔複雜，只要打開 repository-level ruleset，啟用 Require a pull request before merging，再選擇 Restrict who can dismiss reviews 就可以。呢類更新唔係花巧功能，而係直接改善日常協作入面最常見嘅權限管理細節。

項目主頁

Categories: 開源, 微軟, API, 軟件, 安全, 教學

Qwen-Image-Bench：難分高下的是細節

2026 年 7 月 9 日

Qwen-Image-Bench dimension framework and representative model outputs

只看一張圖夠唔夠靚，已經不足以判斷 text-to-image (T2I) 模型值唔值得放入創作流程。Qwen-Image-Bench 把焦點放到更貼近創作工作的檢查方式：它屬於評測工具包，同時連同 benchmark dataset 同 judge model，一併處理生成圖像模型難以客觀比較的問題。

這個項目的可取之處，在於它唔係只計語意對齊或整體畫質，而是用 fine-tuned 的 Q-Judger（Qwen3.6-27B）按 5 個階層維度評分，包括 Quality、Aesthetics、Alignment、Real-world Fidelity、Creative Generation，並細分到 56 個 facets。對做品牌視覺、遊戲美術、漫畫分鏡或者要處理文字渲染的人來說，呢種拆法比單一總分更有參考價值，因為你會直接見到模型係構圖、真實感、創意約束，定係文字生成出問題。

部署理解上，它唔係即開即用的網頁服務，而是偏研究與團隊驗證流程的 Python 工具。你要準備好虛擬環境、PyTorch，同埋包含 prompt、image_path、ID 的 CSV／JSON／JSONL 輸入，再透過 judge.py 跑 Qwen/Qwen-Image-Bench；另一條路線是直接用已公開的 benchmark responses 重現排行榜分數。底層推理沿用 ms-swift，跟釋出 benchmark 結果時的設定一致，這點有助減少評測流程前後不一。

支援替任何 T2I 模型打分，較適合做橫向比較
分數結構比一般 benchmark 細，方便定位失誤位置
可重現公開資料集結果，適合研究或團隊內部驗證
使用門檻偏技術向，需要本地推理環境與整理輸入格式

它的取向也很清楚：重點不是提供生成能力，而是提供一把較細緻的尺。代價是評測仍依賴 judge model，本身並不是人手審稿，也未必完全等同最終用戶審美；但對需要批量比較模型、整理回歸測試、追蹤版本變化的團隊，這種一致而可重跑的框架反而更實用。相關模型與資源包括 Q-Judger（Qwen3.6-27B）、Hugging Face 上的 Qwen/Qwen-Image-Bench，以及配套 benchmark dataset。

項目主頁 · GitHub

Categories: 開源, 阿里巴巴, Qwen, Image, 工具, Python, txt2img, Dataset 數據集

OmniRoute：免費 AI 路由閘道值唔值得用

2026 年 7 月 9 日

寫程式最怕做到一半先撞到配額上限，或者工具只綁死某一個模型。OmniRoute 把自己放在 AI gateway 呢個位置，直接處理多個 AI coding 工具同多個模型供應商之間的路由問題，重點唔係再造一個聊天介面，而係幫你維持請求可用、控制成本，並用 auto-fallback 減少中斷。

同類做法通常會主打單一 API 聚合，OmniRoute 的取向明顯更偏向「免費額度整合 + 路由策略 + 壓縮節流」。它聲稱可接到 237 個 providers，當中 90+ 提供 free tiers，並以 RTK + Caveman compression 把 token 消耗壓低 15% 至 95%。呢個方向的好處係對長提示、程式碼上下文同重複輸出較有幫助，但壓縮始終係取捨，所以它加咗 inflation guard，遇到壓縮後反而變長，就會送回原文。

OmniRoute + OpenCode: 100% Free AI Coding Setup, Free AI Gateway

Watch this video on YouTube

New FREE Unlimited AI Coder | OmniRoute

Watch this video on YouTube

你可以把它理解成放在 Claude Code、Codex、Cursor、Cline、Copilot、Antigravity 後面的中介層。部署後，工具經同一個 endpoint 出請求，再由 OmniRoute 分配到 Claude、GPT、Gemini 及其他供應商；README 也提到每個模型會列出本月已用與剩餘額度，並標示 provider terms，這點對團隊控管比較有用。

幾個值得留意的重點：
– 定位屬於工具 / 閘道型軟件，解決的是多模型切換、免費額度整合同配額中斷
– 支援 Claude Code、Codex、Cursor、Cline、Copilot、Antigravity，適合多工具並行的開發流程
– 以 documented free tokens/month 作招徠，現有資料提到穩定約 1.6B，首月可到 2.1B
– 內建 17 routing strategies，並加入 auto-fallback，減少單一 provider 失效帶來的停頓
– 壓縮模組已針對 German、French、Japanese、Chinese，以及 Gradle、.NET 輸出做過強化

受益最大的一般會係重度依賴 AI 編碼助手的個人開發者、細團隊，同想把成本壓到最低的實驗性項目。要留意的是，免費池本身受各 provider 條款影響，OmniRoute 雖然強調統計方式較透明，但效能與穩定性仍然建基於外部服務；它較像一個把資源調度做得更聰明的控制層，而唔係保證品質一致的模型平台。

GitHub

Categories: 開源, 微軟, Gemini, API, 工具, IDE, Vibe Coding, 編程, Anthropic

Rank-Then-Act 點樣用影片學出獎勵

2026 年 7 月 9 日

做強化學習最麻煩的地方，往往不是訓練本身，而是根本冇一個好用的 reward function。Rank-Then-Act 針對的正正是這個缺口：它屬於一個以 Vision-Language Model (VLM) 為核心的強化學習框架，目標是在沒有環境獎勵的情況下，從示範影片推回任務進度，再把這種進度感變成 agent 可學習的 dense reward。

同類方法很多時會直接學一個 scalar reward，或者預測成功與否，但作者刻意避開這條路。RTA 先用 GRPO 微調 VLM，要求模型在打亂次序的畫面序列中估計 task-completion 百分比與排序，再用 VOC 這個 rank-correlation reward 去約束模型真的理解時間進展，而不是偷看絕對時間線索；之後在第二階段，系統不是直接輸出分數當 reward，而是用 Spearman rank correlation 比較預測進度排序與真實時間索引，得到一個 bounded、scale-invariant 的學習訊號。

這種取向的好處，是 reward 較不容易因尺度漂移而失真，亦較有機會跨任務重用同一個 progress scorer。現有資料指出，它在離散環境如 PyBoy 上的 Catrap、Kirby，以及連續控制環境如 MetaWorld、PointMaze 都有不錯表現，對 unseen tasks 亦有泛化能力；不過這仍然是研究型項目，重點在方法驗證，未算是即裝即用的成品工具。

重點不是直接預測分數，而是先學會判斷畫面進度排序
第一階段用 GRPO 訓練 VLM，第二階段用 PPO 訓練策略
reward 來自 VOC 與 Spearman rank correlation，訊號範圍固定在可控區間
已覆蓋 Game Boy 模擬器 PyBoy 與 MetaWorld 這類不同控制場景
需要 Python 3.10+、CUDA GPU，第二階段還要 xvfb、ROM 與 save state

理解和測試這個項目，最合理的方式不是把它當普通套件安裝，而是當成兩階段實驗流程來看：先在 stage1 用 gameplay videos 訓練 progress scorer，再到 stage2 把該模型凍結成 reward model，放進 PPO 訓練流程。儲存庫已把資料處理、Hydra 設定、多 GPU 配置、PyBoy 包裝器與 VOC 計算分開整理好，適合研究團隊、做 video-based RL 的人，或者想比較 ordinal reward 與 scalar reward 差異的讀者深入追蹤。

項目主頁 · GitHub · Paper

Categories: 開源, NVIDIA, Agentic, Video, Python, 多模態模型, 模型訓練, 視覺模型

3D HAMSTER 把機械臂規劃帶進真 3D

2026 年 7 月 8 日

3D HAMSTER architecture: a depth-augmented VLM planner produces metric 3D waypoints that unproject into the point cloud

機械臂最怕規劃講得通，落到控制層卻對唔準空間位置。3D HAMSTER屬於 Vision-Language-Action 規劃模型／機械人研究項目，重點不是再產生螢幕上的 2D waypoint，而是根據單張 RGB 圖、metric depth map 同文字指令，直接輸出帶有深度的 3D end-effector trajectory，同時附上 gripper actions，格式亦整理成 JSON，方便接去後續控制流程。

它針對的矛盾很明確：不少 hierarchical Vision-Language-Action models 由高層 planner 先預測 2D 像素軌跡，再交給吃 point cloud 的低層 policy 執行。問題在於 2D waypoint 只會「借用」像素下方表面的深度，幾何上未必真是機械臂應走的位置。3D HAMSTER改成在 metric 3D 空間規劃，等高層輸出可以直接對接 point-cloud low-level policy，少了中間 2D 轉 3D 的失真。

模型骨幹用的是 Qwen3-VL-8B，再加上凍結的 LingBot-Depth geometry encoder，當中採用 DINOv2 ViT-L/14，並配合 dense depth-reconstruction objective 去強化深度感知。儲存庫目前提供的是 inference-only 版本，即是你可以安裝套件、下載 checkpoint 後直接跑推理或用 Gradio demo 測試；低層 point-cloud policy 屬於論文完整系統一部分，這個 GitHub 項目未有一併放出。

直接輸出 [u, v, depth] waypoint，深度單位是米，較易接入真實機械臂流程
走 RGB-D + language instruction 路線，不靠多視角觀察
checkpoint 已包含 geometry encoder 權重，載入時毋須再額外抓模型
項目偏向展示 planner 能力，不等於完整可部署的機械人控制堆疊

，它的定位很適合做研究驗證、機械操作規劃比較，或者拿來觀察 2D planner 與 3D planner 在幾何一致性上的差異。作者在項目頁面強調這種做法對語言、空間與視覺分佈轉移更穩健，但這個儲存庫未有完整公開訓練流程與低層控制模組，所以較適合把它理解為一個清楚展示方向的 3D-native planner，而不是即裝即用的全套機械人方案。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, Gemini, 3D, 多模態模型, 視覺模型, Robotic, Dataset 數據集, VLA

CGGS 把文字直接變成第一身 3D 場景

2026 年 7 月 8 日

最值得留意的地方，在於 CGGS 沒有沿用單純全景生成再重建的路線，而是直接針對第一身視角 3D 場景去處理視角不連續、幾何變形和文字細節流失。它屬於一個文字轉 3D 的框架，目標是把文字描述變成可渲染的 ego-centric 場景，而不只是產出幾張彼此關係鬆散的圖片。

現有做法常見問題，是多視角之間重疊不足，或者 equirectangular projection 容易在上下邊界拉扯變形；DreamScene360 一類方法也會出現結構扭曲。CGGS 的取向是先用 MV-LDM 生成更一致的多視角 2D 內容，再配合 optical flow、point-track correspondence、深度估計與 3D Gaussian optimization，把粗略 layout 逐步修到可用的 3D Gaussian Splatting（3DGS）場景。

它的流程大致可理解為三段：Ego-centric Generator 負責貼近文字的多視角內容，Layout Decorator 由影像關係推回 dense point clouds，Geometric Refiner 再用 Mutual Information Depth Loss（MID）和 hierarchical optimization 修正幾何與畫質。部署和測試層面，儲存庫已提供實作，並可透過 prompt 檔、視角水平視野 --fov 與垂直軸旋轉角 --deg 控制生成條件，較適合研究、實驗室或要評估 text-to-3D 工作流的人。

走的是 ego-centric 3D scene generation，不是單純全景貼圖
核心差異在 MV-LDM 一致性訓練，加上 3D Gaussian 幾何優化
提供可調視角參數，能用文字檔批量測試不同場景
適合做 3D 內容生成、novel view synthesis 與方法比較

效能數字也有說服力。README 列出的結果中，CGGS 在 CLIP Score 26.253、Q-Align 0.839、PSNR 37.345、SSIM 0.977、LPIPS 0.0193 取得最佳表現，代表它不只文字對齊較好，重建品質與新視角渲染穩定度也更高；不過這仍然是研究型項目，離通用內容製作工具還有一段距離，較大的價值在於它清楚示範了如何把多視角生成與幾何重建更緊密地接起來。

項目主頁 · GitHub · Paper

Categories: 開源, 3D, 多模態模型, 中國, Dataset 數據集

Page 13 of 67

« Previous 1 … 11 12 13 14 15 … 67 Next »