IDE – InferNews

FunASR 工業級語音辨識：支援廣東話

2026 年 7 月 19 日

如果你做過語音相關項目，大概率遇過呢種情況：開源模型散落喺唔同倉庫、部署方式各異、要接入 Agent 仲要自己寫 WebSocket 中間層。FunASR 就係針對呢類工程痛點嘅工業級語音識別工具包，屬於開源框架，由阿里達摩院維護，提供統一 Python 接口，將 ASR、VAD、標點恢復、說話人分離、情感偵測同音訊事件辨識串成一條流水線。

旗艦模型 Fun-ASR-Nano 係基於 LLM 嘅解碼架構，覆蓋中、英、日三語以及中文方言群組；針對 31 種語言嘅場景可以用 Fun-ASR-MLT-Nano-2512；鍾意多語言又有 LLM 解碼能力嘅，亦有 Qwen3-ASR（52 種語言、0.6B/1.7B 參數）。如果想要更輕量、非自迴歸嘅選擇，Paraformer 同 SenseVoice 仍係穩陣起點，前者適合生產線串流，後者額外送情感同音訊事件標籤。

funasr-server 一行指令就可以拉起 OpenAI 相容嘅轉寫 API，本地聽返 localhost:8000，配合 vLLM 仲可以做到 2-3 倍 LLM 解碼加速同 tensor parallel 批次推理。Agent 整合係另一個重點：MCP Server 可以直接接入 Claude 或 Cursor，OpenAI API 接口又同 LangChain、Dify、AutoGen 無縫對齊。最近幾個版本（v1.3.18 至 v1.3.22）就專門執緊 SRT/字幕分段、長時 WebSocket 連線、verbose_json 回傳呢啲工程細節。

要留意嘅取捨係：Fun-ASR-Nano 需要 GPU；新環境第一次 import funasr 已唔再強行依賴 PyTorch，但用 AutoModel 仍然要先裝 torch。FunASR 比較適合需要私有語音 API、字幕生成、長會議轉寫、或想將語音能力塞入 Agent 工作流嘅團隊開發者。

重點摘要：

統一 Python 接口整合 ASR、VAD、標點、說話人分離、情感偵測
Fun-ASR-Nano 旗艦模型支援 31 種語言及中文方言，Fun-ASR-MLT-Nano 覆蓋更廣
funasr-server 提供 OpenAI 相容 API，搭配 vLLM 可達 2-3 倍加速
內建 MCP Server 支援 Claude/Cursor，亦可接入 LangChain、Dify、AutoGen
近期版本持續優化字幕分段、WebSocket 長連線、verbose_json 回傳等工程細節

以下是其對粵語支持的詳細信息：

UniASR模型：這是一個專為粵語設計的語音識別模型，能夠處理簡體中文的粵語語音識別任務。
ITN模型：用於對粵語語音識別結果進行擬文本正則化後處理，以提高識別結果的準確性。
VAD模型：語音端點檢查模型，用於檢測長語音片段中有效語音的起止時間點，這對於粵語方言的語音識別同樣重要。
訓練語料：為了提高模型的準確性和適用性，通常會使用大量的粵語語料進行訓練，以便模型能夠更好地理解和識別粵語中的特有詞彙和表達方式。
離線功能：Funasr提供了離線語音識別模型，這意味著即使在沒有網絡連接的情況下，也能夠進行粵語語音識別。

項目主頁 · GitHub

Categories: 開源, Qwen, NVIDIA, Agentic, API, MCP, IDE, LangChain, Python, 語音, Dataset 數據集

Kimi K3 把開源大模型推到 3T 級別

2026 年 7 月 17 日

長上下文、程式開發同知識工作往往要分開交畀不同模型處理，Kimi K3嘗試把這幾件事收在同一個開放模型內。它屬於大型多模態模型，重點是處理長流程 coding、長篇資料閱讀與推理之間的切換成本，並提供原生 vision 能力與 1M context。

Kimi K3 的定位，不是單靠參數規模取勝，而是想在開源路線上逼近 frontier intelligence。資料提到它有 2.8T parameters，屬於首個 open 3T-class model，整體表現仍落後於 Claude Fable 5 和 GPT 5.6 Sol，但在自家 evaluation suite 內已持續超過其他被測模型，顯示它在開源陣營有明顯競爭力。

技術上，這個模型建基於 Kimi Delta Attention（KDA）同 Attention Residuals（AttnRes），目的是改善資訊在長序列與深層網絡中的流動方式；同時也擴大了 Mixture of Experts（MoE）sparsity。這種做法反映它要處理的核心矛盾：一邊維持超長 context 與多類任務能力，一邊控制推理與訓練效率。

首個 open 3T-class model，規模達 2.8T parameters
原生支援 vision，並提供 1M context window
目標場景包括 long-horizon coding、knowledge work 同 reasoning
採用 Kimi Delta Attention（KDA）、Attention Residuals（AttnRes）與 Mixture of Experts（MoE）
已在 Kimi.com、Kimi Work、Kimi Code 同 Kimi API 提供使用

對開發者、研究者同需要長文檔工作流的人來說，Kimi K3最有吸引力的地方，在於它把「夠長、夠廣、夠開放」放在同一個項目裡。現階段可確認的限制也很清楚：它未到最強閉源模型的水平，而完整權重、架構與訓練細節仍要等後續 technical report 與正式釋出。

項目主頁

Categories: 開源, Agentic, API, 線上服務, IDE, Mac, Vibe Coding, 多模態模型, 教學, 編程, OpenClaw

OmniRoute：免費 AI 路由閘道值唔值得用

2026 年 7 月 9 日

寫程式最怕做到一半先撞到配額上限，或者工具只綁死某一個模型。OmniRoute 把自己放在 AI gateway 呢個位置，直接處理多個 AI coding 工具同多個模型供應商之間的路由問題，重點唔係再造一個聊天介面，而係幫你維持請求可用、控制成本，並用 auto-fallback 減少中斷。

同類做法通常會主打單一 API 聚合，OmniRoute 的取向明顯更偏向「免費額度整合 + 路由策略 + 壓縮節流」。它聲稱可接到 237 個 providers，當中 90+ 提供 free tiers，並以 RTK + Caveman compression 把 token 消耗壓低 15% 至 95%。呢個方向的好處係對長提示、程式碼上下文同重複輸出較有幫助，但壓縮始終係取捨，所以它加咗 inflation guard，遇到壓縮後反而變長，就會送回原文。

OmniRoute + OpenCode: 100% Free AI Coding Setup, Free AI Gateway

Watch this video on YouTube

New FREE Unlimited AI Coder | OmniRoute

Watch this video on YouTube

你可以把它理解成放在 Claude Code、Codex、Cursor、Cline、Copilot、Antigravity 後面的中介層。部署後，工具經同一個 endpoint 出請求，再由 OmniRoute 分配到 Claude、GPT、Gemini 及其他供應商；README 也提到每個模型會列出本月已用與剩餘額度，並標示 provider terms，這點對團隊控管比較有用。

幾個值得留意的重點：
– 定位屬於工具 / 閘道型軟件，解決的是多模型切換、免費額度整合同配額中斷
– 支援 Claude Code、Codex、Cursor、Cline、Copilot、Antigravity，適合多工具並行的開發流程
– 以 documented free tokens/month 作招徠，現有資料提到穩定約 1.6B，首月可到 2.1B
– 內建 17 routing strategies，並加入 auto-fallback，減少單一 provider 失效帶來的停頓
– 壓縮模組已針對 German、French、Japanese、Chinese，以及 Gradle、.NET 輸出做過強化

受益最大的一般會係重度依賴 AI 編碼助手的個人開發者、細團隊，同想把成本壓到最低的實驗性項目。要留意的是，免費池本身受各 provider 條款影響，OmniRoute 雖然強調統計方式較透明，但效能與穩定性仍然建基於外部服務；它較像一個把資源調度做得更聰明的控制層，而唔係保證品質一致的模型平台。

GitHub

Categories: 開源, 微軟, Gemini, API, 工具, IDE, Vibe Coding, 編程, Anthropic

OpenMontage：AI 代理拍片流程

2026 年 7 月 2 日

OpenMontage 是一個開源、Agentic 的影片製作工具型項目。它的核心任務是把研究、寫稿、素材生成、片段檢索、剪輯到輸出成片串成同一條流程，讓 AI coding assistant 代為協調整個製作過程。

這個項目最值得留意的地方，在於它不把「幾張靜態圖加動畫」當成影片的唯一做法。它亦會從免費 stock footage 與公開影像檔案建立 corpus，抽取真正的 motion clips，再放入時間線完成合成，取向上比純 txt2img 或 image-to-video 工具更接近剪輯工作流。

部署理解上，現有資料顯示它依賴 FFmpeg，以及 Claude Code、Cursor、Copilot、Windsurf、Codex 這類 AI coding assistant。換句話說，它不像一般單一網頁服務，更像一套由代理驅動的製片管線；測試時較合理的方式，是先用簡單 prompt 驗證腳本規劃、素材來源、成本預估，再觀察最後能否穩定輸出可看的 timeline 與成片。

定位清晰：多個生成與剪輯步驟接駁起來的工作流工具。
差異明顯：支援真實影片片段檢索與編排，不只依賴靜態圖轉影片。
適合情境：內容創作者、小型 marketing 團隊、需要快速做樣片的創意項目會較受惠。
取捨存在：自由度高，但效果會受可用模型、素材來源與代理穩定性影響。

它可保留參考影片的節奏、hook style、結構與 tone，同時改動主題、畫面處理、切入角度與旁白方式，亦會在素材生成前估算目標片長成本。性能數字與正式 benchmark 暫未見完整公開，因此現階段較適合視為早期但方向鮮明的製片自動化項目；相關模型與服務例子包括 Veo，以及配合 AI coding assistant 與 Remotion、FFmpeg 一類組件完成輸出。

GitHub

Categories: 開源, 微軟, Agentic, Video, Image, Content Creator, IDE, txt2img, Anthropic

LISA：讓 ControlNet 訓練快 2.78 倍的正則化方法

2026 年 6 月 28 日

LISA（Likelihood Score Alignment）是一種訓練正則化方法，專門用於加速視覺條件可控生成模型（例如 ControlNet）的訓練過程，同時提升最終生成結果在感知品質與條件遵循度上的表現。

現有做法普遍採用「雙分支範式」（dual-branch paradigm）：訓練一個側網絡（side network）來編碼視覺條件，再將其中間層特徵融合到凍結的預訓練主網絡中。這個範式雖然效果顯著，但側分支的角色定位與訓練效率長期未被深入研究。LISA 從基於分數的生成建模（score-based generative modeling）角度重新審視這個範式：主網絡負責提供先驗的無條件分數（unconditional score），側網絡則透過隱式方式貢獻似然分數（likelihood score）。

LISA 的核心做法是從側網絡的指定層提取特徵，透過一個輕量級解碼器（decoder）將其投影到分數潛在空間（score latent space），然後計算解碼器輸出與近似似然分數目標之間的距離，作為額外的正則化損失（regularization loss）。這個設計讓側網絡的特徵在條件建模中更加解耦（disentangled），且推理階段無需任何額外計算。

根據論文實驗結果，LISA 在多種圖像與影片任務、不同網絡架構（UNet/DiT）以及擴散與流匹配模型上均表現穩定，能夠實現超過 2.78 倍的訓練收斂加速（例如在 ControlNet 上），同時帶來可忽略的額外訓練成本與零推理成本。

這項技術特別適合需要快速迭代 ControlNet 或類似條件控制模型的團隊，例如從事姿態引導圖像生成、組合條件生成或可控影片生成的研究人員與開發者。

重點摘要：

方法類型：訓練正則化技術，適用於雙分支視覺條件可控生成框架
核心創新：將側網絡特徵對齊近似似然分數目標，取代純粹依賴擴散損失的訓練方式
訓練效率：在 ControlNet 等場景實現超過 2.78 倍的收斂加速
推理成本：零額外推理開銷，解碼器僅在訓練階段使用
適用範圍：圖像與影片生成任務，兼容 UNet 與 DiT 架構，支援擴散與流匹配模型

GitHub · Paper

Categories: 開源, 香港, 香港科技大學, 華為, IDE, 模型, 模型訓練, 深度學習, 視覺模型, 框架

DomainShuttle 開源：把主角穿梭到任何風格的影片

2026 年 6 月 26 日

DomainShuttle 是一個以 Wan2.2-T2V-A14B 為基底的 subject-driven text-to-video（主體驅動文字轉影片）框架，目標是讓用戶提供一張參考圖後，能在不同視覺風格與場景中維持同一角色的身份一致性。過去的 subject-driven 方法多在 in-domain（與訓練資料同域）下能保留主體細節，但一旦跨域到風格差異大的場景，主體往往走樣或失去身份特徵；DomainShuttle 把參考特徵與影片特徵解耦，並引入 domain attribute 建模與 intrinsic subject representation，試圖兼顧 in-domain fidelity 與 cross-domain editability。

開發團隊來自香港科技大學 C4G 實驗室，作者群包括 Nan Chen、Yiyang Cai、Rongchang Xie、Junwen Pan、Cheng Chen、Weinan Jia、Zhuowei Chen、Wen Zhou（項目負責人）、Zhenbang Sun 以及通訊作者 Wenhan Luo。等貢獻作者共同發表技術報告，並同時釋出 14B 規模的非官方權重與推理代碼。

先以 conda 建立 Python 3.10 環境並安裝 PyTorch 2.5.1（CUDA 12.4），接著執行 build_env_conda.sh。模型準備分兩步：先用 huggingface-cli 下載 Wan-AI 的 Wan2.2-T2V-A14B 作為基底模型，再下載 CNcreator0331/DomainShuttle_weight，最後將 VAE、configuration.json 等檔案移入指定的 ./models/Diffusion_Transformers/Wan2.2-DomainShuttle-A14B/ 目錄。原始資料未提供完整推論指令片段，相關細節需參考技術報告與項目頁面的後續說明。

從示範結果看，DomainShuttle 能在寫實人物、動漫風、Ghibli 風、3D 動畫風等不同域之間切換，同時保留臉部與服飾特徵，跨域 personalisation 效果明顯。適合短片創作、角色 IP 化、廣告分鏡與動畫預覽等需要「同一角色穿梭多場景」的團隊。需注意目前釋出的是非官方實作，且依賴 14B 規模的基座模型，部署對顯存要求較高。

重點摘要：

類型：subject-driven text-to-video 框架，建基於 Wan2.2-T2V-A14B
開發團隊：香港科技大學 C4G 實驗室，Wen Luo 為通訊作者
核心設計：解耦參考與影片特徵、加入 domain attribute 與 intrinsic subject representation
與同類差異：強調 cross-domain editability，補足過往方法跨域走樣的缺陷
資源：已釋出 14B 權重、技術報告與推理代碼，需 CUDA 12.4 環境

GitHub： https://github.com/HKUST-C4G/DomainShuttle

項目主頁： https://cn-makers.github.io/DomainShuttle/

模型： https://huggingface.co/CNcreator0331/DomainShuttle_weight

Categories: 開源, 香港, 香港科技大學, NVIDIA, Stable Diffusion, Video, Content Creator, 3D, IDE, Python, Python NLP, 動畫, 模型, 視覺模型, 視頻模型, 框架

DataClaw0 想把雜亂多模態資料變成可訓練資產

2026 年 6 月 25 日

這是一個面向多模態資料整理的研究原型兼框架，核心是用 Agentic Data Tailoring 把原始串流資料重組成有結構、可驗證、可直接用於訓練的 supervision。它要解決的不是「再做一次標註」，而是長影片、GUI traces、embodied trajectories 與 editing sequences 太雜亂、資訊密度不均，令人和模型都難以有效吸收。

現有做法多數依賴 passive annotation paradigms，用 heuristic rules 或 general VLMs 被動加標籤；作者認為這類方式成本高、內容單調，亦抓不到原始資料入面的 procedural logic。DataClaw0 改用「Bottom-up Factual Anchors → Top-down Semantic Synthesis」兩段式流程，先抽取較確定的 factual anchors，再按意圖生成結構化語意，重點在於它不是只描述內容，而是按 downstream objective 重寫資料。

模型層面，項目提出 DataClaw-9B，並以 Supervised Fine-Tuning（SFT）加 rule-driven Group Relative Policy Optimization（GRPO）做對齊；部署上分成 unified Omni model 的 DataClaw-O，以及分領域 Experts 的 DataClaw-E。這種取向的取捨很明顯：Omni 較方便統一處理多域資料，Experts 則較可能在特定場景保留更細緻的領域表達。

現階段先看論文與案例再判斷是否值得追蹤，因為 code、model weights、dataset 和 DataClaw-val benchmark 仍未正式釋出。已公開資訊顯示，它的評測不只看生成是否通順，還會檢查 JSON validity，以及 schema-aware 的 Field、Semantic、Sequence 指標，並再用 video generation、real-world VQA、GUI navigation 的下游 post-training 效果驗證資料整理是否真的有用。

項目類型：研究原型／資料整理框架，重點是把原始多模態串流轉成意圖對齊的訓練資料
主要差異：不是被動標註，而是主動 refinement，並保留 schema-conformant、verifiable 輸出
相關模型：DataClaw-9B、DataClaw-O、DataClaw-E，訓練結合 SFT 與 rule-driven GRPO
適合情境：做多模態 post-training、GUI agents、VQA、影片或 embodied 資料整理的團隊

如果你關心的是建立資料引擎，而不只是找一個模型做推理，DataClaw0 比一般 VLM 標註流程更有方向性。限制也很直接：目前公開內容以論文與項目頁案例為主，能否重現效果、部署成本多高、不同領域泛化有多穩，仍要等正式釋出的資料與基準再作判斷。

GitHub： https://github.com/vancyland/DataClaw0

項目主頁： https://czjdsg.github.io/MakeAnyData/#cases

Paper： https://arxiv.org/pdf/2606.21337

Categories: 開源, Qwen, Gemini, Agentic, Video, 工具, IDE, 多模態模型, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 視頻模型, 框架, Dataset 數據集

MemSlides 把簡報生成變成可記憶代理

2026 年 6 月 22 日

MemSlides hierarchical memory and localized revision overview

不少簡報生成工具仍然走 one-shot source-to-slides conversion：丟一份材料進去，整份投影片一次生成，之後每次修改又大範圍重做。MemSlides 把問題改寫成 stateful authoring process，核心不是單次輸出，而是記住你是誰、這一輪想改甚麼，以及過往哪些工具操作較可靠。

這是一個 Agent Framework，目標是解決 personalized slide generation 與 multi-turn local revision 兩個常見痛點。它把記憶拆成 user profile memory、working memory、tool memory：前者保存跨工作重覆出現的偏好，中段記住當前簡報的限制與暫時要求，後者則保留工具鏈執行經驗，方便之後做相似修改時少走彎路。

跟同類做法相比，最需要留意的是它不主張每次收到新意見就重生整副 deck，而是做 scoped slide-local revision，只更新受影響的最小區域。這種取向的好處是修改更穩定，較易保留原本好的內容；代價是整體品質會依賴記憶管理與局部編輯判斷是否準確。

從倉庫資訊看，這個項目較適合研究 presentation agents、企業內部簡報自動化，或要反覆為不同角色產出版本的團隊。倉庫亦提供 Docker Hub、網站、示範影片與論文連結，理解方式可先看 demo，再決定用容器部署還是按 Python 3.11 與 Node 20 的環境自行搭建；不過公開資訊未見完整量化基準，現階段較像研究型框架，而非已標準化的產品方案。

把簡報生成由一次性輸出改成有狀態的寫作流程
分層記憶是重點：user profile memory、working memory、tool memory
修改時傾向局部修補，不是整份重生成
適合需要 persona-aware 內容、反覆修訂、多人協作的情境
相關元素包括 presentation agents、multi-turn revision、localized editing、tool-chain execution

GitHub： https://github.com/huohua325/Memslides

項目主頁： https://memslides.github.io/

Categories: 開源, Agentic, 工具, IDE, Python, Python NLP, 庫, 清華大學, 框架

MolmoMotion 把語言變成 3D 動作預測

2026 年 6 月 21 日

現有做法多數偏向追蹤已經發生的移動，或者只在 2D 畫面估計下一步位置；作者認為這種 retrospective 範式難以支援機械人規劃與可控影片生成，所以提出 MolmoMotion、MolmoMotion-1M 同 PointMotionBench，把問題改成「根據語言指令預測 3D 點位未來軌跡」。這不是單純看影片理解內容，而是要模型根據短段 RGB 歷史、2D query points、初始 3D 位置，以及文字動作描述，預測之後約 2 秒的 3D movement。

MolmoMotion 本身屬於模型，更準確地說是 4B vision-language model，處理的是物件上指定點會怎樣移動的預測問題。儲存庫目前公開的是 autoregressive (AR) variant，並提供訓練資料、評測集、已釋出模型，以及由 pretrain 到 long-horizon finetune 的兩階段流程，較適合研究團隊直接重現結果或改成自家任務。

和同類方法相比，這個項目的取向很鮮明：它不是先做一般影片理解，再另外接 motion head，而是把 language-guided 3D point trajectory forecasting 當成核心任務。代價是輸入要求較多，你要有 query points 同初始 3D 資訊；回報則是輸出更貼近規劃用途，特別適合要預測「物件將會點樣郁」而不是只想分類場景的人。

可預測最長約 2 秒未來軌跡，文件提到 15 fps、F=30 或 F=32 的設定
評測指標列出 ADE、FDE、PWT，焦點放在軌跡準確度而非只看畫面相似度
配套包含 MolmoMotion-1M 訓練資料集與 PointMotionBench 評測基準
作者指出學到的 motion prior 可轉移到 robotics planning 與 motion-guided video generation

部署與測試的理解方式相當直接：先下載模型、資料集或 benchmark，再按儲存庫提供的 evaluation 與 training 流程執行；若不打算重訓，較合理是先拿已釋出模型跑 PointMotionBench 或自家樣本，看看語言指令改變時，3D 點位預測是否穩定。現有資訊未見完整效能數字摘錄，但官方明確聲稱表現明顯優於既有 forecasting 方法；較保守的判斷是，它最適合 embodied AI、robotics、可控影片生成研究者，以及需要把語言意圖轉成未來運動假設的團隊。

相關模型與資源包括：MolmoMotion、其 autoregressive (AR) variant、MolmoMotion-1M、PointMotionBench；底層 backbone 初始化與從零訓練入口亦有提供。

GitHub： https://github.com/allenai/molmo-motion

項目主頁： https://allenai.org/blog/molmo-motion

Categories: 開源, Video, 3D, AI productions, IDE, 多模態模型, 庫, 模型, 模型訓練, 視覺模型, 視頻模型, Robotic, Dataset 數據集

JanusMesh 把雙提示變成 3D 視覺

2026 年 6 月 21 日

現有 3D visual illusions 做法，多數不是走 optimization-based methods，就是把兩個形體直接拼接。前者慢，還容易出現過飽和顏色；後者雖然直接，但會留下明顯幾何接縫，亦會有 semantic leakage。JanusMesh 提出的不是新訓練模型，而是一條 training-free pipeline，目標是把兩個文字提示融合成一個 3D mesh，並在指定視角各自呈現不同語意。

它的核心分成兩步：先用 cross-space dual-branch denoising，在 voxel 與 Signed Distance Field (SDF) 之間處理形體融合，再配合 CLIP 做 orientation alignment；之後再用 view-conditioned 2D diffusion 補貼圖與外觀。這種拆法的重點，不是單純把兩個物件疊上去，而是先解決幾何是否連貫，再處理不同視角看到的表面語意。

部署上，現有資訊顯示它較適合有 CUDA 環境的研究或圖像團隊，因為要安裝多個 CUDA extensions，例如 flash-attn、nvdiffrast、diff-gaussian-rasterization、pytorch3d。測試思路相當清晰：可先用 case 1 或 case 2 直接生成固定 voxel split 結果，再用 case 3 加入 CLIP pose search，比較視角對齊是否更穩定；另外也可調整 noise guidance、space control、t0 idx value 與 guided structure weight，觀察語意強度與形體穩定度之間的取捨。

JanusMesh 的表現頗有競爭力：生成時間約 3–5 分鐘，主打 geometric integrity、semantic recognizability、efficiency 都比同類方法好。不過它目前更像研究型工具，適合做 3D 內容展示、視覺實驗、生成式藝術或學術比較；若想要任意角度都自然，文中亦明言這類物件在非目標視角本來就可能難以辨認，這其實是 3D 視覺錯覺成立的一部分。

項目類型：一個 training-free 的 3D 生成流程，解決雙語意 3D visual illusions 的幾何接縫、語意外漏與生成速度問題。
最值得留意的差異：不是 per-shape optimization，也不是 direct concatenation，而是先做 cross-space 幾何融合，再做 view-conditioned 外觀細化。
較適合的情境：3D 生成研究、視覺傳達、展覽內容、概念設計，以及想比較多種 3D illusion 範式的團隊。
性能重點：論文聲稱 3–5 分鐘可完成，較傳統 SDS-Based Methods 快，亦減少 oversaturation 與 seams。
相關模型／組件：CLIP、2D diffusion、voxel、Signed Distance Field (SDF)、flash-attn、nvdiffrast、diff-gaussian-rasterization、pytorch3d。

GitHub： https://github.com/siang1105/JanusMesh

項目： https://siang1105.github.io/JanusMesh.github.io/

Categories: 開源, NVIDIA, Image, 工具, 3D, IDE, Python, 模型, 模型訓練, 視覺模型

Page 1 of 2

1 2 Next »