mv-split:千層級圖像生成實驗,效能與相容性兼顧

Repository image for erwold/mv-split

mv-split 是一個用來產生圖片的研究型專案,核心是名為 MVSplit-DiT 的超深層模型,整體深度達 1000 層。它不是一般即裝即用的圖片工具,而是較適合想測試新一代生成架構、比較效能,或者重現論文結果的人使用。

實際使用上,流程算清晰:先準備模型權重、FLUX.2 的自編碼器,以及 Qwen3 文字編碼器,之後透過 sample.py 輸入提示詞、指定輸出資料夾,就可以生成圖片。它亦支援從範例提示詞清單逐行抽樣、隨機抽樣,甚至一次過跑完整批提示,方便做測試和比較。

這個專案最值得留意的地方,是它同時提供 Triton 核心加速與 PyTorch 後備路徑。換句話說,就算機器沒有 Triton,理論上仍可運行;只是對於 1000 層這種深度,README 已明確提醒 CPU 雖可作後備,但實際上並不實用,較合適的環境仍是 PyTorch 2.x 配合 CUDA。

  • 採用超深層 DiT 架構,定位偏研究與高階實驗
  • 以 Triton 核心加速多個關鍵運算,同時保留 PyTorch 後備
  • 可直接用自訂提示詞、提示詞檔案或批次方式生成圖片
  • 會輸出 PNG 圖片及 metadata.jsonl,方便記錄實驗結果

從設計來看,它的主要創新不只在「層數夠深」,亦包括把多個底層運算元件拆得相當明確,例如 RoPE、RMSNorm、QK-Norm 和 SwiGLU 都有獨立實作,顯示作者很重視推論路徑的效率與可替換性。這種做法對一般用家未必直接有感,但對開發者或研究者來說,代表更容易針對效能瓶頸做調整。

最適合的應用場景,包括生成模型研究、推論效能測試、比較 Triton 與 PyTorch 後備表現,以及重現論文方法。若你只是想簡單輸入一句文字就穩定出圖,這個專案的門檻會偏高;但若你需要一個結構清楚、可觀察推論細節的實驗平台,它就相當有參考價值。相關模型方面,需配合 FLUX.2 AutoEncoder 與 Qwen/Qwen3-0.6B 文字編碼器。

Source: https://github.com/erwold/mv-split

Categories: 開源, 影像模型, 框架

gemma-chat:離線寫Code助手:Mac本機AI實測

Gemma 4 Desktop

對於重視私隱,或者經常處於無網絡環境的人來說,這個專案最吸引的地方,是把 AI 編程助手完全放到 Mac 本機執行。它屬於 Electron 應用程式,透過 Apple 的 MLX 框架在 Apple Silicon 裝置上運行,首次下載模型後,就算冇 Wi-Fi 亦可繼續使用。

實際使用上,你只要用自然語言描述想做的內容,例如簡單網頁、計算機介面或多檔案小專案,系統就會在沙盒工作區內自動產生程式碼,並提供即時預覽。這種邊生成、邊查看效果的方式,對非專業開發者特別友善,因為可以直接用畫面理解改動。

它的創新不只在「本地化」,而是在本機環境中同時整合了聊天、工具使用與建構模式。除了可作一般對話,還支援語音輸入,以及在不同 Gemma 4 變體之間切換;如果你需要更平衡的速度與能力,README 明確推薦 Gemma 4 E4B,而較大型版本則對記憶體要求更高。

Gemma 4 Desktop Coder by Google: 100% Free & Local, Build Apps OFFLINE on Your Mac
  • 全程本機運行,不需 API key,也不用把程式碼送上雲端
  • Build Mode 可建立多檔案專案,並即時預覽結果
  • Chat Mode 支援工具使用,例如網址擷取、計算及指令操作
  • 首次啟動自動配置,包括 Python 虛擬環境與 MLX 執行環境

最適合的場景,包括飛機上、網絡不穩定的地方、內部原型開發,或不想把敏感程式碼交給第三方服務的團隊。要留意的是,它目前明確針對 macOS 與 Apple Silicon,亦需要先下載模型;所以如果你用的是其他平台,或者電腦資源有限,體驗可能會受限制。整體而言,這是一個相當清晰的「離線 AI 編程」示範,也顯示本地小型模型已開始具備實用價值。

Source: https://github.com/ammaarreshi/gemma-chat

Categories: 開源, 編程, 蘋果

SCOPE:複雜圖片生成,點樣更少走樣?

Repository image for nopnor/SCOPE

SCOPE 係一個面向複雜圖片生成嘅研究型框架,核心做法唔係單靠一次過輸入長提示詞,而係先將要求拆成可追蹤嘅「語義承諾」,例如人物、物件、關係、限制同未確定資訊。之後每個步驟都圍繞同一份結構化規格運作,減少中途遺漏要求嘅情況。

實際使用上,呢個專案比較似一套流程引擎,而唔係即開即用嘅圖片 App。使用者需要準備 Python 3.10+、設定運行環境,並按需要接駁圖片生成、驗證同搜尋等後端服務;如果想跑完整代理式工作流程,亦需要 Codex CLI。

佢最值得留意嘅創新,在於將「生成失敗咗邊一項」具體化。SCOPE 唔係見結果唔理想就整張圖重來,而係透過驗證同修補階段,集中處理未解決或違反咗嘅承諾,令後續動作更有方向,對多角色、多約束、知識密集型提示尤其重要。

  • 以結構化規格保存提示要求,而唔係只靠一段文字
  • 將檢索、推理、生成、驗證、修補串成可追蹤流程
  • 適合研究同評測複雜圖片生成效果
  • 內含配置範例、CLI 工具同 Gen-Arena 評估相關實用程式

如果你係研究人員、工程團隊,或者正測試高要求圖像任務,SCOPE 會比一般單步生成流程更有分析價值。相反,若你只係想快速出圖,呢個專案門檻會較高,因為它重點係流程控制、可驗證性同評估,而唔係簡化操作介面。

整體來講,SCOPE 展示咗一個幾清晰嘅方向:當提示變得愈來愈複雜,單靠模型「自己理解」未必足夠,最好有一套能夠持續記錄、檢查同修正要求嘅機制。以官方資料所見,佢亦配合 Gen-Arena 呢類基準做評估,令成效唔只停留喺示範圖片層面。

Source: https://github.com/nopnor/SCOPE

Categories: 開源, 香港理工大學, Gemini, 影像處理, 提示詞, 框架

PAE:令擴散模型更快收斂的潛在空間設計

pae teaser

PAE 是一個為潛在擴散模型而設的自編碼器框架,重點不只是把圖片壓縮再還原,而是先把潛在空間整理成更適合擴散模型學習的形態。簡單講,它關心的不是「壓得靚唔靚」,而是「模型之後生圖時會唔會更順、更穩定」。

實際使用上,PAE 可理解為擴散模型前面的 tokenizer 或影像編碼模組:先把圖片轉成 latent,再交畀後續生成模型訓練。這種做法特別適合本身已在做 latent diffusion、但覺得收斂慢、訓練成本高,或者生成效果未夠穩定的研究與開發流程。

這個專案較有意思的地方,是它明確提出三個「對擴散友善」的潛在空間特質:空間結構一致性、局部流形連續性,以及全域語意組織。作者不是假設這些特質會自然出現,而是用三種 prior-alignment regularization 去主動約束,這比單靠重建誤差的傳統思路更進一步。

根據專案提供的結果,PAE 在 ImageNet 256×256 上做到 gFID 1.03,並且在相同 LightningDiT 設定下,收斂速度最高可比 RAE 快 13 倍。對非研究人員而言,這代表同樣資源下有機會更快見到可用成果;不過這些表現仍應視乎資料集、訓練設定與骨幹模型而定。

  • 核心定位:為 latent diffusion 準備更易學的潛在表示
  • 主要創新:把「擴散友善」拆成三個可優化的性質來訓練
  • 實際價值:有機會縮短訓練週期,提升生成質素與少步數採樣表現
  • 適合場景:影像生成研究、需要高效率訓練的生成系統、比較不同 tokenizer 設計
  • 可配骨幹:支援多種編碼器方向,包括 DINOv2、SigLIP2、DINOv3、MAE

如果你關心的是「如何令擴散模型學得更快,而唔係只換更大模型」,PAE 的切入點相當值得參考。它最適合有一定生成模型流程的人採用;對一般用家而言,未必是即裝即用工具,但作為下一代 latent tokenizer 的設計思路,含金量相當高。

Source: https://github.com/ZhengrongYue/PAE

Categories: 開源, 阿里巴巴, 影像模型, 模型, 模型訓練, 視覺模型, 中國

DecodingTrust-Agent:測試 AI 代理可信度的評估框架

Repository image for AI-secure/DecodingTrust-Agent

DecodingTrust-Agent Arena 是一個用來評估 AI 代理可信度的框架,重點不是幫你做任務,而是觀察代理在真實感較高的工作流程中會否出錯、受誘惑或被惡意引導。它支援不同領域,例如 CRM、workflow automation 等,方便研究人員或產品團隊做一致比較。

實際使用時,使用者通常會提供一個 JSONL 任務檔,再透過命令列啟動評估;也可以針對單一任務資料夾直接測試。系統會按任務類型讀入 benign 或 malicious 場景,並可選擇略過環境設定、MCP 啟動或評分步驟,令測試流程更有彈性。

這個專案的主要創新,在於它不只看 AI 會否完成任務,還把威脅模型與風險類別納入設計,令「可信度」變成可被拆解和量度的指標。對比一般只測準確率的工具,這種做法更貼近 AI 代理在企業環境中可能遇到的安全和操控風險。

最適合的應用場景包括 AI 代理研究、內部安全評估、以及想驗證自動化工作流是否穩定的團隊。若你正在比較不同模型在相同任務下的表現,它也很實用;文件中示例使用了 gpt-4o,但框架本身看來主要是透過 CLI 參數切換模型。

重點摘要:
– 可評估 AI 代理在多個業務場景下的可信度
– 支援 benign 與 malicious 任務設計
– 以 JSONL 任務檔管理測試流程,方便批量評估
– 可按需要跳過部分步驟,適合不同測試環境
– 特別適合研究安全、風險與抗操控能力

Source: https://github.com/AI-secure/DecodingTrust-Agent

Categories: 開源, Agent

4DThinker:讓影片理解動態空間的4D視覺腦

drawing

4DThinker 是一個面向研究用途的視覺語言模型框架,重點不是單純描述影片內容,而是讓模型從單鏡頭影片理解物件如何移動、互相影響,以及場景隨時間怎樣變化。簡單講,它想解決「模型見到影片,能否真正理解空間變動」這件事。

它的實際用法較接近訓練與評估流程,而不是即裝即用的消費級工具。專案提供資料集、模型權重、訓練程式,以及前處理所需資源;若要重現效果,需準備影片資料、SAM3 checkpoint,並以 Qwen2.5-VL-3B-Instruct 作為基礎模型,部分資料生成流程亦會用到 OpenAI 相容 API。

這個專案最值得留意的創新,在於它不再只靠文字一步步「講出」推理過程,而是加入所謂 4D latent imagery,讓模型在隱藏空間中模擬場景演化。配合 DIFT 微調,以及 4DRL 強化學習,方向上是希望把動態視覺理解能力直接學進模型本身,而非額外串接複雜幾何模組。

重點摘要:
– 針對單鏡頭影片的動態空間推理
– 提供資料生成、訓練與評測相關組件
– 以 4D 潛在表徵處理時間與空間變化
– 支援調整 latent token 數量與損失權重
– 較適合研究團隊,而非一般用家直接部署

如果你做的是機械人感知、影片問答、場景理解,或者想提升模型對「之後會怎樣」的判斷,4DThinker 特別值得留意。至於一般內容摘要或靜態圖片分析,它未必是最直接的選擇,因為整個設計明顯是為動態推理而生。

Source: https://github.com/zhangquanchen/4DThinker

Categories: 開源, Agent, , 模型, 視覺模型, 中國, 清華大學

coreb:這個 code search 基準有咩特別?

Repository image for hq-bench/coreb

CoREB 係一個針對程式碼 embedding models 搜尋同 reranking 的評測基準,透過 LoRA 在混合重排序器語料庫上對Qwen3-Reranker-4B進行了微調。CoREB 分三種常見場景:用文字搵 code、用 code 搵相似 code,以及由 code 反推題目描述。一般人可以理解成:唔只測「搵唔搵到」,仲測「排位準唔準」。

實際使用上,你可以直接載入資料集,讀取 queries、qrels 同 code/text 語料,再用標準資訊檢索評分工具做評估;如果係模型開發者,亦可以接上兩階段流程,先做 embedding 檢索,再用 cross-encoder 重排。這個設計方便將現有搜尋模型快速放入同一把尺比較。

它最有價值的地方,係用三級相關性標註,將「真正答案」同「同題但錯嘅干擾項」分開,避免只係二元對錯。再加上問題切分唔重疊、涵蓋五種程式語言,令測試更貼近真實開發情境,而唔係只考記憶。

  • 支援 Text-to-Code、Code-to-Code、Code-to-Text 三類任務
  • 以三級相關性處理 hard negative,對排序更敏感
  • 涵蓋 Python、C++、Java、Go、Ruby
  • 訓練/測試分割避免題目重疊
  • 適合比較檢索模型同 reranker 的整體效果

如果你做的是程式碼搜尋、AI coding assistant,或者想評估向量檢索加重排的完整流程,CoREB 會幾有參考價值。特別係想避免資料污染、又想睇模型喺唔同語言同任務之間的差異,呢個基準算係比較務實的一種選擇。

Source: https://github.com/hq-bench/coreb

Categories: 開源, Embedding, 模型, 編程, 中國

HumanNet:百萬小時影片庫,點樣幫AI更識人類動作

teaser

HumanNet 是一個以「人類活動」為核心的大型影片資料庫,目標是幫研究團隊訓練模型,更準確理解動作、互動同身體運動。它收集接近百萬小時影片,重點不只是片量大,還包括第一身與第三身視角的配對,以及動作相關標註。

實際使用上,這個專案較適合做 AI 研究、資料集分析,或者作為影片理解模型的預訓練基礎,而不是一般用家即裝即用的應用程式。現階段公開資訊顯示,完整語料、整理流程同驗證程式碼仍在陸續釋出,較像研究預覽版本。

它最值得留意的創新,是把資料整理流程本身當成核心設計,包括以人為中心的篩選、視角分類、去重、品質控制同私隱審查。相比單純堆影片數量,HumanNet 更著重資料是否適合訓練模型理解細緻動作,這點對機械人學習同具身智能尤其重要。

根據項目提供的結果,在受控的 vision-language-action 後訓練設定下,用 HumanNet 內約 1,000 小時第一身影片作初始化,效果可追近甚至略勝較少量真實機械人資料,亦明顯縮窄與超大型機械人資料基線的差距。這代表當機械人實拍數據昂貴又難收集時,人類第一身影片可能是更可擴展的替代方案。

  • 做什麼:提供大規模人類活動影片,用於動作理解、影片學習與具身 AI 預訓練。
  • 點樣用:適合研究人員用來訓練、初始化或評估影片與動作模型。
  • 主要特色:兼有第一身與第三身視角,並附說明文字、動作、手部與身體訊號。
  • 最適合場景:機械人學習、活動辨識、從影片學習操作行為。
  • 要注意:目前看來仍屬研究預覽,部分資料與流程尚未完全公開。

Source: https://github.com/DAGroup-PKU/HumanNet

Categories: 開源, 模型, 視覺模型, 中國, 北京大學

Flow-OPD:讓文生圖多工對齊更穩的關鍵一步

Teaser

Flow-OPD 是一個針對 Flow Matching 文生圖模型的後訓練框架,核心目標不是單純追高某一項分數,而是把 OCR、組合理解、問答與人類偏好等不同能力整合進同一個學生模型。從公開資訊來看,它建立在 SD-3.5-Medium 上,並以兩階段流程處理「先培養專長、再統一能力」這個多任務對齊難題。

實際使用上,這個專案目前較適合研究者或進階生成模型開發者參考其方法與權重,而不是一般使用者直接拿來當完整訓練工具鏈。README 顯示模型權重已釋出,但完整訓練程式仍在進行中,因此比較合理的使用方式,是先檢視論文與模型成果,再評估是否將其蒸餾思路移植到自己的 Flow Matching 訓練流程。

它最值得注意的創新,在於把原本稀疏的標量獎勵,改成由多個教師模型提供的軌跡級稠密向量場監督。配合 on-policy 的 SDE 採樣,學生模型能在自身生成軌跡上接受更細緻的指導;再加上 MAR 正則化,則是用來降低純 RL 對齊常見的美感退化問題,這點對文生圖品質維持特別重要。

從結果看,Flow-OPD 的價值在於它不只比 vanilla GRPO 更強,還試圖解決多任務訓練常見的「翹翹板效應」。公開數據顯示,該方法在 GenEval、OCR、DeQA 與 PickScore 上都有提升,平均表現優於基線,且在 OCR、DeQA 上甚至出現超越個別教師的現象;不過這些結論仍應以論文設定與基準環境為前提理解。

  • 定位明確:專注於 Flow Matching 文生圖模型的多任務後訓練與對齊。
  • 方法新意:以多教師稠密監督取代單一標量獎勵,降低任務間梯度干擾。
  • 實務亮點:MAR 用來守住美感品質,避免只追指標造成生成退化。
  • 適用場景:適合需要同時兼顧文字生成、構圖理解與偏好對齊的通用型文生圖系統。
  • 使用前提:目前較偏研究型專案,若要重現訓練流程,可能仍需等待完整訓練程式公開。

Model download: https://huggingface.co/CostaliyA/Flow-OPD

Source: https://github.com/CostaliyA/Flow-OPD

Categories: 開源, 香港中文大學, 影像模型, 影像處理, 模型

MACE-Dance:把音樂變成舞蹈影片

Repository image for AMAP-ML/MACE-Dance

MACE-Dance 是一個面向音樂驅動舞蹈影片生成的研究型專案,核心目標是讓系統根據音樂內容,產生具有舞蹈動作與角色外觀一致性的影片。從名稱與簡介來看,它特別強調 motion 與 appearance 的分工建模,而不是把整個生成流程視為單一路徑處理。

這個專案最值得注意的地方,在於所謂 Motion-Appearance Cascaded Experts 的設計思路。簡單說,它像是把「先決定怎麼跳」與「再決定畫面怎麼呈現」拆成串接的專家模組,這種做法理論上有助於減少動作節奏與人物外觀彼此牽制的問題,也更貼近舞蹈影片生成常見的兩大難點。

實際使用上,這類儲存庫通常更適合已有生成式影音或人體動作研究背景的開發者與研究者。若你想評估模型表現,重點應放在輸入音樂後的動作對拍程度、角色連續性,以及生成影片是否維持合理的視覺一致性;若要延伸研究,則可觀察其模組拆分是否方便替換不同的音樂表徵或影像生成元件。

  • 聚焦音樂到舞蹈影片的多模態生成任務
  • 以動作與外觀分階段處理作為主要方法亮點
  • 適合分析節奏對齊、角色一致性與影片連續性
  • 較偏研究用途,不像一般即裝即用的消費型工具

就應用場景而言,它最適合用在舞蹈生成研究、虛擬人表演合成、音樂視覺化內容製作,以及多模態生成模型的比較實驗。若你正在找的是可快速產出商業級短影音的完整產品,這個專案目前看來更像方法驗證與學術探索平台;但若你的目標是理解音樂驅動角色影片生成的前沿方向,它具備相當明確的研究切入點。

Source: https://github.com/AMAP-ML/MACE-Dance

Categories: 開源, 影像模型, 影像處理, 模型, 視頻模型

Page 1 of 74
1 2 3 74