ACE++ 基於指令的擴散框架,只要輸入一張圖像即可生成與角色一致的新圖像,專門用來處理各種圖像生成和編輯任務。靈感來自 FLUX.1-Fill-dev 的輸入格式,以雙階段訓練方法來減少對圖像擴散模型進行微調所需的工作量。這框架提供了全面的模型集,涵蓋了完整微調和輕量級微調,在生成圖像品質和遵循提示能力方面展現了卓越的性能,可以廣泛應用於人像一致性、靈活指令描述和局部編輯等不同情境。

ACE++ 基於指令的擴散框架,只要輸入一張圖像即可生成與角色一致的新圖像,專門用來處理各種圖像生成和編輯任務。靈感來自 FLUX.1-Fill-dev 的輸入格式,以雙階段訓練方法來減少對圖像擴散模型進行微調所需的工作量。這框架提供了全面的模型集,涵蓋了完整微調和輕量級微調,在生成圖像品質和遵循提示能力方面展現了卓越的性能,可以廣泛應用於人像一致性、靈活指令描述和局部編輯等不同情境。
這是近期較完整的影片,總結了近期在人工智慧影片技術上的突破,這些技術正快速改變著影片製作的流程。影片亦展望了未來 AI 和 3D 影片的融合創作,能夠在一個統一的場景圖中,以更高的抽象層次協調和導演式的指揮創作,實現更輕量化、更高效的影片製作流程。
影片教你如何建立一個簡單的 Web 應用程式,使用 Ollama LangChain 和 Gradio,透過檢索增強生成 (RAG) 來查詢 PDF 文件。無論你是 AI 的初學者或已有經驗,只要有興趣用 Web 運行 AI 模型,這教學都非常實用。由於支持離線運作,因此能夠增加安全性,保障私隱,特別是對於使用 AI 處理公司內部文件嘅任務。
YuE 是一套開源的音樂基礎模型,專為歌詞生成完整歌曲而設計。這個名為 “lyrics2song” 的任務極具挑戰性,因為它需要處理音樂的長時序特性、音樂的複雜性、歌詞的語意,並運用語意增強的音訊雙符記技術、歌詞鏈式思考以及三階段訓練等創新方法,成功生成長達五分鐘的歌曲,並在多種音樂風格和語言中展現了令人印象深刻的結果。(支持生成塑料粵語歌)
Page Assist 是一個瀏覽器外掛,透過 Ollama 於本機運行 AI 模型,Page Assist 提供了一個十分完善的 Ollama介面。Page Assist 強調不會收集個人資料,十分注重隱私。專案是由 MIT 授權。
OpenHealth 專案是一個開源的 AI 健康助理,作者描述自己五年來花費超過十萬美元、看過三十多位醫生,卻無法確診自體免疫疾病的痛苦過程。 受到這個經歷的啟發,他開發了一個開源 AI 工具,可以幫助人們分析自己的醫療記錄,從不同的醫院提取並整理數據,並藉由 AI 模型進行分析,找出潛在的疾病。 這個工具的目的是解決醫療資訊分散的問題,讓患者能夠更全面地了解自己的健康狀況,並提供給醫生參考,但作者也強調,此工具僅為輔助診斷,不能取代專業醫療人員的判斷。
DeepSeek-VL2-small 是 DeepSeek-VL2 的小型版本,混合專家 (MoE) 視覺語言模型,旨在提升 DeepSeek-VL 的視覺效能。此模型在視覺問答、光學字元辨識和文件理解等多種任務上展現了卓越的能力。DeepSeek-VL2-small 擁有 28 億(2.8b)個參數,在效能上可與現有的其它開源模型競爭,甚至超越它們。模型的程式碼採用 MIT 許可證,模型本身的使用則受到 DeepSeek 模型許可證的約束,允許商業用途。
影片主要講解了如何使用冷啟動技術來提升小型語言模型(LLM)的推理能力,特別是在數學問題上的表現。影片的核心在於重現 DeepSeek R1 模型論文中提到的冷啟動方法,即透過少量高品質的合成數據集,讓模型在強化學習前就能夠生成清晰且連貫的思考鏈。這些數據集利用數學編譯器來產生精確的步驟式解題過程,並使用大型語言模型生成自然語言解釋,進而微調一個只有 15 億(1.5b)參數的小型模型,使其能夠進行複雜的數學推理,並在思考(think)和回答(answer)標籤中呈現其推理過程,而最終結果顯示即使是小型模型,也能透過冷啟動技術達到令人印象深刻的推理能力。影片也強調了冷啟動數據集的多樣性,包括數學、程式碼和其他領域,才能使模型具有強大的通用能力。
TokenVerse 提出一種基於預訓練文字轉圖像擴散模型的多概念個人化方法。它利用模型中的調製空間 (modulation space),從單張圖片中解開複雜的視覺元素和屬性,並能無縫地組合來自多張圖片的概念。不同於現有方法在概念類型或廣度上的限制,TokenVerse 能處理多張圖片的多種概念,包含物件、配件、材質、姿勢和光線等。核心方法是透過優化,為每個文字嵌入 (text embedding) 學習一個獨特的調製向量調整 (modulation vector adjustment),這些向量代表個人化的方向,可用於產生結合所需概念的新圖像。最後,論文展示了 TokenVerse 在具有挑戰性的個人化情境中的有效性,並突顯其優勢。