邀請了知名 AI 安全專家 Jason Haddix,深入探討了駭客如何滲透、操控 AI 驅動的應用程式,能讓 AI 說出不當言論,更能竊取企業敏感數據如客戶資料或商業機密。
本地語音聊天機器人
- 🎯語音克隆:只需一段簡短的音訊樣本即可克隆任何聲音
- 🎭情緒控制:調整回應的情緒表達
- 🚀效能更佳:0.5B 參數模型,推理速度更快
- 💧音頻浮水印:內建神經浮水印,確保真實性
Top 0.1% AI Researchers – BYTES LLM Inputs
這是 AI 領域的「秘密突破」,僅有頂尖 0.1% 的研究者知曉:直接將原始位元組(raw bytes)輸入大型語言模型(LLMs),並使用代數拓撲(algebraic topology)分析,透過持久同調(persistent homology)揭示傳統模型無法察覺的隱藏資料結構。這可能改變 AI 處理多模態資料(如文字、影像、影片)的未來。
Story2Board:無需訓練且有表現力的故事板
Story2Board 是個無需訓練的框架,用於從自然語言中生成富有表現力的故事板。目標是將敘事呈現為一系列連貫的故事板面板——每個面板描繪不同的場景,同時保留主要角色的身份和外觀。

成為頂尖 0.1% AI 研究者的 1 項技能
影片詳細介紹:1 SKILL To Become Top 0.1% AI Researcher – EP.7 – Making LLMs Take Bytes As Input
這是系列影片的第 7 集,聚焦於 AI 研究中的前沿技術:讓大型語言模型(LLMs)直接以位元組(bytes)作為輸入,繞過傳統的標記化(tokenization)限制。
影片的目標是引導觀眾一步步進行 AI 研究,探討如何在開放源碼社區中領先於像 OpenAI 或 xAI 這樣的巨頭。Vuk Rosić 強調,這項技術能讓模型更快、更高效,因為數位世界本質上就是由位元組組成。他分享自己的研究過程,包括想法構思、代碼解釋、實驗設計,並鼓勵觀眾 fork GitHub 儲存庫參與。影片中提到,Elon Musk 最近表示 xAI 將取代 tokenizer,這讓這項研究更具時效性。
Archon:AI編程革命性操作系統
Archon 是一款為所有 AI 編程人量身打造,強調知識檢索、專案協作、即時上下文整合的開源編程操作系統,無論是個人或團隊都可極大提升 AI coding 助手的效能、協同與上下文管理力,非常適合想全面解鎖 AI 編程革命的人嘗試使用。
Matrix-Game 2.0 互動世界生成系統
Matrix-Game 2.0 是一套高效、強大的互動世界生成系統,專注於視覺與行動融合,能夠在多種遊戲場景下生成高質量、流暢並可交互的視頻內容,領先於現有主流方案,適合用於前沿AI遊戲和虛擬世界研究。主要由Skywork AI團隊開發。

Omni-Effects:統一可控的視覺效果
Omni-Effects 是一套針對視覺特效(VFX)生成的統一框架,主打多效果合成和空間可控性。這項技術突破了以往僅能針對單一特效單獨訓練(如 per-effect LoRA)的限制,可同時在指定區域生成多種特效,極大拓展了在影視製作及創意領域的應用可能性。
框架的核心包含兩項關鍵創新:(1) 基於 LoRA 的混合專家 (LoRA-MoE),將多種效果整合到統一模型中,同時有效地減少跨任務幹擾。 (2) 空間感知提示 (SAP)將空間遮罩資訊合併到文字標記中,從而實現精確的空間控制。

NVSpeech 處理副語言聲音
NVSpeech 用於處理副語言聲音(paralinguistic vocalizations),包括非語言聲音(如笑聲、呼吸)和詞彙化插入語(如「uhm」、「oh」)。這些元素在自然對話中至關重要,能傳達情感、意圖和互動線索,但傳統自動語音辨識(ASR)和文字轉語音(TTS)系統往往忽略它們。

Matrix-3D:可探索的3D 世界
相較於最先進的 360 度影片生成方法,Matrix-3D 在全景影片的視覺品質與合理幾何結構上更優越。同時,在視覺品質與相機可控性上,也超越先前的相機控制影片生成方法。廣泛實驗證明其在全景影片生成與 3D 世界生成上的最先進效能。香港科技大學(廣州分校)有份參預!