CantoneseChat:會聽聲調語氣的粵語聊天 App

Cantonese Chat iOS app demo — Home / Chat / TTS Lab

CantoneseChat 是一個 iOS 粵語語音聊天工具項目,核心目標不是做通用聊天介面,而是把 iPhone 收音、on-device 粵語 STT、MiniMax cloud 的 LLM + TTS,以及 persona 語氣控制接成一條完整流程。它實際解決的問題,是一般語音助手識到字,但未必講得似香港人,亦未必會按說話者特徵調整語氣。

這個項目最值得留意的地方,是它會先用 AVAudioEngine 收音,再把音訊 downsample 去 16kHz,用 autocorrelation 估 pitch,推斷 VoiceTypeGenderAgeGroup,之後把結果注入 LLM system prompt。這種做法不是高精度聲紋身份辨識,而是偏向 heuristic 的語氣適配,所以速度會較直接,代價是分類準確度很受環境噪音、聲線變化同 pitch 規則影響。

安裝與理解方式也算清晰:它是 iPhone 真機導向的 iOS App,因為核心功能依賴 mic、AVAudioEngine、本機語音輸入同雲端模型串接,單看資料已可判斷模擬器未必能完整反映效果。測試時應分開看幾部分:persona 對話是否有語氣差異、TTS Lab 經 AI 粵語優化後是否更口語、pronunciation_overrides.txt 能否修正讀音,以及 iCloud export 有沒有順利保存音頻。

  • 支援 6 個 persona,適合示範同比較不同說話風格
  • 用 pitch heuristic 分類 VoiceType,再推斷 GenderAgeGroup
  • 整合 on-device 粵語 STT、MiniMax cloud 的 LLM + TTS
  • 提供 pronunciation_overrides.txt 修正粵語讀音
  • 可將生成音頻匯出到 iCloud Drive

受益最大的人,會是想做香港市場語音互動介面的人,例如客服示範、教育對話、角色語音內容,或者想研究粵語人機互動體驗的小團隊。若你重視可控語氣、多 persona 展示同本地口語感,它有明確方向;若你追求嚴格年齡性別判斷,這套規則式分類就應視為體驗輔助,而不是可靠的人口統計模型。

相關模型與模組方面,已知包括 MiniMax cloud 的 LLMTTS、iOS on-device 粵語 STT,以及項目內以 pitch 為基礎的 VoiceType 分類流程。公開資訊未見標準基準測試或 OSWorld 這類評測結果,所以較合理的判斷方式,是把它看成一個完成度不錯、偏產品原型取向的粵語語音互動項目。

GitHub: https://github.com/elbartohub/CantoneseChat

Categories: 開源, 香港, 文字轉語音, Audio, 語音, MiniMax

SproutRAG:長文 RAG 檢索的新取向

SproutRAG

現時不少 RAG(Retrieval-Augmented Generation)做法,通常在「細粒度 chunk 準確但零碎」與「大段內容連貫但嘈雜」之間取捨;有些方法靠 LLM-guided chunking、single-level context expansion,或 hierarchical summarization 去補救,但代價是要額外 LLM 呼叫、只支援單一層級擴展,或者在摘要過程流失資訊。SproutRAG 提出的方向,是用 attention-guided hierarchical RAG framework,把句子逐步組成語意連貫的多層結構,再做 multi-granularity retrieval。

這是一個 RAG 工具/框架,重點不是單獨一個模型,而是把索引、檢索、reranking、答案生成與評測串成完整流程,處理長文件問答中「證據要夠準又要保留上下文」的問題。它用 YAML 或 JSON config 驅動 CLI,每一步各有設定,輸出統一是 JSON,對接下游工具和保留可重現紀錄都幾方便。

部署和測試思路算清楚:先準備 JSONL 文件,之後分開建立 index、執行 retrieve、再 answer;若要研究效果,還可 train 和 evaluate。附加套件分別對應 PyYAML、ROUGE-L、METEOR、BERTScore 及 spaCy,反映這個項目除了生成,也很著重檢索與答案品質的量化比較。

和常見 flat retrieval 相比,SproutRAG 較值得留意的是 hierarchical attention-based indexing 加上 hierarchical beam search:它不是只撈單一粒度片段,而是沿樹狀結構找不同大小的候選證據。論文資料指出,它在四個 benchmark 的 information efficiency(IE)平均比最強 baseline 高 6.1%,但目前公開說明未見太多資源消耗與大型部署細節,訓練部分亦提到 MS MARCO 只先載入 v2.1 train split 的首 30k 筆樣本,代表現階段較適合研究、評測與流程驗證。

  • 適合需要處理長文件的 RAG 項目,例如法律、科研、知識庫問答
  • 配置檔主導流程,方便版本控制、重現實驗與比較不同設定
  • 支援 optional reranking 與生成評測,不只是單做檢索
  • 相關模型包括 sentence-transformers/all-MiniLM-L6-v2,底層依賴 PyTorch 2.x 與 Transformers 4.51+
  • 若你想比較多粒度證據檢索與傳統 chunk-based RAG 的差異,這個項目很有研究價值

GitHub: https://github.com/AmirAbaskohi/SproutRAG

Paper: https://arxiv.org/pdf/2606.18381

Categories: 開源, 工具, Python, Python NLP, RAG, , Meta, 框架

StylisticBias 拆解 MLLMs 視覺偏見

StylisticBias pipeline overview

不少 Multimodal Large Language Models(MLLMs)偏見研究,通常拿不同人物或群組互相比較;問題是外貌差異與身份差異會纏在一起,最後很難判斷模型究竟是受年齡、衣著、身形影響,還是只是換了另一個人。StylisticBias 提出的做法很明確:先生成 500 張 photorealistic base faces,再為每張臉建立約 50 個 single-attribute variations,令資料集累積到約 25K images,用「固定身份、只改一個視覺屬性」的方式量度 social bias。

它屬於一個 Dataset 數據集 / benchmark 項目,實際解決的是「怎樣更細緻地測試 MLLMs 會因哪些外觀線索而改變對人的社會判斷」。資料流程也寫得清楚:output/images/ 放 base faces 與 metadata,output/banana/ 放變體,output/judgements/ 收集原始模型回應,output/evaluation/ 則整理統計、表格與圖表;即使不自行重跑生成流程,只看這幾層輸出,也足以理解整個評測邏輯。

和一般 fairness benchmark 相比,這個項目最值得留意的是它不是只問「模型有沒有偏見」,而是追到「哪一類視覺提示最會推動偏見」。作者評測 six MLLMs、25 個 binary social judgment scenarios,指出 age 與 body type 主導 identity-level effects,而 fashion style 與其他 visual cues 帶來最大的 attribute-level shifts;另外大約 15 個 attributes 已佔近 80% 總變異,代表偏見並非平均散落,而是集中在少數可辨認線索。

  • 固定同一張臉,只改一個屬性,較易分開 appearance effects 與 identity differences
  • 規模約 25K images,適合做較細粒度的 bias analysis
  • 結果顯示 age、body type、fashion style 是高敏感因素
  • judgement 對 appearance 語意較貼近的場景最敏感,尤其 socioeconomic 與 style-related 判斷

這項目最適合評估多模態產品風險的團隊、研究 AI fairness 的學者,以及要比較不同 vision-language model 行為的人。相關模型資訊在現有材料未完整列出六個名稱,但項目明確圍繞 MLLMs,並在生成階段提到 Google Vertex AI Imagen 4,以及 variation builder 使用 Nano Banana approach;若你關心模型部署前的偏見檢查,這個 benchmark 比單純看整體準確率更有分析價值。

GitHub: https://github.com/timo-cavelius/StylisticBias

項目主頁: https://huggingface.co/datasets/shaghayegh/stylistic-bias-dataset

Paper: https://arxiv.org/pdf/2606.20527

Categories: 開源, Google, Gemini, NanoBanana, Image, 多模態模型, 安全, 視覺模型, Meta, 框架, Dataset 數據集

MCompassRAG 把 RAG 檢索變得更準更省

alt Method

現時不少 RAG 會用 dense retrieval,直接把查詢同文本 chunk 的 embedding 拿去比對;當 chunk 切得較粗、語料又雜,語意接近未必等於真正答到問題。MCompassRAG 屬於檢索框架,做法是替段落加入 topic metadata,再用 LLM teacher 離線產生判斷訊號,蒸餾成一個輕量 retriever,修正「只靠 chunk embedding 排名」這種固定範式的偏差。

它的取向幾清楚:把較重的判斷放在訓練前期,推理階段只保留 metadata bank、embedding lookup 同小型 scorer,所以標明可做到 zero LLM calls at inference。這個取捨很適合想保留檢索速度,但又嫌傳統向量檢索太粗糙的團隊;代價是前處理較長,要先訓練 topic model,再生成 distillation data。

項目流程分成幾步:先準備語料、訓練 topic model、生成蒸餾資料、建立 metadata index,再訓練 retriever。環境上要 Python 3.10+、PyTorch 2.x、Transformers 4.51+,而且建議有 CUDA GPU;OpenRouter API key 只在 Step 2 — Generate distillation data 需要,之後檢索本身不依賴 LLM 連線。

可留意的重點有幾個:
– 不只重排結果,而是把 topic signal 放進 retriever embedding space 一齊學習
– 支援可插拔 topic model backend,現成有 CEMTM、ETM、CWTM、SoftLTM
– 推理成本貼近 embedding model latency,較適合高頻查詢場景
– 比起純 dense retrieval,更著重 paragraph-level evidence quality

作者強調它會在 complex retrieval benchmarks 提升 evidence quality 同效率,但目前倉庫內容較像 research implementation,未見非常完整的產品化基準表。較受惠的會是做知識庫問答、文件搜尋、企業內部檢索的團隊,尤其當資料主題分散、段落切分又未必夠細時,MCompassRAG 的 topic compass 概念比單純換一個 embedding model 更有分析價值。

GitHub: https://github.com/AmirAbaskohi/MCompassRAG

項目主頁: https://huggingface.co/papers/2606.18508

Paper: https://arxiv.org/pdf/2606.18508

Categories: 開源, API, Embedding, Python NLP, RAG, , 模型訓練, 框架

HyperFrame 配合 Claude Code 製作 Vox 風格影片

Og image

現有資料主要來自 YouTube 標題與簡短描述,資訊不算完整,但仍可看出內容圍繞 HyperFrame 與 Claude Code 兩個工具,示範如何做出接近 Vox 風格的解說影片。讀者可先把它理解為一個 AI 輔助影片製作項目:由工具協助處理腳本、畫面規劃或製作流程,而不只是單一步驟生成。

這類項目想處理的問題,很可能是把資料整理、敘事結構、畫面設計與影片產出連成一條工作流。相比只用單一影片生成模型,這種做法更接近內容製作流程本身,重點不只是「出片」,而是如何把想法變成有節奏、有資訊層次的短片。

從標題判斷,Claude Code 可能負責文字、結構或流程協調,HyperFrame 則可能用於畫面或影片製作環節。不過頁面未提供更詳細技術內容、模型名稱或量化結果,因此未能確認兩者各自負責的步驟,也不能判斷成品質素是否穩定。

可先留意幾個重點:
– 這是一個偏向工作流整合的影片製作項目
– 目標風格是資訊密度較高的 Vox 式解說內容
– 適合內容創作者、營銷製作與短片腳本規劃
– 現有頁面缺少性能數據、成本與時間比較

如果想進一步測試,較可行的方法是先觀看原片,記錄它如何拆分腳本、旁白、畫面節奏與素材安排,再用同類工具重建其中一小段。以目前資料來看,這項內容較適合作為工作流觀察,而不是完整教學或技術評測。

項目主頁: https://www.youtube.com/watch?v=XVsGK99E9FA

Categories: Video, 工具, Content Creator, AI productions, Vibe Coding, 教學, 編程, Anthropic

Apple container:Mac 原生容器新選擇

Containerization logo

container 是一個工具,用來在 Mac 上建立及執行 Linux containers,做法更接近把容器當成輕量虛擬機處理;它要解決的,是 Mac 開發者在本機跑 Linux 工作負載時,如何兼顧隔離、速度與 OCI 相容性。

這個項目最明顯的取向,是 Apple 自己用 Swift 編寫,並且針對 Apple silicon 優化,同時依賴 Containerization 這個 Swift package 處理較底層的 container、image 與 process 管理。跟不少人熟悉的 Docker Desktop 或其他 Mac 容器方案相比,它不是強調整合一大堆開發配套,而是集中做好原生執行、標準映像相容,以及 Apple 平台能力。

安裝不算複雜:官方提供已簽署的安裝包,裝好後要啟動 system service,並且整個項目只支援 Apple silicon 與 macOS 26。這代表門檻很清楚:如果你仍在舊版 macOS,或者團隊有 Intel Mac,這個項目暫時就不會是通用解法。

Apple Just Built WSL for the Mac (Container Machines)

它支援讀寫 OCI-compatible container images,所以可以從標準 container registry 拉取映像、建立映像,再推回其他 OCI-compatible application 可用的環境。對開發團隊來說,這點很重要,因為它不是把流程鎖死在 Apple 自家格式,而是保留與現有容器生態互通。

  • 針對 Apple siliconmacOS 26,平台限制明確
  • 支援 OCI-compatible container images,可接標準 registry
  • 底層建基於 Containerization,偏向原生與輕量路線
  • 較適合 Mac 開發、測試、映像建置,不是全功能平台替代品

效能方面,暫時沒有提供完整官方基準數字,但外部已有文章把它放到 Docker Desktop、OrbStack 一類方案旁邊看 CPU、記憶體、啟動時間與 I/O。即使未能單靠儲存庫內容下定論,仍可合理判斷:Apple 想做的不是「功能最多」,而是在自家硬件上提供更貼近系統能力的容器執行方式。較受惠的會是以 Mac 為主要開發機、需要 OCI 相容流程、又願意接受新平台限制的工程團隊。

這個項目不是 AI 模型;若要說相關技術組件,主要是 OCI-compatible container imagesContainerization

GitHub: https://github.com/apple/container

項目: https://developer.apple.com/videos/play/wwdc2026/389/

Categories: 開源, 工具, Linux, Mac, , 蘋果

SpatialAvatar-0:人像重建高質 4D 頭像

SpatialReal

SpatialAvatar-0 針對的是 4D head avatar 重建:只靠一張或少量 source portraits,就生成可配合時間變化的頭像表示,適合 telepresence、AR/VR 同 digital-human interaction。它採用 FLAME-mesh-bound Gaussian 表示,核心是把 feed-forward generator 同 per-subject refinement 放入同一套結構,減少以往兩類方法各自為政的問題。

常見做法通常分成兩路:一類是可直接預測的模型,速度快,但容易受訓練數據領域限制;另一類是按單一人物慢慢微調,質素高但迭代很長,還會因 adaptive densification 打亂原本 Gaussian 佈局。SpatialAvatar-0 的差異,在於加入 parameter-free K-source mean-pool,支援可變數量輸入,並用 monocular-temporal 到 multi-view-spatial 的兩階段訓練,嘗試減少 identity-prior collapse。

微調部分也有明顯取向:它不是走 300K 至 600K iterations 的長流程,而是保留佈局的 10K-iter refinement loop,凍結 FLAME 綁定與 Gaussian 數量,再以 three-component anti-spike regularization 取代 densification。對想保留上游表示、又想做人物級細修的工作流,這種設計會較容易接軌。

已公開資料顯示,它在 VFHQ、HDTF 的 cross-domain zero-shot 測試中,PSNR 比 GAGAvatar 高 1.5 dB,而且模型未有在這兩個測試領域訓練;在 SplattingAvatar monocular benchmark,亦全面領先已報告指標,較 300K-iter 的 GeoAvatar 高 1.3 dB PSNR,同時把單人物微調流程縮短至最多 60 倍。數字反映它著重的是泛化能力與重建效率的平衡,但具體效果仍要視輸入人像質素與場景條件而定。

  • 支援一張或多張人像輸入,重建高質 4D 頭像
  • 統一 feed-forward generator 與 per-subject refinement 的表示方式
  • 10K-iter 微調流程,比常見長迭代方法短得多
  • 在 VFHQ、HDTF、SplattingAvatar 基準上有明確成績提升

頁面暫未提供 Code 與 🤗 Model 入口。對 3D Gaussian Splatting(3DGS)、數字人、AR/VR 內容製作有興趣的讀者,可以先從示範效果理解它的輸出風格,再留意它如何處理少樣本輸入與跨資料域表現。文中引用模型包括 GAGAvatar、GeoAvatar。

項目主頁: https://spatialwalk.github.io/SpatialAvatar-0/

Paper: https://arxiv.org/pdf/2606.15659

Categories: 開源, Image, 3D, 模型, 數字人, 視覺模型

MemSlides 把簡報生成變成可記憶代理

MemSlides hierarchical memory and localized revision overview

不少簡報生成工具仍然走 one-shot source-to-slides conversion:丟一份材料進去,整份投影片一次生成,之後每次修改又大範圍重做。MemSlides 把問題改寫成 stateful authoring process,核心不是單次輸出,而是記住你是誰、這一輪想改甚麼,以及過往哪些工具操作較可靠。

這是一個 Agent Framework,目標是解決 personalized slide generation 與 multi-turn local revision 兩個常見痛點。它把記憶拆成 user profile memory、working memory、tool memory:前者保存跨工作重覆出現的偏好,中段記住當前簡報的限制與暫時要求,後者則保留工具鏈執行經驗,方便之後做相似修改時少走彎路。

跟同類做法相比,最需要留意的是它不主張每次收到新意見就重生整副 deck,而是做 scoped slide-local revision,只更新受影響的最小區域。這種取向的好處是修改更穩定,較易保留原本好的內容;代價是整體品質會依賴記憶管理與局部編輯判斷是否準確。

從倉庫資訊看,這個項目較適合研究 presentation agents、企業內部簡報自動化,或要反覆為不同角色產出版本的團隊。倉庫亦提供 Docker Hub、網站、示範影片與論文連結,理解方式可先看 demo,再決定用容器部署還是按 Python 3.11 與 Node 20 的環境自行搭建;不過公開資訊未見完整量化基準,現階段較像研究型框架,而非已標準化的產品方案。

  • 把簡報生成由一次性輸出改成有狀態的寫作流程
  • 分層記憶是重點:user profile memory、working memory、tool memory
  • 修改時傾向局部修補,不是整份重生成
  • 適合需要 persona-aware 內容、反覆修訂、多人協作的情境
  • 相關元素包括 presentation agents、multi-turn revision、localized editing、tool-chain execution

GitHub: https://github.com/huohua325/Memslides

項目主頁: https://memslides.github.io/

Categories: 開源, Agentic, 工具, IDE, Python, Python NLP, , 框架, 清華大學

AI 代理將入侵門檻再拉低

Og image

一份由 OALABS(Open Analysis)研究人員分析的報告指出,一名技術水平不高的攻擊者,利用 Anthropic 的 Claude Code 和 OpenAI 的 Codex,在 14 間公司相關環境中進行入侵活動。資料來自一部被入侵伺服器上超過 1,000 段 agent sessions,讓研究人員得以看到提示、工具調用、large language model(LLM)內部過程,以及違反政策的紀錄。

事件反映的問題很直接:過往需要具備偵察、找漏洞、寫 exploit code、驗證存取權限和擷取資料等能力,現在可以由 AI agents 代做大部分步驟。攻擊者很多時只需輸入含糊而低技術含量的 prompts,再用「授權紅隊演習」或「網絡安全研究」的說法包裝意圖,便可能繞過部分 guardrails。

這宗個案與一般對 AI 輔助編碼的理解不同,焦點不在提升工作效率,而是降低 offensive cyber operations 的技術門檻。報告亦顯示,攻擊者不是正式安裝 Claude agent,而是直接複製他人已安裝的實例到目標主機;工作目錄內還有其他被盜用的 Claude instances 與 7-Zip 壓縮檔,顯示劫持及重用別人 AI agent 安裝,可能是其慣常做法。

讀者可從這些公開資訊先理解兩層風險:一是模型輸出可補上攻擊者知識缺口,二是本地代理部署本身也可能成為被接管資產。對保安團隊、系統管理員和使用本地 AI 工具的開發者來說,這比單純討論模型是否「安全」更貼近日常防護需要。

  • 低技術攻擊者可用模糊 prompts 推動完整入侵流程
  • guardrails 可能被「授權研究」等話術繞過
  • 本地 AI agent 安裝與工作目錄可成為證據與風險來源
  • 報告核心價值在於真實 session logs,而非理論推測

現有內容未提供完整技術指標或標準化基準測試,但案例證據已足以說明:AI agents 在網絡攻擊上的可用性正在上升。使用 Claude Code、Codex 一類工具的團隊,除了留意模型政策,也要檢查主機權限、憑證保護、安裝檔流向與日誌暴露問題。

項目主頁: https://www.helpnetsecurity.com/2026/06/17/ai-agents-offensive-cyber-operations-claude-codex/

Categories: OpenAI, Agentic, 安全, 新聞, Anthropic

可控制生成 3D 腦 MRI 的 BrainG3N

Og image

BrainG3N是一個面向3D腦部 MRI 的生成模型,重點不只是「生成影像」,而是按指定條件產生帶有臨床訊息的合成掃描。它先用凍結的 3D MAE encoder 處理資料,再由 conditional flow-matching DiT 在潛在空間生成新樣本,最後用 fine-tuned CNN decoder 轉回 voxel 影像。

這類方法要解決的,是醫學影像生成常見的「生成到,但控制不準」問題。BrainG3N聲稱可按 disease、age、sex、modality、site、IDH1 status 等條件控制輸出,亦支援病人縱向變化預測,對研究病程模擬與稀有群組補數據尤其有用。

和一般直接在像素或 voxel 空間生成的做法相比,它把生成放在 clinically grounded latent space 內進行,目標是令合成結果更容易保留指定屬性。頁面列出的結果顯示,從生成掃描中可重新探測出目標條件,例如年齡相關性達 Pearson r=0.93,反映控制訊號並非只停留在文字或標籤層面。

同一個 frozen encoder 本身亦被當作 foundation model 使用,在 21/23 個 linear-probing tasks 上達到或超過 BrainIAC、BrainSegFounder、MedicalNet;其中 IDH1 AUC 0.937、brain-age MAE 4.43 years,而且無需 fine-tuning。對醫學 AI 研究者來說,這代表同一套架構可同時支援表徵學習與合成數據生成。

  • 可控制條件包括 disease、age、sex、modality、site、IDH1 status
  • 支援 patient-specific longitudinal forecasting
  • 生成流程包含 3D MAE encoder、conditional flow-matching DiT、CNN decoder
  • 可用於 under-represented cohorts 補充、counterfactual disease trajectories、privacy-preserving synthetic data sharing

目前頁面只提供論文簡介,model、code 與 synthetic dataset 尚未釋出,所以現階段較適合先了解方法設計與指標表現。若你關注 Medical醫學影像、合成數據或可控生成,這個項目很值得留意。

項目主頁: https://huggingface.co/papers/2606.19651

Paper: https://arxiv.org/pdf/2606.19651

Categories: Image, 3D, Medical醫學, 模型, 模型訓練, Dataset 數據集

Page 1 of 99
1 2 3 99