Infer News

FLOAT – 最強 LipSync 工具

FLOAT 是個音訊驅動人像影片模型。模型提供能夠生成更自然、更具表現力的面部動畫，反映出說話者的情感狀態。

FLOAT

關鍵詞彙表

擴散模型 (Diffusion models): 一種生成模型，通過逐漸向數據添加噪聲，然後學習逆轉該過程來生成新數據。
流匹配 (Flow matching): 一種生成模型訓練技術，其目標是學習將簡單分佈轉換為目標數據分佈的變換。
運動潛在空間 (Motion latent space): 一個表示人像運動的低維空間，從輸入的人像圖像中學習得到。
音頻驅動說話人像生成 (Audio-driven talking portrait generation): 使用音頻信號作為輸入，生成與音頻同步的說話人像視頻的任務。
情感增強 (Emotion enhancement): 根據輸入的語音情感標籤，增強生成的人像動畫的情感表現力。
幀級 AdaLN (Frame-wise AdaLN): 一種自適應層歸一化技術，在每個時間步長根據條件信息調整特徵統計量，用於增強生成運動的多樣性。
函數評估次數 (NFEs): 評估生成模型所需的時間步長或迭代次數，用於衡量模型的效率。
3DMM 頭部姿態參數 (3DMM head pose parameters): 一種基於 3D Morphable Model 的人臉姿態表示，可以控制生成人像的頭部方向。

Categories: 模型, 語音

手把手教你如何部署大型語言模型

如何使用 vLLM 框架部署大型語言模型。教學包含使用 8B 同 70B 兩個版本作示範，並說明如何在 NVIDIA GPU 上安裝 VLLM，以及如何處理記憶體限制。

台大資訊深度學習之應用 | ADL TA Recitation: LLM Deployment 手把手教你如何部署大型語言模型

Watch this video on YouTube

Categories: 工具, 教學, 模型, 模型訓練

Ollama 簡易模型優化

您是否曾經被 AI 模型建立的複雜性所淹沒？想像一下，您站在一場令人興奮旅程的門檻上，原本令人畏懼的 AI 模型客製化任務，突然變得令人振奮。

我們探索了 Ollama 的 Modelfile 世界，這是一個強大的工具，旨在改變您與 AI 開發互動的方式。想像一下：您拿了一個普通的模型，比如 Llama3.2，並為它注入新的生命，只需幾行代碼就能定制它的行為。通過每個命令，您為您的模型解鎖新的能力，賦予它個性與目的。

但是，如果您想更深入，將一個 safetensors 模型轉換並整合到您的工作流程中呢？這才是令人興奮的部分！加入我們的旅程，穿越 AI 客製化複雜而迷人的領域。您準備好迎接挑戰了嗎？

The Path To Better Custom Models

Watch this video on YouTube

Categories: Ollama, 教學, 模型, 模型訓練

NanoGPT 快速訓練語言模型

模型只有 1.24 億個參數

目標是盡快地在 8xH100 機器上訓練一個具有 1.24 億個參數的模型，使其在 FineWeb 數據集上達到 3.28 的驗證損失。

Categories: 模型, 模型訓練

Screenpipe – 記錄電腦活動的 API

擷取用戶桌面數據的 API

包括屏幕、語音、鍵盤、滑鼠同埋鏡頭錄影。內建一個基於 JavaScript 的插件系統，方便開發者建立更多功能。這項目近期獲不少關注同獎項，例如登上 GitHub 趨勢榜，獲 Founders, Inc. 支持等

Categories: 軟件, 編程

OpenVINO 2024.5 一體化智能開發

視覺、自動語音辨識、NLP 的深度學習

OpenVINO 是一個開源工具包，用於最佳化及部署從雲端到本機的深度學習模型。它利用來自 PyTorch、TensorFlow、ONNX 等流行框架的模型，加速各種深度學習推理，例如生成式 AI、視訊、音訊和語言。轉換和最佳化模型，並在本地和裝置上、瀏覽器或雲端中的各種英特爾® 硬體和環境中進行部署。