Infer News

SVFR 高清人臉修復及著色

一個名為「SVFR」的統一框架，用於優化影片中的人臉修復。它結合了超分辨率 (BFR)、著色和修復等多種任務，並透過可學習的任務嵌入和統一潛在正則化 (ULR)，提升不同任務間的特徵共享學習，最終實現更佳的影片人臉修復效果。此外，該框架還利用人臉先驗學習和自我參考細化策略來確保時間一致性和提高修復品質，代表了影片人臉修復領域的最新進展。

ComfyUI SVFR - Video Restore and Colorize Old Videos with AI (Tutorial Guide)

Watch this video on YouTube

Categories: 影像處理

MangaNinja 的主要設計目標是基於協助線稿圖像上色。它採用了幾個關鍵技術：區塊隨機置換模組(patch shuffling module)，點驅動控制方案(point-driven control scheme)。實驗結果顯示，MangaNinja 在色彩準確度和生成圖像質量方面明顯優於其他現有的非生成式著色方法（如 BasicPBC）、一致性生成方法（如 IP-Adapter）以及 AnyDoor。總結來說，MangaNinja 透過區塊隨機置換模組和點驅動控制方案實現精確的線稿著色。它不僅可以處理單一參考圖像，還可以利用多個參考圖像進行著色，並且可以處理參考圖像與線稿之間存在差異的情況。此外，MangaNinja 的互動式控制功能，允許使用者更精確地控制著色結果。

MangaNinja: Line Art Colorization with Precise Reference Following

Watch this video on YouTube

HuggingFace 模型下載

Categories: 工具, 影像處理, 模型, 開源

STAR 提升真實世界影片的解析度

一種名為 STAR(Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution) 的新方法，用於提升真實世界影片的高解析度。STAR 的核心概念是將文字轉影片 (T2V) 模型整合到影片超解析度任務中，藉此改善時間一致性並提升影片品質。不同於以往僅使用靜態影像訓練的模型，STAR 利用 T2V 模型捕捉影片的動態特性。為了解決真實世界影片中複雜退化造成的瑕疵和 T2V 模型的高生成能力可能導致的保真度下降問題，STAR 提出了局部資訊增強模組 (LIEM) 和動態頻率 (DF) 損失函數，有效降低瑕疵並提升細節還原度和時間一致性，最終達成更逼真且高品質的影片超解析度結果。 STAR 也提供了與其他先進方法的比較，驗證了 STAR 的有效性。

在 STAR 的研究中，CogVideoX 是被引用的基準模型之一。研究人員來自：南京大學、字節跳動、西南大學。總括而言，時空增強是 STAR 系統的核心概念，它通過整合 T2V 模型，並引入 LIEM 和 DF Loss 來克服真實世界影片超解析度中的挑戰，實現更高質量的影片重建。這使得 STAR 能夠有效地處理複雜的退化，並產生具有良好時空一致性和高保真度的超解析度影片。

Categories: 工具, 影像處理, 模型

DSPy 編程語言模型框架

DSPy，一個用於編程而非用 Prompt 的大型語言模型 (LLM) 框架。DSPy 讓使用者能以模組化方式快速建構 AI 系統，並提供演算法來優化提示和權重。它著重於使用 Python 程式碼來取代提示詞(Prompt)，讓 LLM 產生高品質的輸出。其目標是提供一個強大且易用的 LLM 程式設計框架。

Stop Prompt Engineering! Program Your LLMs with DSPy

Watch this video on YouTube

Categories: 教學, 編程

Crawl4AI 0.4.24x 抓取結構化網上資訊

Crawl4AI，一個開源且配合大型語言模型的網頁爬蟲和抓取工具。其核心功能是高速、精準地抓取網頁數據並轉換成適合大型語言模型使用的格式，例如 Markdown。Crawl4AI 強調速度快、靈活性高，且易於部署，並提供諸多功能，包括支援多種瀏覽器、處理JavaScript、提取結構化數據、以及與各種大型語言模型整合等。文件詳細說明了安裝方法、使用方法、進階應用範例以及未來的發展規劃，並強調其以開源和社群驅動的方式開發維護。其最終目標是透過將數位足跡轉換成結構化數據，建立一個公平的數據共享經濟體系，並促進AI的發展。

Turn ANY Website into AI Knowledge in SECONDS with Crawl4AI!

Watch this video on YouTube

Categories: 軟件, 工具

MiniMax-01 閃電注意力機制模型

MiniMax 公司釋出開源 MiniMax-01 系列大型語言模型，包含文字模型 MiniMax-Text-01 和視覺多模態模型MiniMax-VL-01。其核心採用了創新大規模的「Lightning Attention」機制，這是一種新型注意力機制，能有效處理長達 400 萬個 token 的超長上下文，遠超其他領先模型，同時在效能上與全球頂尖模型持平。模型的開源旨在推動 AI Agent 時代的發展，並透過高效的架構和訓練方法，提供具有競爭力的 API 服務。MiniMax 也強調了其模型在長上下文理解任務中的優異表現以及其在實際應用場景中的領先地位。

想了解更多關於這模型可參考這報告詳細闡述了模型架構、計算優化策略 (包括訓練和推論階段的並行策略和通訊計算重疊技術)、預訓練數據的構建和處理方法、以及安全性和對齊訓練等方面的工作。實驗結果顯示 MiniMax-01 在多項基準測試中取得了領先或相當的成果，並公開釋出模型權重和 API，旨在推動大型語言模型的發展。

4 Million Context Unlocked: China's NEW AI Breakthrough!!

Watch this video on YouTube

Categories: 多模態模型, 模型

Google 推出 PaliGemma 2 視覺語言模型

一個強大的視覺語言模型。它基於 Gemma 2 模型，新增了視覺處理能力，並提供多種模型尺寸和解析度以供選擇，用家可根據任務需求調整。PaliGemma 2 的亮點包括更長的內容生成能力，以及在化學辨識、樂譜辨識等領域的領先表現。

PaliGemma 2 是一個強大的視覺語言模型，PaliGemma 的進階版本，主要差異在於其效能提升與功能擴展。以下列出兩者之間的主要差異：

擴展性：PaliGemma 2 提供多種模型尺寸（3B、10B、28B 參數）和解析度（224px、448px、896px），能針對不同任務優化效能。
詳細描述能力：PaliGemma 2 不僅能識別影像中的物件，更能產生詳細且符合情境的影像描述，包含動作、情緒和場景的整體敘述。
擴展應用領域：研究顯示，PaliGemma 2 在化學式辨識、樂譜辨識、空間推理和胸部 X 光報告生成方面表現出色。
易於升級：PaliGemma 2 設計為 PaliGemma 的直接替換，大多數任務都能立即獲得效能提升，且不需要大幅修改程式碼。
易於微調：PaliGemma 2 的彈性使其能針對特定任務和數據集進行微調，讓使用者可以根據自身需求客製化其功能。

此外，PaliGemma 2 增強了視覺能力。您可以在 Hugging Face 上找到預訓練模型和程式碼，並透過詳細的說明文件和範例筆記本將這些工具整合到您的專案中。

Categories: Medical醫學, 多模態模型, 影像處理, 模型

Ollama 結構化的輸出方案

「structured-outputs」，主要展示如何利用 OpenAI 和 Ollama 這兩個大型語言模型平台，以結構化的輸出方式驗證數獨遊戲的有效性。程式碼包含一個測試架構，示範如何使用不同的模型（例如 OpenAI 的 gpt-4o-mini 和 Ollama 的 phi4）以及相應的執行指令。專案目前只有 Python 程式碼，並有簡潔的 README 檔說明使用方法，但缺乏更詳細的專案描述和資源連結，星星數和關注度也都很低。 核心目的在於展示結構化輸出的應用，並提供 OpenAI 和 Ollama 的實作範例。

Ollama Structured Outputs with Phi4 is KILLER - Get Started NOW!!

Watch this video on YouTube

GitHub – chrishayuk/structured-outputs

Contribute to chrishayuk/structured-outputs development by creating an account on GitHub.

Categories: 工具, Ollama, 教學, 開源

METAGENE-1 病原體檢測模型

METAGENE-1 是一個由南加州大學、Prime Intellect 和核酸天文台的研究人員合作開發的 70 億參數大型語言模型，它專注於分析來自廢水的 DNA 和 RNA 序列。這個模型利用超過 1.5 兆個鹼基對的數據進行預訓練，其目標是建立一個能捕捉人類微生物組全貌的模型，以促進疫情監控、病原體檢測和新興健康威脅的早期預警。 METAGENE-1 在病原體檢測和宏基因組嵌入基準測試中取得了最先進的性能，但研究團隊也強調了在發佈更大更強大的基因組模型之前，進行嚴格的安全評估的重要性。其開源釋出旨在促進病原體檢測和生物監控研究。

METAGENE-1: Metagenomic Foundation Model

Metagenomic Foundation Model for Pandemic Monitoring

Scientists Just Released Something That Could Change Medicine FOREVER (Metagene -1)

Watch this video on YouTube

Categories: Medical醫學, 模型

NVidia Sana – 高速生成高解析度模型

NVidia Lab(NVlabs) Sana 是一個高效的文字轉圖像模型，其核心設計包含高效的編碼器-解碼器架構 (DC-AE)、線性擴散變換器 (Linear DiT)、僅解碼器的文字編碼器，以及高效的訓練和採樣方法 (Flow-DPM-Solver)，讓它能快速生成高解析度 (最高 4096×4096) 的高品質圖片。相較於其他大型擴散模型，Sana 模型體積小，速度快，甚至可在 16GB 的筆電 GPU 上執行，生成 1024×1024 解析度的圖片只需不到一秒鐘。文件中包含了模型的架構說明、效能數據、使用方法（包含使用 Hugging Face Diffusers 的方式）、訓練方法以及未來的發展方向等資訊。

渲染 4K 影像的速度比 Flux 快 100 倍

SANA：使用線性擴散變壓器進行高效率高解析度影像合成

NVIDIA SANA In ComfyUI - 100 Times Faster Than Flux And Render 4K Images

Watch this video on YouTube

Categories: 新聞

Page 28 of 65

« Previous 1 … 26 27 28 29 30 … 65 Next »