last30days-skill:用人氣做 AI 搜尋

Repository image for mvanhorn/last30days-skill

last30days-skill 是一個 Agentic Skill 搜尋工具項目,核心做法不是依賴編輯式排序,而是把 Reddit、YouTube、TikTok、Instagram、Threads、GitHub、HN、Polymarket 等來源的互動訊號交叉比對,整理出近 30 日最受關注的資訊。它要解決的,是同一個主題分散在不同平台、普通搜尋又難以整合的問題。

這個項目的判斷邏輯相當有意思:不是只看網頁是否存在,而是看 upvotes、likes、留言、甚至真金白銀的市場訊號。對想快速了解某人物、產品、議題近期動向的人,這比傳統搜尋更接近「大家最近在講乜」。若只想先試基本能力,公開資料已可直接涵蓋 Reddit comments;再加入 API key,便可逐步打開 TikTok、Instagram、Threads、Pinterest 及 Perplexity Sonar 等來源。

YouTube transcripts 的候選池擴大了三倍,不再偏向音樂影片,較容易抓到訪談、評論與解說內容;YouTube comments 與 TikTok comments 則屬額外選項,因為每段影片都會增加額外查詢成本。這種把免費來源、付費來源與高成本來源分層處理的方式,反映它比較重視訊號品質與成本控制,而不是一味堆資料。

  • AI agent-led search engine 形式整合多平台近期討論
  • 免費可用來源包括 Reddit comments,並附 upvote 數據
  • 可選接入 Perplexity Sonar、TikTok、Instagram、Threads、Pinterest
  • YouTube transcripts 強化了非音樂內容覆蓋範圍
  • 適合研究人物近況、追話題熱度、做市場觀察初步整理

如果你平日會做內容選題、品牌觀察、人物背景搜集,這個項目幾適合放入工作流程。它未必提供嚴格學術式評測,現有資訊也未見標準 benchmark 成績,但從來源設計與成本開關來看,方向相當明確:用多平台真實互動訊號,讓 AI agent 幫你先篩走雜訊。相關能力亦牽涉 Perplexity Sonar、OpenRouter,以及可承載 Agent Skills 的 Claude Code、Codex、Cursor、Copilot、Gemini CLI、OpenClaw 等環境。

GitHub: https://github.com/mvanhorn/last30days-skill

Categories: 開源, Gemini, Agentic, API, 工具, AI productions, IDE, Anthropic, OpenClaw, Skill 技能

當 AI 程式助手遇上滿山數據:CoDA-Bench 想考甚麼?

CoDA-Bench

現有針對 AI 程式代理(AI coding agents)的評測,大致分為兩類:一類專注於軟件工程任務(例如 SWE-Bench、Terminal-Bench),只考驗代碼本身;另一類專注於數據分析能力(例如 DS-1000、DA-Code、DataSciBench),卻把所需數據直接攤在桌面,等着代理去讀。中國人民大學數據實驗室團隊指出,這種把「代碼」與「數據」分開評估的範式,與真實開發場景脫節——現實中的工程師,往往要在堆滿雜亂檔案的環境中,自己摸索出哪些數據有用,再寫代碼處理它們。

為此他們提出 CoDA-Bench(Code and Data-intensive Benchmark),屬於 benchmark 類型的評測框架。它建構了一個基於 Kaggle 生態的 Linux 沙盒,每個任務環境平均包含約 980 個檔案,總共 1,009 道題目橫跨 31 個主題社區,要求代理先在語意相近的眾多檔案中大海撈針,再整合異質資料、撰寫分析代碼,產出最終答案。

團隊測試了多款頂尖代理後發現,即使表現最好的系統,成功率也只有 61.1%,暴露出現有模型在「數據發現」與「代碼執行」之間缺乏有效銜接。這個缺口正好為下一代研究指明方向:未來的代理不只要會寫代碼,更要懂得在雜亂的檔案系統中自行導航。

如果你從事 Agentic AI 研發、數據分析自動化,或想測試 LLM 在複雜環境中的推理與編程整合能力,這套開源 benchmark 提供了一個貼近現實的試金石。完整題目已釋出於 HuggingFace,評估則可透過 Docker 一鍵執行。

重點摘要:
修正舊範式:突破 SWE-Bench 與 DS-1000 把代碼與數據分開考的做法,統一在同一環境內評測。
真實規模沙盒:每題約 980 個檔案,模擬 Kaggle 上雜亂而龐大的真實數據環境。
雙重能力整合:同時考驗資料探索、檔案導航、跨格式整合與代碼生成四個面向。
成績慘淡:頂尖代理在完整題集上僅約 61.1% 成功率,顯示仍有明顯改進空間。
完整開源:包含 1,009 道題目、31 個社區數據(約 43 GB),以及 Docker 評測流程。

GitHub: https://github.com/ruc-datalab/CoDA-Bench

Paper: https://arxiv.org/pdf/2606.15300

Categories: 開源, Agentic, 軟件, AI productions, Linux, Vibe Coding, 模型, 編程, 中國, 清華大學, 框架, Dataset 數據集

DreamX-World:可互動世界模型

dreamx world teaser fig

現時不少影片生成模型偏向做短片段合成,畫面可以靚,但一旦要控制鏡頭移動、返回之前看過的位置,或者在同一場景加入事件,往往會出現場景斷裂、風格飄移、前後不一致。DreamX-World 針對的正是這種固定範式的限制,把重點由「生成一段片」改成「維持一個可互動世界」。

這個項目屬於世界模型影片生成模型,目標是處理 interactive world simulation,讓文字或圖像驅動的影片不只會動,還能按事件提示改變場景。技術報告提到它支援 camera navigation、重訪已觀察區域,以及 compositional events,亦即多個事件可串連成多步世界變化,這比一般一次性生成更接近遊戲或模擬系統。

它的做法有幾個較鮮明的改動:先用 Unreal Engine 數據、gameplay footage 與 real-world videos 建立資料引擎,再加入 camera estimation 與嚴格過濾;之後用 E-PRoPE、causal forcing、DMD-style distillation、long-rollout training、Memory-Conditioned Scene Persistence 等方法,處理長時段生成常見的記憶斷層與色調漂移。報告亦指出,DreamX-World 1.0 在 5-second basic evaluation 拿到 84.76 overall score、73.75 camera-control score,整體分數高於 HY-WorldPlay 1.5 與 LingBot-World。

如果你想試這個項目,較合理的切入點是先看 DreamX-World-5B-Cam,因為它已公開模型與推理程式,主打 5 秒影片生成;想看長時段能力,就留意 Long-horizon DreamX-World-5B。它較適合研究 world model、互動影片、遊戲 AI 內容生成,或者想比較 autoregressive 與 bidirectional 路線差異的人。

  • 已公開相關模型包括 DreamX-World-5B-CamDreamX-World-5B
  • 5B-Cam 偏向短片與鏡頭控制,5B 則支援較長時段生成
  • 核心賣點是場景持續性、鏡頭控制與事件組合,不只追求單段畫質
  • 報告提到最高可達 16FPS(八張 RTX5090),反映它有考慮推理效率

整體來看,DreamX-World 的價值不在於再做一個普通 text/image-to-video 模型,而是把「可回看、可操作、可改變」放進同一個生成系統。現階段公開內容仍以模型與技術報告為主,但方法論已相當清楚,對世界模型這條路有明確野心。

GitHub: https://github.com/AMAP-ML/DreamX-World

Paper: https://arxiv.org/pdf/2606.16993

Categories: 開源, Video, Image, AI productions, 模型, 模型訓練, 視頻模型, 世界模型, 清華大學

ARGAR 直指 AI 審稿可被包裝操控

ARGAR

現時不少 AI reviewer 評測,默認接受論文的摘要、敘事結構與貢獻陳述,並直接輸出分數或意見;ARGAR 指出這種固定範式未必真正在看科學內容,而可能被 presentation-level content 牽動。作者因此提出 ARGAR(Adversarial Repackaging Gaming AI Review),用 adversarial repackaging 把「內容不變、包裝改寫」變成可反覆驗證的測試流程。

這個項目較像一個研究框架加實驗工具,而不只是單一資料集;它要解決的,是 AI reviewer 有沒有被 narrative structure、abstract 與 contribution statements 系統性影響。核心做法是 closed-loop iterative search:每一輪根據 AI reviewer feedback 改 LaTeX 文字與結構,再比較新版與 baseline 的審稿結果,但 scientific content held fixed。

若想測試它的思路,最合適是先看 round N/source、round N/reviews、judge result.json 和 attack log.json。這樣可以直接觀察同一篇論文在科學內容不變下,經過不同包裝後,AI review 怎樣波動,也能看清每一輪修改決策如何形成。

  • 類型定位:研究框架兼工具,用來檢驗 AI reviewer 是否容易被論文包裝影響
  • 方法重點:只改 abstract、framing、contribution statements、narrative structure,不改 scientific content
  • 輸出結構:保留每輪 LaTeX source、review 結果、pairwise judge 比較與跨輪 attack log
  • 適合場景:AI safety、LLM evaluation、學術審稿自動化研究
  • 限制提醒:項目明確反對把結果用於真實投稿操控,定位是 controlled experiments

創新之處在於它不是討論「AI 審稿準不準」的籠統問題,而是把舊範式拆開,專門測 presentation attack 對評分的影響。從儲存庫資料看,這種設計也方便研究者重播整個攻擊過程,比只看最終分數更有分析價值。

性能數字在這份儲存庫摘要未完整展開,因此不宜代作者下結論;不過評測設計本身已很有辨識度,因為它加入 pairwise judge 與多輪 review 作比較。相關模型方面,項目透過 LiteLLM 路由不同 LLM provider,可接 OpenAI、Anthropic、AWS Bedrock 等 reviewer model、attack model 與 judge model,亦配合 ICLR、NeurIPS、ICML 風格的 review generation。

GitHub: https://github.com/xyimatvoid/ARGAR

Paper: https://arxiv.org/pdf/2606.09813

Categories: 開源, OpenAI, Agentic, 工具, Content Creator, AI productions, IDE, 安全, , 模型, Anthropic, AGI, 清華大學, 框架, Dataset 數據集

iMaC:把機械臂動作變成可預測影像

overview

現時不少 action-conditioned video models 會把未來動作壓成 compact vectors,再經 learned conditioning modules 交給模型處理;作者認為這種做法要模型自行猜測細微空間後果,遇到 real manipulation 時,幾厘米差距已足以改變接觸、物件移動與任務成敗。iMaC 屬於世界模型與影片生成模型,核心是把 future joint actions 轉成 image-like controls,減少「動作有輸入,但空間關係表達不足」的問題。

這個項目的方法相當具體:先利用 robot URDF 與 forward kinematics,渲染 future robot-observation control videos,也就是 motion images;之後再加入 depth 作為輔助訊號,配合 3D pointclouds 建立 two-stream geometry controls,也就是 contact images。舊範式主要靠抽象向量條件化,iMaC 則把「未來機械臂會出現在哪裡、如何接近場景」直接變成可見控制,這是它最清晰的技術分野。

GitHub 儲存庫提供 training、preprocessing 與 inference code,覆蓋 RND-mix stage-one、stage-two,以及 WorldArena 三條流程。想試這個項目的人,會先由資料前處理、depth 與 3D condition 建立開始,再跑 validation inference 看生成影片是否跟動作一致;若本身做 robotic policy evaluation,還可以接到 WorldArena 或 online RND evaluation 場景。

  • 把 actions 轉成 motion images 與 contact images,空間條件更明確
  • 用 depth encoding 和 3D pointclouds 強化 robot-scene 幾何理解
  • 加入 training-time rollout strategy,目標是支援更長時序生成並減少 exposure bias
  • 儲存庫同時涵蓋訓練、前處理、推論,不只是論文展示模型
  • 相關組件包括 Wan transformer variants、Diffusion inference pipelines、RobotWin 2.0、WorldArena

性能方面,論文指出它在八個長時序真實機械人操作任務中,world-model success estimates 與真實 policy performance 呈強正相關。這個結果的價值不在於取代真機測試,而是在正式落機前,先用生成式 world model 篩選 policy checkpoints;對研究 embodied evaluation、robotics 與世界模型的人來說,iMaC 屬於相當值得跟進的一個方向。

GitHub: https://github.com/imac-wm/iMac

Paper: https://arxiv.org/pdf/2606.09813

Categories: 開源, Stable Diffusion, Video, Image, 3D, AI productions, Mac, Vibe Coding, Win, , 模型, 模型訓練, 編程, 視頻模型, Robotic, 世界模型, 清華大學

RhymeFlow:加快影片生成的新路線

Repository image for Simon-Dcs/RhymeFlow

現時不少影片生成加速方法,主要仍沿用標準 diffusion pipeline:每一幀都要在所有 diffusion timesteps 完整做一次 dense denoising,再配合 sparse attention 或 KV-caching 減少單步計算。RhymeFlow 指出,這種固定範式忽略了相鄰影格內容與動作高度相關,令自然影片裡大量中間步驟其實屬於重複運算。

這是一個免訓練的影片生成加速框架,核心目標是替 DiT(Diffusion Transformers)影片模型減少推理延遲與運算成本。它將不同影格的 denoising trajectory 拆開處理:先找出主導語意變化的 keyframes,讓 keyframes 保持逐步去噪,非 keyframes 則逐步跳過部分步驟,再用 latent trajectory projection 補回時間一致性。

這個做法的創新,不在於單純把 attention 再稀疏化,而是直接挑戰「所有影格都要同步、密集去噪」的舊假設。論文描述,RhymeFlow 在現有 DiT-based video generation models 上,能同時取得更高 inference speed 與更好 visual quality;不過 GitHub 目前公開重點放在 Wan 2.1 adaptation,HunyuanVideo adaptation 仍在準備中。

如果你想試,較合理的切入點是把它當成 Wan 2.1 的加速實驗框架,比較 dense、svg、sap、rhyme、rhyme_sap 幾種方法輸出時間與畫面差異。環境要求偏高,文件列出 CUDA 12.4 / 12.8 與 PyTorch 2.5.1 / 2.6.0,亦牽涉 FlashInfer、flash-attn 和自訂 kernels,較適合已有 GPU 與 PyTorch 經驗的人。

  • 項目類型:training-free 影片生成加速框架,處理 DiT 影片模型推理太慢的問題
  • 方法重點:keyframes 做 dense denoising,非 keyframes 跳步處理,再用 latent trajectory projection 維持時序一致
  • 可比較方法:dense、svg、sap、rhyme、rhyme_sap
  • 相關模型:Wan 2.1 已有 adaptation,HunyuanVideo adaptation 尚未完整釋出
  • 適合場景:研究影片生成推理優化、比較不同加速策略、測試速度與畫質取捨

整體來看,RhymeFlow 的價值很明確:它不是改模型權重,也不是重新訓練,而是重排 denoising flow scheduling,從流程層面節省計算。對研究者與進階開發者而言,這類思路比單純堆硬件更有參考價值;對一般創作者來說,現階段門檻仍在部署與 GPU 環境。

GitHub: https://github.com/Simon-Dcs/RhymeFlow

Paper: https://arxiv.org/pdf/2606.06309

Categories: 開源, 騰訊, NVIDIA, Video, Content Creator, AI productions, Python, 模型訓練, 深度學習, 視頻模型, 清華大學, 框架

[技術文章] KAIST 與 Qualcomm 重塑長影片 RAG 評測

Hero image preview

這項研究由 KAISTQualcomm AI Research、Qualcomm Korea 團隊合作提出,聚焦長時間第一身影片中的 Retrieval-augmented generation(RAG)。作者指出,現有 VideoRAG 常沿用「每條查詢只配一種 modality 與一種 temporal granularity」的固定範式,但長影片的證據片段差異很大,單一設定未必適合全部片段;加上不少既有 benchmark 的問題甚至不用看影片也能答中,令最終分數難以反映檢索是否真的做對。

因此,團隊提出 V-RAGBench,把資料整理成 ⟨query, evidence chunk, answer⟩ triplets,明確分開查詢、證據片段與答案。這種設計針對的是過去「只看最終回答正確率」的盲點,讓研究者可以更忠實地分開檢查 retrieval 與 generation,知道系統究竟是靠對的影片片段,還是靠語言偏見、常識或靜態線索作答。

方法上,作者再提出 CARVE。它不是替整條查詢預先選定一種設定,而是讓多個 retriever 以不同 modality 與 granularity 並行工作,再用 chunk-adaptive reranking 為每個 evidence chunk 挑出最合適的 winning configuration。之後,這些片段會連同各自勝出的設定一併送入 generator,形成 interleaved evidence,令檢索階段的片段級決策延續到生成階段。

對想使用這個項目的人來說,切入點很清楚:先用 V-RAGBench 測試自己的 VideoRAG 流程,分開看檢索與生成表現;若系統目前仍採用查詢級單一設定,可再比較 CARVE 這種片段級配置方式。這種思路較適合長影片問答、egocentric video 分析,以及需要從多模態證據中找出正確時間片段的 Agentic 系統。

  • V-RAGBench 以 evidence chunk 為核心,補足舊 benchmark 無法準確檢查檢索對錯的問題
  • CARVE 改為片段級選擇 configuration,不再假設一條查詢只需一套 modality/granularity
  • 作者指出 generator 最後接收的 chunks 會交錯來自多種 configuration,這是 query-level 方法做不到的
  • 論文稱 CARVE 勝過 8 個近期 VideoRAG baselines,顯示片段級決策在長影片檢索更有優勢

整體來看,這項工作不是單純再加一個 VideoRAG 方法,而是先批評舊有評測與建模範式,再用新 benchmark 和新 retrieval framing 一起修正問題。如果你關心的是長影片 RAG 到底應該取回什麼、以及取回後怎樣交給模型使用,這項研究提供了相當清晰的分析框架。

Paper: https://arxiv.org/pdf/2606.13141

Categories: Agentic, Video, AI productions, RAG, 多模態模型, 模型, 新聞, 框架, Dataset 數據集

OmniVideo-100K:增強影音推理訓練數據集

Framework Overview

現時不少影音問答資料建立流程,普遍沿用「video-caption-QA」範式:先把影片切成短片段,再分開寫視覺與音訊描述,最後生成 QA。論文作者認為這種做法容易出現 modality bias、temporal misalignment,同一角色在不同片段亦可能描述不一致,令問題多數只圍繞局部事件,難以考驗長時間跨度的 audio-visual reasoning。

OmniVideo-100K 是一個 Dataset 數據集,目標是為 Multimodal Large Language Models (MLLMs) 提供較完整的影音推理訓練材料。它提出兩個核心機制:Entity-Anchored Video Scripting 先把原始影片整理成結構化 script,包括摘要、主要實體清單,以及帶時間戳的分段音畫描述;Clue-Guided QA Generation 則先抽取跨片段、跨模態線索,再生成較複雜的問答。

這種設計的關鍵,不在於題目數量大,而在於先整理證據鏈再出題。對比舊方法把長文本理解和 QA 合併成一步,OmniVideo-100K 把線索挖掘獨立出來,較有機會產生涉及因果、未來預測與假設推理的題目,而不只是問畫面中「見到乜」。

如果你想測試這個項目,可以先留意 Hugging Face 上的 OmniVideo-100K 與人手驗證的 OmniVideo-Test,看看資料結構是否適合自己的訓練流程;做研究的人則可直接比較模型在外部 benchmark 的變化。論文提到,VITA-1.5、Qwen2.5-Omni-7B、Qwen3-Omni-30B 經此資料集微調後,在 OmniVideo-Test 最多提升 20.59%,在 Daily-Omni、JointAVBench 也有最多 12.64% 增幅,同時盡量保留在 Video-MME 這類一般影片 benchmark 的能力。

  • 針對舊式「video-caption-QA」流程的三個痛點:modality bias、temporal misalignment、敘事不連貫
  • 用 structured scripts 加 entity list,補回跨片段指代一致性與聲音來源對應
  • 任務覆蓋 10 類,包括 FGP、STD、CU、CP、SA、ESO、SM、CR、FP、HR
  • 適合做影音理解、跨模態推理、指令微調資料研究的人參考
  • 相關模型包括 VITA-1.5、Qwen2.5-Omni-7B、Qwen3-Omni-30B

整體來看,這個項目的價值在於它不只新增一批資料,而是重寫影音 QA 資料的組織方法。若你關心的不是單張畫面問答,而是影片內角色、聲音、事件先後與推論之間的連結,OmniVideo-100K 會比一般自動合成資料集更有研究參考價值。

Categories: 開源, Qwen, Video, Audio, 工具, AI productions, 多模態模型, , 模型, 模型訓練, 語音, Dataset 數據集

OmniDirector:免配對數據的多鏡頭運鏡克隆技術

Play video

OmniDirector 由清華大學(Yu-Shen Liu 為北京清華大學團隊)與 Kling Team(快手科技)的研究團隊,共同開發,成員包括 Jiwen Liu、Shujuan Li、Zhixue Fang 等人,團隊來自多個機構,橫跨學術界與業界。研究團隊提出一種無需交叉配對數據的通用多鏡頭相機克隆方法,解決從參考影片中複製運鏡來驅動靜態圖像的難題。

傳統相機控制方法往往依賴大量成對數據進行訓練,而 OmniDirector 的核心創新在於提出「相機網格」(camera grid)表示法。將參考影片的相機姿態渲染為三維空間中的運動軌跡,形成統一的網格表示。配合階層式提示詞擴展代理(hierarchical prompt expansion agent),把多模態控制信號整合成協調的指令。

使用時,使用者只需提供一張源圖像和一段參考影片,OmniDirector 便能克隆其中的運鏡動作,生成動態影片。多鏡頭場景下,新方法支援鏡頭之間的連貫過渡與一致的內容呈現,保持原始的視覺語言。特殊運鏡方面,涵蓋希區柯克式變焦、子彈時間與鏡頭畸變效果,適用的場景類型包括人像、動物、建築及 AIGC 內容等。

OmniDirector: General Multi-Shot Camera Cloning without Cross-Paired Data

OmniDirector 適合從事影片創作、動畫製作或需要快速生成動態素材的內容創作者,以及研究相機控制技術的開發者。經過與其他頂尖相機控制方法的對比,新方法在控制穩定性與物件形變方面表現出色。

重點摘要
– 核心創新為「相機網格」表示法,免依賴交叉配對數據
– 支援極端運鏡、多鏡頭連貫過渡與特殊相機效果
– 場景泛化能力強,涵蓋人像、動物、建築及 AIGC 內容
– 開源提供論文與程式碼,方便研究與應用

目前 github.com/lisj575/OmniDirector 這個倉庫是空的,沒有 source code 或 model 。

項目: https://ymlinfeng.github.io/OmniDirector.github.io/

Categories: Video, AI productions, 模型, 數字人, 視覺模型, 北京大學, 清華大學, 框架

Data2Story:把數據變成可查證故事

Data2Story turns a dataset into a reproducible multimodal story

Data2Story 是一個 agent skill 類型的項目,核心目標是把原始資料整理成可查證的多模態故事,處理的不只是「寫得像文章」,而是連圖片、敘事與證據對應都放進同一流程。從儲存庫描述看,它較接近給 AI 代理協作的工作流,而不是單一模型。

它的用法算是明確:先準備資料集,再叫 Claude Code、Codex 或其他代理依照 skills/SKILL.md 執行整個 Data2Story pipeline。完成後會產出 index.html 文章頁,以及 viewer.html 證據檢視頁,適合先用官方網站展示的案例感受效果,再決定是否放進自己的資料敘事流程。

這個項目較有新意的地方,在於它把 detective、analyst、editor、designer、programmer、auditor、inspector 這些角色拆開處理,像一個小型編輯部協作。另一個關鍵是「verifiable」不是口號,viewer.html 強調每句內容可追溯來源,對新聞、研究整理或企業報告這類重視可信度的場景更有價值。

  • 支援 Claude Code、Codex 及其他 coding agent
  • 可把資料轉成多模態故事,而非只輸出文字
  • 會產生獨立版本項目資料夾,方便保留不同結果
  • 提供 evidence viewer,讓句子對應資料來源

如果你是資料記者、研究人員、內容團隊,或者想把表格與資料故事化,這個項目有不錯的參考價值。至於效能與量化評測,儲存庫首頁未見具體指標;現階段較適合先看網站範例與論文,再判斷它在你的資料規模、敘事要求與媒體生成品質上是否合用。相關模型與服務層面,項目明確提到可配合 Claude Code、Codex、Cursor、Gemini CLI,媒體生成預設經 OpenRouter 處理。

GitHub: https://github.com/QinghongLin/data2story-skill

Paper: https://arxiv.org/pdf/2606.11176

Categories: 開源, Agentic, AI productions, 框架

Page 2 of 3
1 2 3