日报

技术趋势

今日日报跨越博客、GitHub 项目、X 推文三大数据源。核心亮点是 AI Agent 生态的全面爆发：从政策框架到开源框架，从官方 SDK 到自进化机制，Agent 正在从概念走向工程化落地。同时，芯片层（Cerebras IPO、InP 衬底短缺）和模型层（ERNIE 5.1、MiniCPM-o 4.5）也有重要进展。精选文章 1 篇、GitHub 项目 5 个、KOL 推文 22 条。

本周 22 篇论文里能看出两条主线：生成式推荐继续在 Semantic ID 这一层做深耕，检索 / agentic search 这条线则在重写检索接口本身。另有三篇围绕 RAG 工程化（合成表格扩散、自动化 RAG 管线、生产级数据层），列入论文速览的"其他"部分。生成式推荐侧四篇论文把更多结构化信号——商业价值、地理坐标、协同信号、长尾边界——直接压进 Semantic ID 这一层。腾讯（微信视频号广告）的 UniVA 做到 SID/decoding/serving 三段同时注入 eCPM 信号，离线 Hit Rate@100 +37.04%、线上 A/B GMV +1.5%；UCSD × Snap 的 Latte 从理论上证明自回归 SID 解码树会把语义近的 item 强行拉到一起，再给出在 token 前缀挂 latent 的低成本修补，NDCG@10 +3.45%。检索侧的故事更激进。一周之内出现三种"重写检索接口"的反命题：Meta Superintelligence Labs 的 SIRA 把多轮 agent 探索压成一次 LLM-corpus 双向扩展的 BM25；Texas A&M / Stanford / UWashington 等 19 作者的 DCI 直接删掉 retriever，让 Claude Sonnet 4.6 用 grep + bash 在原始语料上调查（BrowseComp-Plus accuracy 从 69.0% 升到 80.0%、API 成本降 29.4%）；UC Berkeley 的 T3 把 RAG 的"corpus"从文档换成 LLM 思维轨迹，AIME 上给 Gemini-2.5-Flash 注水 +56.3%。MIT 同期放出 OBLIQ-Bench，把"为什么必须改接口"这件事量化——传统 BM25 / dense / late interaction 在隐含意图查询上几乎全部接近 0 NDCG@10。工业精排和召回侧维持"先拆瓶颈、再谈结构"的节奏。Meta Ads 的 IEFF 把特征下线从 3-6 个月重训压到不需重训，效率类 rollout 提速 5×；阿里淘天的 RecGPT-Mobile 把 next-query LLM 搬到手机端；中科大 × 美团的 DynamicPO 揭示多负样本 DPO 的"偏好优化坍塌"现象并给出梯度抑制的理论解释。整体趋势是：算法侧追求"动态自适应目标"，工程侧追求"可回滚的弹性接口"。

文章详情

周报

技术趋势

本周 AI 行业的核心叙事线在三个层面同时收紧。最显眼的是 Anthropic 的 Code with Claude 2026 大会——Claude Managed Agents 同日发布 Outcomes、多 Agent 编排、Dreaming（夜间自我改进）和桌面 Claude Code，配合 SpaceX Colossus $5B/年算力交易和让 Mozilla 单月修复 423 个 Firefox 漏洞的 Claude Mythos 预览，把 Agent 从"一次性脚本"完整推进到"持续运营单元"。紧贴这条产品线的是研究和工程层面的 Agent Harness Engineering 浪潮。复旦/北大的 AHE 论文、Microsoft 的 Terminus-4B 小模型 subagent、GitHub 自家的 token 审计工作流、Cursor 的 /orchestrate 与 Command Code 的 plumbing 经验，从同一周的不同角度证明：harness 与上下文工程已经成为比模型本身更值得投入的赛道。配合 vLLM × Mooncake 把 KV cache 命中率从 1.7% 拉到 92.2%、Insforge 让 Claude Code 节省 3x token 等具体数字，"先看 harness 还有多少没榨干"正在替代"换更强模型"成为默认动作。第三条线是基础设施。推理 token 价格一年降 100x，但 hyperscaler 总账单也涨 100x——Jevons paradox 在万亿美元尺度重演。DeepSeek 自报 agentic workload 的 98.7% KV cache 命中率，OpenAI 联合五家硬件厂商发布 MRC 网络协议，Perplexity 自研 ROSE 引擎，NVIDIA 开源 TokenSpeed，再加上 Meta FAIR 的 Compute Optimal Tokenization、Snowflake 的 ZeRO-Prefill、Sakana × NVIDIA 的 TwELL 稀疏格式——整个产业第一次在同一时段集中地把 KV cache、内存层级和网络 fabric 摆到了 GPU FLOPS 之上。

文章详情

日报

技术趋势

今日日报跨越博客、GitHub、论文、KOL推文和播客五大数据源，核心亮点是AI推理效率与Agent安全性的双重突破。BAIR博客系统梳理了自适应并行推理新范式，Anthropic与OpenAI分别从对齐研究和安全运行角度推进Agent落地，而LobeHub等开源项目则让Agent协作触手可及。行业层面，Anthropic估值超越OpenAI、大科技公司AI资本支出超7150亿美元等数据，揭示了AI行业“强者愈强”的马太效应。精选文章 5 篇 | GitHub 项目 5 个 | 播客 1 集 | KOL 推文 23 条

文章详情

推荐系统

日报

生成式推荐进入工业深水区：今日多篇论文（腾讯UniVA、Snap Latte）聚焦生成式推荐在工业场景的落地挑战。核心矛盾从“如何生成”转向“如何对齐商业价值”和“如何突破表达能力瓶颈”。UniVA提出全链路价值对齐框架，Latte则从理论层面揭示自回归语义ID的结构性限制，标志着该领域从概念验证走向工程优化。; 智能体（Agent）重塑搜索与推荐范式：Meta的SIRA和Waterloo的DCI分别从“单次检索替代多轮探索”和“用grep替代向量检索”两个角度，重新定义了检索接口。ByteDa

文章详情

日报

技术趋势

今日日报跨越博客、GitHub 项目、论文、KOL 推文和播客，核心亮点是 AI Agent 的工程化与成本优化成为绝对主线。从 GitHub 的 token 效率实践、Cursor 的递归 Agent 技能，到开源项目 Goose 和 9Router 的发布，业界正从“能用”转向“好用且省钱”。同时，推理成本下降 100 倍但总账单上升 100 倍的 Jevons 悖论引发广泛讨论，揭示了 Agent 化带来的需求爆发。精选文章：5 篇 | GitHub 项目：5 个 | KOL 推文：22 条 | 播客精选：2 集

文章详情

推荐系统

日报

LLM推荐走向端侧与列表级优化：今日两篇论文分别从端侧部署（RecGPT-Mobile）和列表级对齐（BLADE）两个方向推进LLM在推荐系统中的应用。前者解决端侧推理成本与实时性，后者突破静态对齐的性能上限，共同指向LLM推荐从“能用”到“高效、精准”的落地路径。; 生成式推荐进入“软路由”时代：CapsID用胶囊路由替代传统硬量化，解决了语义ID生成中的边界坍塌和误差传播问题，在35M级工业数据集上召回提升9.6%。这标志着生成式推荐的核心瓶颈从模型架构转向了tokenizer设计，软路由+

文章详情

日报

技术趋势

今日日报跨越博客、GitHub 项目、论文、KOL 推文和播客，核心趋势指向 Agent 系统的工程化与信任边界。GitHub 官方博客提出了 Agent 验证的“Trust Layer”框架，Simon Willison 则反思了编码 Agent 可靠性提升带来的信任风险。同时，Anthropic、AWS 等大厂密集发布 Agent 编排与工具链，GitHub 上涌现出大量 Agent 技能包和垂直领域模板，标志着 Agent 开发正从“能跑”迈向“可信、可复用、可落地”。精选文章：5 篇（4-5 分） GitHub 热门项目：5 个播客精选：1 集 X 推文动态：28 条

文章详情

推荐系统

日报

生成式检索与RAG的工业化落地：今日多篇论文聚焦于将生成式范式（如LLM）应用于检索系统，从GenPOI的生成式POI检索到AutoRAGTuner的RAG管线自动化，再到利用思考轨迹（Thinking Traces）作为RAG语料库，表明业界正积极探索用生成式模型替代或增强传统检索流程，以解决复杂查询和上下文建模问题。; 从“检索”到“系统”的全链路优化：工业界论文（如Walmart的Unified Data Layer、Ant Group的AutoRAGTuner）不再局限于单一算法模块，而

文章详情

日报

技术趋势

今日日报跨越博客、GitHub 项目、论文和 KOL 推文等多个数据源，核心亮点是 AI 基础设施与 Agent 生态的加速成熟。从 xAI 和 OpenAI 发布新模型、NVIDIA 与 ServiceNow 合作推出企业级 Agent，到字节跳动开源长周期 Agent 框架，行业正从单一模型能力竞争转向系统级工程和商业落地。同时，理论物理学家展示 GPT-5 在科学前沿的突破性能力，揭示了 AI 推理的边界正在快速拓展。精选文章：5 篇（5分 1 篇，4分 4 篇） GitHub 热门项目：5 个（5分 3 个，4分 2 个）播客精选：1 集 X 推文动态：29 条

文章详情

推荐系统

日报

频域分析与序列建模融合：今日多篇论文探索了在频域（FEDIN）或连续时间域（BST-CDSR）建模用户行为，以捕捉传统时序方法难以处理的周期性模式和兴趣衰减，为序列推荐提供了新的信号增强思路。; LLM 从“生成”走向“评估与攻击”：LLM 的应用场景从内容生成扩展到模型评估与安全测试。CRAFT 利用 LLM 生成对抗样本来攻击排序模型，而 BST-CDSR 则利用 LLM 提取时间语义，展示了 LLM 在推荐系统攻防与特征工程中的潜力。; ⚖️ 公平性与评估稳定性成为焦点：工业界和学术界均开

文章详情

日报

技术趋势

今日日报跨越博客文章、GitHub 项目、KOL 推文三大数据源，共 17 篇文章、5 个热门项目、24 条推文。核心亮点是 AI 系统自我构建的趋势加速：Import AI 预测 2028 年前无人类参与的 AI 研发概率超 60%，同时多智能体框架（AG2、PraisonAI）和金融研究 Agent（Dexter）等实用工具涌现，行业正从“使用 AI”迈向“AI 构建 AI”。精选文章 5 篇（5分 1 篇，4分 4 篇） GitHub 热门项目 5 个（5分 3 个，4分 2 个） X 推文 24 条

文章详情

...

7 8 9 10 11

...