4 | Page | Recsys Frontier

今日 AI 领域火药味十足：Apple 起诉 OpenAI 窃取商业机密，被 Stratechery 解读为 AI 竞争受挫后的情绪宣泄；OpenAI GPT-5.6 Sol/Terra/Luna 三款模型在 Amazon Bedrock 正式上线，Agent 基准显著领先；微软发布 109 页 MAI-Thinking-1 技术报告，完整揭秘 LLM 训练全流程。产业层面，vLLM 生态三天内密集落地三项 RL 训练框架，Meta 用开源 BPF 调度器将广告服务 p99 延迟降低 28%，MIT 推出 SceneSmith 用三个 VLM Agent 协作生成机器人训练场景。Sakana

文章详情

日报

技术趋势

今日 AI 领域呈现“开源监管风暴”与“效率创新”并行的格局。开源模型面临“6个月生存期”的监管与地缘政治夹击，而 Z.ai 发布 ZCode IDE 与 GLM-5.2 模型，以 2500 万美元成本实现全球第二的 Coding 能力，挑战 Cursor 与 Claude Code。Anthropic 发现 Claude 内部“思考空间”，为 LLM 可解释性带来新突破。同时，Oracle 因 OpenAI 风险被降级至垃圾级边缘，vLLM v0.25.0 发布，Arm CEO 预测推理侧硬件格局正从 GPU 转向 CPU。

文章详情

日报

技术趋势

今日 AI 领域迎来多重里程碑：Anthropic 估值达 1.2 万亿美元首次超越 OpenAI，并正式启动 IPO 进程，标志产业格局重大拐点。技术层面，Moonshot 发布 Kimi K2 开源模型（1T/32B MoE），在 SWE-Bench 取得开源 SOTA；Bun 用 AI 重写为 Rust 仅花费 $165k 替代 3 人年工作量，展示了 AI 辅助工程化的成本效益。安全研究方面，Google DeepMind 揭示 CoT 监控在对抗性说服攻击下反而有害，并提出跨模型事实核查的缓解方案。同时，Perplexity CEO 预测 6-12 个月内模型成本将降 3-4 倍，O

文章详情

周报

技术趋势

本周的核心叙事是"发布密度与工程深度的共振"。OpenAI 一口气放出了 GPT-5.6 三模型、ChatGPT Work 和 GPT-Live 语音模型，这不是一次单纯的版本迭代，而是一次产品矩阵的重新排布——模型能力分层（Sol/Terra/Luna）、Agent 产品化（Work）、交互范式升级（全双工语音）同时到位。与此同时，Agent 工程领域进入了"工具调用精细化"阶段：GitHub Copilot 的实践复盘、AWS 的 MCP 设计指南、Amazon 和 Writer 关于编排层效率的论文，都在指向同一个判断——Agent 的价值不再取决于"能不能调用工具"，而取决于"调得好不好"。推理加速方面，vLLM 0.25.0 让 450+ Transformers 架构原生运行，DeepSeek 的 DSpark 在线上流量下将生成速度提升 60-85%，这些工程落地比架构论文更能直接影响下游决策。

本周推荐系统研究围绕三条技术主线展开：生成式检索的工业落地与理论深化、LLM/Agent从概念验证走向真实部署、以及精排/联邦学习在工业环境中的鲁棒性优化。生成式检索加速落地与多兴趣精细化：快手在推送通知系统中部署了异构生成式架构 HGenPush，采用非自回归多token预测替代传统自回归解码，实现DAU提升0.181%。Walmart将库存感知RAG引入赞助搜索，InvAwr-RAG将广告填充率提升68%。理论层面，BACH通过贝叶斯混合头解决多兴趣双塔的路由坍塌问题，在三个基准上刷新召回率；DaV-Gen提出draft-and-verify机制统一生成式检索的效率与精度。此外，Signed MaxSim首次从理论上证明MaxSim的表达力不低于向量内积，并扩展至任意实值内积。 LLM/Agent推荐从原型走向生产： Meta的 SCOReD 是本周最突出的部署工作——通过学生感知的CoT优化将教师推理轨迹适配到小模型，线上获得NDCG+1.56%和Recall@5+1.9%，同时推理长度减少27.3%。Walmart使用LLAMA2 7B+LoRA做广告相关性三分类，准确率89.43%超越GPT-4。学术方面，MMEACR提出双轨记忆架构加强Agent的视觉推理能力；LBR系统性地揭示了LLM推荐中的长度偏差，并提出轻量校正方案（NDCG@5提升16.82%）；综述论文Autonomous Information Seeking为Agent推荐建立了三范式分类法。工业级精排与联邦学习优化：快手的 PIT-SUN 是一种可直接部署的经验边际变换框架，通过对重尾目标进行概率积分变换与期望一致性恢复，在线上全面改善点精度和校准。FeLiX则针对联邦学习中客户端流失问题，提出流式感知可用性层级和延迟鲁棒聚合，将收敛时间缩短2.37倍。

文章详情

推荐系统

日报

多兴趣建模与端到端生成式检索的范式突破：今日两篇工业界高分论文（Amazon BACH、Alibaba DaV-Gen）分别从不同路径挑战传统多阶段级联架构。BACH 用贝叶斯软混合替代硬路由，解决多兴趣头坍塌问题；DaV-Gen 则借鉴投机解码的 Draft-and-Verify 机制，试图统一检索与排序的优化目标。这标志着工业界正从“多阶段拼装”向“端到端联合优化”加速演进。; 回归任务中的长尾与期望一致性成为精排核心挑战：快手与人大合作的 PIT-SUN 论文，聚焦于停留时长、GMV 等长

文章详情

日报

技术趋势

今日 AI 领域迎来里程碑式突破：GPT-5.6 Sol Ultra 以 64 子 Agent 在一小时内证明 50 年未解数学猜想 Cycle Double Cover，标志着公开模型首次实现重大数学突破。同时，GPT-5.6 成为 Microsoft 365 Copilot 首选模型，Agent 生态全面走向生产级。Cursor 开发 AI Agent 与 Claude Cowork 直接竞争，编码 Agent 赛道进入白热化。效率与成本成为新焦点：Unsloth 动态量化压缩模型 75%，Writer 论文揭示编排层可降本 41%。ICML 2026 获奖论文揭晓，扩散语言模型与对齐审查

文章详情

推荐系统

日报

[大模型 Agent 与多模态记忆的深度融合]：今日多篇论文探索了将 LLM Agent 应用于推荐系统的新范式。MMEACR 提出了双轨记忆架构，将 Agent 的符号推理与多模态嵌入匹配分离，并通过属性引导的强化反思机制更新记忆。这标志着 Agent 推荐正从纯文本推理向融合视觉、文本等多模态信号的更精细、更鲁棒的记忆系统演进，为构建可解释、高保真的下一代推荐系统提供了新思路。; [面向生产环境的联邦学习与在线学习优化]：针对推荐系统对模型新鲜度的严苛要求，FeLiX 框架直面客户端流失、数

文章详情

日报

技术趋势

今日 AI 领域迎来产品与模型的双重里程碑：OpenAI 发布 ChatGPT Work 超级应用与 GPT-5.6 三模型家族，Sol 在 Agents' Last Exam 上以 53.6 分超越 Claude Fable 5 达 13.1 分，并引入 Programmatic Tool Calling 等关键新特性。与此同时，SpaceXAI 发布 Grok 4.5，专为 Coding/Agent 场景训练，定价仅为 $2/$6 每百万 token，模型竞争从通用能力向 Agent 专用场景进一步分化。Meta 自研 AI 芯片 Iris 将于 9 月量产，算力目标翻倍至 14GW，芯片

文章详情

推荐系统

日报

[LLM推理蒸馏走向精细化]：今日多篇论文聚焦于如何高效地将大模型（LLM/VLM）的推理能力迁移到小模型。从Meta的SCOReD（学生感知的CoT轨迹优化）到PORTS（偏好优化对齐检索器与LLM），核心思路不再是简单的SFT，而是根据学生模型的能力动态裁剪、改写教师轨迹，或利用LLM的perplexity信号作为偏好标签，实现更精准、更高效的蒸馏。; [检索模型的理论基础与表达能力受关注]：学术界开始深入探究检索模型（尤其是Late-Interaction模型）的理论上限。UMass的论文

文章详情

日报

技术趋势

今日 AI 领域迎来多项重磅发布：OpenAI 推出 GPT-Live 全双工语音模型，实现真正自然对话；同时宣布 GPT-5.6 Sol 周四发布，用户使用量已达此前 5 倍。Cursor 与 SpaceXAI 合作训练 Grok 4.5，Cognition 发布 SWE-1.7 达 1000 tok/s。基础设施层面，MCP v2 协议重大变更走向无状态化，Hugging Face 发布 vLLM transformers 建模后端性能追平原生，NVIDIA Nemotron 在 LangChain 基准中以 10 倍低成本达开源最高准确率。Lilian Weng 发表 Harness E

文章详情

推荐系统

日报

生成式推荐进入工业深水区：今日多篇工业论文（快手、阿里、沃尔玛）将生成式推荐从概念验证推向生产部署。核心创新点不再是简单的“用生成替代检索”，而是聚焦于异构内容生成（同时推荐视频和作者）、库存感知（RAG动态改写广告查询）以及多token预测（替代低效的自回归生成），以解决实际业务中的效率与效果平衡问题。; 重排器价值再发现：从“后处理”到“训练信号”：Yandex的论文提出利用重排器（精排模型）的分数来指导召回嵌入的学习，打破了传统“召回-精排”的流水线隔离。这一趋势表明，工业界正试图将精排模

文章详情

1 2 3 4 5 6

...