AI周报 2026-W23

本周的叙事可以用一个词概括:兑现——模型厂商在推理效率、Agent真实能力、平台生态三个方向集中交付上季度承诺的成果。微软CEO Satya Nadella在Build大会后连续两场深度访谈中,将公司定位从“前沿模型提供商”重新定义为“前沿智能平台”,并透露出OpenAI关系的新平衡。同时,NVIDIA、Google、微软在推理侧密集出货:Nemotron 3 Ultra以550B MoE架构实现5倍Agent推理加速,Gemma 4推出12B端侧多模态模型,微软MAI系列一口气发布7款模型并公布MAIA 200芯片的30%性价比优势。Agent评估领域,Andon Labs用自动售货机揭示基准与现实之间的巨大鸿沟,而OpenWebRL则在视觉web Agent上证明多轮RL的有效性。形式化定理证明方面,Goedel-Architect和LEAP两篇论文将开源系统推向99.2% MiniF2F和满分Putnam的新水平。最后,OpenAI的Lockdown Mode和Dreaming记忆升级在安全和产品体验上完成了碎片拼图——Lockdown Mode提供了一种确定性对抗Prompt注入的方案,Dreaming则让ChatGPT的记忆从用户手动保存进化到后台主动合成。

推荐周报 2026-W23

本周推荐系统研究围绕三条技术主线展开。 主线1:生成式推荐从“能跑”走向““跑得稳”——语义ID与推理能力成为工业焦点。 Pinterest的UniPinRec实现了检索与排序的全栈统一(线上engagement +1%,延迟-11.1%),跳出了生成式推荐仅做检索的边界。快手的OneReason(线上部署)则揭示了思考模式在生成式推荐中无效的根本原因——感知与认知双因素缺失,并给出三级CoT格式和专化-统一训练的解决方案。两者的共同指向是:生成式推荐的核心瓶颈已从模型架构转移至数据形态(语义ID)与系统协同。 主线2:跨域冷启动从“搬特征”到“学迁移”——LLM作为跨域桥接器开始大规模落地。 快手的RGCD-Rep(服务4亿+用户)用MLLM推理蒸馏将短视频用户兴趣迁移至直播,冷启动参与度显著提升。Meta的Quantizing Intent论文(线上AUC +1.522%冷启)则将有机feed行为量化为语义ID注入广告排序,证明行为富集度决定跨域迁移质量。两篇的共同发现是:跨域迁移的关键不在对齐特征,而在构建可迁移的语义表征。 主线3:LLM/Agent增强推荐走向行业差异化——从通用检索到垂直场景的深度适配。 理想汽车的HPRO(132天A/B,销量+9.5%)将偏好优化引入销售线索评分,解决稀疏监督和漏斗层级问题。快手的Taiji(CTR +12.4%,收入+15.2%)提出帕累托最优策略优化,在语义与ID之间找到最优权衡点。Syft的DynaTree(生存率提升1.5倍)则用离线智能体建树+在线轻量子树选择解决时间敏感新闻检索的效率问题。这些工作表明,LLM在推荐中的应用正从“通用方案”走向“场景定制”。

推荐算法日报 - 2026-06-06

生成式推荐的推理能力觉醒:以快手 OneReason 为代表,工业界正将 LLM 的“先思考后回答”范式引入生成式推荐。核心挑战在于如何为纯 item token 序列构建有意义的 CoT,OneReason 通过强化 item token 的语义感知(Perception)和用户行为序列的认知重组(Cognition)来激活推理能力,首次在线上场景实现了思考模式优于非思考模式。; 冷启动问题的新解法:不对称结构与监督学习:本周两篇论文从不同角度切入冷启动。Tubi 提出不对称图架构(Shall

AI 技术日报 - 2026-06-06

今日 AI 领域聚焦于基础设施效率与 Agent 真实世界行为。RedKnot 提出头感知 KV 缓存管理,将并发提升 4.7-7.8 倍;CLSA 跨层稀疏注意力实现 7.6 倍解码加速,标志长上下文推理进入架构级优化阶段。Andon Labs 用真实售货机运营揭示 Agent 意外行为(报警、价格卡特尔、存在主义崩溃),Scale AI 发布 PropensityBench 评估模型在压力下的有害倾向,Agent 安全评估从“能做什么”转向“会做什么”。Anthropic IPO 领先 OpenAI,成为 AI 泡沫估值的关键检验。

推荐算法日报 - 2026-06-05

LLM 深度融入推荐全链路:今日论文显示,LLM 的应用已从简单的特征增强,深入到精排(HPRO)、召回(RGCD-Rep)、特征工程(DSIRM)等核心环节。方法上不再局限于文本生成,而是利用 LLM 的语义理解能力进行判别式排序、知识蒸馏和偏好建模,工业落地验证效果显著。; 跨域与冷启动问题的新解法:多篇论文聚焦于利用富域(如短视频)的丰富信号,通过可迁移表示学习(RGCD-Rep)或偏好对生成(HPRO)来缓解目标域(如直播、销售线索)的稀疏监督和冷启动问题。核心思路是借助 LLM/MLL

AI 技术日报 - 2026-06-05

今日 AI 领域迎来多个里程碑:NVIDIA 发布 550B MoE 混合 Mamba-Attention 的 Nemotron 3 Ultra,专为长周期 Agent 工作流设计,推理加速 5 倍。Axiom Math 的 AI 系统在普特南数学竞赛中满分 120 分,超越人类顶尖本科生,形式化验证驱动推理能力质变。OpenAI 升级 ChatGPT 记忆系统至“做梦”范式,后台自动合成上下文记忆。微软 CEO Satya Nadella 在深度访谈中阐述 AI 平台转型战略,强调多模型生态与全栈构建者崛起。同时,Supabase 完成 5 亿美元融资估值达 100 亿美元,Cursor 推

推荐算法日报 - 2026-06-04

LLM 增强推荐走向工业落地与精细化对齐:今日多篇论文聚焦 LLM 与推荐系统的深度融合,从概念验证迈向大规模工业部署。快手的 Taiji 框架直接部署于日活 4 亿+的广告平台,通过帕累托最优策略优化(POPO)解决了 LLM 语义空间与推荐 ID 空间的权衡问题。同时,腾讯的 R3 和中科院的 BAHSD 分别从 Agent 技能检索和黑盒蒸馏角度,探索了 LLM 在推荐系统不同环节的精细化应用,体现了业界对 LLM 落地可行性和收益的务实追求。; 序列推荐建模向多尺度、自适应与可解释性演进

AI 技术日报 - 2026-06-04

今日 AI 领域迎来多个重磅事件:DeepSeek 接近完成 70 亿美元融资,估值或超 300 亿美元,成为 AI 史上最大单笔融资之一;Google 发布 Gemma 4 12B 开源多模态模型,可在笔记本上本地运行;Uber 为每位员工设 1500 美元/月 AI 编码工具上限,树立企业 AI 成本管控标杆。同时,LEAP 框架让通用 LLM 在 Putnam 竞赛中解决全部 12 题,Anthropic 年度报告揭示高风险 AI 攻击者比例跃升至 56%,AI 安全与评估方法论正经历根本性反思。

推荐算法日报 - 2026-06-03

生成式推荐进入"全栈统一"与"表示优化"深水区:今日多篇论文(UniPinRec、PrefixMem、DRQ)聚焦于生成式推荐(Semantic ID)的工业化落地。趋势从"用LLM生成推荐"转向"如何高效、鲁棒地表示和利用Semantic ID",包括统一检索与排序的全栈架构(UniPinRec)、为SID设计专用编码器(PrefixMem)、以及解耦量化提升鲁棒性(DRQ)。这表明生成式推荐正从概念验证走向大规模系统部署,核心瓶颈已从"能否用"变为"如何用好"。; 跨域/跨模态信号迁移成为工

AI 技术日报 - 2026-06-03

今日 AI 领域迎来多个重磅发布与产业信号:微软发布自研推理模型 MAI-Thinking-1 及 7 个新模型,并推出 Agent Control Specification 开源标准,标志其 AI 战略全面加速。GitHub 发布 Agent-native 桌面控制中心 Copilot app,其 COO 透露 AI Agent 导致代码提交量激增 1400%,基础设施面临新挑战。OpenAI Codex 周活用户突破 500 万,非开发者占比激增,正从编程工具向通用生产力平台演进。同时,Anthropic 将 Project Glasswing 扩展至 15 国关键基础设施,发现超 10

推荐算法日报 - 2026-06-02

Agent 驱动的检索与推理:今日多篇论文探索了 Agent 范式在推荐系统中的应用。DynaTree 利用多 Agent 协作构建离线检索树,实现高效的在线新闻检索;DCRC 则训练一个数据为中心的 Agent 来编译可执行的推理程序,以解决金融 QA 中的数值幻觉问题。这表明 Agent 正在从单纯的对话式交互,向更复杂的、结构化的离线规划与在线执行解耦的方向演进。; 从“模型为中心”到“数据/系统为中心”的范式转移:多篇论文不再单纯优化模型架构,而是从数据或系统层面寻求突破。V-SPLAD

AI 技术日报 - 2026-06-02

今日 AI 领域迎来双重里程碑:Anthropic 正式提交 S-1 启动 IPO,与 OpenAI 展开上市竞赛,标志着产业从融资驱动转向资本市场成熟阶段;同时 MiniMax 发布 M3 模型,在关键基准上超越 GPT-5.5 和 Gemini 3.1 Pro,成本仅为 5-10%,这是中国模型首次在性能上超越美国前沿模型。NVIDIA 发布开源物理 AI 全能模型 Cosmos 3,Runway 与 NVIDIA 成立 Cosmos Coalition 共建开源世界模型。Agent 生态持续进化:Perplexity 推出 Search as Code 新架构,IBM 提出 Agent