- 标签:
- 日报 (141)
- 推荐系统 (90)
- 技术趋势 (71)
- AI (66)
- 思考 (6)
- 周报 (6)
- 论文 (6)
- 深度学习 (4)
- Agentic Engineering (4)
- 推荐 (2)
- 工具 (2)
- Harness Engineering (2)
- 强化学习 (1)
- 思维模型 (1)
- Transformer (1)
- LLM (1)
- 管理 (1)
- 生成式 (1)
本周推荐系统研究围绕三条技术主线展开。第一条是 Semantic ID 驱动的生成式检索持续升温——Spotify 同时放出两篇论文,一篇将 SID 系统部署上线并跑通 A/B test(新节目发现率 +14.3%),另一篇将 SID 作为独立模态统一搜索、推荐和推理,工业界 SID 系统正从"能不能用"进入"怎么用得更好"的阶段。第二条是多模态检索与表示压缩:Apple 交出统一文本/图像/视频的生产级检索架构,Aalto University 将 2B 参数的 VLM 蒸馏为 69M 的文本编码器(延迟降低 50 倍),POSTECH 发现并修复了 VLM embedder 做推荐时的模态崩溃问题。 第三条是工业级精排的信息流控制。阿里巴巴和 Meta 的三篇论文从不同角度切入同一命题——不再无差别地喂入所有特征和信号,而是控制特征参与交互的时机(延迟掩码)、筛选值得精细交互的行为(核心行为选择)、标准化行为信号的分布语义(条件去偏)。Meta 的 MBD 框架尤其值得关注,已部署在两个十亿级用户的短视频平台上,将观看时长与视频时长的相关性从 0.514 压到 0.003。
如果要用一个词概括 2026-W12 的 AI 领域,那就是"基础设施"——不是模型本身,而是让模型在真实世界中运转起来的一切。Simon Willison 将过去一年间散落的 Agent 工程经验凝结为一套完整的模式指南,Stratechery 宣称 Agent 是大语言模型的第三个范式转折点,OpenAI 十天内连续收购 Promptfoo 和 Astral 补齐编码 Agent 的环境管理短板,Stripe 推出机器支付协议 MPP 让 Agent 可以自主花钱——整个行业正在从"Agent 能做什么"快速切换到"Agent 如何在生产环境中可靠、安全、经济地运行"。 模型层面同样以"适配 Agent"为主旋律。OpenAI 的 GPT-5.4 mini/nano 不是旗舰的缩小版,而是从一开始就按"被调用"来设计的子代理模型;MiniMax M2.7 以 GLM-5 三分之一的成本达到同等性能;Mamba-3 从 SSM 架构层面为高并发 Agent 场景铺设基础。竞争维度正从"谁最聪明"转向"谁最适合被编排"。 与此同时,Meta 的 Ranking Engineer Agent 交出了模型准确率翻倍的成绩单,但同一周 Meta 也遭遇了 Sev 1 级别的 Agent 数据泄露事件。ServiceNow 的企业级 Agent 基准显示,当前最强模型在仿真企业环境中的成功率仅 37.4%。产出与风险并存,这正是 Agentic Engineering 当前最真实的写照。
2026 年第 11 周(3 月 8-14 日),推荐系统研究呈现两条清晰的技术主线。第一,生成式推荐(GR)正在经历从"能跑起来"到"跑得好、跑得快、跑得对"的全栈优化——Netflix/Meta 的指数奖励加权 SFT 解决后训练对齐、LinkedIn 的因果注意力重构将序列长度减半、快手的 FP8 量化将 OneRec-V2 推理延迟降低 49%、阿里的可微几何索引从根源消除长尾偏差,五篇论文从五个维度推进 GR 范式的工业级成熟。第二,LLM 推荐正在从"单次推理出结果"走向 Agent 化范式——Meta 的 VRec 在推理链中插入验证环节、美团的 RecPilot 用多 Agent 框架替代传统推荐列表、中科大的 TriRec 首次引入三方协调、人大/京东的 RecThinker 实现自主工具调用。 表示学习方面同样活跃。华为的 RF-Mem 将认知科学双过程理论引入检索管线,Amazon 的 P²GNN 用原型集增强 GNN 消息传递并在 18 个数据集排名第一,另有工作探索直接从 LLM 隐藏状态提取检索嵌入。此外,联邦推荐、机器遗忘和隐私合规方向也出现了多篇值得关注的工作,指向推荐系统基础设施级的隐私需求正在快速成熟。
本周 AI 行业经历了一场罕见的多线程冲击。2 月 27 日,五角大楼在同一天内完成了两个截然相反的动作:与 OpenAI 签署机密网络部署协议,同时将 Anthropic 列为"国家安全供应链风险"——尽管两家公司在自主武器和大规模监控问题上持有几乎完全相同的限制条款。国防部副部长 Emil Michael 在社交媒体上公开称 Dario Amodei 是"说谎者"和拥有"上帝情结"的人,超过 300 名 Google 和 60 名 OpenAI 员工随即签署联名信支持 Anthropic 的立场。这场冲突的本质已超越技术评估,成为一面映照 AI 治理政治化的棱镜。 与五角大楼事件同步发酵的,是 Anthropic 公开指控 DeepSeek、月之暗面和 MiniMax 通过"水螅集群"(hydra cluster)架构——单个代理网络管理超过 2 万个虚假账户——发起 1600 万次系统性蒸馏查询。Google 威胁情报团队也披露了 Gemini 遭受超过 10 万次模型提取攻击的数据。这些事件共同标志着中美 AI 竞争正从模型能力赛道滑入数据对抗与知识产权攻防的新阶段。 技术侧同样密集。OpenAI 宣布退役 SWE-Bench Verified,承认 59.4% 的任务存在根本性缺陷;智谱 AI 的 GLM-5 展示了完全在华为昇腾 910B 上训练的 744B MoE 模型;GitHub Trending 被 Agent 框架占据的同时,OpenClaw 连续爆出删除 Meta AI 安全总监邮件、遭 Google 封号等安全事故。Andrej Karpathy 发推称"编程已变得面目全非",而 Block 裁员 40% 后股价上涨 24%、IBM 因 COBOL 威胁单日蒸发 310 亿美元——资本市场正在以真金白银为 AI 替代效应定价。
本周共收录 23 篇推荐系统相关论文,其中 5 分论文 5 篇,4 分 10 篇,3 分 8 篇,整体质量出色。Generative Recommendation(生成式推荐) 是本周最显著的技术主线,6 篇论文直接聚焦于此,涵盖 Semantic ID 编码、受限解码优化、广告场景部署和多任务统一框架。另一条主线是 LLM 与推荐系统的融合范式——"LLM-as-Rec"(LLM 作为推荐骨干)与"LLM-for-Rec"(LLM 辅助推荐)两条路径本周都有重要进展。工业部署论文占比极高(6 篇含 Online A/B 测试),来自 AliExpress、快手、Apple App Store 等一线平台。
本周 AI 领域最突出的特征是一种"同步加速":资本、模型、基础设施和研究同时进入新的量级。OpenAI 宣布了史上最大规模的 1100 亿美元融资,NVIDIA 以 300 亿美元直接入股,Anthropic 刚刚完成 300 亿美元 G 轮——三天内流入 AI 头部公司的资本超过 1400 亿美元。与此同时,Qwen3.5-397B、Claude Sonnet 4.6、Gemini 3.1 Pro 三款旗舰模型在同一周内发布,形成了一场罕见的三方对决。 但真正值得关注的变化发生在水面之下。微软、Cloudflare、GitHub、HuggingFace 在同一周内集中发布 Agent 基础设施框架,标志着行业重心正从"更强的模型"转向"更可靠的 Agent 系统"。与此形成尖锐对照的是,五篇安全研究论文从几何、结构、模态三个维度共同揭示了当前 LLM 安全对齐的根本性脆弱。在 Agent 即将大规模部署的节点上,这一矛盾格外刺眼。