日报

技术趋势

今日 AI 领域监管与效率两大主题交织：美国当局以安全为由暂停 Anthropic 最先进模型 Fable 5 和 Mythos 5 的访问，联合创始人 Andrej Karpathy 因非美国公民身份被拒接触内部模型，引发对"主权 AI"政策的广泛争议。与此同时，AMD 发布 Ryzen AI Max+ 395，以 128GB 共享内存和 1,499 美元售价实现本地运行 235B 模型，推理性能据称超 RTX 5080 三倍，标志着消费级硬件与云 AI 订阅的性价比拐点。产业层面，Mistral AI 以 200 亿欧元估值融资，欧洲主权 AI 从叙事走向现实；而 'Agentjackin

文章详情

日报

技术趋势

今日 AI 领域地缘政治风险加剧：美国政府直接指令 Anthropic 暂停 Fable 5/Mythos 5 对外国用户访问，出口管制从地域转向个人身份，MiniMax 随即宣布 M3 开源并强硬回应。同时，GitHub 分享 Copilot CLI 委派优化实践，NVIDIA Blackwell 在首个 Agentic AI 基础设施基准 AgentPerf 中领跑，微软 Project Ire Agent 成功自主识别恶意软件变种，Agent 工程正从概念走向生产级精细优化。

文章详情

周报

技术趋势

上周的核心叙事可以浓缩成三个字——“够用了”。Claude Fable 5 的发布将通用模型能力拉到新高度，同时定价砍半。但更重要的是，围绕 Agent 的评估、安全、记忆和推理优化，工业界的交付物开始从“论文概念”变成“可运行的代码和框架”。Anthropic 的预填撤回风波、Kimi Work 的 300 个本地并行 Agent、MiniMax 的稀疏注意力内核——这些事件共同指向一个信号：2026 年上半年的 AI 工程化，正在从“能不能跑”转向“能不能可靠地跑”。

本周推荐系统研究围绕三条技术主线展开：生成式推荐从架构完备走向工业级工程落地，其中编辑性、长序列建模、物品级评分等关键能力被逐一攻克；LLM增强的推荐从离线推理迈向在线实时，谷歌与快手等团队实现了十亿用户规模的实时用户画像与意图推理；召回排序系统的成本与效率优化出现系统性方案，小红书以90%硬件成本节省为代价将聚类ANNS部署至SSD存储，同时CTR模型的残差路径设计开始突破缩放定律瓶颈。主线1（生成式检索工程化）：快手推出的OneRetrieval首次实现了可编辑的生成式检索，在替换倒排索引分支后显著提升订单量与CTR；Yandex的Gryphon引入联合训练的物品级评分组件，替换超过15个候选生成器与粗排阶段，召回量Recall@1000提升3.7%；京东的AdaGRPO通过自适应门控GRPO损失，将HR@10从11.01%提升至12.18%；Meta的Beyond Item IDs提出Global-Aware Compression Transformer，将峰值内存降低一个数量级；阿里的SSRLive通过动态语义ID融入用户-主播交互信号，线上观看时长+3.38%。主线2（LLM推荐实时化）：谷歌的LLM-Based User Personas框架实现了十亿用户规模的实时自然语言用户画像生成，结合知识蒸馏与异步推理在线上A/B测试中显著提升用户价值；快手的AIR通过离线生成原子意图、在线检索组合的方式实现了400倍推理加速，GMV+3.446%；DoorDash的Mind the Gap利用分层RAG从餐厅订单中生成多级分类特征，在零售品类上CTR+2.1%；OPPO的ToolRec为小布助手（1.5亿月活）构建了双层级点击校准机制，CTR显著提升。主线3（召回排序系统效率优化）：小红书的Helmsman在40台SSD服务器上替代了原需35000核与0.35PB DRAM的HNSW集群，硬件成本节省90%；DeRes通过双路径残差架构在工业CTR数据集上AUC+0.32%，且计算-AUC缩放定律显示8层DeRes匹配16层OneTrans（2倍计算节省）；Meta的DUET将用户行为分离为点击与转化两个流，分别用专用Transformer预训练，离线NE降低0.38%；eBay的Representation Curriculum通过分阶段训练缓解曝光依赖信号，冷启动Recall+5.2%。

文章详情

推荐系统

日报

生成式检索从概念走向工业落地：今日两篇高分论文均聚焦于用生成式模型统一或替代传统多阶段召回。快手的 OneRetrieval 首次在电商搜索中实现可编辑的生成式检索，统一多分支召回并显著提升订单量。这表明生成式检索正从学术概念向解决工业级“可编辑性”和“大规模部署”等核心痛点演进。; 向量检索系统架构向成本效率倾斜：小红书的 Helmsman 系统挑战了内存图索引（HNSW）的主导地位，通过构建基于全闪存服务器的聚类ANNS，结合用户态存储栈和GPU加速，将硬件成本降低90%。这揭示了在数据规模

文章详情

日报

技术趋势

今日 AI 领域迎来多个重磅发布：MiniMax 开源 428B MoE 模型 M3，搭载自研稀疏注意力实现 1M 上下文 14 倍加速；Kimi 发布 K2.7-Code，编码 agent 能力提升超 30% 且推理 token 减少 30%。同时，Sapient 公司声称以约 1500 美元从零训练出 1B 基座模型 HRM-Text，直接挑战预训练 Scaling Law。MCP Dev Summit 2026 释放协议无状态化与 'Shadow MCP' 治理挑战等关键信号。产业层面，Q1 AI 融资 242B 美元中四大公司吸走 65%，资本集中度持续加剧。

文章详情

推荐系统

日报

LLM 深度融入推荐系统全链路：今日多篇论文展示了 LLM 不再仅是辅助工具，而是直接参与推荐核心环节。从 Google 的实时用户画像生成（召回/排序特征），到 CompRank 的 LLM 重排序，再到 TAA-k 优化 RAG 上下文选择，LLM 正在渗透召回、排序、重排等各个阶段，且开始关注工业级部署的效率和成本问题。; 生成式模型成为解决推荐顽疾的新范式：DiffCold 使用扩散模型解决冷启动中的“跷跷板困境”，通过生成式方法统一冷热物品的表示空间。这表明生成式模型（扩散模型、LLM

文章详情

日报

技术趋势

今日 AI 领域迎来多个重磅事件：Jeff Bezos 首次公开其 AI 创业公司 Prometheus，以 120 亿美元融资和 410 亿美元估值成为 2026 年最大 AI 融资事件。模型竞争格局突变，GPT-5.5 在全新 Agents' Last Exam 基准上意外击败 Claude Fable 5，而 Anthropic 因社区抗议撤回对 Claude Fable 5 的隐形限制政策。OpenAI 收购云编排公司 Ona 为 Codex Agent 构建持久化企业环境，AWS 发布 Agent-EvalKit 开源评估工具，Agent 基础设施正加速走向生产级。学术方面，阿里 Q

文章详情

推荐系统

日报

LLM 的工业级落地：从"能不能用"到"怎么用好"：今日多篇论文聚焦于将 LLM 的语义理解能力以低延迟、低成本的方式融入工业推荐系统。快手提出的 AIR 框架通过离线推理+在线检索组合实现 400 倍加速，是 LLM 在跨域推荐场景中成功落地的典型案例，证明了 LLM 在工业界不再是"空中楼阁"。; 长序列建模的"记忆革命"：从压缩到解耦：针对长序列推荐中线性注意力导致的语义状态沉没问题，快手提出的 SinkRec 通过外部化记忆模块，将重复行为模式从状态中解耦出来，让模型专注于动态变化。这种

文章详情

日报

技术趋势

今日 AI 领域迎来多项重磅发布与深刻洞察：Google DeepMind 发布 DiffusionGemma，以扩散模型替代自回归解码实现 4 倍推理加速，标志非自回归文本生成新范式；NVIDIA 与 Apple、Google 合作将机密计算引入 Apple Private Cloud Compute，为 AI 隐私基础设施树立里程碑。同时，MIT 研究揭示 AI 依赖悖论——用 LLM 验证新闻反而降低独立辨伪能力，Cursor 从 15 人增长至 700 人并覆盖 60% 财富 500 强，Anthropic CEO 发文警示 AI 进展远超政策制定速度。多篇工业界论文聚焦 Agent

文章详情

推荐系统

日报

生成式推荐进入精细化调优阶段：今日多篇论文聚焦于生成式推荐（GR）的落地痛点。从京东的AdaGRPO（自适应门控GRPO解决奖励模型噪声）到Yandex的Gryphon（统一SID生成与物品级评分解决序列似然与相关性目标不一致），再到山大的PRO（理论分析索引-解码间隙），业界正从“能否用GR”转向“如何让GR更鲁棒、更精准、更简化系统”。核心趋势是：在GR框架内引入更精细的控制机制（门控、评分、理论指导），而非推翻范式。; 长序列建模与语义化ID成为工业级推荐标配：Meta的论文展示了在十亿用

文章详情

日报

技术趋势

今日 AI 领域迎来重磅发布：Anthropic 正式推出 Claude Fable 5 与 Mythos 5，被 Andrej Karpathy 称为“值得大版本号跳跃的阶跃式进步”，在 CursorBench 上以 72.9% 创下新纪录，Stripe 用其将 5000 万行 Ruby 代码迁移从数月缩短至一天。与此同时，OpenAI 提交 IPO 保密文件，估值 8520 亿美元，与 Anthropic（估值 9650 亿美元）竞逐公开市场。FrontierCode 基准发布揭示编码 Agent 真实能力远低于 SWE-Bench 表现，最难的第三级任务最佳模型仅 13% 成功率。Goo

文章详情

1 2 3 4 5 6

...