今日 AI 领域监管与效率两大主题交织:美国当局以安全为由暂停 Anthropic 最先进模型 Fable 5 和 Mythos 5 的访问,联合创始人 Andrej Karpathy 因非美国公民身份被拒接触内部模型,引发对"主权 AI"政策的广泛争议。与此同时,AMD 发布 Ryzen AI Max+ 395,以 128GB 共享内存和 1,499 美元售价实现本地运行 235B 模型,推理性能据称超 RTX 5080 三倍,标志着消费级硬件与云 AI 订阅的性价比拐点。产业层面,Mistral AI 以 200 亿欧元估值融资,欧洲主权 AI 从叙事走向现实;而 'Agentjackin
本周推荐系统研究围绕三条技术主线展开:生成式推荐从架构完备走向工业级工程落地,其中编辑性、长序列建模、物品级评分等关键能力被逐一攻克;LLM增强的推荐从离线推理迈向在线实时,谷歌与快手等团队实现了十亿用户规模的实时用户画像与意图推理;召回排序系统的成本与效率优化出现系统性方案,小红书以90%硬件成本节省为代价将聚类ANNS部署至SSD存储,同时CTR模型的残差路径设计开始突破缩放定律瓶颈。 主线1(生成式检索工程化): 快手推出的OneRetrieval首次实现了可编辑的生成式检索,在替换倒排索引分支后显著提升订单量与CTR;Yandex的Gryphon引入联合训练的物品级评分组件,替换超过15个候选生成器与粗排阶段,召回量Recall@1000提升3.7%;京东的AdaGRPO通过自适应门控GRPO损失,将HR@10从11.01%提升至12.18%;Meta的Beyond Item IDs提出Global-Aware Compression Transformer,将峰值内存降低一个数量级;阿里的SSRLive通过动态语义ID融入用户-主播交互信号,线上观看时长+3.38%。 主线2(LLM推荐实时化): 谷歌的LLM-Based User Personas框架实现了十亿用户规模的实时自然语言用户画像生成,结合知识蒸馏与异步推理在线上A/B测试中显著提升用户价值;快手的AIR通过离线生成原子意图、在线检索组合的方式实现了400倍推理加速,GMV+3.446%;DoorDash的Mind the Gap利用分层RAG从餐厅订单中生成多级分类特征,在零售品类上CTR+2.1%;OPPO的ToolRec为小布助手(1.5亿月活)构建了双层级点击校准机制,CTR显著提升。 主线3(召回排序系统效率优化): 小红书的Helmsman在40台SSD服务器上替代了原需35000核与0.35PB DRAM的HNSW集群,硬件成本节省90%;DeRes通过双路径残差架构在工业CTR数据集上AUC+0.32%,且计算-AUC缩放定律显示8层DeRes匹配16层OneTrans(2倍计算节省);Meta的DUET将用户行为分离为点击与转化两个流,分别用专用Transformer预训练,离线NE降低0.38%;eBay的Representation Curriculum通过分阶段训练缓解曝光依赖信号,冷启动Recall+5.2%。
今日 AI 领域迎来多个重磅事件:Jeff Bezos 首次公开其 AI 创业公司 Prometheus,以 120 亿美元融资和 410 亿美元估值成为 2026 年最大 AI 融资事件。模型竞争格局突变,GPT-5.5 在全新 Agents' Last Exam 基准上意外击败 Claude Fable 5,而 Anthropic 因社区抗议撤回对 Claude Fable 5 的隐形限制政策。OpenAI 收购云编排公司 Ona 为 Codex Agent 构建持久化企业环境,AWS 发布 Agent-EvalKit 开源评估工具,Agent 基础设施正加速走向生产级。学术方面,阿里 Q
今日 AI 领域迎来重磅发布:Anthropic 正式推出 Claude Fable 5 与 Mythos 5,被 Andrej Karpathy 称为“值得大版本号跳跃的阶跃式进步”,在 CursorBench 上以 72.9% 创下新纪录,Stripe 用其将 5000 万行 Ruby 代码迁移从数月缩短至一天。与此同时,OpenAI 提交 IPO 保密文件,估值 8520 亿美元,与 Anthropic(估值 9650 亿美元)竞逐公开市场。FrontierCode 基准发布揭示编码 Agent 真实能力远低于 SWE-Bench 表现,最难的第三级任务最佳模型仅 13% 成功率。Goo