今日 AI 领域迎来多个重磅事件:OpenAI 与 Broadcom 发布首款 LLM 推理芯片 'Jalapeño',推理吞吐提升 4 倍;Cursor 在 Colossus 上从零训练 1.5 万亿参数前沿模型,应用层公司自研模型趋势加速;Qualcomm 豪掷 140 亿美元收购 Modular 和 Tenstorrent,挑战 NVIDIA CUDA 垄断。同时,NVIDIA 发布 DFlash 投机解码实现 15 倍推理加速,Google 在 Gemini 3.5 Flash 中推出原生 Computer Use 工具,MCP 协议迎来最大结构更新转向 Stateless 设计。Ag
今日 AI 领域迎来多个里程碑:OpenAI 的 GPT-5 破解三年免疫学谜题,展示了从数据分析到假说生成的科学发现能力;Anthropic 发布 Claude Tag,将 AI 深度集成到 Slack 作为团队持久成员,被 Andrej Karpathy 称为 LLM UI/UX 的第三大范式变革。智谱 GLM-5.2 被推为世界顶级开源模型,母公司 Zai IPO 股价 120 港元。同时,Apple 研究揭示 LLM-as-Judge 评估面板存在“统计幻觉”,Sakana Fugu 发布即遭独立测试质疑,引发对基准测试与真实世界鸿沟的讨论。在效率方面,vLLM 集成 DFlash 投
2026-W25 最清晰的叙事线是:开源模型前沿从追赶变为并跑,甚至在某些维度反超闭源。GLM-5.2、DeepSeek-V4、Nemotron 3 Ultra、Ling-2.6 四款模型在本周密集发布,参数规模从 284B 到 1.6T,上下文全部支持 1M token,且均以开源形式提供。社区评测和独立分析表明,这些模型在知识工作、编码、科学推理等任务上已不逊于 GPT-5.5 和 Opus 4.8——甚至更便宜。 第二条主线是 Agent 基础设施从零散工具转向平台化。Amazon Bedrock AgentCore Harness 正式 GA,两个 API 调用即可部署生产级 Agent;Cursor 推出 Git 替代品 Origin 专为 Agent 工作负载设计。与此同时,Agent 评估方法正在经历从聚合排行榜到预测有效性的范式转换——IBM 论文直接质疑静态榜单向部署场景迁移的有效性。 第三条主线是推理效率的微观创新加速。Pine AI 提出可编辑/可组合的 KV 缓存范式,将 p90 TTFT 降低 53-398x;LMSYS 用 SGLang-JAX 在 TPU 上优化 1T 参数 MoE 模型,prefill 减少 53%;Jeff Dean 发布 TPU 从 v2 到 Ironwood 的演进论文,30 倍能效提升。硬件与算法两端的协同正在使 1M token 推理变得经济可行。 此外,监管博弈在本周剧烈升温——Anthropic 限制 Fable 模型的使用条款,美国商务部随后对 Fable 和 Mythos 实施出口许可要求,Andrew Ng 称此举将加速 AI 主权运动。医疗领域也有多项产品级进展,从罕见病诊断到全身体超声 CT。
本周推荐系统研究集中在三个方向:大规模图检索的全生命周期协同设计、基于Transformer的序列建模在多平台落地、以及多任务排序架构从DNN向Transformer native的迁移。Meta、Airbnb、Alibaba、Shopee、NetEase Cloud Music等公司各自发布了线上部署工作,提供具体的AB指标。 主线1(大规模图系统的端到端设计): Meta的RankGraph-2(Meta)将图构建、表示学习、在线服务三个阶段耦合优化,在百亿节点图上计算成本降低83%、召回率是GAT+Deep Graph Infomax的3.8倍、线上CTR+0.96%、CVR+2.75%。同方向,HighLevel的ScoreGate(HighLevel)用双分数统计融合控制RAG检索数量,生产环境减少34.8% token、召回率97.77-99.34%。 主线2(生成式推荐从理论走向生产): Airbnb的JourneyFormer(Airbnb)在搜索排序中部署基于Transformer的序列模型,处理长且稀疏的用户行为;阿里巴巴的OneBar(Alibaba)用端到端生成式框架做视频电商查询推荐,GMV提升21.67%。两篇共同指向——生成式推荐需要在实际约束(冷启动、延迟、标签稀疏)下做工程折中,而非单纯追求离线指标。 主线3(多任务排序的Transformer-native范式): Shopee的OneRank(Shopee)消除编码器-预测器分离,在Transformer内部做任务私有通道和梯度分离,线上CTR+1.2%、CVR+0.8%。网易云音乐的PIANO(NetEase Cloud Music)用可学习[CLS] token实现列表级多目标重排,CTR+0.62%、CVR+4.45%。两者都说明:将多目标推理内化到Transformer堆中比外挂MLP更有效。