周报

技术趋势

W20 的叙事主线可以概括为：编码 Agent 工具链正在完成从“功能补全”到“平台级操作系统”的跃迁——OpenAI 对 Codex 的沙箱、移动端、hooks 三层能力的集中发布，叠加 Anthropic 官方技能仓库和社区《everything-claude-code》等基础设施的成熟，让编码 Agent 不再是 IDE 里的一个面板，而是一整套可远程调度、可定制、可审计的异步工作系统。与此同时，推理基础设施的竞争焦点也从“训练更大模型”转向“更高效地运行这些模型”——Nous 的 Token Superposition Training 带来 2-3x 训练加速，Perplexity 在 GB200 上优化 Qwen3 MoE 推理吞吐，SemiAnalysis 报告 SGLang 在 DeepSeek V4 上实现 4x 交互吞吐提升——这三个事件共同指向一个信号：模型能力的瓶颈正在从训练侧向 serving 侧迁移。第二个值得关注的线索是Agent 安全与评估从“最佳实践”走向“系统化治理”。AWS 与 Cisco 联合发布的 AI Registry 试图为 MCP/A2A 代理建立统一可见性与自动化安全扫描层；Simons 的工业论文将制造领域工具调用的幻觉率从 43% 降到 0%；12 指标评估框架基于 100+ 真实部署提炼出了可复用的生产级评估体系。这三个条目分别覆盖了工具注册、领域约束、评估方法论三个维度，说明企业级 Agent 不再只是“会不会跑”的问题，而是“跑得安不安全、有没有被审计”。第三个线索在产业经济层面：Cerebras IPO 20x 超募、Anthropic 讨论 300 亿美元融资、OpenAI 重新谈判微软协议节省 970 亿美元长期支出——这些数字背后是 AI 基础设施投入从“资本赌注”向“可量化资产”的转变。Epoch AI 报告一个 1GW AI 数据中心的总持有成本为 380 亿美元，其中服务器占比 60%，这为所有地缘政治叙事提供了一个具体的成本锚点。

文章详情

推荐系统

周报

论文

本周 22 篇论文里能看出两条主线：生成式推荐继续在 Semantic ID 这一层做深耕，检索 / agentic search 这条线则在重写检索接口本身。另有三篇围绕 RAG 工程化（合成表格扩散、自动化 RAG 管线、生产级数据层），列入论文速览的"其他"部分。生成式推荐侧四篇论文把更多结构化信号——商业价值、地理坐标、协同信号、长尾边界——直接压进 Semantic ID 这一层。腾讯（微信视频号广告）的 UniVA 做到 SID/decoding/serving 三段同时注入 eCPM 信号，离线 Hit Rate@100 +37.04%、线上 A/B GMV +1.5%；UCSD × Snap 的 Latte 从理论上证明自回归 SID 解码树会把语义近的 item 强行拉到一起，再给出在 token 前缀挂 latent 的低成本修补，NDCG@10 +3.45%。检索侧的故事更激进。一周之内出现三种"重写检索接口"的反命题：Meta Superintelligence Labs 的 SIRA 把多轮 agent 探索压成一次 LLM-corpus 双向扩展的 BM25；Texas A&M / Stanford / UWashington 等 19 作者的 DCI 直接删掉 retriever，让 Claude Sonnet 4.6 用 grep + bash 在原始语料上调查（BrowseComp-Plus accuracy 从 69.0% 升到 80.0%、API 成本降 29.4%）；UC Berkeley 的 T3 把 RAG 的"corpus"从文档换成 LLM 思维轨迹，AIME 上给 Gemini-2.5-Flash 注水 +56.3%。MIT 同期放出 OBLIQ-Bench，把"为什么必须改接口"这件事量化——传统 BM25 / dense / late interaction 在隐含意图查询上几乎全部接近 0 NDCG@10。工业精排和召回侧维持"先拆瓶颈、再谈结构"的节奏。Meta Ads 的 IEFF 把特征下线从 3-6 个月重训压到不需重训，效率类 rollout 提速 5×；阿里淘天的 RecGPT-Mobile 把 next-query LLM 搬到手机端；中科大 × 美团的 DynamicPO 揭示多负样本 DPO 的"偏好优化坍塌"现象并给出梯度抑制的理论解释。整体趋势是：算法侧追求"动态自适应目标"，工程侧追求"可回滚的弹性接口"。

文章详情

周报

技术趋势

本周 AI 行业的核心叙事线在三个层面同时收紧。最显眼的是 Anthropic 的 Code with Claude 2026 大会——Claude Managed Agents 同日发布 Outcomes、多 Agent 编排、Dreaming（夜间自我改进）和桌面 Claude Code，配合 SpaceX Colossus $5B/年算力交易和让 Mozilla 单月修复 423 个 Firefox 漏洞的 Claude Mythos 预览，把 Agent 从"一次性脚本"完整推进到"持续运营单元"。紧贴这条产品线的是研究和工程层面的 Agent Harness Engineering 浪潮。复旦/北大的 AHE 论文、Microsoft 的 Terminus-4B 小模型 subagent、GitHub 自家的 token 审计工作流、Cursor 的 /orchestrate 与 Command Code 的 plumbing 经验，从同一周的不同角度证明：harness 与上下文工程已经成为比模型本身更值得投入的赛道。配合 vLLM × Mooncake 把 KV cache 命中率从 1.7% 拉到 92.2%、Insforge 让 Claude Code 节省 3x token 等具体数字，"先看 harness 还有多少没榨干"正在替代"换更强模型"成为默认动作。第三条线是基础设施。推理 token 价格一年降 100x，但 hyperscaler 总账单也涨 100x——Jevons paradox 在万亿美元尺度重演。DeepSeek 自报 agentic workload 的 98.7% KV cache 命中率，OpenAI 联合五家硬件厂商发布 MRC 网络协议，Perplexity 自研 ROSE 引擎，NVIDIA 开源 TokenSpeed，再加上 Meta FAIR 的 Compute Optimal Tokenization、Snowflake 的 ZeRO-Prefill、Sakana × NVIDIA 的 TwELL 稀疏格式——整个产业第一次在同一时段集中地把 KV cache、内存层级和网络 fabric 摆到了 GPU FLOPS 之上。

文章详情

周报

技术趋势

如果要为 2026 年第 18 周挑一句话作为总结，那是：模型差距在收敛，能力差距却在扩大，差距的来源已经从"prompt 怎么写"转移到"模型外那一层怎么搭"。Codex 一周之内完成从编码 Agent 到通用工作平台的跃迁、Karpathy 在 Sequoia Ascent 给 Software 3.0 提供哲学锚点、Lin et al. 用 AHE 论文给"harness engineering"正式命名，三件事在同一周共振；Anthropic 把 Claude Code 企业日均成本估算从 $6 翻倍到 $13、GitHub Copilot 切换到 usage-based 计费，则在定价端反向印证 harness 已经成为主要成本中心。研究界并不甘只做产品的注脚——RecursiveMAS 把多 Agent 通讯从文本传递推到潜在空间递归，Berkeley GEPA 让 reflection LLM 读完整 rollout 重写 prompt 击败 GRPO 10 个百分点，Apple 与 Oracle 各自给多 Agent 系统装上可信度量，HiddenBench 在 ICML 2026 揭穿前沿模型在分布式任务上 70% 的失败率。同期，Latent Space、HuggingFace、Stratechery 三方信号汇聚成一条共识：训练算力之后，推理与评估正成为下一道结构性瓶颈，Meituan、NVIDIA、Salesforce、Amazon、Hippocratic AI、Meta 同周交出六篇推理优化论文，Anthropic 的成本翻倍则是给这场"inference inflection"贴上的价签。 OpenAI 与微软七年合作关系正式松绑，AWS Bedrock Managed Agents 同步登场，多云时代被合同条款写死；NVIDIA、OpenBMB、智谱、Oracle 在多模态 Agent 模型这条线一周齐发四枪；ZenBrain、AgentCore、ObjectGraph、Synthetic Computers 把 Agent 持久记忆问题摆上学术台面；Computer Use 借助 DeepSeek 的视觉接地、Browser Use Box 与 Cua 的沙箱基础设施，从 demo 走向工程化基础设施。这是一周里五条主线同时发声的少数时刻。

文章详情

周报

技术趋势

2026-W17 的叙事可以用一句话概括：模型之间的表现差距在缩小，但生态壁垒在迅速升高。GPT-5.5 和 DeepSeek V4 在同周发布，但两者的竞争已不只在 benchmark 分数——OpenAI 用 Codex 编织了一个从模型到代理框架到应用层的一体化网络，而 DeepSeek 则用开源权重 + 1/10 价格策略 + 华为 Ascend 兼容，继续施加结构性压力。另两条线索值得注意：一是编码 Agent 工具层正在成型——Claude Code 的 bug 复盘、OpenClaude 的多模型替代、Context Mode 的上下文优化，标志着行业从“能跑就行”进入“跑得好、跑得省”阶段；二是Agent 评估与安全开始获得严肃关注，微软的 DELEGATE-52 基准显示前沿模型在长文档编辑场景下平均损坏 25% 内容，IBM 的 DIVERT 框架则探索了更高效的用户模拟评估方法——这些信号表明，Agent 落地已从“能不能做”转入“怎么信任”。

文章详情

周报

技术趋势

W16 把 AI 行业三条结构性主线第一次压到同一周。第一条是 Agent 交付形态——OpenAI 4 月 16 日让 Codex 桌面化（Mac Computer Use、90+ 插件、跨任务记忆），几乎与 Anthropic Opus 4.7 + /ultrareview 前后脚落地，"写代码的 AI"与"用电脑的 AI"合流到操作系统层。第二条是 Agent 记忆工程全面爆发：Microsoft MEMENTO 把推理中间态压缩成可寻址 memento，累计 6 万星的 claude-mem、1.6 万星的 cognee、1 万星的 omi 同时发力，Percy Liang 把 "Act II = personalized assistant with memory" 写进行业宣言。第三条是 RL 后训练系统的基础设施化——Rednote AI、Morgan Stanley、Shanghai AI Lab、Sakana AI、NVIDIA 同周抛出 Relax、AlphaLab、TREX、MARS²、AC/DC、Lightning OPD，把"怎么自动化地让 LLM 变强"抬升到多智能体协同科研堆栈。围绕这三条主线，还有 Agent 治理、软件工厂、本地推理、算力经济学四条支流各自显形；自动化能力继续沉淀为系统工程的同时，算力稀缺与治理复杂度也开始同步抬头。

文章详情

周报

技术趋势

如果用一个词概括本周 AI 领域，那就是"工程化"。编码智能体领域经历了一次集体觉醒——从内部架构的公开解剖到工程方法论的成文，从生态工具链的爆发到模型层的激烈追赶，Coding Agent 正式进入系统化工程学科的阶段。与此同时，Agent 记忆系统的讨论从 Karpathy 的个人 Wiki 实验出发，在学术界和开源社区引发连锁反应，"Agent 该如何持久化知识"成为本周最具思想碰撞的话题。在基础设施层，三个方向同步推进：Meta/NVIDIA/上海 AI 实验室展示了 Agent 自动优化 GPU 内核的能力；Gemma 4 发布与预训练科学研究推动开放模型生态进入新竞争阶段；AWS、IBM、UK AISI 等机构密集发表 Agent 可靠性评估工作。多智能体系统在制造（Bosch）、医疗编码（Corti）和企业合规（FAOS）等场景的生产级部署案例也集中浮现。

文章详情

周报

技术趋势

如果要用一个词概括 2026-W12 的 AI 领域，那就是"基础设施"——不是模型本身，而是让模型在真实世界中运转起来的一切。Simon Willison 将过去一年间散落的 Agent 工程经验凝结为一套完整的模式指南，Stratechery 宣称 Agent 是大语言模型的第三个范式转折点，OpenAI 十天内连续收购 Promptfoo 和 Astral 补齐编码 Agent 的环境管理短板，Stripe 推出机器支付协议 MPP 让 Agent 可以自主花钱——整个行业正在从"Agent 能做什么"快速切换到"Agent 如何在生产环境中可靠、安全、经济地运行"。模型层面同样以"适配 Agent"为主旋律。OpenAI 的 GPT-5.4 mini/nano 不是旗舰的缩小版，而是从一开始就按"被调用"来设计的子代理模型；MiniMax M2.7 以 GLM-5 三分之一的成本达到同等性能；Mamba-3 从 SSM 架构层面为高并发 Agent 场景铺设基础。竞争维度正从"谁最聪明"转向"谁最适合被编排"。与此同时，Meta 的 Ranking Engineer Agent 交出了模型准确率翻倍的成绩单，但同一周 Meta 也遭遇了 Sev 1 级别的 Agent 数据泄露事件。ServiceNow 的企业级 Agent 基准显示，当前最强模型在仿真企业环境中的成功率仅 37.4%。产出与风险并存，这正是 Agentic Engineering 当前最真实的写照。

文章详情

周报

技术趋势

本周 AI 行业经历了一场罕见的多线程冲击。2 月 27 日，五角大楼在同一天内完成了两个截然相反的动作：与 OpenAI 签署机密网络部署协议，同时将 Anthropic 列为"国家安全供应链风险"——尽管两家公司在自主武器和大规模监控问题上持有几乎完全相同的限制条款。国防部副部长 Emil Michael 在社交媒体上公开称 Dario Amodei 是"说谎者"和拥有"上帝情结"的人，超过 300 名 Google 和 60 名 OpenAI 员工随即签署联名信支持 Anthropic 的立场。这场冲突的本质已超越技术评估，成为一面映照 AI 治理政治化的棱镜。与五角大楼事件同步发酵的，是 Anthropic 公开指控 DeepSeek、月之暗面和 MiniMax 通过"水螅集群"（hydra cluster）架构——单个代理网络管理超过 2 万个虚假账户——发起 1600 万次系统性蒸馏查询。Google 威胁情报团队也披露了 Gemini 遭受超过 10 万次模型提取攻击的数据。这些事件共同标志着中美 AI 竞争正从模型能力赛道滑入数据对抗与知识产权攻防的新阶段。技术侧同样密集。OpenAI 宣布退役 SWE-Bench Verified，承认 59.4% 的任务存在根本性缺陷；智谱 AI 的 GLM-5 展示了完全在华为昇腾 910B 上训练的 744B MoE 模型；GitHub Trending 被 Agent 框架占据的同时，OpenClaw 连续爆出删除 Meta AI 安全总监邮件、遭 Google 封号等安全事故。Andrej Karpathy 发推称"编程已变得面目全非"，而 Block 裁员 40% 后股价上涨 24%、IBM 因 COBOL 威胁单日蒸发 310 亿美元——资本市场正在以真金白银为 AI 替代效应定价。

文章详情

周报

技术趋势

本周 AI 领域最突出的特征是一种"同步加速"：资本、模型、基础设施和研究同时进入新的量级。OpenAI 宣布了史上最大规模的 1100 亿美元融资，NVIDIA 以 300 亿美元直接入股，Anthropic 刚刚完成 300 亿美元 G 轮——三天内流入 AI 头部公司的资本超过 1400 亿美元。与此同时，Qwen3.5-397B、Claude Sonnet 4.6、Gemini 3.1 Pro 三款旗舰模型在同一周内发布，形成了一场罕见的三方对决。但真正值得关注的变化发生在水面之下。微软、Cloudflare、GitHub、HuggingFace 在同一周内集中发布 Agent 基础设施框架，标志着行业重心正从"更强的模型"转向"更可靠的 Agent 系统"。与此形成尖锐对照的是，五篇安全研究论文从几何、结构、模态三个维度共同揭示了当前 LLM 安全对齐的根本性脆弱。在 Agent 即将大规模部署的节点上，这一矛盾格外刺眼。

本周 32 篇论文里有几条主线在同时推进。一是生成式推荐范式继续在工业链路里深挖——快手一家就贡献三篇，从 list-wise 重排到召回-排序统一再到 codebook 自适应，配合美团/英伟达的 KV cache serving 和华为的 RL 信号修复，把"生成式推荐能用，但 serving、RL、inference 顶不住"这条线一次性补齐。二是 LLM 推荐器的训练目标被拆开重做——Google 在 H-consistency 框架下证明 DPO 标准代理损失不一致并提出 SA-DPO，Meta 证明 GRPO+二元奖励等价于 AUC 优化并提出 Windowed Partial AUC，配合美团的潜在推理多因子分解和稀疏场景下"对齐够不够"的争论，质疑了"一个对齐目标走到底"的主流做法。三是 LLM 智能体在推荐系统的角色边界正在收敛——LinkedIn 的 schema-aligned 长期语义记忆、AgenticRecTune 的多智能体配置调优、Snap 的端到端趋势检测，三个工业落地都把 LLM 放在配置/记忆/趋势这类延迟不敏感、语义价值高的位置上，绕开了精排召回的实时性瓶颈。基础设施侧 Meta 同时放出两篇系统论文——一篇 versioned late materialization 砍训练数据冗余，一篇 FreeScale 砍 256 卡分布式的计算气泡，明确支撑 HSTU/ULTRA-HSTU 的序列长度激进 scaling。LLM-检索-重排链路上则形成明显的"压缩派"共识：ResRank 把 passage 压成单 token、UAE 把 utility 信号蒸馏进 embedding、RRK 用多 token 压缩，统一指向"把推理预算从过 LLM 生成压到过一次相似度"。

工业 backbone 的 scaling 主线进入分化期。本周三篇工业重磅都不再纠结"堆参数"，而是从不同侧面回答"参数堆到一定规模后，下一个瓶颈在哪里"：腾讯 RankUp 把"表示有效秩坍缩"作为一阶问题攻；阿里 LoopCTR 把训练算力和参数量解耦——共享层递归循环吃训练算力，推理时零循环；美团 SIF 把 token 化粒度从 item 上移到 sample 级，绕开序列与非序列特征的结构异构鸿沟。三家三种解法，但共同前提一致——serving 成本不可破，加法都加在训练侧或表示侧。 LLM 接精排的初期收益期在收尾，进入分层精修阶段。阿里 MARC 给出"中层表示更优（MRA）"的反直觉观察，并把 LLM 显式拆成"表示学习 + 压缩 + 任务适配"三模块；华东师大 TF-LLMER 从优化曲率切入，定位 LLM 表示与协同 embedding 之间的范数差异和聚类角度错位是训练损失下不去的根因，并在实验中把 Yelp 训练损失约降低 30%；LLMAR 走完全免调优路线，把 nDCG@10 在工业 B2B 稀疏场景拉高 54.6%、每千用户推理成本 $1。理论上要解释训练为何不收敛，工程上要回答缓存哪一层、调不调，部署上要算清每千用户多少钱——三类问题都有了具体答案。生成式与长序列推荐补足理论债，并开始挑战"候选无关用户表示"假设。快手对生成式推荐核心训练目标做了形式化证明——k-token AR-NTP 与全词表 MLE 在 item ↔ k-Token 双射下严格等价，OneRec 那条流水线的损失函数选择第一次有了理论锚点。Meta 的 Mixture of Sequence 用主题感知 MoE 把长序列按主题拆成子序列，挑战的是"先压缩再打分"的传统思路；CaST-POI 则把候选当 query 去 attend 用户历史，跳出了"候选无关用户表示"的隐含假设——两条路线都在重写序列读取方式。

文章详情

1 2 3