AI 技术日报 - 2026-06-26

今日 AI 领域迎来多个里程碑:OpenAI 发布 Agent 经济报告,揭示 Codex 占内部输出 token 的 99.8%,非开发者采用增长 137x;SWE-bench Pro 发布,因旧基准 59.4% 测试用例存在缺陷,Coding Agent 评测标准迎来根本性更新。同时,Sail 获 8000 万美元融资构建长时 Agent 推理基础设施,PimDeWitte 获 3.2 亿美元融资用于世界模型数据采集,标志 Agent 基础设施投资进入爆发期。Notion 集成 Claude 和 Cursor 作为外部 Agent,从生产力工具转型为 AI 编排中枢。

AI 技术日报 - 2026-06-25

今日 AI 领域迎来多个重磅事件:OpenAI 与 Broadcom 发布首款 LLM 推理芯片 'Jalapeño',推理吞吐提升 4 倍;Cursor 在 Colossus 上从零训练 1.5 万亿参数前沿模型,应用层公司自研模型趋势加速;Qualcomm 豪掷 140 亿美元收购 Modular 和 Tenstorrent,挑战 NVIDIA CUDA 垄断。同时,NVIDIA 发布 DFlash 投机解码实现 15 倍推理加速,Google 在 Gemini 3.5 Flash 中推出原生 Computer Use 工具,MCP 协议迎来最大结构更新转向 Stateless 设计。Ag

AI 技术日报 - 2026-06-24

今日 AI 领域迎来多个里程碑:OpenAI 的 GPT-5 破解三年免疫学谜题,展示了从数据分析到假说生成的科学发现能力;Anthropic 发布 Claude Tag,将 AI 深度集成到 Slack 作为团队持久成员,被 Andrej Karpathy 称为 LLM UI/UX 的第三大范式变革。智谱 GLM-5.2 被推为世界顶级开源模型,母公司 Zai IPO 股价 120 港元。同时,Apple 研究揭示 LLM-as-Judge 评估面板存在“统计幻觉”,Sakana Fugu 发布即遭独立测试质疑,引发对基准测试与真实世界鸿沟的讨论。在效率方面,vLLM 集成 DFlash 投

AI 技术日报 - 2026-06-23

今日 AI 领域安全议题占据核心:五眼联盟联合警告 AI 数月内可发动毁灭性网络攻击,OpenAI 发布 GPT-5.5-Cyber 并推出安全修复工具,Latent Space 播客深度探讨 Mythos 时代红队测试。Cursor 宣布与 SpaceX 联合训练新模型,Perplexity CEO 预测多万亿参数开源模型即将到来。技术层面,LMSYS 联合 NVIDIA 用 SGLang 在 GB300 服务 DeepSeek-V4 实现 5 倍吞吐量提升,Amazon 首次公开 30B 模型自主后训练系统。

AI 技术日报 - 2026-06-22

今日 AI 安全领域爆出重大漏洞:AgentJacking 攻击利用公开的 Sentry 密钥即可劫持 Claude Code、Cursor 等编码 Agent,引发 Agent 供应链安全警报。与此同时,Tesla 提交“MEGAPOD”商标,暗示将 Supercharger 网络转化为分布式 AI 计算平台,边缘计算基础设施迎来新思路。宏观层面,AI 巨头因数据中心巨额支出转向债务融资,2026 年资本支出预计达 7500 亿美元,债券市场正成为科技投资者的新关注焦点。

AI 技术日报 - 2026-06-21

今日 AI 领域聚焦于智能体(Agent)的架构设计与落地原则。Google DeepMind 发布 57 页 ASI 路线图,首次正式定义超级人工智能,并指出硅基智能的固有优势。LlamaIndex CEO 提出 Agent 应使用类似 Google Docs 的双向可编辑文档格式,推动人机协作范式演进。HERE 则提出 LLM 空间推理不应近似计算,应完全卸载给专用执行层,为 Agent 与物理世界交互提供了关键设计原则。此外,一篇系统讲解 Triton 矩阵乘实现的教程,为 LLM 推理优化提供了从入门到实战的优质资源。

AI周报 2026-W25

2026-W25 最清晰的叙事线是:开源模型前沿从追赶变为并跑,甚至在某些维度反超闭源。GLM-5.2、DeepSeek-V4、Nemotron 3 Ultra、Ling-2.6 四款模型在本周密集发布,参数规模从 284B 到 1.6T,上下文全部支持 1M token,且均以开源形式提供。社区评测和独立分析表明,这些模型在知识工作、编码、科学推理等任务上已不逊于 GPT-5.5 和 Opus 4.8——甚至更便宜。 第二条主线是 Agent 基础设施从零散工具转向平台化。Amazon Bedrock AgentCore Harness 正式 GA,两个 API 调用即可部署生产级 Agent;Cursor 推出 Git 替代品 Origin 专为 Agent 工作负载设计。与此同时,Agent 评估方法正在经历从聚合排行榜到预测有效性的范式转换——IBM 论文直接质疑静态榜单向部署场景迁移的有效性。 第三条主线是推理效率的微观创新加速。Pine AI 提出可编辑/可组合的 KV 缓存范式,将 p90 TTFT 降低 53-398x;LMSYS 用 SGLang-JAX 在 TPU 上优化 1T 参数 MoE 模型,prefill 减少 53%;Jeff Dean 发布 TPU 从 v2 到 Ironwood 的演进论文,30 倍能效提升。硬件与算法两端的协同正在使 1M token 推理变得经济可行。 此外,监管博弈在本周剧烈升温——Anthropic 限制 Fable 模型的使用条款,美国商务部随后对 Fable 和 Mythos 实施出口许可要求,Andrew Ng 称此举将加速 AI 主权运动。医疗领域也有多项产品级进展,从罕见病诊断到全身体超声 CT。

AI 技术日报 - 2026-06-20

今日 AI 领域迎来多个关键节点:DeepSeek 开源 1.6T 参数的 V4 系列模型,在百万 token 上下文中实现 3.7 倍 FLOPs 降低,多项基准超越 GPT-5.4 和 Claude Opus 4.6。同时,Subquadratic 公司声称突破 Transformer 注意力 O(n²) 瓶颈,获 MIT Tech Review 深度报道,但模型尚未公开引发业界观望。GLM-5.2 获 Jeremy Howard 等社区领袖认可,成为首个在日常使用中接近前沿水平的开源模型。此外,GitHub 分享了内部数据分析 Agent Qubot 的完整构建经验,CMU 的 TheA

AI 技术日报 - 2026-06-19

今日 AI 领域迎来多个里程碑事件:Anthropic 的 Claude Opus 4.7 自主操控机器人速度比人类快 20 倍,标志着 LLM 在物理世界自主性的质变;高通拟 80-100 亿美元收购 Tenstorrent,押注 RISC-V 路线挑战 NVIDIA 推理霸权;Transformer 论文作者之一 Noam Shazeer 加入 OpenAI,Sam Altman 称自 OpenAI 创立之初就希望与其合作。同时,Agent 基础设施全面走向生产级——Amazon Bedrock AgentCore Harness GA、Perplexity 推出 Brain 系统、Kim

AI 技术日报 - 2026-06-18

今日 AI 领域迎来多项重磅动态:Transformer 论文作者之一 Noam Shazeer 离开 Google 加入 OpenAI,标志人才争夺战升级;NVIDIA 与 Inclusion AI 分别开源 550B 和 1T 参数级 Agent 模型,混合架构与推理效率成为焦点;AWS 与 Hugging Face 同日发布 Agent 上下文基础设施(Context 服务与 ARD 协议),Agent 生态从“工具调用”迈向“运行时动态发现”。同时,CMU 挑战 Bitter Lesson 提出 V-pretraining,OpenAI 发布 AI 化学家将药物产率提升 57%,Nat

AI 技术日报 - 2026-06-17

今日 AI 领域迎来历史性并购:SpaceX 以 600 亿美元全股票收购 Cursor,同日 Cursor 发布 Git 替代品 Origin,标志着 AI 编码工具从辅助角色跃升为关键基础设施。模型竞赛白热化:智谱 GLM-5.2 开源 744B 模型登顶智能指数,NVIDIA Nemotron 3 Ultra 以 6 倍推理吞吐引领 Agent 推理,Inclusion AI 发布万亿参数 Ling/Ring 2.6。Agent 安全与效率成焦点:AWS 发布按需安全检测 API,Pine AI 提出可编辑 KV 缓存新范式,Figma 分享 MCP 内部实战案例。

AI 技术日报 - 2026-06-17

今日 AI 领域迎来历史性并购:SpaceX 以 600 亿美元全股票收购 Cursor,成为 2026 年最大创业公司并购案,同日 Cursor 推出 Origin 挑战 GitHub。微软据传正探索用 DeepSeek 替代 OpenAI/Anthropic 以控制 Copilot Cowork 成本,而智谱 GLM-5.2 以 51 分登顶 AI 智能指数,开源 MIT 许可。产业层面,AI 公司 CEO 首次受邀参加 G7 峰会午餐会,标志 AI 正式进入地缘政治核心议程。