AI 技术日报 - 2026-06-25

type

Post

status

Published

date

Jun 25, 2026 04:31

slug

ai-daily-2026-06-25

summary

今日 AI 领域迎来多个重磅事件：OpenAI 与 Broadcom 发布首款 LLM 推理芯片 'Jalapeño'，推理吞吐提升 4 倍；Cursor 在 Colossus 上从零训练 1.5 万亿参数前沿模型，应用层公司自研模型趋势加速；Qualcomm 豪掷 140 亿美元收购 Modular 和 Tenstorrent，挑战 NVIDIA CUDA 垄断。同时，NVIDIA 发布 DFlash 投机解码实现 15 倍推理加速，Google 在 Gemini 3.5 Flash 中推出原生 Computer Use 工具，MCP 协议迎来最大结构更新转向 Stateless 设计。Ag

📊 今日概览

🔥 趋势洞察

AI 芯片竞争白热化：OpenAI 自研推理芯片 'Jalapeño' 发布，Qualcomm 140 亿美元收购 Modular 和 Tenstorrent，AI 基础设施格局正被重塑

应用层公司自研模型：Cursor 在 Colossus 上训练 1.5 万亿参数模型，应用层公司借助超算缩小与专用 AI 实验室的差距

Agent 生态走向生产级：Qwen AgentWorld、Databricks Omnigent、Cursor Notion 集成、MCP Stateless 更新，Agent 从概念验证迈向企业级部署

🐦 X 推文动态

📈 热点与趋势

Qwen发布AgentWorld语言世界模型，可模拟7种环境，性能超Claude Opus 4.8和GPT-5.4 - Qwen（通义千问）开源Qwen-AgentWorld，一个原生语言世界模型，从训练第一天就以环境建模为目标，而非事后适配。它可模拟MCP、Search、Terminal、SWE-bench、Web、OS、Android 7种agent环境。在AgentWorldBench上超越Claude Opus 4.8和GPT-5.4。论文还发现，使用世界模型进行可控模拟强化学习，其效果超过在真实环境中训练。 @Alibaba_Qwen

智谱AI团队携GLM-5.2首次亮相硅谷AI Engineer World's Fair；SakanaAI Fugu-Ultra上线OpenRouter，集体智能部署 - 智谱创始人Louszbd（曹越）称团队首次到访硅谷参加AI Engineer大会。此前GLM-5.2被部分评论者视为世界顶级开源模型。同时，SakanaAI（日本AI实验室）将其Fugu-Ultra部署在OpenRouter平台，理念是“多种最佳模型集体智能”优于单一模型。 @swyx @SakanaAILabs @OpenRouter

Databricks联合创始人谈向企业Agent基础设施层进军，LTAP和Omnigent是核心 - Databricks联合创始人Matei Zaharia和Reynold Xin在Latent Space播客中解释：Databricks正进入企业agent基础设施层，Omnigent为编码agent和定制agent构建共享harness，LTAP和Lakebase重新拆分操作和数据库工作负载，agent安全需要情境策略和消费控制。 @latentspacepod

🔧 工具与产品

Cursor支持从Notion直接委托任务，基于Cursor SDK - Cursor（AI编程IDE）推出的Notion集成允许用户在Notion中@Cursor，将任何spec或任务分配给Cursor，由同一套模型、harness和运行时驱动的云agent自动打开PR。 @cursor_ai

MiniMax M3成为Kimchi Coding默认构建模型，支持1M上下文 - Kimchi Coding（由Cast AI推出的编码平台）将MiniMax M3（开源模型，1M上下文窗口，强编码能力）作为默认builder模型，根据复杂度、成本和部署需求路由任务。 @MiniMax_AI

Kimi API上线AWS Marketplace，支持统一账单和EDP抵扣 - Kimi（月之暗面旗下AI助手）的API现在AWS Marketplace可直接访问，AWS客户可使用consolidated billing，符合条件的客户可将Kimi API使用量直接抵扣AWS EDP承诺。 @Kimi_Moonshot

Weaviate推出Engram，主动协调Agent记忆，避免矛盾事实 - Weaviate（开源向量数据库）发布Engram记忆管理工具。当新信息到达时（如用户从工程师升任CEO），Engram主动检索相关记忆，用LLM决定是重写旧记忆还是删除重复，保持agent上下文干净。 @weaviate_io

Supabase与Okta合作Cross App Access，为AI Agent提供安全数据访问 - Supabase（开源后端即服务平台）成为首批支持Okta Cross App Access（XAA）的提供商之一。XAA帮助团队给AI agent安全、受控的数据访问，无需静态API密钥或一次性认证流程。 @supabase

Modal推出Auto Endpoints，推理延迟比最佳供应商快60ms - Modal（serverless GPU平台）发布Auto Endpoints，提供“一键式”开源推理性能。与DecagonAI合作开发低延迟推理方案，端到端响应比最佳专有供应商快60ms。 @modal

⚙️ 技术实践

Mistral OCR在ParseBench上性价比领先GPT-5.5，图表注释后接近Gemini 3.1 Pro - Jerry Liu（LlamaIndex创始人）发布ParseBench基准测试结果：Mistral OCR在语义格式化（删除线、上标/下标、标题层级、链接）上领先，内容忠实度和视觉边界框有竞争力，表格能力一般，图表能力弱。但不使用图表注释时总分位于GPT-5.5之前、Gemini 3.1 Pro之后。使用图表标注功能后，图表评分提升，整体接近Gemini 3.1 Pro。 @jerryjliu0 @jerryjliu0

百度开源Unlimited OCR：3B参数/500M激活，一次处理40+页 - 百度发布Unlimited OCR，关键技术是Reference Sliding Window Attention（R-SWA），保持KV缓存大小恒定，降低注意力开销。总参数量3B，激活量仅500M，可在单次前向传递中转录40+页文档，在OmniDocBench v1.5和v1.6上达到端到端SOTA。 @BaiduAI_News

社区开发者用MiniMax M3 + Opencode构建人形机器人目录，边学边建 - 一位用户（whosamberella）使用MiniMax M3研究人形机器人领域，然后用其直接编写代码在Opencode中构建了一个机器人目录网站，包含每种机器人的独特特征说明，用SVG原型展示。 @MiniMax_AI @whosamberella

Jo Kristian Bergum（Vespa CTO）将演讲BM25在agentic search中的新价值；Yoav推出Agent上下文结构描述语言 - Bergum将在AI Engineer World's Fair发表演讲"BM25 for agentic search"，认为GPT-5在搜索上极强，改变了BM25作为基线的叙事。同时，yoavgo（独立AI开发者）和noga2p推出一门新语言，用于精确描述agent上下文的结构和演化过程，提升编程agent对自身上下文的认知清晰度。 @jobergum @yoavgo

⭐ 精选内容

OpenAI 与 Broadcom 发布首款 LLM 推理芯片 'Jalapeño' ｜自研芯片标志 AI 基础设施竞争进入新阶段

OpenAI 与 Broadcom 联合发布首款专为 LLM 推理优化的定制芯片 'Jalapeño'，针对 Transformer 架构的注意力机制和前馈网络进行硬件级优化，宣称推理吞吐量比通用 GPU 提升 4 倍，能效比提升 5 倍。文章详细介绍了芯片架构设计、合作模式及长期战略。这是 OpenAI 从依赖外部硬件到自研芯片的关键转折，可能重塑 AI 基础设施格局，对关注推理成本和部署效率的从业者意义重大。

来源：OpenAI

Cursor 在 Colossus 上从零训练 1.5 万亿参数前沿模型 ｜应用层公司自研模型，缩小与专用 AI 实验室差距

Cursor 在 Compile 大会上宣布，正在 xAI 的 Colossus 集群上从零训练一个 1.5 万亿参数的前沿模型，预计数周内交付。这是 Cursor 首次放弃开源基座（此前基于 Kimi K2.5），完全自建训练管线，使用超过 10 万块 NVIDIA GPU。此举将 Cursor 从 API 转售商转变为模型拥有者，从根本上改变成本结构，也表明应用层公司借助超算与专用 AI 实验室的差距正在缩小。

来源：TechTimes

Qualcomm 豪掷 140 亿美元收购 Modular 和 Tenstorrent，挑战 NVIDIA CUDA 垄断 ｜开放硬件 + 开放编译器双管齐下

Qualcomm 在 Investor Day 宣布以约 39 亿美元收购 AI 编译器初创公司 Modular（Mojo 语言/MAX 引擎），同时传闻以 80-100 亿美元收购 RISC-V AI 芯片公司 Tenstorrent（Jim Keller 领导）。两笔交易合计超 140 亿美元，旨在通过开放硬件（RISC-V）和开放编译器（替代 CUDA）打破 NVIDIA 的 AI 垄断。文章详细分析了 NVIDIA 的 CUDA 生态锁死效应，以及 Qualcomm 为何需要同时拿下芯片和编译器才能挑战成功。

来源：TechTimes

NVIDIA 发布 DFlash 投机解码：Blackwell 上推理吞吐最高提升 15 倍 ｜已开源并集成 vLLM、SGLang、TensorRT-LLM

NVIDIA 发布 DFlash，一种基于块扩散模型的投机解码方法，在 Blackwell GPU 上实现最高 15x 推理吞吐提升。相比 EAGLE-3，DFlash 在 Llama 3.1 8B 上几乎翻倍交互性，在 Gemma 4 31B 和 Qwen3 8B 上分别加速 5.8x 和 5.1x。已开源并集成到 vLLM、SGLang、TensorRT-LLM，提供 20 个 Hugging Face 检查点。对于关注 LLM 推理优化的从业者，这是可直接落地的实用技术。

来源：NVIDIA

Google 在 Gemini 3.5 Flash 中推出原生 Computer Use 工具 ｜继 Anthropic 之后主流模型原生支持 GUI 自动化

Google 在 Gemini 3.5 Flash 中正式推出内置的 computer use 工具，允许模型直接操控浏览器、桌面应用等图形界面，支持截图、点击、输入等操作，并具备安全护栏。该功能通过 API 暴露，开发者可立即使用构建自动化工作流。这是继 Anthropic Computer Use 之后又一主流模型原生支持 GUI 自动化，对 Agent 开发者极具实操价值。

来源：Google Blog ｜ DeepMind Blog

MCP 协议迎来最大结构更新：转向 Stateless 设计 ｜ 2026-07-28 RC 版本移除握手和会话 ID，简化水平扩展

MCP 协议迎来最大结构更新：2026-07-28 RC 版本将核心改为 stateless，移除 initialize 握手和 Session-ID，每个请求 self-contained。文章通过前后对比和手造 HTTP 请求示例，清晰展示了 stateless 如何简化水平扩展（无需 sticky routing 或共享 session store），并解释了显式 State Handle 模式（如 basket_id）替代隐式会话。对于构建 MCP 服务或客户端的开发者，这是必须跟进的关键变化。

来源：mayflower.blog

Google 研究揭示推理如何解锁 LLM 参数化知识 ｜推理链不仅提升复杂任务，还能增强事实回忆

Google Research 通过实验揭示推理（reasoning）不仅能提升复杂任务表现，还能显著增强 LLM 从参数化记忆中召回事实知识的能力。文章展示了推理链（CoT）如何激活模型内部知识，尤其是在需要精确回忆的场景下（如事实问答），效果优于直接回答。提供了定量结果和可视化分析，为理解推理机制提供了新视角——推理不仅用于复杂任务，还能提升事实回忆，这一反直觉发现值得关注。

来源：Google Research

NVIDIA NeMo AutoModel 实现 MoE 微调 3.4-3.7x 加速 ｜基于 Transformers v5，一行代码切换

NVIDIA NeMo AutoModel 基于 Transformers v5 的 MoE 基础，通过 Expert Parallelism、DeepEP 融合 all-to-all 调度和 TransformerEngine 内核，在 MoE 模型微调中实现 3.4-3.7x 训练吞吐提升和 29-32% 显存节省，且 API 兼容 from_pretrained()，仅需一行代码切换。博客包含多节点 550B 和单节点 30B 模型的性能对比，并解释了加速来源，对需要高效微调 MoE 模型的从业者极具参考价值。

来源：Hugging Face

🎙️ 播客精选

Why the Frontier Ecosystem must be Open — Matei Zaharia and Reynold Xin, Databricks

📍 来源：Latent Space | ⭐ ⭐⭐⭐⭐⭐ | 🏷️ LLM, Agent, Infra | ⏱️ 1:08:52

Databricks联合创始人Matei Zaharia和Reynold Xin在2026年Data+AI峰会上与swyx深度对话。他们介绍了Omnigent——一个开源元框架，用于组合、控制和共享Claude Code、Codex、Cursor等编码代理和企业代理，解决可移植性、会话历史、安全性和成本控制等共性问题。Reynold阐述了数据库愿景：LTAP（日志时间分析处理）通过统一存储层而非合并查询引擎来获得HTAP的大部分优势，并批评CDC为“连续数据损坏”。他们还讨论了Databricks从湖仓一体向数据与AI操作系统的演进，强调在AI代理时代，专有数据、治理访问和反馈循环将成为持久优势。

💡 推荐理由： 重量级嘉宾深度访谈，Databricks联合创始人讨论Omnigent、LTAP等前沿技术，对Agent时代数据架构有独到见解，信息密度极高。

📄 今日论文精选

Reinforcement Learning Towards Broadly and Persistently Beneficial Models

OpenAI ｜ 🏷️ Fine-tuning, RLHF/DPO, Safety

OpenAI 提出 beneficial trait RL，在健康、科学等真实领域训练模型的有益行为，在超过 80% 的 OOD 对齐基准上表现提升，且能抵抗对抗性提示和有害微调，为 RL 对齐泛化提供了可复用的工程方案。

Beyond Trajectory Imitation: Strategy-Guided Policy Optimization for LLM Reasoning

Meta AI ｜ 🏷️ Fine-tuning, Reasoning, Distillation

提出策略引导策略优化（SGPO），用可复用的策略蒸馏替代实例级轨迹模仿，在四个数学基准上平均提升 2.2 分，为推理能力蒸馏提供了更高效的新范式。

RIFT-Bench: Dynamic Red-teaming For Agentic AI Systems

Fujitsu Research of Europe ｜ 🏷️ Agent Framework, Safety, Multi-Agent

提出图表示驱动的动态红队方法 RIFT-Bench，在 45 个异构 agent 系统上实现统一安全评估，支持自适应攻击和缓解策略测试，为 Agent 安全评估提供了可扩展的基础设施。

🐙 GitHub 热门项目

DFlash ｜ Blackwell GPU 上 15 倍推理加速

NVIDIA 开源的基于块扩散模型的投机解码方法，在 Blackwell GPU 上实现最高 15x 推理吞吐提升，已集成 vLLM、SGLang、TensorRT-LLM，提供 20 个 Hugging Face 检查点，是可直接落地的推理优化利器。

GitHub ｜ ⭐ 待统计｜ 🗣️ Python ｜ 🏷️ Inference, Speculative Decoding, LLM