AI 技术日报 - 2026-05-28

type

Post

status

Published

date

May 28, 2026 04:30

slug

ai-daily-2026-05-28

summary

今日 AI 领域资本与技术创新双线爆发：Cognition 以 260 亿美元估值完成 10 亿美元融资，Fireworks AI 同步冲刺 150 亿美元估值，AI 编程与推理基础设施赛道热度空前。技术层面，MiniMax 发布 M2.5 模型在 SWE-Bench 达 80.2%，同时开源 M2 技术报告揭示全注意力与 128 专家 MoE 的设计哲学；Hugging Face 实现 Delta Weight Sync 将异步 RL 训练带宽降低 97%，NVIDIA 推出 Polar 框架对 Agent 工具进行 GRPO 训练。此外，ESMFold2 用 LLM 方法在蛋白质折叠领域超

📊 今日概览

🔥 趋势洞察

AI 编程赛道资本狂潮：Cognition 以 260 亿美元估值融资 10 亿美元，Fireworks AI 冲刺 150 亿美元估值，市场对 AI 编程工具和推理基础设施的资本热度达到新高度

Agent 训练基础设施成熟化：NVIDIA Polar 框架实现无需修改 harness 的 GRPO 训练，Hugging Face Delta Weight Sync 降低 97% 带宽，MiniMax Forge 系统支持自进化，Agent 训练正从手工调参走向系统化工程

LLM 方法跨界超越专用模型：ESMFold2 用 BERT-like transformer 在蛋白质折叠上超越 AlphaFold3，体现通用语言模型方法在科学领域击败专用模型的“苦涩教训”

🐦 X 推文动态

📈 热点与趋势

Cognition AI 以 $26B 估值融资 $1B，年收入达 $492M，企业用户增长 10x – 联合创始人称 Devin 推出两年后 cloud agents 已从利基走向主流，客户包括数十家大型企业。Cognition 现为全球最大独立 agent 实验室。 @cognition（Cognition AI（Devin 开发公司）） | @swyx

MiniMax 宣布 M2 系列结束，M3 即将发布 – 同时发布 M2 技术报告（arXiv），核心设计：坚持全注意力（拒绝混合滑动窗口）、128 专家 MoE（top-8 路由在 2B 活跃参数上 MATH 从 19.6→24.1）、为 agent 行为训练的精心 pipeline（GitHub PR 挖掘、Docker 环境、任务测试奖励）、自进化（M2.7 处理 30-50% 每日 RL 迭代，100 轮 scaffold 优化提升内部评测 30%）。 @MiniMax_AI | @rasbt（AI 研究员/作者）

台湾首次公开打击疑似 NVIDIA AI 芯片经日本走私至中国；Elon Musk 称美国需自造芯片以保 AI 优势 – Musk 表示近期美国 AI 领先，但芯片制造地缘决定长期胜负，当前 100% 先进 fabs 在台湾，若大陆入侵将切断全球供应。 @unusual_whales（独立财经媒体） | @Vivek4real_（独立博主）

🔧 工具与产品

SGLang v0.5.12.post1 发布：修复 DeepSeek V4 乱码、NIXL PD 崩溃、Blackwell FA4 兼容 – 12 个 cherry-pick 补丁，包括修复 V4-Pro 单 token 解码乱码、EAGLE 解构崩溃、HiSparse+Compressor V2 精度从 0.825 恢复至 0.960（GSM8K），消除 DeepSeek V4 20-40 秒冷桶停顿等。 @lmsysorg

LiteParse v2：Rust 重写 PDF 解析器，速度提升 100 倍，支持 50+ 文档类型 – Jerry Liu（LlamaIndex 创始人）发布，原生安装于 Python、Node、Rust 和 WASM，浏览器/边缘运行时可用。 @jerryjliu0

Perplexity 开源 colbert 模型（PPLX 0.6B） – 支持单向量（pplx-emb）和多向量（pplx-late）交互，可直接对比多向量交互带来的检索增益。 @lateinteraction（斯坦福助理教授）

Robinhood 推出 AI 代理交易账户 – CEO Vlad Tenev（Robinhood CEO）宣布，AI agent 可连接账户执行交易与组合管理。 @vladtenev

Hermes Agent 新增内置 MCP Catalog 并集成 Krea 2 图像生成 API – Krea 2 为全新基础模型，支持风格迁移、情绪板输入和创意控制。 @NousResearch | @NousResearch

OpenAI 宣布私有 MCP 服务器可通过出站 HTTPS 与 ChatGPT/Codex 连接 – 企业可在内部网络保留 MCP 服务器，无需开放入站端口。 @OpenAIDevs

⚙️ 技术实践

MiniMax M2 技术报告深度解读 – Sebastian Raschka（AI 研究员/作者）总结：生产质量权衡不支持混合窗口；线性/稀疏注意力在低精度KV时脆弱且前缀缓存支持差；128 专家 top-8 路由优于 32 专家 top-2；M2.7 已自处理 30-50% 每日 RL 迭代。 @rasbt

Sakana AI 发布 DiffusionBlocks：逐块训练深度网络，显存降至单块级别 – ICLR 2026 论文，将网络前向视为扩散去噪过程。在 ViT、DiT、自回归 Transformer、循环深度 Transformer 上性能媲美端到端训练。 @SakanaAILabs | @hardmaru（Sakana AI 研究负责人）

Qwen3.5 在 TokenSpeed 引擎上实现 580 tps 代理推理性能 – 阿里 Qwen 团队、Lightseek OS 基金会、NVIDIA、Mooncake 团队联合实现，特别感谢 Tri Dao（FlashAttention 作者 / Together AI 首席科学家）的 FlashAttention-4 优化。 @Alibaba_Qwen

Genesis AI 开源 World 1.0 仿真平台：启动快 10 倍，运行快 4.6 倍 – 包含 GPU 加速编译器 Quadrants、穿透自由多物理接触求解器、物理 AI 渲染器 Nyx，支持多种机器人本体（Unitree、灵巧手等），实现极低 sim-to-real 差距。 @gs_ai_（Genesis Robotics）

Percy Liang（Stanford教授 / 基础模型中心负责人）提出 Self-Verified Distillation – 模型自我验证后仅用通过响应训练，无需真实答案或外部验证器。 @percyliang

RLM 训练代码和模型开源：基于 prime-rl 和验证器训练递归语言模型 – Alex Zhang（社区开发者）训练 RLM-Qwen3-30B-A3B-v0.1，在长上下文任务上全面改进，8×A100 一天可训练。 @lateinteraction

⭐ 精选内容

AI 编程赛道再获巨额融资：Cognition 估值 260 亿美元，Fireworks 估值 150 亿美元 ｜ AI 编程与推理基础设施资本热潮持续

Cognition（Devin 开发商）以 260 亿美元估值完成 10 亿美元融资，由现有投资者和主权基金领投，是 AI 编程赛道迄今最大单笔融资之一。同时，Fireworks AI 正以 150 亿美元估值进行新一轮融资谈判，反映市场对 LLM 推理优化赛道的高度认可。两条融资新闻共同勾勒出 AI 编程工具和推理基础设施两大方向的资本热度，对从业者而言是理解市场风向的关键信号。

来源：Bloomberg (Cognition) ｜ Bloomberg (Fireworks)

NVIDIA 发布 Polar 框架：对 Codex、Claude Code 等 Agent 工具进行 GRPO 强化学习训练 ｜无需修改 harness 即可实现 token-faithful rollout

NVIDIA 开源 Polar 框架，核心创新是在模型 API 边界放置代理网关，无需修改 agent harness 即可对 Codex CLI、Claude Code、Qwen Code 等工具进行 GRPO 训练，解决了传统 RL 基础设施需要重写 harness 逻辑的痛点。支持 Anthropic、OpenAI、Google 等多种 API 格式及 vLLM 等本地推理引擎。对从事 LLM agent 训练和 RLHF/GRPO 的从业者，这是一个可直接使用的开源工具。

来源：MarkTechPost

ITBench-AA：首个企业 IT Agent 基准发布，前沿模型得分低于 50% ｜ IBM 与 Artificial Analysis 联合推出 SRE 场景评估

IBM 和 Artificial Analysis 发布 ITBench-AA，首个面向企业 IT 运维（SRE）的 Agent 基准。前沿模型得分均低于 50%，Claude Opus 4.7 以 47% 领先，GPT-5.5（46%）和 Qwen3.7 Max（42%）紧随其后。核心发现：更长的推理轨迹并不提升准确率，模型常过度调查导致误报。开源模型如 GLM-5.1（40%）和 DeepSeek V4 Pro（38%）表现有竞争力。基准已开源，并计划扩展至 FinOps 和 CISO 任务。对关注 Agent 在企业场景落地的从业者，这是评估模型选型的重要参考。

来源：Hugging Face

Hugging Face 实现 Delta Weight Sync：异步 RL 训练带宽降低 97% ｜通过 Hub Bucket 传输稀疏差异，无需共享集群

Hugging Face 在 TRL 中实现基于 Hub Bucket 的 delta weight sync，解决异步强化学习中权重同步的带宽瓶颈。核心发现：相邻 RL 优化步骤间，bf16 权重约 99% 比特相同，仅需传输稀疏差异。实测 Qwen3-0.6B 每步负载从 1.2 GB 降至 20-35 MB。方案已成功运行完全分离的训练：训练器、vLLM、Wordle 环境各在不同空间，通过单个 Hub Bucket 同步权重，无需共享集群或 RDMA。对从事大规模 RL 训练的团队，这是可直接复用的工程创新。

来源：Hugging Face

OpenAI 与 Thrive 构建自我改进税务 Agent：六周内准确率从 25% 提升至 86% ｜ Codex 驱动的生产反馈闭环

OpenAI 与 Thrive Holdings 合作，利用 Codex 构建 Tax AI 税务 Agent。系统通过“实践者修正→产品追踪→Codex 优化”三部分循环，将生产反馈转化为结构化信号，实现自主提升。在 Crete 会计师事务所试点中，Tax AI 处理 7000 份税表，节省约三分之一时间，准确率达 97%，吞吐量提升 50%。文章详细展示了从部署到六周内准确率从 25% 提升至 86% 的量化改进。对构建生产级 Agent 的从业者，这是极具参考价值的自我改进闭环方法论。

来源：OpenAI

AWS 发布 AgentCore 驱动的 Field Advisor 与 NarrateAI：企业级多 Agent 编排实践 ｜销售与 BI 场景的两套可复用架构

AWS 分享了两套基于 Bedrock AgentCore 的生产级 Agent 系统：Field Advisor 解决 20+ 领域 Agent 编排问题，上线后处理 12 万+ 提示，人工审核为销售代表每周节省 2 小时，延迟降低 41%；NarrateAI 采用离线批量生成叙事文本 + 在线多 Agent 问答的两层架构，面向企业高管 BI 场景。两篇文章均详细介绍了 AgentCore 的隔离执行、统一网关、持久记忆、身份传播等关键能力。对构建企业级多 Agent 系统的从业者，这是可直接参考的架构设计。

来源：AWS (Field Advisor) ｜ AWS (NarrateAI)

MiniMax M2.5 发布：SWE-Bench 80.2%，编码速度提升 37%，成本极低 ｜编码与搜索 Agent 能力达到 SOTA

MiniMax 发布 M2.5 模型，在 SWE-Bench Verified 上达到 80.2%，Multi-SWE-Bench 51.3%，BrowseComp 76.3%，编码速度比 M2.1 快 37%，成本极低（每小时 $1）。模型在编码、搜索、工具调用上达到 SOTA，特别强调多语言编程和真实世界环境训练。对 LLM/Agent 从业者，这是值得关注的新模型发布，提供了具体 benchmark 和定价信息，可与 Qwen、DeepSeek 等竞品对比。

来源：MiniMax

AnythingLLM v1.13.0 引入 Model Router：首个消费级混合 AI 路由系统 ｜本地与云端模型智能切换，支持定时 Agent 任务

AnythingLLM v1.13.0 发布三大核心功能：Model Router（首个消费级混合 AI 路由系统，允许用户自定义规则在本地与云端模型间智能切换，支持关键词、token 数、时间等触发条件）、Scheduled Jobs（定时自动化 Agent 任务，支持可视化 Cron 配置）、Automatic Memories（自动记忆提取与个性化）。这些功能将本地隐私与云端能力结合，为 Agent 工程提供了新的混合部署范式，且完全开源可自托管。对关注 Agent 部署和混合推理架构的从业者，这是值得尝试的工具。

来源：NewReleases

🎙️ 播客精选

🔬ESMFold2: The Bitter Lesson is Coming for Proteins - Alex Rives, BioHub

📍 来源：Latent Space | ⭐ ⭐⭐⭐⭐⭐ | 🏷️ LLM, Research, Interview | ⏱️ 1:10:12

Alex Rives介绍ESMFold2，基于BERT-like transformer在蛋白质序列上训练，通过扩展数据和计算量，在抗体等难题上超越AlphaFold3。讨论缩放定律在蛋白质领域的应用、MSA归纳偏置的局限性、推理时缩放的效果，以及发布68亿蛋白质图谱。核心观点：通用语言模型方法可击败专用模型，体现'苦涩教训'。

💡 推荐理由： 重量级嘉宾（ESM团队负责人）深度访谈，发布ESMFold2重大成果，展示LLM方法在蛋白质折叠领域超越AlphaFold3，对AI+科学从业者极具价值。

📄 今日论文精选

The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence

MiniMax ｜ 🏷️ Architecture, Training, Inference

229.9B总参数、仅9.8B激活的MoE模型，坚持全注意力设计，提出agent-driven数据管线、Forge RL系统和自进化能力，在多个agentic基准上达到前沿性能。

MobileMoE: Scaling On-Device Mixture of Experts

Meta AI ｜ 🏷️ Architecture, MoE, Quantization

提出on-device MoE scaling law，在商品手机上实现高效推理，以2-4×更少FLOPs匹配或超越领先的密集小模型，为端侧部署开辟新路径。

AGORA: Adapter-Grounded Observation-Action Retention for Inference-Free Prompt Compression in LLM Agents

AI Agent Technologies ｜ 🏷️ Agent Framework, Compression, Inference

揭示token级压缩在agent场景下的"动作语法破坏"失效模式，提出step级压缩方案AGORA，在9个测试场景中8个保持≥75%原始性能，工程实用性强。