AI 技术日报 - 2026-06-02

type

Post

status

Published

date

Jun 2, 2026 04:30

slug

ai-daily-2026-06-02

summary

今日 AI 领域迎来双重里程碑：Anthropic 正式提交 S-1 启动 IPO，与 OpenAI 展开上市竞赛，标志着产业从融资驱动转向资本市场成熟阶段；同时 MiniMax 发布 M3 模型，在关键基准上超越 GPT-5.5 和 Gemini 3.1 Pro，成本仅为 5-10%，这是中国模型首次在性能上超越美国前沿模型。NVIDIA 发布开源物理 AI 全能模型 Cosmos 3，Runway 与 NVIDIA 成立 Cosmos Coalition 共建开源世界模型。Agent 生态持续进化：Perplexity 推出 Search as Code 新架构，IBM 提出 Agent

📊 今日概览

🔥 趋势洞察

AI 公司加速 IPO 竞赛：Anthropic 提交 S-1 文件启动 IPO，与 OpenAI 展开上市竞赛，标志 AI 产业从融资驱动转向资本市场成熟阶段，竞争格局和商业模式将深刻变化

中国模型首次超越美国前沿：MiniMax M3 在 BrowseComp 等关键基准上超越 GPT-5.5 和 Gemini 3.1 Pro，成本仅 5-10%，可能重塑 LLM 市场格局和模型选型策略

Agent 架构从工具调用转向原生融合：Perplexity Search as Code、IBM Agent Logic、Pinecone Nexus 等方案均将推理与知识/搜索深度耦合，减少盲目工具调用，token 消耗降低 30-90%

🐦 X 推文动态

📅 2026-06-02 AI/科技信息日报

📈 热点与趋势

Google计划筹资800亿美元扩建AI基础设施 - amit（投资博主）汇总当日金融市场动态：Google提议800亿美元股权筹资，其中300亿公开发行、100亿私募给Berkshire；Anthropic秘密提交S-1启动IPO流程；AI相关公司年内已融资约3800亿美元，占风投资金87%；数据中心建设支出超500亿美元年化，较2022年增长336%。 @amitisinvesting

Anthropic秘密提交S-1，启动IPO流程 - 已向SEC提交注册声明草案，等待审核完成后可选择进行IPO。 @AnthropicAI

OpenAI前沿模型和Codex在AWS Bedrock正式可用 - 企业可通过Amazon Bedrock使用OpenAI模型。OpenAI还宣布Daybreak（网络安全AI能力）未来也将上架AWS。 @OpenAI

Runway与NVIDIA成立“Cosmos Coalition”，共建开源世界模型 - 新全球倡议将联合多家AI实验室，开放和开源物理AI的前沿世界模型，Runway和NVIDIA为创始成员。 @runwayml

Runway在伦敦设欧洲总部，投资1亿美元于英国AI生态 - 未来18个月投入1亿美元，至2028年计划翻倍。伦敦将成为其通用世界模型研究的核心新枢纽。 @runwayml

GTC Taipei：NVIDIA发布AI工厂、自主代理及新一代AI PC - Jensen Huang演讲宣布AI基础设施、Agent、物理AI和计算平台全方向进展。 @nvidia

OpenAI Foundation拨款1.3亿美元用于“AI韧性” - Sam Altman称基金会正在帮助社会建立对AI的韧性，该拨款覆盖生物、网络、模型安全及青少年影响领域。 @sama | @FoundationOAI

Andrew Ng分析AI Forward Deployed Engineer角色兴起 - 该角色由Palantir首创，现因Agent定制需求重获热度，但Andrew Ng认为AI Engineer岗位数量将远超FDE。 @AndrewYNg

Cursor提高Teams用量限制，推出5倍用量Premium席位 - Premium seat费用为3倍，提供5倍使用量。 @cursor_ai

🔧 工具与产品

Perplexity发布Search as Code：用Python替代函数搜索的Agent架构 - Agent直接编写Python调用搜索栈，取代逐次函数调用，现已在Perplexity Agent API和Computer中默认启用。 @perplexity_ai | @AravSrinivas

阿里发布Qwen3.7-Plus多模态Agent模型 - 统一视觉和语言的Agent基座，支持GUI/CLI操作、编码助手、视觉推理，可通过阿里云模型服务平台API调用。 @Alibaba_Qwen

vLLM day-0支持NVIDIA Cosmos 3和JetBrains Mellum2模型 - Cosmos 3是融合AR推理与扩散的多模态模型，Super (32B)和Nano (8B)已开源；Mellum2为12B MoE编码模型，激活参数2.5B。 @vllm_project | @vllm_project

Unitree发布H2 Plus人形机器人参考设计，基于NVIDIA Isaac GR00T - 整合Unitree H2身体、Sharp Wave五指手、NVIDIA Jetson Thor机载计算及Isaac GR00T软件栈。 @UnitreeRobotics

MiniMax M3在Next.js Agent评估中仅次于Opus/GPT5，成本低10-20倍 - Guillermo Rauch（Vercel CEO）发布评测，M3在编码任务上表现出色，当前在AI Gateway上价格再减半。 @rauchg

Step 3.7 Flash在Kilo代码编辑器中免费提供 - Kilo宣布Step 3.7 Flash专为编码Agent的多步编排和可靠工具调用优化。 @StepFun_ai

Jerry Liu发布LiteParse v2：用Rust重写的PDF解析器 - 支持50+文档类型，无模型依赖，可输出边界框供编码Agent直接标记来源，已发布为Python和Node原生包。 @jerryjliu0

⚙️ 技术实践

LMSYS用Intel CPU离线视觉编码加速VLM推理 - 通过SGLang EPD分离和Dynamo加权路由，将视觉编码卸载到Intel Xeon CPU，实现P99 TTFT降低1.2-1.3倍，TPOT降低1.3-30倍。 @lmsysorg

Modal分享RL规模化训练经验并发布开源库 - 总结帮助团队在Modal上大规模训练的常见模式和学习教训。 @modal

Pinecone Nexus将推理与知识引擎解耦，减少Agent 90% token消耗 - 将企业原始数据提前转化为任务优化知识，避免Agent盲目的探索性工具调用，实现30倍加速。 @pinecone

Nous Research与NVIDIA集成Agent Skills目录至Hermes Skills Hub - 教Agent使用CUDA-X、Omniverse、NeMo等NVIDIA平台组件的官方技能。 @NousResearch

⭐ 精选内容

Anthropic 提交 S-1 文件，正式启动 IPO 进程 ｜ AI 产业从融资驱动转向资本市场成熟阶段

Anthropic 已向 SEC 提交 S-1 文件，与 OpenAI 展开上市竞赛。这一事件标志着 AI 产业从融资驱动转向资本市场成熟阶段，对从业者意味着竞争格局、人才流动和商业模式将发生深远变化。Anthropic 的 IPO 将为其提供更稳定的资金基础，加速与 OpenAI 在模型能力、企业客户和 Agent 产品上的全面竞争。

来源：Business Insider

MiniMax-M3 发布：关键基准超越 GPT-5.5 和 Gemini 3.1 Pro，成本仅 5-10% ｜中国模型首次在性能上超越美国前沿模型

MiniMax 发布 M3 模型，采用 MiniMax Sparse Attention (MSA) 架构，支持 100 万 token 上下文窗口，原生多模态。在 BrowseComp 等关键基准上超越 GPT-5.5 和 Gemini 3.1 Pro，定价 $0.3/$1.2 每百万 token（限时），计划 10 天内开源开放权重。这是中国 AI 模型首次在性能上超越美国前沿模型，同时保持极低价格，可能重塑 LLM 市场格局。对从业者而言，这是评估模型选型和成本策略的重要信号。

来源：VentureBeat ｜ chats-llm.com ｜ myclaw.ai

NVIDIA 发布 Cosmos 3：首个开源物理 AI 全能模型 ｜融合视觉推理、多模态生成和动作预测

NVIDIA 发布 Cosmos 3，基于 mixture-of-transformers 架构，支持文本、视频、图像、环境声音和动作输入，可生成物理逼真的合成视频和机器人任务数据。在 VANTAGE-Bench 和 TAR 基准上排名第一，已与 Agile Robots、Linker Vision 等合作落地。提供 Diffusers 集成、后训练脚本和开源数据集，降低物理 AI 开发门槛。对关注世界模型和具身智能的从业者，这是理解物理 AI 技术路线的重要参考。

来源：NVIDIA Blog ｜ Hugging Face

JetBrains 发布 Mellum2：12B MoE 模型，推理速度比同类快 2 倍以上 ｜专注代码与文本的高效开源模型

JetBrains 发布 Mellum2，12B 参数 MoE 架构，每 token 仅激活 2.5B 参数，推理速度比同类模型快 2 倍以上。Apache 2.0 开源，适用于路由、RAG、子代理、私有部署等场景。对于需要高效、低延迟推理的 AI 系统开发者，这是一个值得关注的新选择，尤其适合在 Coding Agent 和代码相关任务中替代更大模型。

来源：Hugging Face

视频 Agent 是下一个突破：从单次生成到多轮推理与迭代 ｜ xAI Grok Imagine 负责人分享实战洞察

xAI Grok Imagine 负责人 Ethan He 在 Latent Space 播客中提出核心观点：视频模型的下一个突破不是更好的 Sora，而是视频 Agent——视频生成将沿袭 AI 编程的演进路径，从单次输出转向多轮推理、规划、编辑、迭代的 Agent 系统。他分享了从 NVIDIA Cosmos 到 xAI 在 3 个月内构建 Grok Imagine 的实战经验，强调迭代速度和小 bug 修复比宏大架构更重要。还讨论了生成式 UI（Flipbook）可能取代传统 HTML/CSS 等前瞻判断。对关注多模态 Agent 和视频生成技术路线的从业者极具启发性。

来源：Latent Space

Claude Code vs. Cursor vs. Codex vs. Antigravity 六个月深度横评 ｜ Coding Agent 选型实战指南

The New Stack 发布四款 Coding Agent 工具使用六个月的深度横评。核心发现：Claude Code 在复杂重构和跨文件理解上领先，Cursor 在快速迭代和 IDE 集成上更优，Codex 在自动化测试和文档生成上表现突出，Antigravity 在团队协作和代码审查上独树一帜。文章提供了各工具的适用场景、性能对比和选型建议，对正在评估或使用 Coding Agent 的开发者有直接参考价值。

来源：The New Stack

IBM Research 提出 Agent Logic：在 Agent 层引入知识图谱等原语，token 消耗降低 30 倍 ｜企业 Agent 可扩展性新思路

IBM Research 提出 agent logic 概念——在 agent 层引入知识图谱、程序分析等软件原语，主动引导 LLM 聚焦企业工作流，减少上下文空间。在四个真实场景（遗留代码理解、测试生成、事件响应、合规现代化）中验证，相比纯 LLM 方案，token 消耗降低约 30 倍，同时保持或提升性能。文章提供了具体架构和量化结果，对构建可扩展企业 Agent 有直接参考价值。

来源：Hugging Face

AI 浪潮摧毁前 ChatGPT 时代的创业公司：857 家独角兽近半三年未融资 ｜创业生态格局重塑

CNBC 独家报道：AI 浪潮正在摧毁前 ChatGPT 时代的创业公司。PitchBook 数据显示，美国 857 家独角兽中近半数已三年未融资，2021 年最后一轮融资的公司估值平均下跌 68%，2022 年下跌 52%。超过 220 家曾达十亿美元估值的公司沦为 'fallen unicorns'。AI 热潮吸走超 2500 亿美元资金，彻底重置了创业公司估值体系。对从业者而言，这是理解当前创业融资环境和市场格局变化的关键数据。

来源：CNBC

🎙️ 播客精选

Why Video Agent models are next — Ethan He, xAI Grok Imagine

📍 来源：Latent Space | ⭐ ⭐⭐⭐⭐⭐ | 🏷️ LLM, Agent, MultiModal | ⏱️ 1:43:26

Ethan He 从 NVIDIA Cosmos 世界模型到 xAI Grok Imagine 的实战经验，提出视频模型智能主要来自LLM而非视频数据，未来方向是视频Agent。深入讨论数据、VAE、扩散Transformer、推理加速等工程细节，强调迭代速度和修复数据/训练bug的重要性。预测视频生成将像AI编程一样从单次输出转向多轮推理和规划，最终取代传统UI。

💡 推荐理由： 重量级嘉宾（xAI Grok Imagine 构建者）深度分享视频Agent前沿观点，技术细节丰富，对LLM/Agent从业者极具价值。

📄 今日论文精选

Mellum2 Technical Report

JetBrains ｜ 🏷️ Architecture, MoE, Code Generation

JetBrains 开源 12B MoE 代码模型，每 token 仅激活 2.5B 参数，推理速度比同类快 2 倍以上，Apache 2.0 许可，适合 Coding Agent 和私有部署场景。

Configurable Reward Model for Balanced Safety Alignment

Meta ｜ 🏷️ Safety, RLHF/DPO, Reward Model

Meta 提出可配置安全奖励模型 CSRM，在 CoSApien 和 DynaBench 上达到 SOTA，无需额外标注即可适应不同安全配置，显著改善有用性与安全性的平衡。

MosaicLeaks: Privacy Risks in Querying-in-the-Open for Deep Research Agents

ServiceNow AI Research ｜ 🏷️ Agent Framework, Safety, Privacy

揭示 Deep Research Agent 在查询外部工具时泄露私有文档信息的风险，提出 PA-DR 框架将泄漏率从 34% 降至 9.9%，同时提升任务准确率，对构建安全 Agent 系统有重要启示。

🐙 GitHub 热门项目

Mellum2 ｜ JetBrains 开源高效代码模型

JetBrains 发布 12B MoE 模型，每 token 仅激活 2.5B 参数，推理速度比同类快 2 倍以上。Apache 2.0 开源，支持代码生成、调试、工具调用和 Agent 编码，是替代更大模型的低成本选择。

GitHub ｜ ⭐ 待统计｜ 🗣️ Python ｜ 🏷️ LLM, Code Generation, MoE