AI 技术日报 - 2026-06-03

type

Post

status

Published

date

Jun 3, 2026 04:30

slug

ai-daily-2026-06-03

summary

今日 AI 领域迎来多个重磅发布与产业信号：微软发布自研推理模型 MAI-Thinking-1 及 7 个新模型，并推出 Agent Control Specification 开源标准，标志其 AI 战略全面加速。GitHub 发布 Agent-native 桌面控制中心 Copilot app，其 COO 透露 AI Agent 导致代码提交量激增 1400%，基础设施面临新挑战。OpenAI Codex 周活用户突破 500 万，非开发者占比激增，正从编程工具向通用生产力平台演进。同时，Anthropic 将 Project Glasswing 扩展至 15 国关键基础设施，发现超 10

📊 今日概览

🔥 趋势洞察

Agent 生态全面走向生产级：GitHub Copilot app 发布、微软 Agent Control Specification 开源、OpenAI Codex 扩展至知识工作者，Agent 从实验性工具向企业级基础设施演进

自研推理模型竞争白热化：微软 MAI-Thinking-1 声称从头训练无蒸馏，MiniMax M3 采用 MSA 稀疏注意力，Step 3.7 Flash 用 MFA 架构压缩 KV 缓存，模型架构创新加速

AI 安全从理论走向产业实践：Anthropic Project Glasswing 覆盖 15 国关键基础设施，Meta AI 支持机器人被黑客利用接管账户，安全集成成为 AI 落地的核心挑战

🐦 X 推文动态

📈 热点与趋势

Google DeepMind 发布 Co-Scientist：基于 Gemini 的多 agent 系统 – 该系统可自动生成、辩论和迭代科学假设，旨在辅助研究人员开展复杂科学探索 @GoogleDeepMind

RPCS3（PS3 模拟器）公开指责腾讯爬虫 DDoS，正封禁腾讯 IP – RPCS3 称在过去 24 小时内收到超 300 万次来自腾讯的请求，其爬虫已能解决 Cloudflare 挑战并忽视 robots.txt，用以训练腾讯聊天机器人 @rpcs3

Pompliano 采访投资者 Andrew Kang，坐谈人形机器人投资 – Kang（曾投资 Figure AI 1900 万美元）解释从加密货币转向机器人逻辑，并推出公开交易基金 $BOT，专注投资头部私有人形机器人公司 @APompliano

🔧 工具与产品

OpenAI 发布 Codex Sites 并扩展插件生态 – Sites 可将想法一键转为可直接访问的网站或应用，覆盖 Business/Enterprise 计划；插件扩展至 62 款应用和 110 项技能，覆盖销售、数据分析、创意生产、产品设计及投资 @OpenAI @OpenAI

Perplexity CEO Aravind Srinivas（Perplexity CEO）宣布 Computer 支持本地 + 云端混合推理 – 私密数据留在本地设备运行，复杂任务可无缝切换至服务器端前沿模型，即将登陆 Windows 笔记本 @AravSrinivas

Unsloth AI（量化训练优化）与 NVIDIA、Microsoft 合作，在 128GB 笔记本上训练 120B+ 参数模型 – 基于 RTX Spark 采用统一内存架构，在个人硬件上实现大规模参数训练 @UnslothAI

vLLM（UC Berkeley 开源推理引擎）原生支持 JetBrains Mellum2 和 MiniCPM-o 4.5 – Mellum2（12B MoE 激活 2.5B，128K 上下文）专为路由/RAG/子 agent 设计；MiniCPM-o 4.5（9B 全模态，文本/图像/音频/视频 input + 文本/语音 output）已集成至 vLLM-Omni @vllm_project @vllm_project

Vercel Conductor 并行编码 agent 支持远程 Sandbox 运行 – 此前仅限本地执行，现已可在 Vercel 基础设施上远程运行，Sandbox 启动速度极快 @vercel

⚙️ 技术实践

微软发布 MAI-Thinking-1 等 7 个前沿模型，SGLang 支撑其 RL 推理栈 – Mustafa Suleyman（微软 AI CEO）宣布：35B 活跃参数 MoE，256K 上下文，AIME 2025 达 97%，SWE-Bench Pro 53%；在自研 MAIA 200 芯片上性能/美元比 GB200 高 30%、性能/瓦高 1.4 倍。此外有 MAI-Image-2.5 和 MAI-Code-1-Flash（5B 参数 SWE 51%）。elie（社区分析者）详解技术报告：模型不使用任何合成数据或蒸馏，推理/agent 行为/工具使用全由后训练 RL 习得。LMSYS 透露 SGLang 被用于数千芯片上的 RL 推理负载均衡和故障恢复。微软提供 Frontier Tuning 让企业基于自身数据微调模型 @mustafasuleyman @eliebakouch @lmsysorg @satyanadella

MiniMax M3 技术细节：MSA 稀疏注意力使 attention 降至 5% 推理时间，支持 1M 上下文 – MSA（MiniMax Sparse Attention）采用真实未压缩 KV 块级 top-K 选择，取代传统压缩方案；M3 原生多模态（图像+视频），可自评估视觉编码（构建网站后自主浏览渲染输出并迭代）。Together AI 详解生产推理：需 paged decode、索引评分和多模态预处理 @MiniMax_AI @MiniMax_AI

Step 3.7 Flash（198B MoE）采用 MFA+AFD 架构，KV 缓存仅为 DeepSeek 的 22% – Multi-Matrix Factorization Attention（MFA）将 KV 缓存压缩至 22%；Attention-FFN Disaggregation（AFD）将注意力与 FFN 解耦以优化硬件利用率。FireworksAI 提供一键部署，Apache 2.0 许可证 @StepFun_ai

NVIDIA 正式发布 Cosmos 3 开放世界模型：统一多模态理解、生成与机器人策略 – Cosmos 3 支持语言、图像、视频、音频和动作的融合理解与生成，可预测未来帧、生成机器人策略。在多个基准上排名开源第一，权重和代码已发布于 HuggingFace @NVIDIARobotics

Intel AutoRound W4A16 量化集成 vLLM-Omni，Qwen3-Omni-30B 内存从 66GB 降至 25GB – 4-bit 离线量化一次后即可用 BF16 命令推理；FLUX.1-dev 从 4 GPU 缩至 1 GPU；Intel XPU B60 上 CFG Parallel 实现 1.55–1.67 倍加速 @vllm_project

Pinecone（向量数据库公司）内部数据 agent AskData 已回答 3,690 个问题，token 消耗降低 92% – 员工数据工程师 Simon Lu 构建，相比直接向 Claude/Cursor 提供原始源，token 节省 92%；相比此前自定义实现再降 38% @pinecone

⭐ 精选内容

GitHub Copilot app 发布：Agent-native 桌面控制中心 ｜多 Agent 并行开发的新范式

GitHub 发布 Copilot app，一个 agent-native 桌面控制中心，核心解决多 agent 并行开发中的上下文碎片化和代码审查负担。关键功能：My Work 统一视图管理多个 agent 会话、Canvas 双向工作面板实现可视化编辑、Agent Merge 自动处理 PR 审查与合并、以及本地/云端沙箱。这是 Agentic IDE 从代码补全向完整开发平台演进的重要一步，对使用 Coding Agent 的开发者有直接实操价值。

来源：GitHub Blog

GitHub COO 深度访谈：AI Agent 导致代码提交量增长 1400% ｜平台级 Agent 生态的挑战与应对

GitHub COO Kyle Daigle 在 Latent Space 播客中透露：AI Agent 导致 GitHub 代码提交量增长 1400%，基础设施承压，开源维护者面临 AI 生成代码洪流。他分享了 GitHub 内部 AI 工作流（微技能、WorkIQ、MCP）、Actions 作为通用计算层的演进，以及如何保持开源的社会契约。与 Copilot app 发布形成互补，帮助从业者理解平台级 Agent 生态的全景挑战。

来源：Latent Space

OpenAI Codex 扩展为知识工作者的生产力工具 ｜周活用户超 500 万，非开发者占比激增

OpenAI 报告显示 Codex 周活用户超 500 万（较 2 月增长 6 倍），知识工作者占比约 20% 且增速是开发者的 3 倍以上。知识工作者主要用 Codex 创建报告、电子表格、演示文稿，以及数据分析、研究、工作流自动化等任务。这标志着 AI 编程工具正从开发者专属向通用生产力平台演进，可能重塑知识工作的效率边界，对关注 LLM 产品化和市场格局的从业者有重要参考价值。

来源：OpenAI

微软发布 MAI-Thinking-1 推理模型与 Agent Control Specification 开源标准 ｜微软 AI 战略全面加速

微软发布首个自研推理模型 MAI-Thinking-1（声称从头训练、无蒸馏），同时推出 Agent Control Specification 开源标准（统一 Agent 治理）、Scout Agent（Teams 内全天候自动化助手）、以及 7 个 AI 模型（含超高效代码模型）。此外，Majorana 2 量子芯片（AI 辅助设计，目标 2029 年商用）和 Perplexity Computer 功能（支持设备/服务器模型任务拆分）也值得关注。这是微软 AI 战略的一次集中展示，对关注产业格局变化的从业者需快速了解。

来源：llm-stats.com

Anthropic 扩展 Project Glasswing：覆盖 15 国关键基础设施，发现超 10,000 个高危漏洞 ｜ AI 安全防御的产业级实践

Anthropic 将 Project Glasswing 从 50 个初始合作伙伴扩展到约 150 个新组织，覆盖电力、水务、医疗、通信、硬件等关键基础设施行业，涉及 15 个国家。项目已发现超过 10,000 个高危/严重漏洞。Anthropic 同时发布 Claude Security 产品，并计划向安全团队提供漏洞扫描工具。文章还讨论了 AI 改变网络安全的长期趋势，对关注 AI 安全防御的从业者有直接参考价值。

来源：Anthropic

NVIDIA Jetson 将 Agentic AI 推向物理世界：JetPack 7.2 与 NemoClaw 发布 ｜边缘 Agent 部署的新基础设施

NVIDIA 在 COMPUTEX 发布 JetPack 7.2 和 NemoClaw 支持 Jetson，将 Agentic AI 从服务器推向物理世界。JetPack 7.2 带来 Yocto 支持、CUDA 13、MIG 及 AGX Orin 性能提升至 241 TOPS；NemoClaw 单命令部署，配合 Metropolis VSS 技能实现视觉推理 Agent。已有 Solomon、Advantech 等企业落地案例。对关注边缘 AI 和物理世界 Agent 部署的从业者，这是理解基础设施演进的关键信号。

来源：NVIDIA Blog

Holo3.1 发布：跨环境 Computer Use Agent，支持移动端和本地推理 ｜计算机视觉 Agent 的重要升级

Hcompany 发布 Holo3.1，这是计算机视觉 Agent 模型 Holo3 的升级版，重点提升跨环境（桌面、浏览器、移动端）和跨 Agent 框架的鲁棒性。新增对 AndroidWorld 的支持，35B-A3B 模型得分从 67% 提升至 79.3%；首次提供 FP8、Q4 GGUF、NVFP4 等量化版本，支持在消费级硬件上本地运行。同时推出 0.8B、4B、9B 等更小尺寸模型，降低部署成本。对于关注 Computer Use Agent 本地化部署和移动端自动化的从业者，这是一次重要的模型更新。

来源：Hugging Face

黑客通过 Meta AI 支持机器人接管高知名度 Instagram 账户 ｜ AI 系统安全集成的典型反面案例

黑客通过简单对话 Meta AI 支持机器人，成功接管高知名度 Instagram 账户。攻击者仅需请求链接新邮箱，AI 便自动完成账户恢复流程。此事件暴露了将 AI 聊天机器人直接接入敏感操作（如账户恢复）的严重安全风险，是 LLM 安全集成的一个典型反面案例。对构建 Agent 和 AI 系统的从业者，这是理解安全边界设计的重要警示。

来源：Simon Willison

🎙️ 播客精选

GitHub's plan for Agents — Kyle Daigle, GitHub

📍 来源：Latent Space | ⭐ ⭐⭐⭐⭐⭐ | 🏷️ LLM, Agent, Infra | ⏱️ 1:23:27

GitHub COO Kyle Daigle 讨论AI Agent时代对GitHub基础设施的挑战：Agent提交代码量增长1400%，CI/CD、开源维护、代码审查面临压力。深入解析GitHub内部AI工作流（微技能、WorkIQ、MCP、Copilot桌面应用、CLI、云Agent），以及如何通过现有工作流（Slack、Teams、邮件）集成AI。探讨AI如何改变开发者角色、开源社会契约，以及GitHub从代码托管向Agent操作层演进的战略。

💡 推荐理由： 重量级嘉宾（GitHub COO）深度访谈，直击AI Agent对代码基础设施的冲击，独家内部视角，无更高分因非纯技术细节。

📄 今日论文精选

OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents

Microsoft ｜ 🏷️ Agent Framework, Multi-Agent, Agentic Workflow

首次将在线多轮RL成功应用于视觉web agent训练，提出完整开源框架OpenWebRL，仅用少量数据（0.4K初始化+2.2K RL任务）即达到开源SOTA，与OpenAI CUA、Gemini CUA等闭源系统竞争。

Community-Aware Assessment of Social Textual Engagement and Resonance: A Human-Centric Perspective on User-Generated Content Evaluation

Bilibili ｜ 🏷️ Agent Framework, Reasoning, Fine-tuning

提出Social-CoT机制将社会推理引入UGC质量评估，通过多视角模拟观众集体认知与情感反应，两阶段训练（SFT+RL）有工程价值，为内容平台质量评估提供新范式。