AI周报 2026-W20

W20 的叙事主线可以概括为:编码 Agent 工具链正在完成从“功能补全”到“平台级操作系统”的跃迁——OpenAI 对 Codex 的沙箱、移动端、hooks 三层能力的集中发布,叠加 Anthropic 官方技能仓库和社区《everything-claude-code》等基础设施的成熟,让编码 Agent 不再是 IDE 里的一个面板,而是一整套可远程调度、可定制、可审计的异步工作系统。与此同时,推理基础设施的竞争焦点也从“训练更大模型”转向“更高效地运行这些模型”——Nous 的 Token Superposition Training 带来 2-3x 训练加速,Perplexity 在 GB200 上优化 Qwen3 MoE 推理吞吐,SemiAnalysis 报告 SGLang 在 DeepSeek V4 上实现 4x 交互吞吐提升——这三个事件共同指向一个信号:模型能力的瓶颈正在从训练侧向 serving 侧迁移。 第二个值得关注的线索是Agent 安全与评估从“最佳实践”走向“系统化治理”。AWS 与 Cisco 联合发布的 AI Registry 试图为 MCP/A2A 代理建立统一可见性与自动化安全扫描层;Simons 的工业论文将制造领域工具调用的幻觉率从 43% 降到 0%;12 指标评估框架基于 100+ 真实部署提炼出了可复用的生产级评估体系。这三个条目分别覆盖了工具注册、领域约束、评估方法论三个维度,说明企业级 Agent 不再只是“会不会跑”的问题,而是“跑得安不安全、有没有被审计”。 第三个线索在产业经济层面:Cerebras IPO 20x 超募、Anthropic 讨论 300 亿美元融资、OpenAI 重新谈判微软协议节省 970 亿美元长期支出——这些数字背后是 AI 基础设施投入从“资本赌注”向“可量化资产”的转变。Epoch AI 报告一个 1GW AI 数据中心的总持有成本为 380 亿美元,其中服务器占比 60%,这为所有地缘政治叙事提供了一个具体的成本锚点。

AI 技术日报 - 2026-05-15

今日日报跨越博客、GitHub 项目、播客和 KOL 推文等多个数据源,核心趋势是 “Agent 工具生态趋同与规模化落地”。从 OpenAI 的 Codex 移动端发布、xAI 的 Grok Build CLI,到 Anthropic 的美中 AI 竞争白皮书和 Epoch AI 的万亿美元数据中心成本估算,行业正从单一模型能力竞争转向 Agent 工作流、基础设施和地缘战略的全面博弈。同时,医疗、学术等垂直领域的 AI 原生实践也提供了宝贵的落地经验。 精选文章 5 篇、GitHub 项目 5 个、播客 4 集、KOL 推文 21 条

推荐算法日报 - 2026-05-15

生成式推荐的工程化加速:今日多篇论文聚焦于生成式推荐(Generative Recommendation)的落地瓶颈——推理延迟。Snap与UCSD提出的SID-MLP通过MLP蒸馏替代Transformer解码器,实现8.74x加速且精度持平;另一篇工作F-GRPO则从强化学习角度统一生成与排序,解决端到端优化中的信用分配问题。这表明业界正从“模型能力”转向“系统效率”,探索如何让生成式推荐在工业级延迟约束下真正跑起来。; 探索策略的精细化与实用化:Google DeepMind提出的Deli

AI 技术日报 - 2026-05-14

今日 AI 日报跨越博客、GitHub、推文三大数据源,核心亮点是 Agent 技术从“概念验证”全面进入“工程落地”阶段。OpenAI 披露 Codex 沙箱安全细节,AWS 联合 Cisco 推出 Agent 安全治理方案,GitHub 上涌现出多个即插即用的 Agent 技能框架和基础设施项目。同时,行业战略层面出现重要信号:Stratechery 将 AI 部署类比为 1970 年代的大型机浪潮,NVIDIA 与 AlphaGo 之父合作押注强化学习基础设施。 *数据统计:精选文章 5 篇、GitHub 项目 5 个、KOL 推文 28 条。

推荐算法日报 - 2026-05-14

[LLM Agent 与推荐系统深度融合]:今日多篇论文聚焦于将LLM Agent的能力引入推荐系统,从简单的序列匹配转向交互式、推理驱动的推荐。TwiSTAR通过自适应推理分配(快慢思考)和工具调用(检索、排序、推理)来提升生成式推荐的精度与效率;RecRM-Bench则系统性地定义了Agent推荐系统的多维奖励建模(指令遵循、事实一致性、相关性、行为预测),为RL优化提供了标准化基准。这表明,将LLM的规划、推理和工具使用能力融入推荐全链路是当前的重要趋势。; [推荐系统中的偏差识别与去偏方

AI 技术日报 - 2026-05-13

今日日报跨越了博客、GitHub 项目、论文和 KOL 推文等多个数据源。核心亮点是:实时语音交互模型取得重大突破(Thinking Machines 发布 TML-Interaction-Small),同时 AI 领域的资本运作和商业竞争持续升温(Cerebras IPO、Anthropic 融资、OpenAI 重谈微软协议)。此外,开源生态的成本结构、多智能体框架和推理优化也是今日热点。 *数据统计: 精选文章 5 篇、GitHub 项目 5 个、论文 0 篇、KOL 推文 27 条

推荐算法日报 - 2026-05-13

[LLM与推荐系统的深度融合]:今日多篇论文聚焦于将LLM能力注入推荐系统,从生成式推荐(LASAR)、多模态理解(ByteDance框架)到个性化知识发现(PDR)和组推荐(AgentGR),LLM正从辅助工具演变为推荐核心引擎。趋势在于利用LLM的推理和语义理解能力,解决传统模型在细粒度偏好建模、复杂决策模拟和内容理解上的瓶颈。; [系统-模型协同优化成为主流]:Meta的LoKA和Xiaohongshu的CCD-Level框架表明,单纯优化模型或系统已无法满足大规模部署需求。LoKA通过F

AI 技术日报 - 2026-05-12

今日日报跨越博客、GitHub、论文、KOL 推文和播客五大数据源,核心亮点是 AI 基础设施正从“训练优先”向“推理优先”加速转变。Stratechery 的长文系统性地剖析了推理工作负载的独特性,而 OpenAI 推出 Daybreak 安全产品与 Deployment Company、AWS 上线原生 Claude 平台、以及多个 Agent 框架(Hugging Face Skills、UI-TARS)的发布,共同指向 AI 应用部署与 Agent 生态的成熟化。此外,Ilya Sutskever 在庭审中的证词与 Epoch AI 对 FrontierMath 基准的修正,也为行业带

推荐算法日报 - 2026-05-12

LLM 驱动推荐系统进入精细化阶段:今日多篇论文聚焦如何更高效、更精准地将LLM融入推荐流程。从利用LLM生成可解释的用户画像(BLUE),到用强化学习(GRPO)优化检索策略(RRCM),再到双通道解耦语义与行为(DCGL),趋势已从“能否用LLM”转向“如何用好LLM”,尤其关注稀疏场景和跨域泛化。; 对现有基准评估体系的反思与重构:多篇论文揭示了当前推荐基准的局限性。Meta的论文通过简单图启发式方法,指出许多基准存在“捷径可解性”,模型的高分可能并非源于其声称的复杂能力。同时,TRACE

AI 技术日报 - 2026-05-11

今日日报跨越博客文章、GitHub 项目、KOL 推文三大数据源。核心亮点是 Agent 基础设施的全面爆发:从 Anthropic 官方发布的标准化技能包,到开源社区涌现的自我改进代理框架和记忆层,再到 GPU 编程的 Rust 化探索,AI 正从“对话工具”加速迈向“可编程、可记忆、可自主行动”的生产力实体。此外,成本优化(如用开源替代高价订阅)和本地化部署(如制造业的 AMD MI300X 方案)成为重要实践方向。 *数据统计: 精选文章 3 篇、GitHub 项目 5 个、KOL 推文 12 条。

AI 技术日报 - 2026-05-10

今日日报跨越博客、GitHub 项目、X 推文三大数据源。核心亮点是 AI Agent 生态的全面爆发:从政策框架到开源框架,从官方 SDK 到自进化机制,Agent 正在从概念走向工程化落地。同时,芯片层(Cerebras IPO、InP 衬底短缺)和模型层(ERNIE 5.1、MiniCPM-o 4.5)也有重要进展。精选文章 1 篇、GitHub 项目 5 个、KOL 推文 22 条。

推荐周报 2026-W19

本周 22 篇论文里能看出两条主线:生成式推荐继续在 Semantic ID 这一层做深耕,检索 / agentic search 这条线则在重写检索接口本身。另有三篇围绕 RAG 工程化(合成表格扩散、自动化 RAG 管线、生产级数据层),列入论文速览的"其他"部分。 生成式推荐侧四篇论文把更多结构化信号——商业价值、地理坐标、协同信号、长尾边界——直接压进 Semantic ID 这一层。腾讯(微信视频号广告)的 UniVA 做到 SID/decoding/serving 三段同时注入 eCPM 信号,离线 Hit Rate@100 +37.04%、线上 A/B GMV +1.5%;UCSD × Snap 的 Latte 从理论上证明自回归 SID 解码树会把语义近的 item 强行拉到一起,再给出在 token 前缀挂 latent 的低成本修补,NDCG@10 +3.45%。 检索侧的故事更激进。一周之内出现三种"重写检索接口"的反命题:Meta Superintelligence Labs 的 SIRA 把多轮 agent 探索压成一次 LLM-corpus 双向扩展的 BM25;Texas A&M / Stanford / UWashington 等 19 作者的 DCI 直接删掉 retriever,让 Claude Sonnet 4.6 用 grep + bash 在原始语料上调查(BrowseComp-Plus accuracy 从 69.0% 升到 80.0%、API 成本降 29.4%);UC Berkeley 的 T3 把 RAG 的"corpus"从文档换成 LLM 思维轨迹,AIME 上给 Gemini-2.5-Flash 注水 +56.3%。MIT 同期放出 OBLIQ-Bench,把"为什么必须改接口"这件事量化——传统 BM25 / dense / late interaction 在隐含意图查询上几乎全部接近 0 NDCG@10。 工业精排和召回侧维持"先拆瓶颈、再谈结构"的节奏。Meta Ads 的 IEFF 把特征下线从 3-6 个月重训压到不需重训,效率类 rollout 提速 5×;阿里淘天的 RecGPT-Mobile 把 next-query LLM 搬到手机端;中科大 × 美团的 DynamicPO 揭示多负样本 DPO 的"偏好优化坍塌"现象并给出梯度抑制的理论解释。整体趋势是:算法侧追求"动态自适应目标",工程侧追求"可回滚的弹性接口"。

1
...
678910
...
21