推荐系统

日报

LLM 深度融入推荐全链路：今日多篇论文（MuChator、L2Rec）展示了 LLM 不再仅是特征提取器，而是作为核心推理引擎，通过预训练注入领域知识、指令微调对齐用户意图、强化学习对齐偏好，直接参与召回与排序决策。工业界已验证其线上效果，LLM for Rec 正从实验走向大规模部署。; 两阶段排序的端到端训练突破：CA-PG 论文针对两阶段排序中早期排序器（ESR）难以端到端训练的痛点，提出信用分配策略梯度，有效降低训练方差并加速收敛。这为工业界优化全链路（召回+排序）提供了新的理论工具，

文章详情

日报

技术趋势

今日 AI 领域资本与技术创新双线爆发：Cognition 以 260 亿美元估值完成 10 亿美元融资，Fireworks AI 同步冲刺 150 亿美元估值，AI 编程与推理基础设施赛道热度空前。技术层面，MiniMax 发布 M2.5 模型在 SWE-Bench 达 80.2%，同时开源 M2 技术报告揭示全注意力与 128 专家 MoE 的设计哲学；Hugging Face 实现 Delta Weight Sync 将异步 RL 训练带宽降低 97%，NVIDIA 推出 Polar 框架对 Agent 工具进行 GRPO 训练。此外，ESMFold2 用 LLM 方法在蛋白质折叠领域超

文章详情

日报

技术趋势

今日 AI 领域迎来多个产业里程碑：Anthropic 年化收入被曝反超 OpenAI 至少 35%，AI 商业格局生变；推理基础设施诞生新独角兽，Fireworks 与 Baseten 估值双双破百亿，标志市场从“训练模型”转向“规模化推理”。同时，Figure 与 JCPenney 运营商签约大规模部署人形机器人，AWS 发布首个托管式 Agent 支付服务 AgentCore Payments，xAI 推出 Grok Build/Skills/Connectors 三件套正面竞争 Claude Code。学术方面，微软提出 ECHO 让终端 Agent 从环境反馈中免费学习世界模型，阿里

文章详情

推荐系统

日报

生成式推荐与检索增强的工业落地：今日多篇论文（QGS、DeGRe、Memento）将生成式序列模型或RAG范式应用于搜索排序、重排和长历史建模。核心趋势是从“全量序列建模”转向“条件生成”或“检索增强”，通过显式引入查询条件（QGS）、离线探索在线蒸馏（DeGRe）或MMR多样性检索（Memento），在保持生成式模型优势的同时，解决查询切换噪声、序列探索效率及长历史注意力稀释等工业级痛点，且均有线上效果验证。; 多模态与终身兴趣建模的统一框架：SIREN 提出了统一多粒度语义交互框架，通过软/

文章详情

推荐系统

日报

生成式推荐进入工业深水区：今日多篇论文（Netflix、Tubi）展示了生成式推荐从概念验证到大规模部署的实践。核心挑战不再是模型能力，而是生产约束：任务头空间（task headroom）、重复训练成本、服务延迟对齐、冷启动泛化。Netflix 提出 offset scaling-law 诊断来判断扩展收益，Tubi 则用“用户故事”序列化统一多任务。这标志着生成式推荐正从“能不能做”转向“如何高效落地”。; 知识蒸馏与模型压缩成为工业部署标配：Microsoft 的 HARNESS-LM 和

文章详情

日报

技术趋势

今日 AI 领域迎来多个里程碑：OpenAI 与 DeepMind 双线攻克 80 年未解数学难题，标志 LLM 推理能力质变。同时 HRM-Text 以 1500 美元成本挑战 Scaling Law，DeepSeek 永久降价 75% 至 GPT-5.5 的 1/9，行业从“算力军备竞赛”转向“效率与成本竞争”。Agent 生态全面走向生产级，AWS MCP Server 正式 GA、auth.md 认证协议发布、微软 SkillOpt 提出系统化技能优化。中国 AI 模型周使用量连续四周超美国，DeepSeek-V4-Flash 居榜首。

文章详情

日报

技术趋势

今日日报跨越博客、GitHub 项目、播客与 KOL 推文，核心亮点在于AI 对就业与组织架构的深层冲击：一方面，历史数据挑战“AI 消灭岗位”的简单叙事，提出自动化可能因价格弹性增加岗位的反直觉观点；另一方面，实战案例显示 AI-First 组织已实现 99% 代码由 AI 完成，引发对信任、角色与效率的重新思考。此外，DeepMind Agent 自主解决数学难题、微软因成本禁止内部使用 Claude Code 等事件，共同勾勒出 AI 从工具到生产力的加速渗透与阵痛。精选文章 2 篇、GitHub 项目 2 个、播客 1 集、KOL 推文 23 条

文章详情

日报

技术趋势

今日日报跨越博客、GitHub 项目、KOL 推文三大数据源，核心趋势是“模型实验室集体转向 Agent 产品”，同时 Agent 的记忆、训练和安全工具链迎来密集发布。腾讯开源了 4 层记忆管道，Pydantic 和 CrewAI 等成熟框架持续领跑，vLLM 社区则因虚假 PR 事件引发对 AI 编码 Agent 维护成本的讨论。 *数据统计：精选文章 3 篇、GitHub 项目 4 个、KOL 推文 12 条（合并后）。

文章详情

周报

技术趋势

2026-W21 的核心叙事线只有一条：Agent 从「模型能力」正式转向「系统基础设施」。 Google I/O 2026 是这波浪潮的爆发点——Gemini 3.5 Flash 将「前沿智能+行动能力」打包成一个 4 倍速度、一半成本的 API，Managed Agents 让开发者用 YAML 定义 Agent 并托管在云端沙箱，Antigravity 则将 Agent 推入桌面和后台。但更值得注意的不是 Google 一家：Qwen3.7-Max 在同一周发布了 35 小时自主执行能力，Daytona 的沙箱基础设施已跑到日均 85 万次，IBM 和 Hugging Face 联合推出的 Open Agent Leaderboard 首次评测完整 Agent 系统而非模型。这三个信号指向同一个判断——Agent 正在经历「从 demo 到部署」的 infrastructure 陡坡。框架层（Langflow、Multica、12-Factor Agents）在解决编排与可观测性，沙箱层（Daytona、阿里云 AgentRun、AWS 博客方案）在解决安全与状态管理，评测层（Open Agent Leaderboard、Cameron Wolfe 指南）在解决「怎么知道我做的 Agent 好不好」。与此同时，NVIDIA、Together AI、Amazon 等实验室发布了大量训练推理优化论文，IXT、Dynatrain、CODA、DualKV 等系统级创新在推动效率边界。第二条线索是自主科学发现从「学术畅想」走向「可验证结果」。OpenAI 模型首次自主解决 Erdős 1946 年提出的离散几何猜想，Sam Altman 在推文中称「这是一个大里程碑」。Meta FAIR 的 AIRA 系统让 Agent 自主设计出超越 Llama 3.2 的神经网络架构。这些事件虽然数量不多，但质量极高——不再是「AI 辅助科学家」，而是「AI 作为发现者」。本周还有一项底层警示：RoPE 机制在长上下文中的局限性被严格证明（UIUC & Amazon AGI），表明现有位置编码范式可能需要根本性革新。

本周推荐系统研究围绕三条技术主线展开：生成式推荐从“验证可行性”走向“工业级部署与优化”，去偏与校准技术从单一方法走向融合框架，搜索召回系统在冷启动和异构加速上取得具体突破。生成式推荐进入工业化深水区：快手、腾讯、美团的四篇部署论文覆盖了推理增强（RPORec）、长兴趣建模（GenLI）、世界知识融合（LWGR）等核心痛点。共同的指向是——生成式推荐的核心问题已从“能不能用”转变为“如何稳定、可控地替换或增强传统pipeline”。去偏与校准从“纠正均值”走向“治理分布”：字节跳动的PEARL、快手的DADF、Pinterest的PRL-PUTS分别从对比百分位、残差校正、效用权重调优三个角度，给出了生产级解决方案。其中PEARL的Watch Duration +2.10%和DADF的时间花费+0.347%表明，分布级别偏差校正仍有显著收益空间。搜索召回系统聚焦冷启动与系统效率：淘宝的GrowthGR（新商品GMV+5.3%）和Airbnb的合成数据框架（查询长度KL散度降至0.66）展示了LLM+反事实推断在冷启动中的工程潜力。华为与京东合作的Ascend-RaBitQ将billion-scale向量搜索的NPU加速提升至4.6倍，为大规模召回提供了硬件-算法协同的新基准。

文章详情

日报

技术趋势

今日日报跨越博客、GitHub 项目、播客和 KOL 推文四大数据源，核心亮点是 AI 对硬件供应链的挤压效应和 Agent 工程从框架到治理的全面成熟。内存短缺导致消费电子涨价，同时微软推出 Agent 治理工具包，标志着 Agent 应用进入企业级安全部署阶段。精选文章 5 篇、GitHub 项目 2 个、播客 2 集、KOL 推文 19 条

文章详情

推荐系统

日报

LLM 从“辅助”走向“核心”：今日多篇工业界论文（Meta、Airbnb、快手）不再将LLM作为特征提取的辅助工具，而是将其作为推荐系统的核心推理引擎，用于生成语义表示、合成训练数据、甚至直接进行推理与检索，标志着LLM在推荐系统中的应用进入新阶段。; 强化学习成为LLM推荐对齐的关键技术：无论是快手的RPORec还是山东大学的ThinkGR，都采用了强化学习（PPO）来微调LLM，使其推理过程与推荐目标（如精确检索、多跳推理）对齐。这表明RLHF的思路正在从对话系统向推荐系统迁移，是提升LL

文章详情

...

4 5 6 7 8

...