基于记忆的智能体学习——迈向真正自主AI的道路

追求无需人类干预即可学习、适应和进化的自主AI系统代表了人工智能中最引人注目的挑战之一。一篇突破性论文介绍了Memento，一种基于记忆的学习框架，使AI智能体能够在无需微调底层语言模型的计算开销的情况下持续提高性能。这种方法可能代表迈向真正自主AI系统的最初 concrete steps。

根本挑战

当前AI智能体范式 suffering from two critical limitations：

静态系统：具有硬编码工作流的专用框架，部署后无法适应
计算昂贵的学习：需要通过监督微调或强化学习进行昂贵参数更新的系统

核心问题变为：我们如何构建能从变化环境中持续学习而无需微调基础模型的 prohibitive cost 的LLM智能体？

记忆增强马尔可夫决策过程（M-MDP）

Memento框架通过Memory-Augmented Markov Decision Processes引入了一种 novel formalization。与传统MDP不同，M-MDPs incorporate an explicit memory space M = (𝒮 × 𝒜 × R)* que almacena experiencias pasadas como episodios traces。

数学基础

系统定义了具有策略的Case-Based Reasoning（CBR）智能体：

π(a|s, M) = Σ μ(c|s, M)p_LLM(a|s, c)
       c∈M

其中：

μ(c|s, M) 代表案例检索策略
p_LLM(a|s, c) 表示给定状态和案例的LLM的动作可能性
M 包含历史案例为 tuples (state, action, reward)

四阶段CBR循环

Memento在AI智能体框架内实现了经典的CBR循环：

1. 检索

系统查询情景记忆以获取相关的过去经验，使用：

非参数检索：基于余弦相似性的案例匹配
参数检索：用于自适应案例选择的已学习Q函数

2. 重用与修订

检索的案例指导LLM的决策过程，智能体将过去解决方案 adapt to current contexts。

3. 评估

环境反馈提供评估动作质量的奖励信号。

4. 保留

新经验存储在案例库中，参数变体也在线更新Q函数。

技术实现

软Q学习框架

系统通过最大熵强化学习优化案例检索：

J(π) = E[Σ [ℛ(s_t, a_t) + αℋ(μ(·|s_t, M_t))]]

这种形式鼓励案例选择中的性能最大化和探索多样性。

记忆管理策略

非参数记忆：与冻结文本编码器的直接相似性匹配

Read_NP(s_t, M_t) = TopK sim(enc(s_t), enc(s_i))

参数记忆：用于战略性案例选择的神经Q函数学习

Read_P(s_t, M_t) = TopK Q(s_t, c_i; θ)

实证验证

基准性能

Memento在多个具有挑战性的基准上实现了 state-of-the-art results：

GAIA：验证集上87.88%准确率（Pass@3），排名#1
DeepResearcher：66.6% F1分数，优于基于训练的方法
SimpleQA：事实问题上95.0%准确率
HLE：前沿知识任务上24.4%，接近GPT-5性能

关键洞察

记忆扩展：使用K=4检索案例实现最佳性能，表明情景记忆中质量胜过数量
持续学习：观察到跨迭代的性能改进，没有 catastrophic forgetting
泛化：分布外任务上4.7-9.6%的绝对改进

对自主AI的影响

生物学灵感

该框架反映了人类记忆机制：

经验的情景编码
记忆更新期间的巩固
通过类似多巴胺的信用分配进行的选择性检索
用于新颖问题解决的类比推理

计算效率

基于记忆的学习相比传统微调提供 several advantages：

无需梯度更新基础模型
实时适应通过案例库更新
模块化架构实现选择性改进
成本有效的扩展相比参数优化

前进道路

技术挑战

记忆策展：避免”swamping problem”其中检索成本超过效用
案例质量：确保存储的经验保持相关性和准确性
可扩展性：高效管理不断增长的记忆库
迁移学习：跨域 generalize learned cases

迈向真正的自主

Memento代表了一种范式转变 toward autonomous AI systems que：

持续学习无需外部监督
动态适应变化的环境
保存知识跨任务领域
自我改进通过经验积累

系统架构

实现遵循 planner-executor pattern：

┌─────────────┐    ┌──────────────┐    ┌─────────────┐
│   Planner   │───▶│ Case Memory  │───▶│  Executor   │
│ (GPT-4.1)   │    │   (M-MDP)    │    │   (o3)      │
└─────────────┘    └──────────────┘    └─────────────┘
       ▲                   │                   │
       │            ┌──────▼──────┐           ▼
       └────────────│ Tool Memory │    ┌─────────────┐
                    │ (MCP Tools) │    │Environment  │
                    └─────────────┘    └─────────────┘

批判性分析

优势

计算效率：避免昂贵的模型微调
生物学合理性：反映人类记忆系统
实证验证：基准上强大性能
实际部署：展示了现实世界适用性

局限性

记忆增长：无界案例库可能变得笨重
领域特异性：跨 vastly different domains 的泛化不清楚
质量控制：没有移除不良案例的明确机制
评估范围：仅限于特定基准任务

结论

基于记忆的智能体学习可能代表我们处理自主AI系统方式的根本转变。通过利用情景记忆和基于案例的推理，像Memento这样的系统展示了 continuous learning and adaptation 可以在没有传统微调方法的计算开销的情况下实现。

虽然在记忆管理、可扩展性和跨域转移方面仍有挑战，但这种范式为迈向真正自主AI系统——可以独立学习、进化和改进的系统——提供了一条有前景的道路。Underlying this approach 的生物学 inspiration suggests我们可能 converging on principles que enable open-ended learning——迈向人工通用智能的关键里程碑。

这些影响超越技术成就延伸至关于机器学习性质、自主系统以及人类与人工智能未来关系的 fundamental questions。随着这些基于记忆的方法成熟，它们可能 well represent the first concrete steps toward AI systems que genuinely learn and evolve autonomously。

进一步阅读

通向人工通用智能之路 — AGI的两种主要路径对比
环境代理——始终在线的AI辅助未来 — 记忆在长期运行智能体中的作用
AI智能体的可靠性鸿沟 — 持续学习如何提高可靠性
基于记忆的智能体学习 — 真正自主AI的路径