序列到序列学习——神经网络十年

在一次最近的主题演讲中，Ilya Sutskever 反思了使用神经网络的序列到序列学习的十年历程，分享了关于 AI 开发过去、现在和未来的见解。这次演讲深入了解了早期的神经网络假设如何塑造了今天的 AI 版图。

基础：核心原则

为现代 AI 系统奠定基础的工作建立在三个基本原则之上：

在文本上训练的自回归模型
大型神经网络
大型数据集

深度负载假设

早期工作中一个特别有趣的方面是”深度负载假设”（Deep Load Hypothesis）。这一理论提出，一个具有 10 层的大型神经网络可以复制人类在几分之一秒内可以执行的任何任务。选择 10 层不是随意的——它只是研究人员当时知道如何训练的内容。这个假设基于人工神经元与生物神经元相似性的信念。

模型架构的演变

在 transformer 时代之前，LSTMs（长短时记忆网络）是首选架构。Sutskever 将 LSTMs 描述为本质上是旋转了 90 度的残差网络，以积分器和乘法运算的形式增加了复杂性。早期实现使用流水线进行并行化，使用八块 GPU 实现了 3.5 倍的速度提升——这种方法虽然如今不被认为是最优的，但当时是革命性的。

扩展假设的诞生

也许早期工作中最重要的结论是后来被称为扩展假设的内容：成功可以用足够大的数据集和神经网络来保证。这一见解已被证明是预言性的，正如现代语言模型的成功所证明的。

联结主义和预训练

联结主义的概念——人工神经元反映生物神经元的想法——导致了预训练时代，以 GPT-2 和 GPT-3 等模型为例。然而，Sutskever 指出，虽然人脑可以重新配置自己，但当前的 AI 系统缺乏这种能力。

AI 开发的未来

展望未来，Sutskever 指出了未来发展的几个关键领域：

代理
合成数据生成
改进的推理时计算

他引用了一个有趣的生物学进化类比，参考了一个显示哺乳动物体型和大脑大小之间关系的图表，暗示自然已经发现了我们可以学习的不同扩展方法。

通向超级智能的道路

Sutskever 谈到了通向超级智能的进展，指出当前模型尽管在某些评估中表现出超越人类的能力，但仍然在可靠性和混淆性方面挣扎。他建议未来的系统将发展代理能力和推理能力，尽管这种发展带来了自身的挑战。

AI 中推理的影响

在 AI 系统中引入推理能力既带来机遇也带来挑战。与主要以可预测方式复制人类直觉的当前系统不同，具有推理能力的 AI 可能表现得更不可预测。Sutskever 认为这些系统最终将发展：

从有限数据中更好的理解
决策中减少混淆
作为其世界模型一部分的自我意识

展望未来

虽然 Sutskever 强调精确预测 AI 未来的不可能性，但他对领域的潜力保持乐观。他建议当前的幻觉问题可能通过自我纠正的推理模型来解决，尽管他警告不要将这种能力过于简化为简单的”自动更正”。

演讲以对关于 AI 权利、泛化能力以及生物灵感在 AI 开发中作用的 thoughtful responses to questions 结束。虽然许多问题仍未解答，但序列到序列学习的十年进展无疑为人工智能领域激动人心的发展奠定了基础。