人工通用智能(AGI)数十年来一直是人工智能研究的最终目标。创造能够像人类一样思考和学习的机器的想法,不仅让研究人员着迷,几乎所有思考过技术未来的人都为之神往。最近,OpenAI的Sam Altman一直在强调我们需要认真对待AGI,暗示我们可能建造一个能够处理任何任务的巨型模型。
但还有另一种看待这个问题的方式。一些聪明人认为AGI可能实际上是由许多小型、专门化的模型协同工作所产生的。让我们深入探讨这两种方法,看看哪种更有意义,从训练时间、GPU成本和实际可行性等方面分析真正的权衡。
方法一:一个巨无霸模型统治一切
建造一个巨型模型来实现AGI听起来很酷,对吧?但要让这个方案奏效,我们需要解决一些严重的技术挑战:
训练数据:
我们要谈论的是覆盖人类所知所学的海量数据集。
模型架构:
我们需要极其复杂的神经网络,能够处理不同类型信息之间错综复杂的关系。
计算能力:
这将需要大量的GPU、TPU,或者可能是我们甚至尚未发明的定制硬件。
诚然,拥有一个单一模型听起来更简单,但它带来了一些实际问题:
过拟合:
模型可能对其训练数据过于适应,难以应对任何新事物。
认知超载:
想象一下试图同时成为所有领域的专家——这基本上就是我们对这个模型的要求。它可能不会工作得很好。
方法二:专家团队
另一种方法是建立一个专家团队,而不是试图创建一个无所不知的通才。每个模型在特定领域变得非常出色——无论是理解语言、识别图像还是玩游戏。
细分专长:
模型可以专注于它们最擅长的领域。一个做语言处理,另一个做图像识别,再做逻辑推理——你明白的。
迁移学习:
一个模型学到的东西可以帮助其他模型更快学习,这比每次都从头开始高效得多。
这种方法有一些明显的优势:
模块化:
每个模型更小,更容易训练,所以不需要超级计算机来运行它们。
灵活性:
你可以根据要解决的问题混合搭配这些专家模型。
鲁棒性:
当你让多个专家协同工作时,整个系统变得更加可靠。
但也不是一帆风顺:
协调:
让这些不同的模型相互沟通并协同工作是棘手的。
集成:
你需要聪明的方法来综合所有这些专门化模型的输出。
这两种方法如何比较?
| 一个巨无霸模型 | 专家团队 | |
|---|---|---|
| 训练时间 | 耗时极长,极其复杂 | 分解后快得多 |
| GPU 使用 | 需要大量计算能力 | 可以将工作分布到多台机器 |
| 实际可行吗? | 由于认知负荷和过拟合问题相当困难 | 由于模块化方法现实得多 |
让我们坦诚一点——建造AGI很难。两种方法都有其优点,但专家团队的方法似乎更实用,也可能更快见效。
随着我们继续向AGI迈进,我们需要不断尝试新的架构、训练方法和集成一切的方式。未来很可能是两种方法的混合——取长补短,找出让它们协同工作的最佳方式。
更新:AGI与AI术语的转变
自从2024年3月我第一次写这篇文章以来,OpenAI在谈论人工智能时发生了一些有趣的变化。如果你一直在关注他们最近的公告和Sam Altman的演讲,你可能会注意到一个微妙但重要的变化——他们更多地使用”AI”而更少使用”AGI”。
但OpenAI最近的信息中还有另一个有趣的转折。他们一直在更多地谈论”agent”(智能体)——能够实际执行任务的AI系统,不仅仅是讨论它们。据传他们可能很快会宣布一个名为”Agent Builder”的东西。
这当你思考时就完全合理了。与其追求AGI的圣杯,他们专注于能够处理特定任务并协同工作的实用AI agents。这就像他们从我们讨论的”一个巨无霸模型”方法转向更像是”专家团队”模型的东西。
也许他们已经意识到”AGI”这个词设定期望过高,造成不必要的压力。当你一直承诺AGI时,人们期望的是能够真正做到人类能做的任何事情的系统——而我们还没到那一步。
通过专注于”AI agents”而不是”AGI”,OpenAI可以谈论实际的、可工作的系统,而不被AGI的定义问题所困。这是更聪明的营销,说实话。他们可以展示其模型今天实际能做的事情,同时向更复杂的基于agent的系统迈进。
有趣的是,这种转变并没有改变我们在本文中讨论的基本技术挑战。无论你称它为AGI、AI还是agents,我们仍然面临着关于架构、训练和集成的相同根本问题。
如果说有什么不同的话,这种以agent为中心的方法使得”专家团队”模型更加相关。未来可能不是一个神奇的AGI模型,而是专门化的AI agents协同工作——这 basically 就是我们已经在用ChatGPT、DALL-E和其他专门化模型所看到的情况。传闻中的Agent Builder可能是他们让任何人都能创建和组合这些专门化agents的方式。
参考文献
OpenAI: “Artificial General Intelligence” Stanford University: “The Future of Artificial General Intelligence”