字节潜在 Transformer (BLT)，打破大型语言模型中的分词瓶颈

构建日益更强大的大型语言模型 (LLMs) 的追求不断推动计算、数据和架构创新的边界。多年来，分词似乎是一个不可或缺的预处理步骤。但如果我们可以超越它呢？新论文介绍了字节潜在 Transformer (Byte Latent Transformer, BLT)，一种直接面对这一挑战的新型架构。这项开创性的工作证明了你可以达到基于分词的 LLMs 的性能，同时在规模上解锁效率和稳健性的显著收益。这篇博客文章将深入探讨 BLT 背后的关键创新。

分词的问题

传统 LLMs 依赖分词，将原始字节序列分组到预定义的静态标记集中。虽然有效，但这种方法引入了几个限制：

领域/模态敏感性：分词可能 bias how strings are compressed, leading to poor generalization across different data types.
对输入噪声的敏感性：输入中的微小扰动可能导致截然不同的标记序列。
缺乏正字法知识：LLMs 在字符级理解方面挣扎，例如正确的拼写或子词单元的处理。
多语言不公平性：针对一种语言优化的分词器对其他语言可能表现不佳，造成偏见和低效率。
固定词汇权衡：增加分词器的词汇量需要在模型更少步骤与更大嵌入管理之间权衡。

BLT 方法：动态补丁

不使用静态标记，BLT 直接使用动态大小的补丁从原始字节数据学习。BLT 的工作原理：

字节编码：原始字节序列被送入轻量级局部编码器模块。该模块包括关键创新：
- 哈希 N-gram 嵌入：BLT 通过结合一系列字节 n-gram 哈希嵌入与字节嵌入捕获上下文信息，提高每个处理步骤表示的丰富性。
- 交叉注意力池化：BLT 使用补丁表示作为查询和字节表示作为键和值的交叉注意力，有效地将字节数据池到可变大小的补丁中。
动态补丁：补丁是不静态的。一种可学习的补丁方法基于下一个字节预测的熵将字节分组到补丁中，使用更小的字节级语言模型。这允许 BLT 动态分配计算，在复杂序列上花费更多容量，在简单序列上花费更少。研究了两种熵方法，全局阈值方法和近似单调性方法，试图跟踪熵减少。
潜在 Transformer：然后将补丁送入潜在全局 Transformer，一个类似于现有 LLMs 中使用的大型自回归 transformer。全局 transformer 利用块因果注意力掩码，将注意力限制在当前补丁和前面的补丁。
字节解码：最后，局部解码器模块，另一个轻量级 transformer，使用类似的交叉注意力池化策略将补丁表示变换回输出字节序列，其中查询、键和值的角色反转。

BLT 的关键优势：

效率：通过动态调整补丁大小，BLT 基于数据复杂性分配计算，提高训练和推理速度。更长的补丁节省计算，可以重新分配给全局潜在 transformer，因为它运行频率较低。论文表明，产生的模型可以用更少的 FLOPs 训练，同时达到与分词模型类似的性能。
稳健性：直接访问原始字节允许 BLT 更好地泛化到嘈杂输入，学习正字法规则，并改善低资源语言翻译。作者甚至研究了应用于输入数据的各种噪声技术，并展示了相对于基于分词模型的改进。
可扩展性：与基于分词器的模型不同，增加词汇量昂贵且有极限，基于补丁的方法允许在相同的推理预算内缩放模型和补丁大小。
灵活性：模型可以处理任意的字节组，不需要固定词汇。

缩放趋势和性能

论文提出了广泛的实验，显示：

在 4T 字节数据上训练的 BLT 模型在计算最优缩放趋势上与基于分词器的 Llama 3 模型（高达 8B 参数）相当。
BLT 可以使用动态补丁大小进行训练，其中平均补丁为 6 甚至 8 字节，而 Llama 2 和 3 模型中 BPE 的平均为 3.7-4.4 字节。这直接导致推理 FLOPs 的节省，因为模型每个序列的步骤更少，因为更大的 transformer 运行频率更低。
BLT 模型在模拟数据长尾方面显示出显著改进，展示了对语言字符级结构的更好意识。这通过正字法知识、音韵学和低资源机器翻译任务的实验得到证明。
使用基于熵的动态补丁方法的模型优于基于空间或静态方法。

LLM 架构的新前沿

字节潜在 Transformer 代表了大型语言模型架构的重大进步。通过超越固定标记词汇并采用动态补丁方法，BLT 不仅匹配当前最先进模型的性能，而且为效率、稳健性和可扩展性的新时代打开了大门。这项研究不仅仅是当前技术的改进，而是范式转变，为 LLM 可以直接从信息的原始织物中学习的未来铺平了道路。

要点

分词对于 LLMs 不是必须的
动态字节补丁是可行的替代方案
可以使用原始字节数据大规模训练模型
在效率和稳健性方面可以实现显著收益
通过动态调整补丁和模型大小进行 LLM 缩放的新方法

BLT 的未来

当我们继续推动 LLM 可能性的边界时，字节潜在 Transformer 提供了该领域可能走向哪里的引人注目的愿景。虽然这项研究代表了一个重大突破，但探索在更大模型规模下的最佳架构选择是至关重要的。作者已经在 https://github.com/facebookresearch/blt 开源了 BLT 的训练和推理代码，这样你就可以深入了解模型的复杂性并试验这项开创性技术。我希望这篇评论对你思考新一代大型语言模型有帮助！