Byte Latent Transformer (BLT), Rompiendo el Cuello de Botella de Tokenización en Modelos de Lenguaje Grandes

La búsqueda para construir modelos de lenguaje grandes (LLMs) cada vez más poderosos está empujando constantemente los límites de cómputo, datos e innovación arquitectónica。Durante años, la tokenización ha sido un paso de preprocesamiento aparentemente indispensable。Pero, ¿y si pudiéramos ir más allá？Un nuevo artículo presenta el Byte Latent Transformer (BLT), una arquitectura novedosa que aborda este desafío de frente。Este trabajo innovador demuestra que puedes igualar el rendimiento de LLMs basados en tokenización, mientras desbloqueas ganancias significativas en eficiencia y robustez a escala。Esta publicación de blog profundizará en las innovaciones clave detrás de BLT。

El Problema de la Tokenización

Los LLMs tradicionales dependen de tokenización, un proceso de agrupar secuencias de bytes sin procesar en un conjunto de tokens predefinido y estático。Aunque efectivo, este enfoque introduce varias limitaciones：

Sensibilidad de Dominio/Modalidad：La tokenización puede sesgar cómo se comprimen las cadenas, llevando a mala generalización a través de diferentes tipos de datos。
Sensibilidad a Ruido de Entrada：Pequeñas perturbaciones en la entrada pueden llevar a secuencias de tokens muy diferentes。
Falta de Conocimiento Ortográfico：Los LLMs luchan con comprensión a nivel de carácter, como ortografía correcta o manejo de unidades de subpalabra。
** Inequidad Multilingüe**：Los tokenizadores optimizados para un idioma pueden funcionar mal en otros, creando sesgos e ineficiencias。
Intercambio de Vocabulario Fijo：Aumentar el tamaño del vocabulario con tokenización tiene un intercambio entre menos pasos para el modelo, pero también incrustaciones más grandes para gestionar。

El Enfoque BLT：Parchado Dinámico

En lugar de tokens estáticos, BLT aprende directamente de datos de bytes sin procesar usando parches de tamaño dinámico。Así es como funciona BLT：

Codificación de Bytes：Las secuencias de bytes sin procesar se alimentan en un módulo Codificador Local liviano。Este módulo incluye innovaciones clave：
- Embeddings Hash N-Gram：BLT captura información contextual incorporando una serie de embeddings hash de n-gramos de bytes junto con los embeddings de bytes, mejorando la riqueza de representación en cada paso de procesamiento。
- Pooling por Atención Cruzada：BLT usa atención cruzada con representaciones de parche como consultas y representaciones de bytes como claves y valores, haciendo pooling efectivo de datos de byte en los parches de tamaño variable。
Parchado Dinámico：Los parches no son estáticos。Un método de parchado aprendible agrupa bytes en parches basado en la entropía de la predicción del próximo byte, usando un modelo de lenguaje a nivel de byte más pequeño。Esto permite a BLT asignar cómputo dinámicamente, dedicando más capacidad a secuencias complejas y menos a secuencias simples。Se investigan dos métodos de entropía, un método de umbral global y un método de monotonicidad aproximada que intenta rastrear disminuciones de entropía。
Transformer Latente：Los parches se alimentan entonces en el Transformer Global Latente, un transformer autorregresivo grande similar a los usados en LLMs existentes。El transformer global aprovecha una máscara de atención causal por bloques que restringe la atención al parche actual y a los parches precedentes。
Decodificación de Bytes：Finalmente, el módulo Decodificador Local, otro transformer liviano, transforma las representaciones de parche de vuelta a una secuencia de bytes de salida usando una estrategia similar de pooling por atención cruzada con los roles de consultas, claves y valores invertidos。

Ventajas Clave de BLT：

Eficiencia：Al ajustar dinámicamente los tamaños de parche, BLT asigna cómputo basado en complejidad de datos, mejorando tanto la velocidad de entrenamiento como de inferencia。Los parches más largos ahorran cómputo, que puede reasignarse al transformer global latente, porque se ejecuta con menos frecuencia。El papel muestra que los modelos resultantes pueden entrenar con menos FLOPs para rendimiento similar que modelos tokenizados。
Robustez：El acceso directo a bytes sin procesar permite a BLT generalizar mejor a entradas ruidosas, aprender reglas ortográficas y mejorar traducción de idiomas de bajos recursos。Los autores incluso investigan varias técnicas de ruido aplicadas a datos de entrada y muestran mejoras sobre modelos basados en tokenización。
Escalabilidad：A diferencia de modelos basados en tokenizadores, donde aumentar el tamaño del vocabulario es costoso y tiene un límite, el enfoque basado en parches permite escalar tanto el tamaño del modelo como el de los parches dentro del mismo presupuesto de inferencia。
Flexibilidad：El modelo puede manejar grupos arbitrarios de bytes y no requiere un vocabulario fijo。

Tendencias de Escalamiento y Rendimiento

El papel presenta experimentos extensos, mostrando：

Modelos BLT entrenados en 4T bytes de datos alcanzan paridad con las tendencias de escalamiento óptimo de cómputo de modelos Llama 3 basados en tokenización hasta 8B parámetros。
BLT puede entrenarse con tamaños de parche dinámicos donde el parche promedio es 6 o incluso 8 bytes comparado con el promedio de 3.7-4.4 bytes para BPE en modelos Llama 2 y 3。Esto conduce directamente a ahorros en FLOPs de inferencia, ya que el modelo da menos pasos por secuencia, porque el transformer más grande se ejecuta con menos frecuencia。
Modelos BLT muestran mejoras significativas en modelar la cola larga de los datos, demostrando mejor conciencia de estructuras a nivel de carácter en el lenguaje。Esto se demostró a través de experimentos en conocimiento ortográfico, fonología y tareas de traducción automática de bajos recursos。
Modelos usando un método de parchado dinámico basado en entropía superaron métodos basados en espacio o estáticos。

Una Nueva Frontera en Arquitectura de LLM

El Byte Latent Transformer representa un paso significativo hacia adelante para la arquitectura de modelos de lenguaje grandes。Al ir más allá de vocabularios fijos de tokens y abrazar un enfoque de parchado dinámico, BLT no solo iguala el rendimiento de modelos de vanguardia actuales, sino que abre las puertas a una nueva era de eficiencia, robustez y escalabilidad。Esta investigación no es solo un refinamiento de técnicas actuales, sino un cambio de paradigma que allana el camino para un futuro donde los LLMs pueden aprender directamente del tejido sin procesar de la información。

Conclusiones Clave

La tokenización no es imprescindible para LLMs
El parchado dinámico de bytes es una alternativa viable
Se pueden entrenar modelos usando datos de bytes sin procesar a escala
Se pueden lograr beneficios significativos tanto en eficiencia como en robustez
Un nuevo método para escalamiento de LLM ajustando dinámicamente el tamaño de parche y del modelo

El Futuro de BLT

A medida que continuamos empujando los límites de lo posible con LLMs, el Byte Latent Transformer ofrece una visión convincente de hacia dónde puede dirigirse el campo。Mientras que esta investigación representa un gran avance, es esencial explorar preguntas sobre elecciones arquitectónicas óptimas en escalas de modelo cada vez más grandes。Los autores han open-sourced el código de entrenamiento e inferencia para BLT en https://github.com/facebookresearch/blt, para que puedas profundizar en las complejidades del modelo y experimentar con esta tecnología innovadora。¡Espero que hayas encontrado esta reseña útil para pensar en la próxima generación de modelos de lenguaje grandes！