La IA Generativa ha agregado una colección completamente nueva de términos al panorama tecnológico, y como con cada tecnología nueva y en evolución, hay una buena cantidad de confusión con lo que significan estos términos, así que aquí va mi lista en constante evolución de todos los términos que te ayudarán a comprender mejor lo que realmente significan.
-
Ada - Se refiere a modelos adaptativos como AdaM que pueden optimizarse a sí mismos durante el entrenamiento.
-
Attention Mechanism - Un componente en redes neuronales, especialmente en Transformers, que permite al modelo concentrarse en partes específicas de los datos de entrada. Por ejemplo, al traducir una oración del inglés al francés, la atención ayuda al modelo a concentrarse en palabras inglesas relevantes mientras genera cada palabra francesa.
-
Autoencoder - Un tipo de red neuronal utilizada para aprendizaje no supervisado. Codifica datos de entrada en una representación comprimida y luego los decodifica para recrear la entrada.
-
Backpropagation - Un algoritmo de optimización utilizado para minimizar el error en redes neuronales ajustando los pesos.
-
Beam Search - Un algoritmo de búsqueda utilizado en tareas de predicción de secuencias. Mantiene un número fijo de las mejores soluciones parciales (secuencias) para mejorar la calidad de las secuencias generadas.
-
Bias (in AI) - Cuando un modelo de IA tiene inclinaciones preexistentes debido a sus datos de entrenamiento. Puede resultar en predicciones injustas o incorrectas.
-
CLIP - Contrastive Language-Image Pre-training - un modelo imagen + texto utilizado para guiar la generación de imágenes.
-
Denoising - Un proceso donde el modelo es entrenado para reconstruir sus datos de entrada a partir de una versión corrupta de ellos. Esto ayuda al modelo a aprender a concentrarse en características esenciales e ignorar el ruido.
-
Diffusion model - Modelos generativos que convierten ruido en imágenes mediante refinamiento iterativo.
-
Embedding - Una representación vectorial de palabras o ítems que codifica significado semántico. Se usa para introducir palabras en modelos de lenguaje.
-
Epoch - Un ciclo completo de pasar todo el conjunto de datos a través de una red neuronal durante el entrenamiento.
-
Few-shot learning - Uso de un pequeño conjunto de datos etiquetados para adaptar un modelo a una nueva tarea o conjunto de datos.
-
Fine-tuning - El proceso de tomar un modelo pre-entrenado y entrenarlo más en un conjunto de datos específico para adaptarlo a una tarea particular.
-
Generative Adversarial Network (GAN) - Un tipo de modelo de IA que consiste en dos redes – un generador y un discriminador. El generador intenta producir datos falsos, mientras que el discriminador intenta diferenciar entre datos reales y falsos. Con el tiempo, el generador mejora su habilidad para producir falsos convincentes.
-
Generative AI - Un subconjunto de técnicas de IA que se utilizan para crear contenido, como imágenes, texto o música. Aprenden de datos existentes para generar muestras nuevas y previamente no vistas.
-
Gradient Descent - Un algoritmo de optimización que ajusta iterativamente los parámetros de un modelo para minimizar la función de pérdida.
-
Hallucination - En el contexto de modelos de lenguaje de IA como GPT, la alucinación se refiere a que el modelo genera información que no es precisa o no está basada en sus datos de entrenamiento. “Imagina” detalles que no son fácticos.
-
Latent Space - En el contexto de modelos generativos, es el espacio abstracto en el que viven las representaciones de datos. Los modelos generativos a menudo navegan y muestrean este espacio para producir nuevo contenido.
-
Loss Function - Una función matemática que cuantifica qué tan bien las predicciones del modelo de IA coinciden con los datos reales. El entrenamiento apunta a minimizar este valor.
-
Neural Network - Sistemas computacionales inspirados en la estructura de redes neuronales biológicas. Consisten en capas de nodos interconectados (neuronas) y se usan para varias tareas de aprendizaje automático.
-
Overfitting - Cuando un modelo de IA aprende los datos de entrenamiento demasiado bien, incluyendo su ruido y valores atípicos, making que se desempeñe mal en datos nuevos y no vistos.
-
Perplexity - Una medición de qué tan bien un modelo de lenguaje predice una muestra. Una menor perplexity indica mejor generación.
-
Prompt engineering - Diseñar los prompts de texto que se alimentan a modelos de lenguaje para producir mejores resultados.
-
Prompt Templates - Prompts o preguntas estructuradas dadas a un modelo para guiar sus respuestas. Por ejemplo, en lugar de preguntar “cuéntame sobre X”, un prompt template podría ser “Proporciona un resumen breve de X destacando sus características principales.”
-
RAG (Retrieval-Augmented Generation) - Un enfoque que combina recuperación (buscar a través de una base de datos de información) y generación (producir contenido nuevo). Por ejemplo, cuando se le hace una pregunta, RAG puede buscar pasajes relevantes y luego usar esos pasajes para generar una respuesta coherente.
-
Regularization - Técnicas utilizadas en el entrenamiento para prevenir el overfitting, como agregar una penalización a la función de pérdida.
-
Small Language Model - Un modelo de lenguaje pequeño es un modelo de aprendizaje automático entrenado en una cantidad limitada de datos de texto para generar lenguaje natural. Los modelos de lenguaje pequeños tienen una capacidad de conocimiento más restringida en comparación con modelos grandes, pero aún pueden producir texto sorprendentemente coherente. Las ventajas clave de los modelos de lenguaje pequeños es que requieren menos poder computacional para entrenar y ejecutar, haciéndolos más accesibles y fáciles de desplegar en aplicaciones.
-
Softmax - Una función que convierte puntuaciones en probabilidades utilizadas para la predicción del siguiente token en modelos de lenguaje.
-
Temperature - Un parámetro que puede ser ajustado al muestrear desde la distribución de salida del modelo. Una temperatura más alta hace que la salida sea más aleatoria, mientras que una temperatura más baja la hace más determinista.
-
Token - Una unidad semántica individual en texto, como una palabra, subpalabra o puntuación. Las entradas y salidas de modelos de lenguaje.
-
Tokenization - El proceso de convertir datos de entrada (como texto) en tokens, que son fragmentos más pequeños, como palabras o subpalabras. Por ejemplo, la oración “ChatGPT is great!” podría ser tokenizada en [“ChatGPT”, “is”, “great”, ”!”].
-
Top-k Sampling - Una estrategia de decodificación donde el modelo selecciona la siguiente palabra/token de los k candidatos más probables en lugar de considerar todo el vocabulario.
-
Top-p Sampling (Nucleus Sampling) - Otra estrategia de decodificación donde el modelo elige la siguiente palabra/token de un vocabulario reducido que suma una probabilidad acumulada p, asegurando más aleatoriedad que el muestreo Top-k.
-
Transfer Learning - Un método de aprendizaje automático donde un modelo pre-entrenado se ajusta finamente para una tarea ligeramente diferente. Esto a menudo reduce la cantidad de datos requeridos y el tiempo de entrenamiento.
-
Transformer Architecture - Una arquitectura de red neuronal que utiliza mecanismos de auto-atención para ponderar datos de entrada de manera diferente y es particularmente exitosa en tareas de procesamiento de lenguaje natural. Modelos como GPT (Generative Pre-trained Transformer) usan esta arquitectura.
-
Transformer - Un tipo de arquitectura de red neuronal basada en mecanismos de atención, comúnmente usada en modelos de lenguaje grandes como GPT-3.
-
Variational Autoencoder (VAE) - Un tipo de autoencoder que agrega restricciones probabilísticas al proceso de codificación, haciendo que el modelo genere datos nuevos y similares.
-
Vector Database - Una base de datos vectorial es un sistema de base de datos optimizado para almacenar y consultar representaciones vectoriales de objetos, como incrustaciones numéricas. Proporciona búsquedas de similitud eficientes a través de datos vectoriales de alta dimensión.
-
Zero-shot, One-shot, Few-shot Learning - Enfoques donde los modelos son entrenados o realizan tareas con pocos o ningún ejemplo. En un escenario “zero-shot”, el modelo no ha visto ningún ejemplo de la tarea. En “one-shot”, ha visto solo un ejemplo, y en “few-shot”, un número limitado de ejemplos.