Glosario IA
El diccionario completo de la Inteligencia Artificial
Codificación de Pares de Bytes (BPE)
Algoritmo de compresión de datos adaptado a la tokenización que fusiona iterativamente los pares de caracteres más frecuentes para crear un vocabulario de subpalabras optimizado.
WordPiece
Variante del BPE desarrollada por Google que maximiza la probabilidad del lenguaje durante la fusión de tokens, utilizada especialmente en los modelos BERT y sus variantes.
Modelo de Lenguaje Unigrama
Enfoque de tokenización basado en un modelo de lenguaje unigrama que selecciona la mejor segmentación maximizando la probabilidad producto de los tokens en la secuencia.
SentencePiece
Biblioteca de tokenización independiente del idioma que trata el texto como una secuencia unicode en bruto, eliminando la necesidad de preprocesamiento específico para cada idioma.
Tamaño del Vocabulario
Parámetro crítico que determina el número total de tokens únicos en el vocabulario de un modelo, influyendo directamente en el tamaño del modelo y su capacidad para manejar la diversidad lingüística.
Tokens Especiales
Tokens reservados como [CLS], [SEP], [MASK], [PAD] utilizados para delimitar secuencias, ocultar elementos o rellenar los lotes hasta una longitud uniforme.
Entrenamiento del Tokenizador
Proceso de aprendizaje automático del vocabulario y las reglas de segmentación a partir de un corpus de texto, optimizando la representación para una tarea o dominio específico.
Regularización de Subpalabras
Técnica de aumento de datos que aplica diferentes segmentaciones posibles del mismo texto durante el entrenamiento, mejorando la robustez y generalización del modelo.
Truncamiento de Vocabulario
Proceso de limitar el vocabulario a los N tokens más frecuentes, reemplazando los tokens menos frecuentes por subpalabras o un token [UNK] para optimizar la eficiencia computacional.
Pipeline de Tokenización
Secuencia de pasos de preprocesamiento que incluye normalización, pre-tokenización, segmentación de modelo y post-procesamiento para producir los tokens finales.
Configuración del Tokenizador
Archivo de configuración JSON que contiene todos los hiperparámetros y metadatos necesarios para reproducir exactamente el comportamiento de un tokenizador específico.
Tokenizadores Rápidos
Implementaciones optimizadas de tokenizadores que utilizan Rust y estructuras de datos eficientes, ofreciendo rendimientos 10-100 veces superiores a las implementaciones puras de Python.
Inferencia del Tokenizador
Fase de aplicación de un tokenizador entrenado sobre nuevos datos de texto, convirtiendo el texto crudo en secuencias de tokens listas para el procesamiento por el modelo.