Glosario IA
El diccionario completo de la Inteligencia Artificial
Tokenización de Subpalabras
Técnica de segmentación del texto en unidades lingüísticas más pequeñas que las palabras pero más grandes que los caracteres, permitiendo gestionar eficientemente el vocabulario y las palabras raras en los modelos transformers.
Token Desconocido (UNK)
Token especial utilizado para representar las palabras o subpalabras no presentes en el vocabulario del tokenizer, permitiendo al modelo gestionar las entradas fuera del vocabulario durante la inferencia.
Análisis Morfológico
Proceso de identificación de los morfemas y estructuras gramaticales en las palabras, optimizado por los tokenizers de subpalabras que capturan naturalmente las regularidades morfológicas de los idiomas.
Tokenización a Nivel de Caracteres
Enfoque de segmentación que trata cada carácter individual como un token, eliminando los problemas de vocabulario pero aumentando la longitud de las secuencias a expensas de la eficiencia computacional.
Tokenización a Nivel de Palabras
Método tradicional que utiliza palabras enteras como unidades de token, limitada por la explosión del vocabulario y la incapacidad de gestionar palabras fuera del vocabulario y variaciones morfológicas.
BPE Dropouts
Técnica de regularización que introduce aleatoriedad en el proceso de tokenización BPE ignorando ciertas fusiones durante el entrenamiento, mejorando la robustez y la generalización del modelo.
Tokens Especiales (CLS, SEP, PAD, MASK)
Tokens reservados con funciones específicas en BERT: CLS para la clasificación, SEP para la separación, PAD para el alineamiento y MASK para el enmascaramiento durante el pre-entrenamiento.
Mapeo de ID de Token
Correspondencia biyectiva entre cada token del vocabulario y un identificador numérico único, permitiendo la conversión eficiente entre representaciones textuales y numéricas en los modelos neuronales.
Compresión de tokens
Objetivo principal de la tokenización subword que busca minimizar el número promedio de tokens por palabra manteniendo un vocabulario de tamaño razonable para un rendimiento computacional óptimo.
Umbral de frecuencia de tokens
Parámetro que define la frecuencia mínima que un token debe alcanzar para ser incluido en el vocabulario, crucial para equilibrar cobertura y tamaño del vocabulario en la tokenización subword.
Algoritmo de segmentación subword
Conjunto de reglas y heurísticas que determinan cómo dividir palabras desconocidas en subpalabras existentes del vocabulario, basado en principios de maximización de probabilidad y minimización de segmentos.
Cobertura del vocabulario
Métrica que evalúa la proporción del corpus que puede ser representada sin tokens UNK, optimizada por algoritmos subword para alcanzar típicamente más del 99.9% de cobertura en los corpus modernos.