Glosario IA
El diccionario completo de la Inteligencia Artificial
Vector Embedding
Representación numérica densa de un objeto textual o visual en un espacio vectorial multidimensional, capturando sus características semánticas fundamentales. Estos embeddings permiten a las máquinas comprender y comparar el significado de los datos de manera cuantitativa.
Vector Database
Base de datos especializada optimizada para almacenar, indexar y consultar eficientemente representaciones vectoriales de alta dimensión. Utiliza estructuras de indexación avanzadas como HNSW o IVF para acelerar las búsquedas de similitud.
Semantic Search
Método de búsqueda que comprende la intención y el contexto semántico detrás de una consulta en lugar de basarse únicamente en coincidencias exactas de palabras clave. Utiliza embeddings para encontrar documentos conceptualmente similares incluso sin compartir vocabulario.
Dimensionality Reduction
Proceso algorítmico que reduce el número de dimensiones en los embeddings mientras preserva las relaciones semánticas importantes. Técnicas como PCA o t-SNE permiten optimizar el almacenamiento y acelerar los cálculos de similitud.
Vector Index
Estructura de datos optimizada que organiza los vectores para permitir búsquedas rápidas de vecinos más cercanos sin comparación exhaustiva. Índices como HNSW, IVF o LSH reducen considerablemente la complejidad temporal de las consultas.
Vector Normalization
Proceso de escalado de vectores para tener una norma unitaria, estandarizando así las comparaciones de similitud coseno. Esta técnica elimina los sesgos relacionados con la magnitud de los vectores y se centra únicamente en su dirección semántica.
Embedding Model
Red neuronal preentrenada que transforma texto u otros datos en representaciones vectoriales densas. Modelos como BERT, Sentence-BERT o OpenAI embeddings capturan diferentes matices semánticos según su arquitectura.
HNSW (Hierarchical Navigable Small World)
Estructura de indexación de grafos que crea múltiples capas de conexiones para acelerar la búsqueda de vecinos más cercanos. Ofrece un excelente compromiso entre velocidad de construcción, eficiencia de memoria y calidad de búsqueda.
IVF (Índice de Archivo Invertido)
Técnica de indexación que particiona el espacio vectorial en regiones (listas invertidas) para limitar la búsqueda a zonas relevantes. Combina cuantificadores gruesos y finos para equilibrar precisión y rendimiento en las búsquedas ANN.
Métricas de Distancia
Funciones matemáticas que cuantifican la disimilitud entre dos vectores en el espacio de embedding. Las métricas comunes incluyen la distancia euclidiana, la similitud coseno y la distancia de Manhattan, cada una adaptada a diferentes casos de uso.
Almacén de Vectores
Componente de arquitectura RAG responsable del almacenamiento y recuperación eficiente de los embeddings de documentos. Gestiona la persistencia, indexación e interrogación de vectores para alimentar el sistema de generación aumentada.
Recuperación Densa
Enfoque de recuperación de información que utiliza embeddings densos para capturar relaciones semánticas profundas entre documentos y consultas. Supera a métodos dispersos como TF-IDF para comprender el contexto y la intención.
Caché de Embeddings
Sistema de caché que almacena embeddings precalculados para evitar cálculos redundantes y acelerar las respuestas. Es crucial para el rendimiento de sistemas RAG que manejan consultas recurrentes o similares.
Embedding de Fragmentos
Proceso de creación de embeddings para segmentos de documentos en lugar de documentos completos, permitiendo una recuperación más granular y precisa. El tamaño óptimo de los fragmentos depende del dominio y los requisitos de contexto.
Metadatos de Vectores
Información asociada a cada vector incluyendo el identificador del documento fuente, las marcas de tiempo, los puntajes de relevancia u otros atributos filtrables. Los metadatos permiten un refinamiento preciso de los resultados de búsqueda.