Glosario IA
El diccionario completo de la Inteligencia Artificial
Latencia de extremo a extremo
Medida del tiempo total transcurrido entre el envío de una solicitud por un usuario y la recepción de la respuesta completa, incluyendo todas las etapas de procesamiento del sistema QA.
Caché Semántico
Mecanismo de almacenamiento temporal de respuestas basado en la similitud semántica de las consultas, permitiendo servir rápidamente respuestas precalculadas para preguntas cercanas sin recálculo.
Indexación Inversa en Tiempo Real
Estructura de datos que actualiza continuamente el mapeo de términos hacia documentos, permitiendo la consulta instantánea de datos recién agregados o modificados.
Modelo de Recuperación Densa (Dense Retrieval)
Enfoque que utiliza incrustaciones vectoriales para representar los documentos y las consultas en un espacio semántico común, optimizado para una búsqueda rápida y precisa.
Reranking Neuronal en Línea
Proceso de reevaluación de los resultados de búsqueda por un modelo de deep learning aplicado dinámicamente para refinar el orden de las respuestas más relevantes.
Pipeline de Procesamiento Asíncrono
Arquitectura donde las etapas de procesamiento se ejecutan en paralelo sin bloquear el flujo principal, reduciendo la latencia percibida por el usuario.
Precálculo de Representaciones
Estrategia que consiste en generar y almacenar los vectores de codificación de los documentos por adelantado para eliminar esta etapa costosa durante las consultas en tiempo real.
Fragmentación de Conocimientos
Particionamiento horizontal de la base de conocimientos en varios nodos para paralelizar las búsquedas y aumentar el rendimiento de consultas simultáneas.
Filtrado por Baja Latencia
Capa de filtrado rápida que utiliza heurísticas o modelos ligeros para eliminar candidatos no relevantes antes del procesamiento por modelos más complejos.
Streaming de Respuestas
Método de transmisión de respuestas por fragmentos sucesivos tan pronto como se generan, mejorando el tiempo percibido de respuesta para respuestas largas.
Poda de Vectores (Vector Pruning)
Proceso de reducción del espacio de búsqueda eliminando vectores poco relevantes basado en métricas de distancia o similitud precalculadas.
Inferencia por Lotes en GPU
Técnica de optimización que agrupa varias consultas para procesarlas simultáneamente en una GPU, maximizando el uso de recursos y reduciendo la latencia por consulta.
Sistema de Búsqueda Híbrida
Arquitectura que combina búsqueda por palabras clave (sparse) y búsqueda semántica (dense) para equilibrar precisión y recuperación manteniendo una baja latencia.
Conexión Persistente (WebSocket)
Protocolo de comunicación bidireccional mantenido abierto entre cliente y servidor, permitiendo intercambios instantáneos sin sobrecarga de conexión para cada consulta.
Caché Multi-Nivel
Estrategia de almacenamiento de respuestas en múltiples capas (ej: memoria, Redis, CDN) para servir consultas desde el caché más rápido disponible.
Optimización del Camino de Consulta
Análisis y refinamiento del recorrido de una consulta a través del sistema para eliminar cuellos de botella y minimizar cada salto de red o procesamiento.