Glosario IA
El diccionario completo de la Inteligencia Artificial
Apache Kafka
Plataforma de streaming distribuida de código abierto diseñada para manejar flujos de datos en tiempo real con alto rendimiento y baja latencia, utilizada como intermediario de mensajes y sistema de almacenamiento de registros.
Apache Flink
Framework de procesamiento de flujos y lotes distribuido que ofrece capacidades de procesamiento de eventos complejos con gestión de estado y semántica exactamente-una-vez para aplicaciones en tiempo real.
Ventaneo
Técnica fundamental del procesamiento de flujos que divide el flujo continuo de datos en ventanas temporales o basadas en conteo para realizar agregaciones y análisis en subconjuntos de datos.
Contrapresión
Mecanismo de control de flujo que permite a los sistemas de procesamiento regular la velocidad de los productores de datos cuando los consumidores no pueden seguir el ritmo, previniendo así la saturación del sistema.
Marca de agua
Marcador temporal integrado en el flujo de datos que permite rastrear la progresión del tiempo de eventos y gestionar datos tardíos en los sistemas de procesamiento de flujos.
Procesamiento con Estado
Paradigma de procesamiento donde las operaciones mantienen un estado persistente entre eventos, esencial para agregaciones, uniones y detecciones de patrones complejos en flujos de datos.
Semántica Exactamente-Una-Vez
Garantía de procesamiento que asegura que cada evento del flujo es procesado precisamente una sola vez, incluso en caso de fallos, combinando entrega al-menos-una-vez con deduplicación en el lado del consumidor.
CEP (Procesamiento de Eventos Complejos)
Tecnología de procesamiento de eventos que identifica patrones significativos y correlaciones complejas a partir de múltiples flujos de eventos en tiempo real para desencadenar acciones inmediatas.
Micro-batching
Enfoque híbrido que procesa flujos de datos recolectando micro-lotes de eventos en intervalos cortos, combinando las ventajas del procesamiento por lotes y el procesamiento puro de eventos.
Event Sourcing
Patrón arquitectónico donde todas las modificaciones de estado se registran como una secuencia inmutable de eventos, permitiendo la reconstrucción de estados pasados y la auditoría completa del sistema.
Apache Storm
Sistema de procesamiento de flujos distribuido en tiempo real diseñado para latencias extremadamente bajas, utilizando una topología de spouts y bolts para transformar y analizar flujos de datos.
Change Data Capture (CDC)
Técnica que captura y propaga las modificaciones de datos de las bases de datos transaccionales hacia sistemas de streaming en tiempo real, permitiendo la sincronización y el análisis continuo.
Event Time vs Processing Time
Dos conceptos temporales fundamentales donde el tiempo de evento corresponde al momento en que el evento ocurrió, mientras que el tiempo de procesamiento es el momento en que es procesado por el sistema.
Stream Analytics
Disciplina que aplica técnicas analíticas avanzadas sobre flujos de datos continuos para extraer insights, detectar anomalías y tomar decisiones en tiempo real.
Data Pipeline Streaming
Arquitectura de pipeline de datos diseñada específicamente para el procesamiento continuo donde los datos transitan a través de múltiples etapas de transformación y enriquecimiento sin almacenamiento intermedio.
Message Queue
Componente middleware que asegura la comunicación asíncrona entre productores y consumidores de mensajes, garantizando la entrega confiable de eventos en arquitecturas distribuidas.
ETL en tiempo real
Proceso de extracción, transformación y carga de datos que se ejecuta continuamente sobre flujos en tiempo real, a diferencia del ETL tradicional por lotes que se ejecuta periódicamente.
Apache Beam
Framework unificado de procesamiento de datos por lotes y en flujo que proporciona un modelo de programación abstracto capaz de ejecutarse sobre múltiples runners como Flink, Spark o Dataflow.