Glosario IA
El diccionario completo de la Inteligencia Artificial
MapReduce
Modelo de programación paralela para procesar grandes conjuntos de datos en clústeres, dividiendo el procesamiento en dos fases principales: Map para filtrar y transformar, y Reduce para agregar los resultados.
Lambda Architecture
Arquitectura de procesamiento de datos que combina una ruta por lotes para el análisis completo y una ruta de velocidad para resultados en tiempo real, con una capa de servicio unificada para fusionar ambas vistas.
Kappa Architecture
Simplificación de la arquitectura Lambda que utiliza únicamente una canalización de procesamiento por flujos, donde los datos se procesan en tiempo real y las consultas históricas se satisfacen reproduciendo los eventos.
Batch Processing
Modo de procesamiento donde los datos se recopilan y procesan por lotes en intervalos predefinidos, optimizado para el rendimiento más que para la latencia, típico de los análisis ETL tradicionales.
Stream Processing
Procesamiento continuo de datos en movimiento a medida que se generan, permitiendo análisis en tiempo real con latencia mínima entre la captura y el procesamiento.
Distributed File System
Sistema de archivos que almacena datos en múltiples servidores mientras aparece como un sistema único para los usuarios, asegurando replicación y tolerancia a fallos para la fiabilidad.
HDFS
Hadoop Distributed File System, sistema de archivos distribuido diseñado para almacenar petabytes de datos en hardware estándar con alta tolerancia a fallos mediante la replicación de bloques.
YARN
Yet Another Resource Negotiator, administrador de recursos de Hadoop que separa el procesamiento de datos de la gestión de recursos, permitiendo la ejecución de múltiples frameworks en el mismo clúster.
RDD
Conjunto de Datos Distribuido y Resiliente, estructura de datos fundamental de Spark que representa una colección inmutable y particionada de objetos que puede ser calculada en paralelo con tolerancia a fallos automática.
Data Locality
Principio de computación distribuida donde las tareas se ejecutan en los nodos que contienen los datos necesarios, minimizando la transferencia de red y mejorando significativamente el rendimiento.
Speculative Execution
Mecanismo de tolerancia a fallos que lanza copias de tareas lentas en otros nodos, utilizando el primer resultado completado para reducir el impacto de nodos defectuosos o sobrecargados.
DAG
Grafo Acíclico Dirigido, representación del flujo de trabajo de Spark donde las transformaciones se organizan en un grafo dirigido sin ciclos, optimizando la ejecución paralela de las etapas.
Fault Tolerance
Capacidad de un sistema distribuido para continuar funcionando correctamente en caso de fallos de componentes, generalmente mediante redundancia, replicación y mecanismos de recuperación automática.
Consistency Model
Contrato que define las garantías de consistencia de datos en un sistema distribuido, que van desde la consistencia fuerte hasta la consistencia eventual según las necesidades de la aplicación.
Combiner
Función de optimización de MapReduce que se ejecuta localmente en cada mapeador para reducir el volumen de datos transferidos durante el shuffle, aplicando una pre-agregación antes de la fase de reducción.