Modelos de Computación Distribuida

📖

términos

MapReduce

Modelo de programación paralela para procesar grandes conjuntos de datos en clústeres, dividiendo el procesamiento en dos fases principales: Map para filtrar y transformar, y Reduce para agregar los resultados.

📖

términos

Lambda Architecture

Arquitectura de procesamiento de datos que combina una ruta por lotes para el análisis completo y una ruta de velocidad para resultados en tiempo real, con una capa de servicio unificada para fusionar ambas vistas.

📖

términos

Kappa Architecture

Simplificación de la arquitectura Lambda que utiliza únicamente una canalización de procesamiento por flujos, donde los datos se procesan en tiempo real y las consultas históricas se satisfacen reproduciendo los eventos.

📖

términos

Batch Processing

Modo de procesamiento donde los datos se recopilan y procesan por lotes en intervalos predefinidos, optimizado para el rendimiento más que para la latencia, típico de los análisis ETL tradicionales.

📖

términos

Stream Processing

Procesamiento continuo de datos en movimiento a medida que se generan, permitiendo análisis en tiempo real con latencia mínima entre la captura y el procesamiento.

📖

términos

Distributed File System

Sistema de archivos que almacena datos en múltiples servidores mientras aparece como un sistema único para los usuarios, asegurando replicación y tolerancia a fallos para la fiabilidad.

📖

términos

HDFS

Hadoop Distributed File System, sistema de archivos distribuido diseñado para almacenar petabytes de datos en hardware estándar con alta tolerancia a fallos mediante la replicación de bloques.

📖

términos

YARN

Yet Another Resource Negotiator, administrador de recursos de Hadoop que separa el procesamiento de datos de la gestión de recursos, permitiendo la ejecución de múltiples frameworks en el mismo clúster.

📖

términos

RDD

Conjunto de Datos Distribuido y Resiliente, estructura de datos fundamental de Spark que representa una colección inmutable y particionada de objetos que puede ser calculada en paralelo con tolerancia a fallos automática.

📖

términos

Data Locality

Principio de computación distribuida donde las tareas se ejecutan en los nodos que contienen los datos necesarios, minimizando la transferencia de red y mejorando significativamente el rendimiento.

📖

términos

Speculative Execution

Mecanismo de tolerancia a fallos que lanza copias de tareas lentas en otros nodos, utilizando el primer resultado completado para reducir el impacto de nodos defectuosos o sobrecargados.

📖

términos

DAG

Grafo Acíclico Dirigido, representación del flujo de trabajo de Spark donde las transformaciones se organizan en un grafo dirigido sin ciclos, optimizando la ejecución paralela de las etapas.

📖

términos

Fault Tolerance

Capacidad de un sistema distribuido para continuar funcionando correctamente en caso de fallos de componentes, generalmente mediante redundancia, replicación y mecanismos de recuperación automática.

📖

términos

Consistency Model

Contrato que define las garantías de consistencia de datos en un sistema distribuido, que van desde la consistencia fuerte hasta la consistencia eventual según las necesidades de la aplicación.

📖

términos

Combiner

Función de optimización de MapReduce que se ejecuta localmente en cada mapeador para reducir el volumen de datos transferidos durante el shuffle, aplicando una pre-agregación antes de la fase de reducción.

Glosario IA

MapReduce

Lambda Architecture

Kappa Architecture

Batch Processing

Stream Processing

Distributed File System

HDFS

YARN

RDD

Data Locality

Speculative Execution

DAG

Fault Tolerance

Consistency Model

Combiner

No se encontraron resultados