Glosario IA
El diccionario completo de la Inteligencia Artificial
HDFS
Sistema de archivos distribuido principal de Hadoop diseñado para almacenar petabytes de datos en clústeres de máquinas estándar con replicación automática y tolerancia a fallos.
MapReduce
Paradigma de programación e implementación para el procesamiento distribuido de grandes conjuntos de datos en clústeres, dividiendo las tareas en fases de mapeo y reducción.
YARN
Gestor de recursos de Hadoop que orquesta la asignación de recursos de CPU y memoria a las aplicaciones mientras gestiona el ciclo de vida de las tareas en el clúster.
HBase
Base de datos NoSQL distribuida, orientada a columnas y no relacional construida sobre HDFS, ofreciendo acceso en tiempo real a datos masivos con fuerte consistencia.
Hive
Infraestructura de almacén de datos en Hadoop que permite consultar grandes conjuntos de datos con un lenguaje similar a SQL (HiveQL) mientras utiliza MapReduce para la ejecución.
Pig
Plataforma de análisis de datos de alto nivel que utiliza el lenguaje Pig Latin para expresar programas complejos de transformación de datos ejecutados en Hadoop.
Spark
Motor de procesamiento unificado ultrarrápido para Big Data, ofreciendo APIs en Scala, Java, Python y R con soporte para SQL, streaming, machine learning y procesamiento de grafos.
ZooKeeper
Servicio de coordinación distribuido centralizado para mantener información de configuración, nomenclatura, sincronización distribuida y gestión de grupos de servicios.
Flume
Servicio distribuido, confiable y disponible para recolectar, agregar y mover grandes cantidades de datos de streaming hacia HDFS con arquitectura basada en agentes.
Sqoop
Herramienta diseñada para transferir eficientemente datos en masa entre Hadoop y bases de datos estructuradas como bases de datos relacionales.
Oozie
Sistema de flujo de trabajo y coordinador para gestionar y ejecutar pipelines de procesamiento de datos Hadoop complejos con dependencias temporales y condicionales.
Mahout
Biblioteca de algoritmos de aprendizaje automático y minería de datos distribuidos implementados en Hadoop MapReduce para el procesamiento de grandes conjuntos de datos.
Ambari
Plataforma de gestión y monitoreo de clústeres Hadoop que ofrece una interfaz web para aprovisionar, gestionar y monitorear el ecosistema Hadoop completo.
HCatalog
Servicio de gestión de metadatos y tablas para el ecosistema Hadoop, proporcionando una vista unificada de los datos para herramientas como Pig, Hive y MapReduce.
Avro
Sistema de serialización de datos con esquema evolutivo, proporcionando formatos de datos compactos y rápidos para intercambios entre servicios Hadoop.
Parquet
Formato de archivo columnar optimizado para el rendimiento de consultas analíticas en Hadoop, con compresión eficiente y soporte para tipos complejos.
Impala
Motor de consultas SQL masivamente paralelo para Hadoop que ofrece consultas interactivas de baja latencia sobre datos almacenados en HDFS y HBase.
Tez
Framework de ejecución de datos acíclico generalizado para Hadoop YARN, que optimiza el rendimiento de procesamientos complejos eliminando fases MapReduce innecesarias.
Storm
Sistema distribuido de procesamiento de flujos en tiempo real para Hadoop, capaz de procesar volúmenes masivos de datos con latencias del orden del milisegundo.
Kafka
Plataforma de mensajería distribuida de alto rendimiento y alta disponibilidad para la recolección y procesamiento de flujos de datos en tiempo real en el ecosistema Hadoop.