🏠 Inicio
Pruebas de rendimiento
📊 Todos los benchmarks 🦖 Dinosaurio v1 🦖 Dinosaurio v2 ✅ Aplicaciones To-Do List 🎨 Páginas libres creativas 🎯 FSACB - Showcase definitivo 🌍 Benchmark de traducción
Modelos
🏆 Top 10 modelos 🆓 Modelos gratuitos 📋 Todos los modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de prompts 📖 Glosario de IA 🔗 Enlaces útiles

Glosario IA

El diccionario completo de la Inteligencia Artificial

231
categorías
2.999
subcategorías
35.535
términos
📖
términos

Apache Hadoop MapReduce

Modelo de programación e implementación distribuida para el procesamiento de grandes conjuntos de datos en clústeres, dividiendo los tratamientos en fases Map y Reduce. MapReduce es uno de los primeros frameworks populares para el procesamiento por lotes a gran escala.

📖
términos

ETL (Extract, Transform, Load)

Proceso de integración de datos que consiste en extraer datos de fuentes heterogéneas, transformarlos según las reglas de negocio definidas y luego cargarlos en un sistema objetivo. Los pipelines ETL generalmente se ejecutan por lotes para sincronizar los datos.

📖
términos

Job Scheduling

Mecanismo de programación automática de tareas de procesamiento por lotes según calendarios predefinidos, dependencias o desencadenadores de eventos. Los programadores modernos gestionan la paralelización, los reintentos y la supervisión de las ejecuciones.

📖
términos

Shuffling

Operación costosa de redistribución de datos entre los nodos del clúster durante las fases de agrupamiento o agregación en los tratamientos distribuidos. El shuffling representa a menudo el principal cuello de botella en los trabajos MapReduce y Spark.

📖
términos

HDFS

Sistema de archivos distribuido diseñado para almacenar archivos voluminosos en máquinas estándar con tolerancia a fallos mediante replicación. HDFS proporciona acceso secuencial de alto rendimiento adaptado a los tratamientos por lotes mediante MapReduce.

📖
términos

YARN

Orquestador de recursos para el ecosistema Hadoop, responsable de la asignación de CPU, memoria y almacenamiento a las aplicaciones distribuidas. YARN permite la ejecución concurrente de múltiples frameworks de procesamiento en un mismo clúster Hadoop.

📖
términos

Apache Sqoop

Herramienta de transferencia de datos bidireccional entre Hadoop y bases de datos relacionales, optimizada para importaciones/exportaciones masivas en paralelo. Sqoop genera automáticamente el código MapReduce necesario para mover eficientemente los datos.

📖
términos

Apache Hive

Infraestructura de almacenamiento de datos construida sobre Hadoop que proporciona una interfaz similar a SQL (HQL) para la consulta de grandes volúmenes de datos almacenados en HDFS. Hive traduce las consultas en trabajos MapReduce para la ejecución por lotes.

🔍

No se encontraron resultados