🏠 Inicio
Pruebas de rendimiento
📊 Todos los benchmarks 🦖 Dinosaurio v1 🦖 Dinosaurio v2 ✅ Aplicaciones To-Do List 🎨 Páginas libres creativas 🎯 FSACB - Showcase definitivo 🌍 Benchmark de traducción
Modelos
🏆 Top 10 modelos 🆓 Modelos gratuitos 📋 Todos los modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de prompts 📖 Glosario de IA 🔗 Enlaces útiles

Glosario IA

El diccionario completo de la Inteligencia Artificial

231
categorías
2.999
subcategorías
35.535
términos
📖
términos

Apache Spark

Framework de código abierto para procesamiento distribuido en memoria diseñado para acelerar el análisis de Big Data con ejecución paralela optimizada.

📖
términos

RDD (Resilient Distributed Dataset)

Estructura de datos fundamental de Spark, inmutable y particionada, que permite la tolerancia a fallos mediante la reconstrucción de datos perdidos.

📖
términos

DataFrame

Colección de datos distribuidos organizada en columnas nombradas, similar a una tabla de base de datos, optimizada para consultas estructuradas.

📖
términos

Spark SQL

Módulo de Spark que integra consultas SQL y operaciones DataFrame con optimización automática a través del Catalyst Optimizer.

📖
términos

Spark Streaming

Extensión de Spark que permite el procesamiento de flujos de datos en tiempo real con micro-lotes para una latencia casi en tiempo real.

📖
términos

MLlib

Biblioteca de aprendizaje automático distribuido de Spark que proporciona algoritmos de clasificación, regresión, clustering y recomendación.

📖
términos

GraphX

API de Spark para el procesamiento distribuido de grafos, combinando las ventajas de los grafos con el rendimiento de los RDD.

📖
términos

DAG (Directed Acyclic Graph)

Representación del plan de ejecución de las transformaciones de Spark, optimizado para eliminar redundancias y paralelizar el procesamiento.

📖
términos

Spark Driver

Proceso principal que coordina la ejecución de tareas Spark, crea el SparkContext y divide las operaciones en etapas.

📖
términos

Spark Executor

Proceso trabajador que ejecuta las tareas asignadas por el Driver en cada nodo del clúster, gestionando la memoria y los datos particionados.

📖
términos

Spark Context

Punto de entrada principal de la aplicación Spark, gestiona las conexiones al clúster y coordina el acceso a los recursos distribuidos.

📖
términos

Partición

Unidad lógica de distribución de datos en Spark, que permite el paralelismo al dividir los RDD/DataFrames en fragmentos independientes.

📖
términos

Shuffle

Operación costosa de redistribución de datos entre particiones, necesaria durante agregaciones, uniones o agrupaciones en Spark.

📖
términos

Catalyst Optimizer

Motor de optimización de consultas Spark que transforma y reorganiza los planes de ejecución para mejorar el rendimiento.

📖
términos

Tungsten

Backend de ejecución Spark que optimiza la memoria y la CPU mediante la gestión binaria de datos y la generación de código bytecode.

📖
términos

Cache/Persist

Mecanismo de persistencia de RDD/DataFrames en memoria o disco para reutilización rápida y evitar recálculos costosos.

📖
términos

Variable de Difusión

Variable de solo lectura distribuida eficientemente a todos los ejecutores para minimizar las transferencias de red durante las uniones.

📖
términos

Acumulador

Variable compartida aditiva utilizada para agregar información desde las tareas paralelas de manera segura para hilos.

📖
términos

Transformación

Operación perezosa que crea un nuevo RDD/DataFrame sin ejecución inmediata, diferida hasta una acción desencadenante.

📖
términos

Acción

Operación que desencadena la ejecución del plan DAG para producir un resultado, forzando el cálculo de todas las transformaciones previas.

🔍

No se encontraron resultados