🏠 Accueil
Benchmarks
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 Glossaire IA 🔗 Liens Utiles

Glossaire IA

Le dictionnaire complet de l'Intelligence Artificielle

242
catégories
3 353
sous-catégories
40 780
termes
📖
termes

Apache Spark

Framework open-source de traitement distribué en mémoire conçu pour accélérer les analyses de Big Data avec une exécution parallèle optimisée.

📖
termes

RDD (Resilient Distributed Dataset)

Structure de données fondamentale de Spark, immuable et partitionnée, permettant la tolérance aux pannes par reconstruction des données perdues.

📖
termes

DataFrame

Collection de données distribuées organisée en colonnes nommées, similaire à une table de base de données, optimisée pour les requêtes structurées.

📖
termes

Spark SQL

Module Spark intégrant les requêtes SQL et les opérations DataFrame avec optimisation automatique via le Catalyst Optimizer.

📖
termes

Spark Streaming

Extension Spark permettant le traitement de flux de données en temps réel avec micro-batchs pour une latence quasi-réelle.

📖
termes

MLlib

Bibliothèque d'apprentissage automatique distribuée de Spark fournissant des algorithmes de classification, régression, clustering et recommandation.

📖
termes

GraphX

API Spark pour le traitement de graphes distribué, combinant les avantages des graphes avec les performances de RDD.

📖
termes

DAG (Directed Acyclic Graph)

Représentation du plan d'exécution des transformations Spark, optimisée pour éliminer les redondances et paralléliser le traitement.

📖
termes

Spark Driver

Processus principal coordinant l'exécution des tâches Spark, créant le SparkContext et divisant les opérations en stages.

📖
termes

Spark Executor

Processus worker exécutant les tâches assignées par le Driver sur chaque nœud du cluster, gérant la mémoire et les données partitionnées.

📖
termes

Spark Context

Point d'entrée principal de l'application Spark, gérant les connexions au cluster et coordonnant l'accès aux ressources distribuées.

📖
termes

Partition

Unité logique de distribution des données dans Spark, permettant le parallélisme en divisant les RDD/DataFrames en fragments indépendants.

📖
termes

Shuffle

Opération coûteuse de redistribution des données entre partitions, nécessaire lors des agrégations, jointures ou regroupements dans Spark.

📖
termes

Catalyst Optimizer

Moteur d'optimisation de requêtes Spark transformant et réorganisant les plans d'exécution pour améliorer les performances.

📖
termes

Tungsten

Backend d'exécution Spark optimisant la mémoire et le CPU grâce à la gestion binaire des données et la génération de code bytecode.

📖
termes

Cache/Persist

Mécanisme de persistance des RDD/DataFrames en mémoire ou sur disque pour réutilisation rapide et éviter les recalculs coûteux.

📖
termes

Broadcast Variable

Variable en lecture seule distribuée efficacement à tous les exécuteurs pour minimiser les transferts réseau lors des jointures.

📖
termes

Accumulator

Variable partagée additive utilisée pour agréger des informations depuis les tâches parallèles de manière thread-safe.

📖
termes

Transformation

Opération paresseuse créant un nouveau RDD/DataFrame sans exécution immédiate, différée jusqu'à une action déclencheuse.

📖
termes

Action

Opération déclenchant l'exécution du plan DAG pour produire un résultat, forçant le calcul de toutes les transformations précédentes.

🔍

Aucun résultat trouvé