🏠 Accueil
Benchmarks
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 Glossaire IA 🔗 Liens Utiles

Glossaire IA

Le dictionnaire complet de l'Intelligence Artificielle

242
catégories
3 353
sous-catégories
40 780
termes
📖
termes

Apache Hadoop MapReduce

Modèle de programmation et implémentation distribuée pour le traitement de grands ensembles de données sur des clusters, divisant les traitements en phases Map et Reduce. MapReduce est l'un des premiers frameworks populaires pour le traitement batch à grande échelle.

📖
termes

ETL (Extract, Transform, Load)

Processus d'intégration de données consistant à extraire des données de sources hétérogènes, les transformer selon les règles métier définies, puis les charger dans un système cible. Les pipelines ETL sont généralement exécutés en batch pour synchroniser les données.

📖
termes

Job Scheduling

Mécanisme d'ordonnancement automatique des tâches de traitement par lots selon des calendriers prédéfinis, des dépendances ou des déclencheurs événementiels. Les ordonnanceurs modernes gèrent la parallélisation, les retentatives et la surveillance des exécutions.

📖
termes

Shuffling

Opération coûteuse de redistribution des données entre les nœuds du cluster lors des phases de regroupement ou d'agrégation dans les traitements distribués. Le shuffling représente souvent le goulot d'étranglement principal dans les jobs MapReduce et Spark.

📖
termes

HDFS

Système de fichiers distribué conçu pour stocker des fichiers volumineux sur des machines standards avec tolérance aux pannes par réplication. HDFS fournit un accès séquentiel haute performance adapté aux traitements batch par MapReduce.

📖
termes

YARN

Orchestrateur de ressources pour l'écosystème Hadoop, responsable de l'allocation de CPU, mémoire et stockage aux applications distribuées. YARN permet l'exécution concurrente de multiples frameworks de traitement sur un même cluster Hadoop.

📖
termes

Apache Sqoop

Outil de transfert de données bidirectionnel entre Hadoop et bases de données relationnelles, optimisé pour les imports/exports massifs en parallèle. Sqoop génère automatiquement le code MapReduce nécessaire pour déplacer efficacement les données.

📖
termes

Apache Hive

Infrastructure d'entreposage de données construite sur Hadoop fournissant une interface SQL-like (HQL) pour l'interrogation de grandes volumes de données stockées dans HDFS. Hive traduit les requêtes en jobs MapReduce pour l'exécution batch.

🔍

Aucun résultat trouvé