Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
HDFS
Système de fichiers distribué principal de Hadoop conçu pour stocker des pétaoctets de données sur des clusters de machines standard avec réplication automatique et tolérance aux pannes.
MapReduce
Paradigme de programmation et implémentation pour le traitement distribué de grands ensembles de données sur des clusters, divisant les tâches en phases de mapping et de reduction.
YARN
Gestionnaire de ressources de Hadoop qui orchestre l'allocation des ressources CPU et mémoire aux applications tout en gérant le cycle de vie des tâches dans le cluster.
HBase
Base de données NoSQL distribuée, orientée colonnes et non relationnelle construite sur HDFS, offrant un accès en temps réel aux données massives avec forte cohérence.
Hive
Infrastructure d'entrepôt de données sur Hadoop permettant l'interrogation de grandes datasets avec un langage similaire à SQL (HiveQL) tout en utilisant MapReduce pour l'exécution.
Pig
Plateforme d'analyse de données haut niveau utilisant le langage Pig Latin pour exprimer des programmes de transformation de données complexes exécutés sur Hadoop.
Spark
Moteur de traitement unifié ultra-rapide pour le Big Data, offrant des APIs en Scala, Java, Python et R avec support pour SQL, streaming, machine learning et graph processing.
ZooKeeper
Service de coordination distribué centralisé pour maintenir les informations de configuration, la nomination, la synchronisation distribuée et la gestion des groupes de services.
Flume
Service distribué, fiable et disponible pour collecter, agréer et déplacer de grandes quantités de données de streaming vers HDFS avec architecture basée sur agents.
Sqoop
Outil conçu pour transférer efficacement des données en masse entre Hadoop et des bases de données structurées comme les bases de données relationnelles.
Oozie
Système de workflow et de coordonnateur pour gérer et exécuter des pipelines de traitement de données Hadoop complexes avec dépendances temporelles et conditionnelles.
Mahout
Bibliothèque d'algorithmes de machine learning et de data mining distribués implémentés sur Hadoop MapReduce pour le traitement de grands ensembles de données.
Ambari
Plateforme de gestion et de monitoring de clusters Hadoop offrant une interface web pour provisionner, gérer et monitorer l'écosystème Hadoop complet.
HCatalog
Service de gestion des métadonnées et de la table pour l'écosystème Hadoop, fournissant une vue unifiée des données pour des outils comme Pig, Hive et MapReduce.
Avro
Système de sérialisation de données avec schéma évolutif, fournissant des formats de données compacts et rapides pour les échanges entre services Hadoop.
Parquet
Format de fichier columnar optimisé pour les performances de requêtes analytiques sur Hadoop, avec compression efficace et support de types complexes.
Impala
Moteur de requêtes SQL massivement parallèle pour Hadoop offrant des performances de requêtes interactives basses latences sur les données stockées dans HDFS et HBase.
Tez
Framework d'exécution de données acyclique généralisé pour Hadoop YARN, optimisant les performances des traitements complexes en éliminant les phases MapReduce inutiles.
Storm
Système distribué de traitement de flux en temps réel pour Hadoop, capable de traiter des volumes massifs de données avec des latences de l'ordre de la milliseconde.
Kafka
Plateforme de messagerie distribuée à haute performance et haute disponibilité pour la collecte et le traitement de flux de données en temps réel dans l'écosystème Hadoop.