Hadoop Ecosystem - Glossaire IA

📖

termes

HDFS

Système de fichiers distribué principal de Hadoop conçu pour stocker des pétaoctets de données sur des clusters de machines standard avec réplication automatique et tolérance aux pannes.

📖

termes

MapReduce

Paradigme de programmation et implémentation pour le traitement distribué de grands ensembles de données sur des clusters, divisant les tâches en phases de mapping et de reduction.

📖

termes

YARN

Gestionnaire de ressources de Hadoop qui orchestre l'allocation des ressources CPU et mémoire aux applications tout en gérant le cycle de vie des tâches dans le cluster.

📖

termes

HBase

Base de données NoSQL distribuée, orientée colonnes et non relationnelle construite sur HDFS, offrant un accès en temps réel aux données massives avec forte cohérence.

📖

termes

Hive

Infrastructure d'entrepôt de données sur Hadoop permettant l'interrogation de grandes datasets avec un langage similaire à SQL (HiveQL) tout en utilisant MapReduce pour l'exécution.

📖

termes

Pig

Plateforme d'analyse de données haut niveau utilisant le langage Pig Latin pour exprimer des programmes de transformation de données complexes exécutés sur Hadoop.

📖

termes

Spark

Moteur de traitement unifié ultra-rapide pour le Big Data, offrant des APIs en Scala, Java, Python et R avec support pour SQL, streaming, machine learning et graph processing.

📖

termes

ZooKeeper

Service de coordination distribué centralisé pour maintenir les informations de configuration, la nomination, la synchronisation distribuée et la gestion des groupes de services.

📖

termes

Flume

Service distribué, fiable et disponible pour collecter, agréer et déplacer de grandes quantités de données de streaming vers HDFS avec architecture basée sur agents.

📖

termes

Sqoop

Outil conçu pour transférer efficacement des données en masse entre Hadoop et des bases de données structurées comme les bases de données relationnelles.

📖

termes

Oozie

Système de workflow et de coordonnateur pour gérer et exécuter des pipelines de traitement de données Hadoop complexes avec dépendances temporelles et conditionnelles.

📖

termes

Mahout

Bibliothèque d'algorithmes de machine learning et de data mining distribués implémentés sur Hadoop MapReduce pour le traitement de grands ensembles de données.

📖

termes

Ambari

Plateforme de gestion et de monitoring de clusters Hadoop offrant une interface web pour provisionner, gérer et monitorer l'écosystème Hadoop complet.

📖

termes

HCatalog

Service de gestion des métadonnées et de la table pour l'écosystème Hadoop, fournissant une vue unifiée des données pour des outils comme Pig, Hive et MapReduce.

📖

termes

Avro

Système de sérialisation de données avec schéma évolutif, fournissant des formats de données compacts et rapides pour les échanges entre services Hadoop.

📖

termes

Parquet

Format de fichier columnar optimisé pour les performances de requêtes analytiques sur Hadoop, avec compression efficace et support de types complexes.

📖

termes

Impala

Moteur de requêtes SQL massivement parallèle pour Hadoop offrant des performances de requêtes interactives basses latences sur les données stockées dans HDFS et HBase.

📖

termes

Tez

Framework d'exécution de données acyclique généralisé pour Hadoop YARN, optimisant les performances des traitements complexes en éliminant les phases MapReduce inutiles.

📖

termes

Storm

Système distribué de traitement de flux en temps réel pour Hadoop, capable de traiter des volumes massifs de données avec des latences de l'ordre de la milliseconde.

📖

termes

Kafka

Plateforme de messagerie distribuée à haute performance et haute disponibilité pour la collecte et le traitement de flux de données en temps réel dans l'écosystème Hadoop.

Glossaire IA

HDFS

MapReduce

YARN

HBase

Hive

Pig

Spark

ZooKeeper

Flume

Sqoop

Oozie

Mahout

Ambari

HCatalog

Avro

Parquet

Impala

Tez

Storm

Kafka

Aucun résultat trouvé