Глоссарий ИИ

Полный словарь искусственного интеллекта

235

категории

2 988

подкатегории

33 628

термины

📖

термины

Apache Hadoop MapReduce

Modèle de programmation et implémentation distribuée pour le traitement de grands ensembles de données sur des clusters, divisant les traitements en phases Map et Reduce. MapReduce est l'un des premiers frameworks populaires pour le traitement batch à grande échelle.

📖

термины

ETL (Extract, Transform, Load)

Processus d'intégration de données consistant à extraire des données de sources hétérogènes, les transformer selon les règles métier définies, puis les charger dans un système cible. Les pipelines ETL sont généralement exécutés en batch pour synchroniser les données.

📖

термины

Job Scheduling

Mécanisme d'ordonnancement automatique des tâches de traitement par lots selon des calendriers prédéfinis, des dépendances ou des déclencheurs événementiels. Les ordonnanceurs modernes gèrent la parallélisation, les retentatives et la surveillance des exécutions.

📖

термины

Shuffling

Opération coûteuse de redistribution des données entre les nœuds du cluster lors des phases de regroupement ou d'agrégation dans les traitements distribués. Le shuffling représente souvent le goulot d'étranglement principal dans les jobs MapReduce et Spark.

📖

термины

HDFS

Système de fichiers distribué conçu pour stocker des fichiers volumineux sur des machines standards avec tolérance aux pannes par réplication. HDFS fournit un accès séquentiel haute performance adapté aux traitements batch par MapReduce.

📖

термины

YARN

Orchestrateur de ressources pour l'écosystème Hadoop, responsable de l'allocation de CPU, mémoire et stockage aux applications distribuées. YARN permet l'exécution concurrente de multiples frameworks de traitement sur un même cluster Hadoop.

📖

термины

Apache Sqoop

Outil de transfert de données bidirectionnel entre Hadoop et bases de données relationnelles, optimisé pour les imports/exports massifs en parallèle. Sqoop génère automatiquement le code MapReduce nécessaire pour déplacer efficacement les données.

📖

термины

Apache Hive

Infrastructure d'entreposage de données construite sur Hadoop fournissant une interface SQL-like (HQL) pour l'interrogation de grandes volumes de données stockées dans HDFS. Hive traduit les requêtes en jobs MapReduce pour l'exécution batch.

🔍

Глоссарий ИИ

Apache Hadoop MapReduce

ETL (Extract, Transform, Load)

Job Scheduling

Shuffling

HDFS

YARN

Apache Sqoop

Apache Hive

Результаты не найдены