Moteurs de Requêtes Distribués

📖

termes

Apache Spark SQL

Module Spark offrant une interface SQL et DataFrame pour exécuter des requêtes distribuées avec optimisation Catalyst et exécution Tungsten pour des performances accrues.

📖

termes

Presto

Moteur de requête SQL distribué open source conçu pour l'analyse interactive de données à grande échelle sur diverses sources sans mouvement de données.

📖

termes

Apache Drill

Moteur de requête schema-less distribué permettant l'analyse SQL de données NoSQL et fichiers structurés sans schéma pré-défini, avec support JSON natif.

📖

termes

HiveQL

Langage de requête similaire à SQL pour Apache Hive, transformant les requêtes en jobs MapReduce ou Tez pour l'analyse de données distribuées dans Hadoop.

📖

termes

Apache Impala

Moteur de requête SQL massivement parallèle pour Hadoop, offrant des analyses à faible latence avec architecture native contournant MapReduce pour un accès direct aux données.

📖

termes

Trino

Moteur de requête SQL distribué高性能, anciennement PrestoSQL, optimisé pour l'analyse federée de données across multiple sources avec exécution parallèle.

📖

termes

Cost-Based Optimization

Stratégie d'optimisation utilisant des statistiques sur les volumes et distributions de données pour évaluer et sélectionner le plan d'exécution le plus performant.

📖

termes

Apache Calcite

Framework de gestion de données dynamique offrant parsing SQL, validation, optimisation et exécution de requêtes pour de nombreux moteurs de bases de données distribués.

📖

termes

Vectorized Query Execution

Technique d'exécution de requêtes traitant les données par lots (batches) plutôt que ligne par ligne, améliorant l'utilisation du cache CPU et les performances.

📖

termes

Distributed Join

Opération de jointure de données réparties sur plusieurs nœuds, nécessitant des stratégies de partitionnement et de shuffle pour combiner efficacement les datasets distribués.

📖

termes

Adaptive Query Execution

Approche d'optimisation dynamique ajustant le plan d'exécution en temps réel basé sur les statistiques collectées durant l'exécution pour améliorer les performances.

Glossaire IA

Apache Spark SQL

Presto

Apache Drill

HiveQL

Apache Impala

Trino

Cost-Based Optimization

Apache Calcite

Vectorized Query Execution

Distributed Join

Adaptive Query Execution

Aucun résultat trouvé