Apache Spark

📖

শব্দ

মেমোরিতে ডিস্ট্রিবিউটেড প্রসেসিংয়ের জন্য ওপেন-সোর্স ফ্রেমওয়ার্ক, অপ্টিমাইজড প্যারালেল এক্সিকিউশনের মাধ্যমে বিগ ডেটা অ্যানালিটিক্সকে ত্বরান্বিত করার জন্য ডিজাইন করা হয়েছে।

📖

শব্দ

RDD (Resilient Distributed Dataset)

স্পার্কের মৌলিক ডেটা স্ট্রাকচার, অপরিবর্তনীয় এবং পার্টিশন করা, হারানো ডেটা পুনর্গঠনের মাধ্যমে ফল্ট টলারেন্স সক্ষম করে।

📖

শব্দ

DataFrame

নামযুক্ত কলামে সংগঠিত ডিস্ট্রিবিউটেড ডেটার সংগ্রহ, ডাটাবেস টেবিলের অনুরূপ, স্ট্রাকচার্ড কোয়েরিগুলির জন্য অপ্টিমাইজ করা।

📖

শব্দ

Spark SQL

স্পার্ক মডিউল যা SQL কোয়েরি এবং DataFrame অপারেশনগুলিকে ক্যাটালিস্ট অপ্টিমাইজারের মাধ্যমে স্বয়ংক্রিয় অপ্টিমাইজেশনের সাথে একীভূত করে।

📖

শব্দ

Spark Streaming

নিয়ার-রিয়েল-টাইম লেটেন্সির জন্য মাইক্রো-ব্যাচ সহ রিয়েল-টাইম ডেটা স্ট্রিম প্রসেসিং সক্ষম করে এমন স্পার্ক এক্সটেনশন।

📖

শব্দ

MLlib

স্পার্কের ডিস্ট্রিবিউটেড মেশিন লার্নিং লাইব্রেরি যা ক্লাসিফিকেশন, রিগ্রেশন, ক্লাস্টারিং এবং রিকমেন্ডেশন অ্যালগরিদম প্রদান করে।

📖

শব্দ

GraphX

ডিস্ট্রিবিউটেড গ্রাফ প্রসেসিংয়ের জন্য স্পার্ক API, RDD-এর পারফরম্যান্স সুবিধার সাথে গ্রাফের সুবিধাগুলি একত্রিত করে।

📖

শব্দ

DAG (Directed Acyclic Graph)

স্পার্ক ট্রান্সফর্মেশনের এক্সিকিউশন প্ল্যানের উপস্থাপনা, রিডানডেন্সি দূর করতে এবং প্রসেসিং সমান্তরাল করতে অপ্টিমাইজ করা।

📖

শব্দ

Spark Driver

Processus principal coordinant l'exécution des tâches Spark, créant le SparkContext et divisant les opérations en stages.

📖

শব্দ

Spark Executor

Processus worker exécutant les tâches assignées par le Driver sur chaque nœud du cluster, gérant la mémoire et les données partitionnées.

📖

শব্দ

Spark Context

Point d'entrée principal de l'application Spark, gérant les connexions au cluster et coordonnant l'accès aux ressources distribuées.

📖

শব্দ

Partition

Unité logique de distribution des données dans Spark, permettant le parallélisme en divisant les RDD/DataFrames en fragments indépendants.

📖

শব্দ

Shuffle

Opération coûteuse de redistribution des données entre partitions, nécessaire lors des agrégations, jointures ou regroupements dans Spark.

📖

শব্দ

Catalyst Optimizer

Moteur d'optimisation de requêtes Spark transformant et réorganisant les plans d'exécution pour améliorer les performances.

📖

শব্দ

Tungsten

Backend d'exécution Spark optimisant la mémoire et le CPU grâce à la gestion binaire des données et la génération de code bytecode.

📖

শব্দ

Cache/Persist

Mécanisme de persistance des RDD/DataFrames en mémoire ou sur disque pour réutilisation rapide et éviter les recalculs coûteux.

📖

শব্দ

ব্রডকাস্ট ভেরিয়েবল

জয়েন অপারেশনে নেটওয়ার্ক ট্রান্সফার কমানোর জন্য সমস্ত এক্সিকিউটরে দক্ষতার সাথে বিতরণ করা রিড-অনলি ভেরিয়েবল।

📖

শব্দ

অ্যাকিউমুলেটর

থ্রেড-সেফ উপায়ে সমান্তরাল টাস্ক থেকে তথ্য সংগ্রহ করতে ব্যবহৃত অ্যাডিটিভ শেয়ার্ড ভেরিয়েবল।

📖

শব্দ

ট্রান্সফরমেশন

অ্যাকশন ট্রিগার না হওয়া পর্যন্ত বিলম্বিত, তাৎক্ষণিক এক্সিকিউশন ছাড়াই নতুন RDD/DataFrame তৈরি করে এমন অলস অপারেশন।

📖

শব্দ

অ্যাকশন

ফলাফল তৈরি করতে DAG প্ল্যানের এক্সিকিউশন ট্রিগার করে এমন অপারেশন, পূর্ববর্তী সমস্ত ট্রান্সফরমেশনের গণনা বাধ্য করে।

এআই গ্লসারি

Apache Spark

RDD (Resilient Distributed Dataset)

DataFrame

Spark SQL

Spark Streaming

MLlib

GraphX

DAG (Directed Acyclic Graph)

Spark Driver

Spark Executor

Spark Context

Partition

Shuffle

Catalyst Optimizer

Tungsten

Cache/Persist

ব্রডকাস্ট ভেরিয়েবল

অ্যাকিউমুলেটর

ট্রান্সফরমেশন

অ্যাকশন

কোন ফলাফল পাওয়া যায়নি