এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
Apache Spark
মেমোরিতে ডিস্ট্রিবিউটেড প্রসেসিংয়ের জন্য ওপেন-সোর্স ফ্রেমওয়ার্ক, অপ্টিমাইজড প্যারালেল এক্সিকিউশনের মাধ্যমে বিগ ডেটা অ্যানালিটিক্সকে ত্বরান্বিত করার জন্য ডিজাইন করা হয়েছে।
RDD (Resilient Distributed Dataset)
স্পার্কের মৌলিক ডেটা স্ট্রাকচার, অপরিবর্তনীয় এবং পার্টিশন করা, হারানো ডেটা পুনর্গঠনের মাধ্যমে ফল্ট টলারেন্স সক্ষম করে।
DataFrame
নামযুক্ত কলামে সংগঠিত ডিস্ট্রিবিউটেড ডেটার সংগ্রহ, ডাটাবেস টেবিলের অনুরূপ, স্ট্রাকচার্ড কোয়েরিগুলির জন্য অপ্টিমাইজ করা।
Spark SQL
স্পার্ক মডিউল যা SQL কোয়েরি এবং DataFrame অপারেশনগুলিকে ক্যাটালিস্ট অপ্টিমাইজারের মাধ্যমে স্বয়ংক্রিয় অপ্টিমাইজেশনের সাথে একীভূত করে।
Spark Streaming
নিয়ার-রিয়েল-টাইম লেটেন্সির জন্য মাইক্রো-ব্যাচ সহ রিয়েল-টাইম ডেটা স্ট্রিম প্রসেসিং সক্ষম করে এমন স্পার্ক এক্সটেনশন।
MLlib
স্পার্কের ডিস্ট্রিবিউটেড মেশিন লার্নিং লাইব্রেরি যা ক্লাসিফিকেশন, রিগ্রেশন, ক্লাস্টারিং এবং রিকমেন্ডেশন অ্যালগরিদম প্রদান করে।
GraphX
ডিস্ট্রিবিউটেড গ্রাফ প্রসেসিংয়ের জন্য স্পার্ক API, RDD-এর পারফরম্যান্স সুবিধার সাথে গ্রাফের সুবিধাগুলি একত্রিত করে।
DAG (Directed Acyclic Graph)
স্পার্ক ট্রান্সফর্মেশনের এক্সিকিউশন প্ল্যানের উপস্থাপনা, রিডানডেন্সি দূর করতে এবং প্রসেসিং সমান্তরাল করতে অপ্টিমাইজ করা।
Spark Driver
Processus principal coordinant l'exécution des tâches Spark, créant le SparkContext et divisant les opérations en stages.
Spark Executor
Processus worker exécutant les tâches assignées par le Driver sur chaque nœud du cluster, gérant la mémoire et les données partitionnées.
Spark Context
Point d'entrée principal de l'application Spark, gérant les connexions au cluster et coordonnant l'accès aux ressources distribuées.
Partition
Unité logique de distribution des données dans Spark, permettant le parallélisme en divisant les RDD/DataFrames en fragments indépendants.
Shuffle
Opération coûteuse de redistribution des données entre partitions, nécessaire lors des agrégations, jointures ou regroupements dans Spark.
Catalyst Optimizer
Moteur d'optimisation de requêtes Spark transformant et réorganisant les plans d'exécution pour améliorer les performances.
Tungsten
Backend d'exécution Spark optimisant la mémoire et le CPU grâce à la gestion binaire des données et la génération de code bytecode.
Cache/Persist
Mécanisme de persistance des RDD/DataFrames en mémoire ou sur disque pour réutilisation rapide et éviter les recalculs coûteux.
ব্রডকাস্ট ভেরিয়েবল
জয়েন অপারেশনে নেটওয়ার্ক ট্রান্সফার কমানোর জন্য সমস্ত এক্সিকিউটরে দক্ষতার সাথে বিতরণ করা রিড-অনলি ভেরিয়েবল।
অ্যাকিউমুলেটর
থ্রেড-সেফ উপায়ে সমান্তরাল টাস্ক থেকে তথ্য সংগ্রহ করতে ব্যবহৃত অ্যাডিটিভ শেয়ার্ড ভেরিয়েবল।
ট্রান্সফরমেশন
অ্যাকশন ট্রিগার না হওয়া পর্যন্ত বিলম্বিত, তাৎক্ষণিক এক্সিকিউশন ছাড়াই নতুন RDD/DataFrame তৈরি করে এমন অলস অপারেশন।
অ্যাকশন
ফলাফল তৈরি করতে DAG প্ল্যানের এক্সিকিউশন ট্রিগার করে এমন অপারেশন, পূর্ববর্তী সমস্ত ট্রান্সফরমেশনের গণনা বাধ্য করে।