एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
HDFS
हडूप का मुख्य वितरित फ़ाइल सिस्टम जो मानक मशीनों के क्लस्टर पर पेटाबाइट डेटा संग्रहीत करने के लिए डिज़ाइन किया गया है, जिसमें स्वचालित प्रतिकृति और फ़ॉल्ट टॉलरेंस शामिल है।
MapReduce
क्लस्टर पर बड़े डेटासेट के वितरित प्रसंस्करण के लिए प्रोग्रामिंग पैराडाइम और कार्यान्वयन, जो कार्यों को मैपिंग और रिडक्शन चरणों में विभाजित करता है।
YARN
हडूप का संसाधन प्रबंधक जो क्लस्टर में एप्लिकेशन को CPU और मेमोरी संसाधनों के आवंटन को ऑर्केस्ट्रेट करता है और कार्य जीवनचक्र का प्रबंधन करता है।
HBase
वितरित NoSQL डेटाबेस, कॉलम-ओरिएंटेड और गैर-संबंधपरक, HDFS पर निर्मित, जो मजबूत स्थिरता के साथ बड़े पैमाने पर डेटा तक रीयल-टाइम एक्सेस प्रदान करता है।
Hive
हडूप पर डेटा वेयरहाउसिंग इन्फ्रास्ट्रक्चर जो SQL जैसी भाषा (HiveQL) का उपयोग करके बड़े डेटासेट को क्वेरी करने की अनुमति देता है, जबकि निष्पादन के लिए MapReduce का उपयोग करता है।
Pig
उच्च-स्तरीय डेटा एनालिटिक्स प्लेटफॉर्म जो हडूप पर चलने वाले जटिल डेटा ट्रांसफॉर्मेशन प्रोग्रामों को व्यक्त करने के लिए Pig Latin भाषा का उपयोग करता है।
Spark
बिग डेटा के लिए अति-तेज़ एकीकृत प्रोसेसिंग इंजन, जो Scala, Java, Python और R में APIs प्रदान करता है, SQL, स्ट्रीमिंग, मशीन लर्निंग और ग्राफ प्रोसेसिंग के लिए समर्थन के साथ।
ZooKeeper
केंद्रीकृत वितरित समन्वय सेवा जो कॉन्फ़िगरेशन जानकारी, नामकरण, वितरित सिंक्रनाइज़ेशन और सेवा समूह प्रबंधन को बनाए रखती है।
Flume
एक वितरित, विश्वसनीय और उपलब्ध सेवा जो एजेंट-आधारित आर्किटेक्चर के साथ स्ट्रीमिंग डेटा की बड़ी मात्रा को एकत्रित, समेकित और HDFS में स्थानांतरित करने के लिए है।
Sqoop
एक उपकरण जो Hadoop और संरचित डेटाबेस (जैसे रिलेशनल डेटाबेस) के बीच बड़ी मात्रा में डेटा को कुशलतापूर्वक स्थानांतरित करने के लिए डिज़ाइन किया गया है।
Oozie
समय और सशर्त निर्भरताओं के साथ जटिल Hadoop डेटा प्रोसेसिंग पाइपलाइनों को प्रबंधित और निष्पादित करने के लिए वर्कफ़्लो और कोऑर्डिनेटर सिस्टम।
Mahout
बड़े डेटासेट के प्रसंस्करण के लिए Hadoop MapReduce पर लागू वितरित मशीन लर्निंग और डेटा माइनिंग एल्गोरिदम की लाइब्रेरी।
Ambari
Hadoop क्लस्टर प्रबंधन और मॉनिटरिंग प्लेटफ़ॉर्म जो संपूर्ण Hadoop इकोसिस्टम को प्रोविजन, प्रबंधित और मॉनिटर करने के लिए वेब इंटरफ़ेस प्रदान करता है।
HCatalog
Hadoop इकोसिस्टम के लिए मेटाडेटा और टेबल प्रबंधन सेवा, जो Pig, Hive और MapReduce जैसे उपकरणों के लिए डेटा का एकीकृत दृश्य प्रदान करती है।
Avro
एक विकासशील स्कीमा के साथ डेटा सीरियलाइज़ेशन सिस्टम, जो Hadoop सेवाओं के बीच आदान-प्रदान के लिए कॉम्पैक्ट और तेज़ डेटा फॉर्मेट प्रदान करता है।
Parquet
कॉलमनर फ़ाइल फॉर्मेट जो Hadoop पर एनालिटिकल क्वेरीज़ के लिए प्रदर्शन के लिए अनुकूलित है, जिसमें कुशल कम्प्रेशन और जटिल प्रकारों का समर्थन शामिल है।
इम्पाला
HDFS और HBase में संग्रहीत डेटा पर कम विलंबता वाली इंटरैक्टिव क्वेरी प्रदर्शन प्रदान करने वाला Hadoop के लिए बड़े पैमाने पर समानांतर SQL क्वेरी इंजन।
टेज़
Hadoop YARN के लिए एक सामान्यीकृत एसाइक्लिक डेटा निष्पादन फ्रेमवर्क, जो अनावश्यक MapReduce चरणों को समाप्त करके जटिल प्रसंस्करण के प्रदर्शन को अनुकूलित करता है।
स्टॉर्म
Hadoop के लिए वितरित रीयल-टाइम स्ट्रीम प्रोसेसिंग सिस्टम, जो मिलीसेकंड के क्रम में विलंबता के साथ बड़ी मात्रा में डेटा को संसाधित करने में सक्षम है।
काफ्का
Hadoop पारिस्थितिकी तंत्र में रीयल-टाइम डेटा स्ट्रीम एकत्र करने और संसाधित करने के लिए उच्च प्रदर्शन और उच्च उपलब्धता वाला वितरित मैसेजिंग प्लेटफॉर्म।