आपल्याला जाणून घेण्यास आणि समजून घेणे आवश्यक असलेल्या 10 अत्यंत महत्त्वपूर्ण हडूप अटी

व्हिडिओ: चांगले ऐकण्याचे 5 मार्ग | ज्युलियन खजिना

सामग्री

पण प्रथम, हॅडूप कसे कार्य करते यावर एक नजर
हडोप कॉमन
हडूप वितरित फाइल सिस्टम (एचडीएफएस)
मॅपरेड्यूस
एचबेस
पोळे
कोणतीही दोष नाही, तणाव नाही - आपले जीवन नष्ट न करता जीवन-बदलणारे सॉफ्टवेअर तयार करण्यासाठी चरण चरण बाय चरण
अपाचे डुक्कर
अपाचे स्पार्क
अपाचे कॅसँड्रा
अजून एक रिसोर्स नेगोएटर (यार्न)
इम्पाला

स्रोत: ट्रूफेलपिक्स / ड्रीमस्टाइम.कॉम

टेकवे:

मोठा डेटा खरोखर समजण्यासाठी आपल्याला हडूप आणि त्याभोवतीच्या भाषेबद्दल थोडेसे समजणे आवश्यक आहे.

मोठा डेटा, स्ट्रक्चर्ड, अनस्ट्रक्टेड किंवा अर्ध-संरचित डेटाच्या भव्य खंडांचे आकर्षक नाव, कमीतकमी पारंपारिक डेटाबेस आणि सॉफ्टवेअर अनुप्रयोग वापरुन कॅप्चर करणे, संग्रहित करणे, व्यवस्थापित करणे, सामायिक करणे, विश्लेषण करणे आणि व्हिज्युअलायझेशन करणे कुख्यात कठीण आहे. मोठे डेटा तंत्रज्ञान प्रभावीपणे आणि कार्यक्षमतेने मोठ्या प्रमाणात डेटा व्यवस्थापित करण्याची आणि प्रक्रिया करण्याची क्षमता का आहे हे होय. आणि त्याचे अपाचे हॅडॉप जे वितरित मार्गाने संगणकाच्या क्लस्टर्समध्ये मोठ्या डेटा सेटवर प्रक्रिया करण्यासाठी फ्रेमवर्क आणि संबंधित तंत्रज्ञान प्रदान करते. तर, मोठा डेटा खरोखर समजून घेण्यासाठी आपल्याला हॅडूपबद्दल थोडा समजून घेणे आवश्यक आहे. हडोपच्या संदर्भात आपण ऐकू येणार्‍या शीर्ष अटी - आणि त्यांचा अर्थ काय आहे हे येथे एक बारकावे.

पण प्रथम, हॅडूप कसे कार्य करते यावर एक नजर

हडूप इको-सिस्टममध्ये जाण्यापूर्वी, आपल्याला दोन मूलभूत गोष्टी स्पष्टपणे समजल्या पाहिजेत. हडूपमध्ये फाईल कशी संग्रहित केली जाते हे प्रथम; दुसरे म्हणजे संग्रहित डेटावर प्रक्रिया कशी केली जाते. हडूपशी संबंधित सर्व तंत्रज्ञान या दोन क्षेत्रांवर प्रामुख्याने कार्य करतात आणि त्यास अधिक वापरकर्ता-अनुकूल बनवतात. (हॅडोप बिग डेटा समस्येचे निराकरण करण्यात कशी मदत करते यामध्ये हॅडॉप कसे कार्य करते याची मूलभूत माहिती मिळवा.)

आता, अटींवर.

हडोप कॉमन

हॅडॉप फ्रेमवर्कमध्ये भिन्न कार्ये करण्यासाठी भिन्न मॉड्यूल आहेत आणि हे विभाग विविध कारणांमुळे एकमेकांशी संवाद साधू शकतात. हडूप इकोसिस्टममध्ये या मॉड्यूल्सना आधार देण्यासाठी हॅडॉप कॉमनला सामान्य युटिलिटीज लायब्ररी म्हणून परिभाषित केले जाऊ शकते. या उपयुक्तता मुळात जावा-आधारित, आर्काइव्ह (JARs) फायली आहेत. या उपयुक्तता मुख्यतः प्रोग्रामर आणि विकसकांद्वारे विकासाच्या वेळी वापरल्या जातात.

हडूप वितरित फाइल सिस्टम (एचडीएफएस)

हॅडूप डिस्ट्रिब्युटेड फाइल सिस्टम (एचडीएफएस) अपाचे सॉफ्टवेयर फाऊंडेशन अंतर्गत अपाचे हडूपचा उप-प्रकल्प आहे. हाडूप फ्रेमवर्कमधील स्टोरेजचा कणा आहे. ही एक वितरित, स्केलेबल आणि फॉल्ट-टॉलरंट फाइल सिस्टम आहे जी हॅडूप क्लस्टर म्हणून ओळखल्या जाणार्‍या एकाधिक वस्तू हार्डवेअरवर पसरली आहे. एचडीएफएसचे उद्दीष्ट applicationप्लिकेशन डेटामध्ये उच्च थ्रूपूट प्रवेशासह मोठ्या प्रमाणात डेटा विश्वासार्हतेने संग्रहित करणे आहे. एचडीएफएस मास्टर / स्लेव्ह आर्किटेक्चरचे अनुसरण करते, जेथे मास्टर नेम नोड म्हणून ओळखले जाते आणि गुलामांना डेटा नोड्स म्हणून ओळखले जाते.

मॅपरेड्यूस

हॅडूप मॅपरेड्यूस देखील अपाचे सॉफ्टवेअर फाऊंडेशनचा उप-प्रकल्प आहे. मॅपरेड्यूस खरोखर जावा मध्ये लिहिलेले सॉफ्टवेअर फ्रेमवर्क आहे. त्याचे मुख्य उद्दीष्ट संपूर्णपणे समांतर पद्धतीने वितरित वातावरणावर (कमोडिटी हार्डवेअरसह) मोठ्या डेटासेटवर प्रक्रिया करणे हे आहे. फ्रेमवर्क जॉब शेड्यूलिंग, मॉनिटरींग, एक्जीक्यूटिंग आणि री-एक्जीक्युटिव्ह (अयशस्वी कार्यांच्या बाबतीत) सारख्या सर्व क्रिया व्यवस्थापित करते.

एचबेस

अपाचे एचबेस हॅडॉप डेटाबेस म्हणून ओळखले जाते. हा एक स्तंभ आहे, वितरित आणि स्केलेबल मोठा डेटा स्टोअर आहे. हे रिलेशनल डेटाबेस मॅनेजमेंट सिस्टम नसलेले नो एस क्यू एल डेटाबेसचा एक प्रकार म्हणून देखील ओळखले जाते. एचबॅस applicationsप्लिकेशन्स जावामध्ये देखील लिहिलेले आहेत, हडूपच्या वरच्या बाजूला तयार केलेले आणि एचडीएफएसवर चालतात. जेव्हा आपल्याला रीअल-टाइम वाचन / लेखन आणि मोठ्या डेटामध्ये यादृच्छिक प्रवेशाची आवश्यकता असते तेव्हा एचबेस वापरली जाते. एचबेस गुगल्स बिगटेबल संकल्पनांवर आधारित आहे.

पोळे

अपाचे हाइव्ह एक मुक्त-स्रोत डेटा वेअरहाउस सॉफ्टवेअर सिस्टम आहे. अपाचे सॉफ्टवेअर फाऊंडेशन अंतर्गत येण्यापूर्वीच हाईव्ह मूळतः विकसित झाला होता आणि मुक्त स्रोत बनला. हे वितरित हॅडॉप सुसंगत स्टोरेजवरील मोठ्या डेटा सेटचे व्यवस्थापन आणि क्वेरी करणे सुलभ करते. एचआयव्हीक्यूएल म्हणून ओळखल्या जाणार्‍या एसक्यूएल सारख्या भाषेचा वापर करुन पोळे त्याच्या सर्व क्रिया करतात. (अपाचे पोळे आणि डुक्कर संक्षिप्त परिचयात अधिक जाणून घ्या.)

कोणतीही दोष नाही, तणाव नाही - आपले जीवन नष्ट न करता जीवन-बदलणारे सॉफ्टवेअर तयार करण्यासाठी चरण चरण बाय चरण

जेव्हा कोणालाही सॉफ्टवेअर गुणवत्तेची काळजी नसते तेव्हा आपण आपली प्रोग्रामिंग कौशल्ये सुधारू शकत नाही.

अपाचे डुक्कर

डुक्कर मूलत: याहूने वितरित डेटाच्या मोठ्या प्रमाणात मॅप्रिड्यूस जॉब विकसित आणि कार्यान्वित करण्यासाठी सुरूवात केली होती. आता हे अपाचे सॉफ्टवेअर फाऊंडेशन अंतर्गत ओपन सोर्स प्रोजेक्ट बनले आहे. कार्यक्षम मार्गाने बर्‍याच मोठ्या डेटा सेटचे विश्लेषण करण्यासाठी अपाचे डुक्कर व्यासपीठ म्हणून परिभाषित केले जाऊ शकते. पिग्स इन्फ्रास्ट्रक्चर लेयर वास्तविक प्रक्रिया करण्यासाठी मॅपड्र्यूड जॉबचे अनुक्रम तयार करते. डुक्कर भाषा स्तर पिग लॅटिन म्हणून ओळखला जातो आणि वितरित डेटा सेटवर क्वेरी करण्यासाठी एसक्यूएल सारखी वैशिष्ट्ये प्रदान करतो.

अपाचे स्पार्क

स्पार्क मूळतः यूसी बर्कले येथे एएमपीएलएबने विकसित केले होते. फेब्रुवारी २०१ in मध्ये हा अपाचे शीर्ष-स्तरीय प्रकल्प बनला. अपाचे स्पार्क हे ओपन सोर्स, सामान्य-हेतू, क्लस्टर-कंप्यूटिंग फ्रेमवर्क म्हणून परिभाषित केले जाऊ शकते जे डेटा ticsनालिटिक्स अधिक वेगवान बनवते. हे हडूप वितरित फाइल सिस्टमच्या शीर्षस्थानी तयार केले गेले आहे परंतु ते मॅपरेड्यूस फ्रेमवर्कशी जोडलेले नाही. मॅपरेड्यूसच्या तुलनेत स्पार्क्सची कामगिरी खूप वेगवान आहे. हे स्काला, पायथन आणि जावामध्ये उच्च-स्तरीय एपीआय प्रदान करते.

अपाचे कॅसँड्रा

अपाचे कॅसॅन्ड्रा हा आणखी एक मुक्त स्रोत NoSQL डेटाबेस आहे. कॅसॅन्ड्राचा वापर एकाधिक डेटा सेंटर आणि क्लाउड स्टोरेजवर संरचित, अर्ध-संरचित आणि अप्रचलित डेटा स्पॅनच्या मोठ्या प्रमाणात व्यवस्थापित करण्यासाठी केला जातो. कॅसेंड्रा एक "मास्टरलेस" आर्किटेक्चरवर आधारित डिझाइन केलेले आहे, याचा अर्थ ते मास्टर / स्लेव्ह मॉडेलला समर्थन देत नाही. या आर्किटेक्चरमध्ये, सर्व नोड्स एकसारखेच असतात आणि डेटा स्वयंचलितपणे आणि समानपणे सर्व नोड्समध्ये वितरीत केला जातो. कॅसँड्रासची सर्वात महत्वाची वैशिष्ट्ये म्हणजे सतत उपलब्धता, रेखीय स्केलेबिलिटी, अंगभूत / सानुकूल करण्यायोग्य प्रतिकृती, अपयशाचा एक बिंदू आणि ऑपरेशनल साधेपणा.

अजून एक रिसोर्स नेगोएटर (यार्न)

तरीही दुसरा रिसोर्स नेगोएटर (यार्न) मॅपरेड्यूस २.० म्हणून देखील ओळखला जातो, परंतु तो प्रत्यक्षात हडूप २.० अंतर्गत येतो. यार्न जॉब शेड्यूलिंग आणि रिसोर्स मॅनेजमेंट फ्रेमवर्क म्हणून परिभाषित केले जाऊ शकते. यार्नची मूळ कल्पना म्हणजे जॉबट्रॅकरच्या कार्यक्षमतेची जागा संसाधन व्यवस्थापन आणि वेळापत्रक / देखरेखीसाठी जबाबदार असलेल्या दोन स्वतंत्र डिमनद्वारे बदलणे. या नवीन चौकटीत, एक ग्लोबल रिसोर्समेनेजर (आरएम) आणि Applicationप्लिकेशन-मास्टर (एएम) म्हणून ओळखले जाणारे अनुप्रयोग-विशिष्ट मास्टर असेल. ग्लोबल रिसोर्स मॅनेजर (आरएम) आणि नोडमॅनेजर (प्रति नोड स्लेव्ह) वास्तविक डेटा कंप्यूटिंग फ्रेमवर्क बनवतात. विद्यमान मॅपरेड्यूस व्ही 1 अनुप्रयोग यार्नवर देखील चालविले जाऊ शकतात, परंतु त्या अनुप्रयोगांना हॅडोप 2.एक्स जारसह पुन्हा कंपाईल करणे आवश्यक आहे.

इम्पाला

इम्पाला एसएक्यूएल क्वेरी इंजिन म्हणून भव्य समांतर प्रक्रिया (एमपीपी) शक्तीसह परिभाषित केले जाऊ शकते. हे अपाचे हॅडॉप फ्रेमवर्कवर मूळपणे चालते. हॅडोप इकोसिस्टमचा भाग म्हणून इम्पाला डिझाइन केले आहे. हे समान हॅडूप इकोसिस्टम घटकांद्वारे वापरल्याप्रमाणे समान लवचिक फाइल सिस्टम (एचडीएफएस), मेटाडेटा, संसाधन व्यवस्थापन आणि सुरक्षा फ्रेमवर्क सामायिक करते. सर्वात महत्त्वाचा मुद्दा म्हणजे, पोळ्याच्या तुलनेत इम्पाला क्वेरी प्रक्रियेमध्ये बरेच वेगवान आहे. परंतु आपण हे देखील लक्षात ठेवले पाहिजे की इम्पाला हा डेटाच्या एका छोट्या छोट्या प्रश्नावरील क्वेरी / विश्लेषणासाठी आहे आणि मुख्यत: विश्लेषक साधन म्हणून डिझाइन केलेले आहे जे प्रक्रिया केलेल्या आणि संरचित डेटावर कार्य करते.

हाडूप हे आयटीमधील एक महत्त्वाचा विषय आहे, परंतु असेही काही लोक आहेत जे दीर्घकालीन व्यवहार्यतेबद्दल संशयी आहेत. अधिक वाचा हडूप म्हणजे काय? एक सिनिक्स सिद्धांत.