हडूप बद्दल 7 गोष्टी जाणून घ्या

लेखक: Eugene Taylor
निर्मितीची तारीख: 8 ऑगस्ट 2021
अद्यतन तारीख: 20 जून 2024
Anonim
हडूप बद्दल 7 गोष्टी जाणून घ्या - तंत्रज्ञान
हडूप बद्दल 7 गोष्टी जाणून घ्या - तंत्रज्ञान

सामग्री


स्रोत: प्रेस्युरुआ / ड्रीमस्टाइम.कॉम

टेकवे:

हडूप आत्ता बर्‍याच वर्षांपासून डेटाचे विश्लेषण करण्यात मदत करीत आहे, परंतु कदाचित त्याबद्दल आपल्याला माहित नसलेल्या काही गोष्टींपेक्षा अधिक असू शकतात.

हडूप म्हणजे काय? हा पिवळा खेळण्यांचा हत्ती आहे. आपण ज्याची अपेक्षा करीत होता त्याप्रमाणे नाही? याबद्दल कसे: या मुक्त-स्त्रोत सॉफ्टवेअर प्रकल्पाचे सह-निर्माता - डग कटिंगने आपल्या मुलाचे नाव त्याच्या टॉय हत्तीला हडूप म्हटले आहे. थोडक्यात, हॅडॉप एक सॉफ्टवेयर फ्रेमवर्क आहे जे अपाचे सॉफ्टवेअर फाऊंडेशनने विकसित केले आहे जे डेटा-सघन, वितरित संगणन विकसित करण्यासाठी वापरले जाते. आणि दुसर्या बझवर्ड वर्ड वाचकांमधील हा एक महत्वाचा घटक आहे: मोठा डेटा कधीही मिळू शकत नाही. या अद्वितीय, विनामूल्य परवानाधारक सॉफ्टवेअरबद्दल आपल्याला ज्या सात गोष्टी माहित असाव्यात त्या येथे आहेत.

हडूपने त्याची सुरुवात कशी केली?

बारा वर्षांपूर्वी, Google संग्रहित करीत असलेल्या मोठ्या प्रमाणात डेटा हाताळण्यासाठी एक व्यासपीठ तयार केले. कंपनी जसे की बर्‍याचदा करते, गूगल फाइल सिस्टीम आणि मॅपरेड्यूस या दोन पेपर्सच्या रूपात गुगलने आपली रचना लोकांपर्यंत उपलब्ध करुन दिली.

त्याचवेळी डच कटिंग आणि माईक कॅफरेल्ला नच या नवीन सर्च इंजिनवर काम करत होते. मोठ्या प्रमाणात डेटा कसा हाताळायचा याबद्दलही दोघे झगडत होते. त्यानंतर या दोन्ही संशोधकांना गूगलच्या कागदपत्रांचा वारा आला. त्या भाग्याचे छेदनबिंदूने कटिंग आणि कॅफरेल्ला यांना चांगल्या फाईल सिस्टममध्ये आणि डेटाचा मागोवा ठेवण्याचा मार्ग देऊन सर्वकाही बदलले आणि शेवटी हडूपची निर्मिती झाली.

हदोप बद्दल काय महत्वाचे आहे?

आज डेटा गोळा करणे पूर्वीपेक्षा सोपे आहे. हा सर्व डेटा बर्‍याच संधी सादर करतो, परंतु आव्हाने देखील आहेत:

  • मोठ्या प्रमाणात डेटा प्रक्रियेसाठी नवीन पद्धती आवश्यक असतात.
  • कॅप्चर केलेला डेटा असुरक्षित स्वरूपात आहे.
अबाधित डेटाच्या अवाढव्य प्रमाणात फेरफार करण्याच्या आव्हानांवर विजय मिळवण्यासाठी, कटिंग आणि कॅफरेला यांनी दोन भागांचा तोडगा काढला. डेटा-प्रमाण समस्येचे निराकरण करण्यासाठी, हडूप एक वितरित वातावरण - कमोडिटी सर्व्हर्सचे नेटवर्क - एक समांतर प्रक्रिया क्लस्टर तयार करतो जे नियुक्त केलेल्या कार्येस अधिक प्रक्रिया करण्याची शक्ती आणते.

पुढे, त्यांना मानक रिलेशनल डेटाबेस सिस्टम हाताळण्यास असमर्थ असणार्या स्वरूपात असंरचित डेटा किंवा डेटाचा सामना करावा लागला. कटिंग आणि कॅफरेल्ला यांनी हडूपला कोणत्याही प्रकारच्या डेटासह कार्य करण्यासाठी डिझाइन केले: संरचित, अप्रबंधित, प्रतिमा, ऑडिओ फायली, अगदी. हे क्लौडेरा (हडूप इंटिग्रेटर) हे महत्वाचे आहे का ते स्पष्ट करते:

    "आपला सर्व डेटा वापरण्यायोग्य करून, फक्त आपल्या डेटाबेसमध्येच नाही, तर हडूप आपल्याला लपवलेले संबंध उलगडू देते आणि नेहमीच आवाक्याबाहेर गेलेली उत्तरे प्रकट करतात. आपण शिकारीऐवजी हार्ड डेटाच्या आधारे अधिक निर्णय घेण्यास प्रारंभ करू शकता आणि पहा केवळ नमुने आणि सारांशच नव्हे तर संपूर्ण डेटा सेटवर. "

वाचनावर स्कीमा म्हणजे काय?

आधी सांगितल्याप्रमाणे, हडूपचा एक फायदा म्हणजे अप्रबंधित डेटा हाताळण्याची क्षमता. एका अर्थाने, ते म्हणजे "रस्त्यावर कॅन लाथ मारत आहे." अखेरीस त्याचे विश्लेषण करण्यासाठी डेटाला काही प्रकारच्या संरचनेची आवश्यकता असते.

त्याठिकाणी वाचनावरील स्कीमा अंमलात येते. वाचनातील स्कीमा म्हणजे डेटा कोणत्या स्वरुपात आहे याची माहिती आहे, डेटा कोठे शोधायचा (लक्षात ठेवा डेटा बर्‍याच सर्व्हरमध्ये विखुरलेला आहे) आणि डेटाचे काय करावे लागेल - एक साधे कार्य नाही. असे म्हटले जाते की हडूप सिस्टममध्ये डेटा हाताळण्यासाठी व्यवसाय विश्लेषक, एक सांख्यिकीविज्ञानी आणि जावा प्रोग्रामरची कौशल्ये आवश्यक असतात. दुर्दैवाने, या पात्रतेसह बरेच लोक नाहीत.

पोळे म्हणजे काय?

जर हडूप यशस्वी होणार असेल तर डेटासह कार्य करणे सुलभ करावे लागेल. तर, मुक्त-स्त्रोत जमाव कार्य करू लागला आणि पोळे तयार केले:

    "पोळे या डेटावर संरचनेची प्रोजेक्ट तयार करतात आणि एचआयक्यूएल नावाच्या एसक्यूएल सारख्या भाषेचा वापर करुन डेटाची चौकशी करतात. त्याच वेळी ही भाषा पारंपारिक नकाशा / कमी प्रोग्रामरना सानुकूल मॅपर्स आणि कम करणार्‍यांना प्लगइन करण्यास अनुमती देते. हा तर्क HiveQL मध्ये व्यक्त करण्यात अक्षम. "

पोळे दोन्ही जगाचे सर्वोत्तम सक्षम करते: एस क्यू एल कमांडसह परिचित डेटाबेस कर्मचारी डेटामध्ये बदल करू शकतात आणि वाचन प्रक्रियेवरील स्कीमा परिचित विकसक अद्याप सानुकूलित क्वेरी तयार करण्यास सक्षम आहेत.

हॅडोप कोणत्या प्रकारच्या डेटाचे विश्लेषण करते?

वेबसाइटना अनुकूलित करण्यासाठी वेब अ‍ॅनालिटिक्स ही पहिली गोष्ट आहे जी वेब लॉगचे आणि वेब रहदारीचे विश्लेषण करते. उदाहरणार्थ, वेब अ‍ॅनालिटिक्समध्ये नक्कीच आहे, कंपनीने जमा केलेल्या डेटाच्या टेराबाइट्सची क्रमवारी लावण्यासाठी हडूपचा वापर केला.

कंपन्या जोखिम विश्लेषण, फसवणूक शोधणे आणि ग्राहक-आधार विभाजन करण्यासाठी हडूप क्लस्टरचा वापर करतात. युटिलिटी कंपन्या त्यांच्या इलेक्ट्रिक ग्रिडमधील सेन्सर डेटाचे विश्लेषण करण्यासाठी हडूपचा वापर करतात, ज्यामुळे त्यांना विजेचे उत्पादन अनुकूल केले जाऊ शकते. लक्ष्य, 3 एम आणि मेडट्रॉनिक्स सारख्या प्रमुख कंपन्या उत्पादन वितरण, व्यवसाय जोखीम मूल्यांकन आणि ग्राहक-बेस विभागणी अनुकूलित करण्यासाठी हडूपचा वापर करतात.

हडूपमध्येही विद्यापीठांची गुंतवणूक केली जाते. सॉफ्टवेयर इन सेंट थॉमस ग्रॅज्युएट प्रोग्राम्सच्या युनिव्हर्सिटीचे सहयोगी प्राध्यापक ब्रॅड रुबिन यांनी नमूद केले की त्यांची हॅडूप कौशल्य विद्यापीठातील संशोधन गटांनी तयार केलेल्या माहितीच्या विपुल प्रमाणात शोधून काढत आहे.

आपण हॅडॉपचे वास्तविक जग उदाहरण देऊ शकता?

टाईम्समॅचिन हे एक सर्वात चांगले उदाहरण आहे. न्यूयॉर्क टाइम्समध्ये पूर्ण-पृष्ठ वृत्तपत्र टीआयएफएफ प्रतिमांचे संग्रह, संबंधित मेटाडेटा आणि १1११ ते १ 22 २२ पर्यंतचा टेराबाइट डेटाचा संग्रह आहे. एनसीटीचे डेरेक गॉटफ्रीड, ईसी 2 / एस 3 / हडूप सिस्टम आणि विशेष कोड वापरुन,:

    "अंतर्भूत 405,000 खूप मोठ्या टीआयएफएफ प्रतिमा, एसजीएमएल मधील 3.3 दशलक्ष लेख आणि 405,000 एक्सएमएल फायली टीआयएफएफ मधील आयताकृती प्रदेशात लेखांचे मॅपिंग करतात. हा डेटा अधिक वेब-अनुकूल 810,000 पीएनजी प्रतिमा (लघुप्रतिमा आणि पूर्ण प्रतिमा) आणि 405,000 जावास्क्रिप्ट फायलींमध्ये रूपांतरित करण्यात आला. "

अ‍ॅमेझॉन वेब सर्व्हिसेस क्लाऊडमधील सर्व्हरचा वापर करून, गॉटफ्रीड यांनी नमूद केले की ते टाईम्समॅशिनसाठी आवश्यक असलेल्या सर्व डेटावर 36 तासांपेक्षा कमी वेळेत प्रक्रिया करण्यास सक्षम आहेत.

हाडोप आधीपासून अप्रचलित आहे किंवा फक्त मॉर्फिंग आहे?

हडोपला आता एका दशकापासून अधिक काळ झाला आहे. असे बरेच लोक म्हणतात की त्याचे अप्रचलित आहे. डॉ. डेव्हिड रिको या तज्ञाने असे म्हटले आहे की "आयटी उत्पादने अल्पजीवी असतात. कुत्र्याच्या वर्षात गूगलची उत्पादने सुमारे 70 असतात, तर हडूप 56 वर्षांची असतात."

रिकोच्या म्हणण्यावर काही सत्य असू शकेल. असे दिसून येते की हडूप मोठ्या प्रमाणावर दुरुस्तीसाठी जात आहे. त्याबद्दल अधिक जाणून घेण्यासाठी, रुबिनने मला ट्विन सिटीज हडूप वापरकर्ता समूहाच्या बैठकीत आमंत्रित केले आणि चर्चेचा विषय म्हणजे यार्नचा परिचय:

    "अपाचे हॅडूप 2 मध्ये नवीन मॅप्रिड्यूस इंजिन समाविष्ट आहे, ज्यात मागील अंमलबजावणीपेक्षा बरेच फायदे आहेत, ज्यात चांगले स्केलेबिलिटी आणि रिसोर्स उपयोग आहेत. नवीन अंमलबजावणी यार्न नावाच्या वितरित अनुप्रयोग चालविण्यासाठी सामान्य संसाधन व्यवस्थापन प्रणालीवर तयार केली गेली आहे."
हॅडूपला डेटाबेस आणि सामग्री व्यवस्थापन मंडळांमध्ये बर्‍याच चर्चा सापडतात, परंतु तरीही आजूबाजूला बरेच प्रश्न आहेत आणि ते सर्वोत्कृष्ट कसे वापरले जाऊ शकते. हे फक्त काही आहेत. आपल्याकडे अधिक असल्यास ते आमचा मार्ग आहे. बरं उत्तर द्या टेक्नोपीडिया डॉट कॉम वर.