हॅडॉपवरील एसक्यूएल बिग डेटा विश्लेषणामध्ये कशी मदत करू शकेल?

लेखक: Roger Morrison
निर्मितीची तारीख: 19 सप्टेंबर 2021
अद्यतन तारीख: 19 जून 2024
Anonim
स्पार्क एसक्यूएल आणि हडूप (डेटा वैज्ञानिक आणि बिग डेटा विश्लेषकांसाठी)
व्हिडिओ: स्पार्क एसक्यूएल आणि हडूप (डेटा वैज्ञानिक आणि बिग डेटा विश्लेषकांसाठी)

सामग्री



स्रोत: मॅकीक 905 / ड्रीमस्टाइम डॉट कॉम

टेकवे:

हॅडूपवरील एसक्यूएल डेटा विश्लेषणासाठी एक नवीन साधन तयार करण्यासाठी डेटा व्यवस्थापनाच्या या दोन पद्धती एकत्रित करते.

हॅडॉपवरील एस क्यू एल हा विश्लेषणात्मक अनुप्रयोग साधनांचा एक समूह आहे जो एसक्यूएल-शैलीची चौकशी आणि डेटाच्या प्रक्रियेस अगदी अलीकडील हॅडूप डेटा फ्रेमवर्क घटकांसह एकत्र करतो. हडूपवर एसक्यूएलचा उदय हा मोठ्या डेटा प्रक्रियेसाठी एक महत्वाचा विकास आहे कारण हेडूप प्रक्रिया केलेल्या मोठ्या डेटाच्या एसक्यूएल क्वेरी चालवून हदूप डेटा प्रक्रिया फ्रेमवर्कसह लोकांच्या विस्तीर्ण गटांना यशस्वीरित्या कार्य करण्यास अनुमती देते. अर्थात, हडूप फ्रेमवर्क पूर्वी लोकांपर्यंत पोहोचू शकला नव्हता, विशेषतः त्याच्या शोधण्याच्या क्षमतांच्या बाबतीत. विकासाच्या आधारे, बरीच साधने अशी कामे केली गेली आहेत की गुणवत्ता व वेगवान असलेल्या मोठ्या डेटावर प्रक्रिया करणे आणि त्याचे विश्लेषण करणे जेव्हा उद्यमांची उत्पादकता सुधारण्याचे वचन देते. एसक्यूएलचे पारंपारिक ज्ञान केले पाहिजे म्हणून, साधन शिकण्यासाठी खूप गुंतवणूक करण्याची आवश्यकता नाही.


हडूप वर एस क्यू एल ची व्याख्या

हॅडॉपवरील एसक्यूएल हा अनुप्रयोगांचा एक समूह आहे जो आपल्याला हडूप डेटा प्रोसेसिंग फ्रेमवर्कद्वारे होस्ट केलेल्या मोठ्या डेटावर एसक्यूएल-शैली क्वेरी चालविण्याची परवानगी देतो. अर्थात, डेटा क्वेरी करणे, पुनर्प्राप्त करणे आणि विश्लेषण हॅडॉपवर एसक्यूएल जोडण्यामुळे सोपे झाले आहे. एसक्यूएल मूळतः रिलेशनल डेटाबेससाठी डिझाइन केलेले असल्याने, हॅडोप 1 मॉडेलनुसार मॅपरेड्यूस आणि हॅडॉप डिस्ट्रिब्युटेड फाइल सिस्टम (एचडीएफएस) आणि मॅडरेड्यूस आणि एचडीएफएस नसलेले हडूप 2 मॉडेल नुसार ते सुधारित करावे लागले.

हडूपसह एसक्यूएल एकत्र करण्याचा सर्वात प्रारंभिक प्रयत्नांपैकी एक म्हणजे एचआयव्हीक्यूएल सॉफ्टवेयरसह एचआयव्ही डेटा वेअरहाऊसची निर्मिती झाली जी एसक्यूएल-शैलीतील क्वेरीज मॅपरेड्यूस जॉबमध्ये भाषांतरित करू शकली. त्यानंतर, कित्येक अनुप्रयोग विकसित केले गेले जे समान कार्य करू शकतील. नंतरच्या साधनांमध्ये प्रमुख म्हणजे ड्रिल, बिगएसक्यूएल, एचएडब्ल्यूक्यू, इम्पाला, हडपॅट, स्टिंगर, एच-एसक्यूएल, स्प्लिस मशीन, प्रेस्टो, पॉलीबेस, स्पार्क, जेथ्रोडाटा, शार्क (हाइव्ह ऑन स्पार्क) आणि तेज (तेजवरील पोळे).


हॅडोपवरील एसक्यूएल कसे कार्य करते?

हॅडॉपवरील एस क्यू एल खालील मार्गांनी हडोपसह कार्य करते:

  • हडूप वातावरणातील कने एसक्यूएल क्वेरीचा नकाशारेड्यूस स्वरूपात अनुवाद करतात जेणेकरुन हॅडूप क्वेरी समजेल.
  • हॅडॉप क्लस्टरमध्ये पुशडाउन सिस्टम एसक्यूएल क्वेरी कार्यान्वित करतात.
  • सिस्टम्स क्लस्टरच्या वर्कलोड्सवर अवलंबून, मॅपरेड्यूस-एचडीएफएस क्लस्टर दरम्यान एसक्यूएल क्वेरीची प्रचंड मात्रा विभाजित करतात.

असे दिसते आहे की एसक्यूएल क्वेरीचे स्वरूप बदलत नाही; हे हॅडॉप आहे जे क्वेरीला समजणार्‍या स्वरूपात रुपांतर करते.

हडोप वर एसक्यूएलचे शीर्ष लाभ

आधीपासूनच म्हटल्याप्रमाणे, मोठ्या डेटा विश्लेषणाला अधिकाधिक लोकांमध्ये प्रवेश करण्यायोग्य बनविणे आणि डेटा विश्लेषण सोपे आणि वेगवान बनवण्याच्या दृष्टीने हडूपवरील एसक्यूएल एक महत्त्वपूर्ण विकास आहे. हडूप डेटा फ्रेमवर्क हे मोठ्या डेटा विश्लेषणासाठी एक उत्तम साधन आहे यात काही शंका नाही, परंतु तरीही हे केवळ त्याच्या मर्यादित लोकांद्वारेच उपलब्ध आहे, केवळ त्याच्या अद्वितीय आर्किटेक्चरला शिकण्यासाठी आवश्यक असलेल्या प्रचंड प्रयत्नांमुळेच नव्हे तर ते देखील इतर तंत्रज्ञानासह अनुकूलता समस्या आहेत. हडूपवरील एसक्यूएल या समस्यांकडे लक्ष देण्याचे वचन देते.

अधिक लोक आता हडूपमध्ये प्रवेश करू शकतात

असे दिसते आहे की हडूपवरील एसक्यूएलने हाडोपला या अर्थाने अधिक समतावादी केले आहे की आता लोकांचे विस्तीर्ण गट डेटाची प्रक्रिया आणि विश्लेषण करण्यासाठी हडूपचा वापर करू शकतात. पूर्वी, हॅडूपचा वापर करण्यासाठी, आपल्याला हॅडूप आर्किटेक्चर - मॅपरेड्यूस, हॅडूप वितरित फाइल सिस्टम किंवा एचबेस यांचे ज्ञान असणे आवश्यक आहे. आता आपण जवळजवळ कोणतीही विश्लेषणात्मक किंवा अहवाल देणारी साधने प्लग इन करू शकता आणि डेटामध्ये प्रवेश करू आणि विश्लेषित करू शकता.हडोपवरील एसक्यूएलचे आभार, क्लौडेरा इम्पाला, समवर्ती भाषिक, हॅडॅप, सिटसडीबी, इन्फिनीडीबी, मॅमॉथडीबी, मेमएसक्यूएल, पिव्होटल एचएडब्ल्यू, अपाचे ड्रिल, स्क्लेराडीबी, प्रगती डेटाडायरेक्ट, सिम्बा आणि स्प्लिस मशीन यासारख्या हडूप इंजिनवरील असंख्य एसक्यूएल आता व्यावसायिकरित्या उपलब्ध आहेत. मोठ्या डेटा वापरण्यासाठी. अर्थातच, यामुळे व्यापक प्रेक्षकांसाठी हडूप उघडले आहे जे आता मोठ्या डेटामधील गुंतवणूकीवर त्यांचे परतावे वाढविण्याची अपेक्षा करू शकतात.

हडूपसह बिग डेटाचे विश्लेषण करणे आता सोपे आहे

डेटा पुनर्प्राप्त आणि विश्लेषित करण्यासाठी आता आपल्याला मोठ्या डेटावरील जुन्या एसक्यूएल क्वेरी चालविण्याची आवश्यकता आहे. एसक्यूएलने फक्त एक रिलेशनल डेटाबेस टूल असल्यापासून मोठ्या डेटा विश्लेषण साधनापर्यंत विकसित केले आहे, जे खरोखर एक महत्त्वपूर्ण बदल आहे. हॅडूप क्वेरीवर प्रक्रिया कशी करीत आहे याची आपल्याला चिंता करण्याची आवश्यकता नाही - एसक्यूएल क्वेरींचा अर्थ लावण्याचा आणि आपल्याला निकाल देण्याचा त्याचा स्वतःचा मार्ग आहे. तज्ञांचा असा विश्वास आहे की हडूप वितरित फाइल सिस्टममध्ये मोठ्या डेटासाठी समांतर प्रक्रिया वस्तूंचे क्लस्टर असले तरीही ते एसक्यूएल-शैली संवादात्मक क्वेरींगसह कार्य करत असल्यास त्याची प्रक्रिया क्षमता सुधारू शकेल. एचडीएफएसला एसक्यूएल सह एकत्रित करण्यापूर्वी, एचडीएफएसकडे डेटा प्रक्रिया करण्यास बराच वेळ लागेल आणि कार्य करण्यासाठी विशेष डेटा वैज्ञानिक आवश्यक आहे. आणि प्रश्न परस्पर नव्हते. अपाचे तेझ फ्रेमवर्कमध्ये, ज्यामध्ये स्पार्क एनालिटिकल इंजिन आणि हायव्ह डेटा वेअरहाऊससाठी स्टिंगर इंटरएक्टिव्ह क्वेरी प्रवेगक समाविष्ट आहे, या समस्यांकडे लक्ष दिले गेले आहे. किरकोळ विक्रेता टार्गेट कॉर्पोरेशनच्या रणनीती व आर्किटेक्चरचे ग्रुप मॅनेजर अनु जैन यांच्या मते, “आम्ही वापरकर्त्यांना परस्पर संवाद साधत आहोत हे सुनिश्चित करणे आमच्यासाठी फार महत्वाचे आहे. तेझ सह आम्ही व्यवसायात ती क्षमता प्रदान करण्यास सक्षम आहोत. ”

कोणतीही दोष नाही, तणाव नाही - आपले जीवन नष्ट न करता जीवन-बदलणारे सॉफ्टवेअर तयार करण्यासाठी चरण चरण बाय चरण


जेव्हा कोणालाही सॉफ्टवेअर गुणवत्तेची काळजी नसते तेव्हा आपण आपली प्रोग्रामिंग कौशल्ये सुधारू शकत नाही.

गार्डनर सर्वेक्षणानुसार, हॅडोप वापरकर्त्यांमध्ये परस्पर विश्लेषणाची लोकप्रियता वाढत आहे. सर्वेक्षणानुसार, %२% एचडीएफएस किंवा एचबेस सह तृतीय-पक्ष इंटरफेस वापरतात, २ 27% एचआयव्हीमार्फत स्वयंनिर्मित क्वेरी वापरतात, तर २%% क्लोडेरा इम्पाला आणि पिव्होटल एचएडब्ल्यूक्यू सारख्या हडूप वितरण-विशिष्ट साधनांचा वापर करतात.

हॅडॉप वर एस क्यू एल वर दुसरा परिप्रेक्ष्य

हडोपवरील एसक्यूएल हे हडूपबरोबर असलेले बर्‍याच अडचणी सोडवणार आहे असे वाटत असतानाच, आणखी एक दृष्टिकोन आहे ज्याचा असा विश्वास आहे की एसक्यूएलमध्ये बरीच समस्या असू शकतात, विशेषत: हॅडूपबरोबर एकत्रितपणे. या दृश्यांनुसार, मोठा डेटा येतो तेव्हा विश्लेषणात्मक साधन म्हणून एस क्यू एल कदाचित कार्यक्षम असू शकत नाही. हडूप समिटचे सदस्य पॅनेलचा सदस्य जॉन विल्यम्स यांच्या मते, एसक्यूएल हे कदाचित मोठ्या डेटासह कार्य करण्यासाठी सर्वोत्तम विश्लेषक साधन नसेल. विल्यम्स यांच्या म्हणण्यानुसार, ट्रूकारच्या प्लॅटफॉर्म ऑपरेशन्सचे वरिष्ठ उपाध्यक्ष कोण आहेत, जे वापरकर्त्यांना ऑनलाइन कार खरेदीचे व्यासपीठ उपलब्ध करतात, “मोठ्या डेटा सेटवरील एसक्यूएल अंमलबजावणीचा वेळ कमी आहे. दरम्यान, एसएक्यूएलवरील हॅडॉप यार्न आणि टेझ सारख्या गोष्टींनी वेगवान होत आहे. "

आणि ही एसक्यूएलची एकमेव समस्या नाही. डेटा स्टडींग, स्कीमा कन्सिव्हिंग, इंडेक्स आणि क्वेरी क्रिएशन आणि नॉर्मलायझेशन अशी बरीच ओव्हरहेड कार्ये आहेत जेव्हा आपण हॅडूपबरोबर एसक्यूएल एकत्रित करत असताना काळजी घेणे आवश्यक आहे आणि आपण बराच वेळ आणि मेहनत घालवत असाल. त्या सर्व प्रयत्नांनंतर आपण कोणतीही कायमस्वरूपी कामगिरी केली याची शाश्वती नाही. अनुप्रयोग बदलल्यास काहीही असल्यास, आपण आधीपासून केलेले कार्य पुन्हा करणे आवश्यक असू शकते. एस क्यू एलऐवजी जावा आणि पायथॉनच्या आधारे मोठे डेटा-केंद्रित विकास केले जावे कारण या भाषा अप्रचलित डेटा प्रक्रियेसाठी अधिक योग्य आहेत.

निष्कर्ष

हडोपवरील एसक्यूएल हे हॅडॉपचा वापर करून आलेल्या लोकांच्या समस्येचे उत्तर आहे की नाही याबद्दल अद्याप निर्णायक मंडळाबाहेर आहे. परंतु स्पष्टपणे सांगायचे तर हडूपच्या स्वत: च्या डेटा क्वेरींग क्षमतांसाठी या उद्योगाला अधिक चांगल्या पर्यायाची आवश्यकता आहे आणि तो पर्याय परस्परसंवादी असणे आवश्यक आहे. हॅडॉप टूल्सवरील एसक्यूएल इंटरएक्टिव ticsनालिटिक्स प्रदान करतात, जे उपयुक्त आहेत. गुंतागुंतीच्या, वेळ घेणार्‍या ticsनालिटिक्सच्या अर्थाने प्रयत्न करण्याच्या प्रयत्नात उद्योजकांना आपला वेळ वाया घालवायचा नाही. आत्तापर्यंत, एंटरप्राइजेस हॅडॉप टूल्सवर एसक्यूएल खूप उपयुक्त असल्याचे शोधत आहेत.