स्पार्क भविष्यातील बिग डेटा प्लॅटफॉर्म का आहे

लेखक: Laura McKinney
निर्मितीची तारीख: 1 एप्रिल 2021
अद्यतन तारीख: 1 जुलै 2024
Anonim
5 मिनिटात बिग डेटा | बिग डेटा म्हणजे काय?| बिग डेटाचा परिचय |मोठा डेटा स्पष्ट केला |साधे शिकणे
व्हिडिओ: 5 मिनिटात बिग डेटा | बिग डेटा म्हणजे काय?| बिग डेटाचा परिचय |मोठा डेटा स्पष्ट केला |साधे शिकणे

सामग्री


स्रोत: साप 3 डी / ड्रीमस्टाइम.कॉम

टेकवे:

अपाचे स्पार्क हे हडूप (आणि काही मार्गाने मागे टाकत) पुढे जात असलेल्या मोठ्या डेटावर प्रक्रिया करण्यासाठी एक मुक्त-स्रोत साधन आहे.

अपाचे हॅडूप हे बर्‍याच दिवसांपासून मोठ्या डेटा अनुप्रयोगांसाठी पाया आहे, आणि सर्व बिग-डेटा-संबंधित ऑफरिंगचे मूलभूत डेटा प्लॅटफॉर्म मानले जाते. तथापि, वेगवान कामगिरी आणि द्रुत निकालांमुळे इन-मेमरी डेटाबेस आणि संगणनाची लोकप्रियता वाढत आहे. अपाचे स्पार्क एक नवीन फ्रेमवर्क आहे जे वेगवान प्रक्रिया (हडूपपेक्षा जवळजवळ 100 पट वेगवान) वितरित करण्यासाठी मेमरी क्षमतांचा वापर करते. तर, स्पार्क उत्पादन मोठ्या डेटाच्या जगात आणि प्रामुख्याने वेगवान प्रक्रियेसाठी वाढत्या प्रमाणात वापरले जात आहे.

अपाचे स्पार्क म्हणजे काय?

अपाचे स्पार्क वेगवान आणि साधेपणासह मोठ्या प्रमाणात डेटा (मोठा डेटा) प्रक्रिया करण्यासाठी एक मुक्त-स्रोत फ्रेमवर्क आहे. मोठ्या डेटावर आधारित हे विश्लेषणात्मक अनुप्रयोगांसाठी उपयुक्त आहे. स्पार्कचा उपयोग हॅडोप वातावरणासह, स्वतंत्र किंवा मेघमध्ये केला जाऊ शकतो. हे कॅलिफोर्निया विद्यापीठात विकसित केले गेले आणि नंतर अपाचे सॉफ्टवेअर फाऊंडेशनला ऑफर केले. अशा प्रकारे हे मुक्त-स्त्रोताच्या समुदायाचे आहे आणि ते अत्यंत किफायतशीर असू शकते, जे हौशी विकसकांना सहजतेने कार्य करण्यास अनुमती देते. (हॅडोप्स ओपन सोर्सबद्दल अधिक जाणून घेण्यासाठी, अपाचे हॅडॉप इकोसिस्टमवर ओपन सोर्सचा प्रभाव काय आहे ते पहा.)


स्पार्कचा मुख्य उद्देश असा आहे की तो विकसकांना अनुप्रयोग फ्रेमवर्कसह ऑफर करतो जो एका केंद्रित डेटा स्ट्रक्चरच्या आसपास कार्य करतो. स्पार्क देखील अत्यंत सामर्थ्यवान आहे आणि थोड्या वेळात मोठ्या प्रमाणात डेटा द्रुतपणे प्रक्रिया करण्याची जन्मजात क्षमता आहे, ज्यामुळे अत्यंत चांगली कार्यक्षमता दिली जाते.हा सर्वात जवळचा प्रतिस्पर्धी, हडूप म्हटल्या गेलेल्या गोष्टीपेक्षा खूप वेगवान बनवितो.

हॅडॉपपेक्षा स्पार्क का महत्वाचे आहे

अपाचे स्पार्क नेहमीच हदूपला अनेक वैशिष्ट्यांमध्ये ट्रम्प करण्यासाठी ओळखले जातात, जे कदाचित ते इतके महत्त्वाचे का आहे हे स्पष्ट करते. यामागील मुख्य कारण म्हणजे त्याच्या प्रक्रियेच्या गतीचा विचार करणे. खरं तर, वर म्हटल्याप्रमाणे स्पार्क हडूपच्या मॅपरेड्यूसपेक्षा समान डेटासाठी सुमारे 100 पट जलद प्रक्रिया ऑफर करते. हे हॅडॉपच्या तुलनेत कमी संसाधने देखील वापरते, ज्यायोगे ते प्रभावी होते.

रिसर्च व्यवस्थापकाशी सुसंगततेच्या दृष्टीने स्पार्कचा वरचा हात असलेला आणखी एक मुख्य पैलू आहे. अपाचे स्पार्क हॅडोपसह चालविण्यासाठी परिचित आहे, जसे मॅपरेड्यूस करते, तथापि, नंतरचे सध्या फक्त हडूपसह अनुकूल आहेत. अपाचे स्पार्कसाठी, तथापि, ते यार्न किंवा मेसोस सारख्या अन्य स्त्रोत व्यवस्थापकांसह कार्य करू शकते. डेटा शास्त्रज्ञ हे बर्‍याचदा सर्वात मोठ्या क्षेत्रापैकी एक म्हणून उल्लेख करतात जिथे स्पार्क खरोखर हॅडूपला मागे टाकते.


जेव्हा हे वापरणी सुलभतेवर येते तेव्हा स्पार्क पुन्हा हॅडूपपेक्षा बरेच चांगले होते. स्पार्कमध्ये स्पार्क एसक्यूएल सारख्या अनेक भाषांसाठी जसे की स्काला, जावा आणि पायथनसाठी एपीआय आहेत. वापरकर्ता परिभाषित कार्ये लिहिणे हे तुलनेने सोपे आहे. कमांड्स चालविण्यासाठी इंटरएक्टिव्ह मोडचा अभिमान बाळगण्यास हे देखील होते. दुसरीकडे, हडोप जावामध्ये लिहिलेले आहे आणि प्रोग्राम करणे खूपच अवघड आहे याची प्रतिष्ठा त्याने मिळविली आहे, परंतु प्रक्रियेत सहाय्य करणारी साधने असूनही. (स्पार्क विषयी अधिक जाणून घेण्यासाठी, अपाचे स्पार्क रॅपिड अनुप्रयोग विकासात कशी मदत करते ते पहा.)

स्पार्क्स अद्वितीय वैशिष्ट्ये काय आहेत?

अपाचे स्पार्कची काही खास वैशिष्ट्ये आहेत जी ती डेटा प्रोसेसिंगच्या व्यवसायातील त्याच्या बर्‍याच प्रतिस्पर्ध्यांपासून खरोखर वेगळी करतात. यापैकी काही खाली थोडक्यात वर्णन केले आहेत.

जेव्हा कोणालाही सॉफ्टवेअर गुणवत्तेची काळजी नसते तेव्हा आपण आपली प्रोग्रामिंग कौशल्ये सुधारू शकत नाही.

स्पार्कमध्ये मशीन लर्निंग अल्गोरिदमच्या मदतीने कोरवर आवश्यक माहिती लोड करण्याची जन्मजात क्षमता देखील आहे. हे ते अत्यंत वेगवान होण्यास अनुमती देते.

अपाचे स्पार्क आलेखांवर प्रक्रिया करण्याची क्षमता किंवा अगदी ग्राफिक स्वरूपात असलेल्या माहितीसह कार्य करते, अशा प्रकारे बरेच सुस्पष्टता सह सोपे विश्लेषण सक्षम करते.

अपाचे स्पार्ककडे एमएलआयबी आहे, जे स्ट्रक्चर्ड मशीन लर्निंगसाठी बनविलेले एक फ्रेमवर्क आहे. हडूपपेक्षा अंमलबजावणीतही हे प्रामुख्याने वेगवान आहे. सांख्यिकीय वाचन, डेटा नमुना आणि प्राथमिक चाचणी यासारख्या अनेक समस्या सोडविण्यासही एमएलआयबी सक्षम आहे.

हॅडॉपसाठी स्पार्क हे रिप्लेसमेंट का नाही

स्पॅडिककडे हडूपचा हात खाली करण्याच्या अनेक बाबी असूनही, अद्याप हडूपची जागा अद्याप घेतली जाऊ शकत नाही.

स्पार्कच्या तुलनेत प्रथम, हॅडूप फक्त साधनांचा मोठा संच ऑफर करते. उद्योगात मान्यता असलेल्या बर्‍याच पद्धतीही आहेत. अपाचे स्पार्क जरी अद्याप डोमेनमध्ये तुलनेने तरूण आहे आणि हदोपच्या बरोबरीने येण्यास थोडा वेळ लागेल.

हाडॉपच्या मॅपड्रिड्यूसने पूर्ण-परिचालन ऑपरेशन्स चालविताना काही विशिष्ट उद्योगांचे मानक देखील सेट केले आहेत. दुसरीकडे, तरीही असा विश्वास आहे की स्पार्क पूर्ण विश्वासार्हतेसह ऑपरेट करण्यास पूर्णपणे तयार नाही. बर्‍याचदा, स्पार्क वापरणार्‍या संस्थांना त्यांची आवश्यकता पूर्ण करण्यासाठी, त्यास दंड करणे आवश्यक असते.

स्पार्कपेक्षा बर्‍याच काळापासून हॅडॉपची मॅपरेड्यूस कॉन्फिगर करणे देखील सोपे आहे. हे स्पार्कसाठी असे नाही, जरी हे लक्षात घेत आहे की हे एक संपूर्ण नवीन प्लॅटफॉर्म ऑफर करते ज्याने खरंच खडबडीत पॅचेस चाचणी घेतली नाही.

कंपन्या स्पार्क आणि हडूप बद्दल काय विचार करतात

बर्‍याच कंपन्यांनी त्यांच्या डेटा प्रोसेसिंगच्या गरजेसाठी स्पार्कचा वापर करण्यास सुरवात केली आहे, परंतु स्टोरी तिथे संपत नाही. यात नक्कीच बरीच मजबूत बाबी आहेत जी ती एक आश्चर्यकारक डेटा प्रोसेसिंग प्लॅटफॉर्म बनवतात. तथापि, हे निराकरण करण्याच्या आवश्यक असलेल्या कमतरतेसह तिच्या योग्य वाटासह देखील येते.

हा एक उद्योग आहे की अपाचे स्पार्क येथे राहण्यासाठी आहे आणि डेटा प्रोसेसिंग गरजा भविष्यात देखील आहे. तथापि, अद्याप बरीच विकास कामे आणि पॉलिशिंग करणे आवश्यक आहे जे यामुळे आपल्या क्षमतेस ख truly्या अर्थाने कार्य करण्यास अनुमती देईल.

व्यावहारिक अंमलबजावणी

अपाचे स्पार्क असंख्य कंपन्यांद्वारे कार्यरत आहेत आणि अजूनही कार्यरत आहेत जे त्यांच्या डेटा प्रोसेसिंग आवश्यकतानुसार भाग घेतात. सर्वात यशस्वी अंमलबजावणींपैकी एक शॉपिफ यांनी केली जे व्यवसाय सहयोगासाठी पात्र स्टोअरची निवड करण्याचा विचार करीत होते. तथापि, जेव्हा त्याचे ग्राहक विकत आहेत त्या उत्पादनांना समजून घ्यायचे असेल तेव्हा त्याचे डेटा वेअरहाऊस वेळेतच राहिले. स्पार्कच्या मदतीने ही कंपनी काही मिलियन डेटा रेकॉर्डवर प्रक्रिया करू शकली आणि त्यानंतर काही मिनिटांत 67 दशलक्ष रेकॉर्डवर प्रक्रिया करू शकली. कोणते स्टोअर पात्र आहेत हेदेखील निर्धारित केले.

स्पार्कचा वापर करून, पिंटरेस्ट विकसनशील ट्रेंड ओळखण्यास सक्षम आहे आणि नंतर वापरकर्त्यांचा वर्तन समजून घेण्यासाठी याचा वापर करते. हे पुढे पिनटेरेस्ट समुदायामध्ये चांगले मूल्य मिळविण्यास अनुमती देते. जगातील सर्वात मोठी प्रवासी माहिती साइट असलेल्या ट्रिप अ‍ॅडव्हायझरमार्फत स्पार्कचा वापर पर्यटकांना त्याच्या शिफारशी वेगवान करण्यासाठी करते.

निष्कर्ष

अपाचे स्पार्कच्या पराक्रमाबद्दल, आत्ता तरी आणि त्यात वैशिष्ट्यीकृत वैशिष्ट्यांमुळे तो टेबलवर येऊ शकतो यावर कोणीही शंका घेऊ शकत नाही. त्याची प्रक्रिया करण्याची शक्ती आणि वेग त्याच्या सुसंगततेसह भविष्यात बर्‍याच गोष्टी येण्याकरिता टोन सेट करते. तथापि, त्यामध्ये पूर्णत: सामर्थ्याची जाणीव असल्यास ती सुधारण्याची अनेक क्षेत्रे देखील आहेत. हडूप अद्याप अस्तित्त्वात असलेल्या नियमांवर नियंत्रण ठेवत असताना, अ‍ॅपाचे स्पार्कचे भविष्य उज्ज्वल आहे आणि डेटा प्रोसेसिंग आवश्यकतांसाठी भविष्यातील व्यासपीठ म्हणून बरेच लोक मानतात.