हाडूप बिग डेटा समस्येचे निराकरण करण्यात कशी मदत करते

लेखक: Eugene Taylor
निर्मितीची तारीख: 8 ऑगस्ट 2021
अद्यतन तारीख: 12 मे 2024
Anonim
Hadoop वापरून वास्तविक आणि मोठ्या (डेटा) समस्या सोडवणे • Eva Andreasson • GOTO 2014
व्हिडिओ: Hadoop वापरून वास्तविक आणि मोठ्या (डेटा) समस्या सोडवणे • Eva Andreasson • GOTO 2014

सामग्री



टेकवे:

हडूप काही मोठ्या डेटाची मोठी आव्हाने सोडविण्यास मदत करू शकते.

मोठा डेटा ... चांगला ... आकारात मोठा! मोठा डेटा म्हणून किती डेटा वर्गीकृत केला जाऊ शकतो हे अगदी स्पष्ट कट नाही, म्हणून त्या वादात अडकू नये. एका छोट्या कंपनीसाठी जी गीगाबाईट्समध्ये डेटा हाताळण्यासाठी वापरली जाते, त्याकरिता 10 टीबी डेटा मोठा असेल. तथापि आणि याहूसारख्या कंपन्यांसाठी, पेटाबाईट मोठी आहे.

फक्त मोठ्या डेटाचा आकार डेटाबेस किंवा पारंपारिक फाईलरसारख्या पारंपारिक स्टोरेजमध्ये संचयित करणे अशक्य (किंवा कमीतकमी खर्च निषिद्ध) बनवितो. आम्ही गिगाबाइट डेटा साठवण्याच्या किंमतीबद्दल बोलत आहोत. पारंपारिक स्टोरेज फाइलर वापरणे मोठा डेटा संचयित करण्यासाठी खूप पैसे खर्च करू शकते.

येथे मोठा डेटा, त्यातील आव्हाने आणि हडूप त्यांना सोडविण्यात कशी मदत करू शकतात यावर एक नजर टाका.प्रथम, मोठे डेटा सर्वात मोठी आव्हाने.

मोठा डेटा अप्रचलित किंवा अर्ध-संरचित आहे

बर्‍याच मोठ्या डेटाची रचना नसलेली असते. उदाहरणार्थ, क्लिक प्रवाह प्रवाह डेटा यासारखे दिसू शकेल:

टाइम स्टॅम्प, यूजर_आयडी, पृष्ठ, रेफरर_पृष्ठ

संरचनेचा अभाव मोठा डेटा संग्रहित करण्यासाठी रिलेशनल डेटाबेस योग्य प्रकारे करत नाही. शिवाय, बरेच डेटाबेस कोट्यवधी पंक्ती डेटा संग्रहित करण्यास सामोरे जाऊ शकत नाहीत.

आम्ही प्रक्रिया करू शकत नसल्यास मोठा डेटा संग्रहित करण्याचा कोणताही मुद्दा नाही

मोठा डेटा साठवणे हा खेळाचा एक भाग आहे. त्यातून माझे बुद्धिमत्ता तयार करण्यासाठी आम्ही त्यावर प्रक्रिया केली पाहिजे. पारंपारिक स्टोरेज सिस्टम फक्त "बिट" असतात त्या अर्थाने ते फक्त बिट्स संग्रहित करतात. ते कोणतीही प्रक्रिया शक्ती ऑफर करत नाहीत.

पारंपारिक डेटा प्रोसेसिंग मॉडेलमध्ये स्टोरेज क्लस्टरमध्ये डेटा संग्रहित केला जातो, जो प्रक्रियेसाठी संगणकीय क्लस्टरवर कॉपी केला जातो. परिणाम स्टोरेज क्लस्टरवर परत लिहिलेले आहेत.

हे मॉडेल, तथापि, मोठ्या डेटासाठी बरेच कार्य करत नाही कारण संगणकीय क्लस्टरमध्ये इतका डेटा कॉपी करणे जास्त वेळ घेणारा किंवा अशक्य आहे. तर उत्तर काय आहे?

एक उपाय म्हणजे मोठ्या डेटावर जागृत प्रक्रिया करणे, जसे की स्टोरेज क्लस्टरमध्ये कॉम्प्यूट क्लस्टरच्या दुप्पट असणे.

म्हणून आपण वर पाहिले आहे की मोठा डेटा पारंपारिक संचयनास विरोध करते. मग आम्ही मोठा डेटा कसा हाताळू शकतो?

हॅडूप बिग डेटा समस्येचे निराकरण कसे करते

हडूप मशीनच्या क्लस्टरवर चालण्यासाठी तयार केले गेले आहे
चला उदाहरणासह प्रारंभ करूया. असे म्हणू द्या की आम्हाला बरेच फोटो संग्रहित करण्याची आवश्यकता आहे. आम्ही एकाच डिस्कसह प्रारंभ करू. जेव्हा आम्ही एकच डिस्क ओलांडतो, आम्ही मशीनवर रचलेल्या काही डिस्क वापरू शकतो. जेव्हा आम्ही एकाच मशीनवरुन सर्व डिस्क्स जास्तीत जास्त वाढवतो, तेव्हा आपल्याला प्रत्येक मशीनमध्ये एक डिस्चांचा गुच्छ असतो.

हडूप हे नक्की कसे बांधले गेले आहे. हडूप मशीनच्या क्लस्टरवर जाण्यापासून चालण्यासाठी डिझाइन केलेले आहे.




हडूप क्लस्टर क्षैतिज प्रमाणात
हॅडॉप क्लस्टरमध्ये अधिक नोड्स जोडून अधिक स्टोरेज आणि कॉम्प्यूट पॉवर मिळवता येते. हे अधिकाधिक शक्तिशाली आणि महाग हार्डवेअर विकत घेण्याची गरज दूर करते.

हॅडूप अप्रचलित / अर्ध-संरचित डेटा हाताळू शकतो
हॅडॉप संचयित केलेल्या डेटावर स्कीमा लागू करीत नाही. हे अनियंत्रित आणि बायनरी डेटा हाताळू शकते. तर हॅडूप कोणत्याही अप्रिय संरचित डेटा सहज पचवू शकतो.

हॅडॉप क्लस्टर स्टोरेज आणि संगणन प्रदान करते
आम्ही पाहिले आहे की वेगळ्या स्टोरेज आणि प्रोसेसिंग क्लस्टर असणे मोठ्या डेटासाठी सर्वोत्तम तंदुरुस्त कसे नाही. हॅडॉप क्लस्टर, तथापि, स्टोरेज प्रदान करतात आणि संगणकात सर्व वितरित करतात.

हडूपसाठी बिझिनेस केस


हडोप वाजवी किंमतीत मोठ्या डेटासाठी संचय प्रदान करते
पारंपारिक संग्रह वापरुन मोठा डेटा साठवणे महाग असू शकते. हाडूप कमोडिटी हार्डवेअरच्या भोवती तयार केलेले आहे, जेणेकरून वाजवी खर्चासाठी ब fair्यापैकी मोठा संग्रह मिळेल. हडूपचा वापर शेतात पेटाबाईट स्केलवर केला गेला आहे.

क्लौडेराच्या एका अभ्यासानुसार असे प्रतिपादन केले गेले आहे की उद्योजक दर वर्षी प्रति तेराबाईटसाठी साधारणत: 25,000 ते 50,000 डॉलर्स खर्च करतात. हॅडूपच्या सहाय्याने ही किंमत प्रति तेराबाईटवर काही हजार डॉलर्सपर्यंत खाली येते. हार्डवेअर स्वस्त आणि स्वस्त होत असल्याने, ही किंमत कमी होत आहे.

हडूप नवीन किंवा अधिक डेटा कॅप्चर करण्यास अनुमती देते
काहीवेळा संस्था डेटाचा एक प्रकार कॅप्चर करत नाहीत कारण त्यास संग्रहित करणे खूपच जास्त प्रतिबंधात्मक होते. हडूप योग्य किंमतीवर स्टोरेज प्रदान करत असल्याने, या प्रकारचा डेटा कॅप्चर आणि संग्रहित केला जाऊ शकतो.

एक उदाहरण म्हणजे वेबसाइट क्लिक लॉग. कारण या लॉगचे प्रमाण खूपच जास्त असू शकते, बर्‍याच संस्थांनी हे घेतले नाही. आता हॅडॉपद्वारे लॉग कॅप्चर करणे आणि संग्रहित करणे शक्य आहे.

हॅडूप सह, आपण यापुढे डेटा संचयित करू शकता
संचयित डेटाचे व्हॉल्यूम व्यवस्थापित करण्यासाठी कंपन्या वेळोवेळी जुना डेटा शुद्ध करतात. उदाहरणार्थ, मागील तीन महिन्यांतील फक्त लॉगच संग्रहित केले जाऊ शकतात, तर जुने लॉग हटवले गेले होते. हॅडॉपद्वारे ऐतिहासिक डेटा जास्त काळ संचयित करणे शक्य आहे. जुन्या ऐतिहासिक डेटावर हे नवीन विश्लेषणे करण्याची परवानगी देते.

उदाहरणार्थ, वेबसाइटवरून क्लिक लॉग घ्या. काही वर्षांपूर्वी, लोकप्रिय पृष्ठे यासारख्या आकडेवारीची गणना करण्यासाठी हे नोंदी थोड्या काळासाठी ठेवल्या गेल्या. आता हॅडॉपसह, हे क्लिक लॉग दीर्घ कालावधीसाठी संग्रहित करणे व्यवहार्य आहे.

हडूप स्केलेबल ticsनालिटिक्स प्रदान करते
आम्ही जर त्यांचे विश्लेषण करू शकत नाही तर हा सर्व डेटा संचयित करण्यात काही अर्थ नाही. हडूप केवळ वितरित संग्रहणच प्रदान करत नाही तर वितरित प्रक्रिया देखील प्रदान करते, ज्याचा अर्थ असा आहे की आम्ही समांतरात मोठ्या प्रमाणात डेटा क्रंच करू शकतो. हॅडॉपच्या संगणकीय फ्रेमवर्कला मॅपरेड्यूस म्हणतात. मॅपरेड्यूस हे पेटाबाईटच्या प्रमाणात सिद्ध झाले आहे.

हडूप समृद्ध विश्लेषक प्रदान करते
नेटिव्ह मॅपरेड्यूस जावाला प्राथमिक प्रोग्रामिंग भाषा म्हणून समर्थन देते. रुबी, पायथन आणि आर सारख्या इतर भाषा देखील वापरल्या जाऊ शकतात.

नक्कीच, हॅडोपमधील डेटाचे विश्लेषण करण्याचा एकमेव मार्ग सानुकूल मॅपरेड्यूस कोड नाही. उच्च-स्तरीय नकाशा कमी करणे उपलब्ध आहे. उदाहरणार्थ, डुक्कर नावाचे एक साधन डेटा प्रवाह भाषेसारखे इंग्रजी घेते आणि त्यास मॅपरेड्यूसमध्ये भाषांतरित करते. आणखी एक साधन, पोळे, एस क्यू एल क्वेरी घेतात आणि ते मॅपरेड्यूस वापरुन चालवतात.

व्यवसाय बुद्धिमत्ता (बीआय) साधने विश्लेषणाची उच्च पातळी देखील प्रदान करू शकतात. या प्रकारच्या विश्लेषणासाठी देखील साधने आहेत.

ही सामग्री मार्क केर्झनर आणि सुजी मनिअम यांनी "हॅडूप इल्युमिनेटेड" कडून उद्धृत केली आहे. हे क्रिएटिव्ह कॉमन्स ributionट्रिब्युशन-नॉन-कॉमर्शियल-शेयरएलाकी Un.० अनपोर्टेड परवानाद्वारे उपलब्ध केले गेले आहे.