जेव्हा एसक्यूएल पुरेसे नसते तेव्हा मोठ्या प्रमाणात डेटा सेंटर्ससाठी नियंत्रणे

सामग्री

गूगल फाईल सिस्टम: एक मोठा केस स्टडी
कोणतीही दोष नाही, तणाव नाही - आपले जीवन नष्ट न करता जीवन-बदलणारे सॉफ्टवेअर तयार करण्यासाठी चरण चरण बाय चरण
कोअर टेक्नॉलॉजीवर एक नजर
इतर मोठ्या प्रणाल्या हे कसे प्राप्त करतात?
डीएफएस राखत आहे

टेकवे:

विकसक आणि अभियंते यांनी त्यांच्या क्लासिक 1990 च्या कालखंडातील पुरातन वास्तूंच्या पलीकडे वाढलेल्या प्लॅटफॉर्मवर सेवा वाढविण्यासाठी आणि सुधारण्यासाठी सतत कार्य करणे आवश्यक आहे.

आमच्या खाजगी जीवनाबद्दल असंख्य एनएसए डेटा सेंटर बद्दल गझलियन डेटा बिट्स असणा all्या सर्व बातम्यांसह, अशी एक गोष्ट आहे जी कमीतकमी सीएनएन वर बोलली गेली नाही. यात क्लाऊड तंत्रज्ञान, मोठा डेटा आणि आता संपूर्ण जगात बनविल्या जाणार्‍या प्रभावी भौतिक डेटा स्टोरेज सेंटरसह उद्भवलेल्या अभियांत्रिकी समस्येचा समावेश आहे. मग ते काय आहे? बरं, या सुविधा चालवणा ma्या विशाल आयटी प्रणालीपैकी कोण व्यवस्थापन करीत आहे याची पर्वा नाही, अशा सॉफ्टवेअर सिस्टमची गरज आहे जी त्या सर्व डेटाला पाइपलाइनमध्ये त्वरेने व आत येण्यास मदत करतात. ती गरज आजच्या व्यावसायिकांसमोर असलेल्या एक सर्वात मनोरंजक आयटी प्रश्न किंवा कोडी सोडवते.

जसे बरेच तज्ञ सांगतात, आज डेटा प्रोसेसिंगची अत्यंत मागणी पारंपारिक पध्दतींपेक्षा खूपच जास्त आहे. सोप्या भाषेत सांगायचे तर, एसक्यूएल क्वेरी इंटरफेस सारखी सोपी डेटाबेस स्ट्रक्चर्स आणि टूल्सचा वापर करून मागील काही वर्षांमध्ये विकसित झालेल्या मालकीच्या सिस्टमच्या आवडीसाठी पुरेशी प्रक्रिया करण्याची शक्ती किंवा कार्यक्षमता पुरविली जाणार नाही. आजच्या मोठ्या टेक कंपन्यांच्या संग्रहणांना अत्यंत स्केलेबल तंत्रज्ञानाची आवश्यकता आहे. त्यांना डेटा प्रोसेसिंग टूल्सची आवश्यकता आहे जे एकल सर्व्हरद्वारे सोयीस्कर करण्यापेक्षा जास्त इनपुट आणि आउटपुट परिणाम प्राप्त करू शकतात. त्यांना विकासासाठी द्रुतगतीने वाढवता येतील अशा उपायांची आवश्यकता आहे, ज्यात कृत्रिम बुद्धिमत्तेचे जटिल स्तर समाविष्ट आहेत, आयटी विभागाने सुलभ व्यवस्थापनासाठी डिझाइन केलेले निराकरण.

प्रश्न आहे, कंपन्या आणि सरकारी संस्था पारंपारिक डेटा हाताळण्याच्या मार्गाची मर्यादा कशी जिंकतात? येथे एक अत्यंत आशादायक पर्याय पहा: मोठा डेटा आणि एकाधिक डेटा सेंटरचा कारभार हाताळणारे सॉफ्टवेअर.

गूगल फाईल सिस्टम: एक मोठा केस स्टडी

मोठ्या डेटा हाताळणी आणि एकाधिक डेटा सेंटर प्रशासनासाठी सामान्य मॉडेलचे एक उत्कृष्ट उदाहरण म्हणजे Google आपल्या डेटा सेंटरमध्ये प्रवेश करण्यासाठी वापरते असे मालकीचे तंत्रज्ञान. २०० in मध्ये विकसित केलेली Google फाईल सिस्टम (जीएफएस) लाखो वापरकर्त्यांनी क्लिक केल्यामुळे एका प्लॅटफॉर्ममध्ये इतकी नवीन माहिती मिळविण्याचा भाग असलेल्या डेटा सिस्टममध्ये उच्च-गती सुधारणांच्या मोठ्या प्रमाणात समर्थन देण्यासाठी डिझाइन केलेले आहे. त्याच वेळी. तज्ञ यास वितरित फाइल सिस्टम म्हणून संबोधतात आणि या अत्यंत जटिल तंत्राचे वर्णन करण्यासाठी "डेटा ऑब्जेक्ट स्टोरेज" संज्ञा वापरतात. प्रत्यक्षात तथापि, या अटी कार्यरत असलेल्या गोष्टींचे वर्णन करणार्‍या पृष्ठभागावर स्क्रॅच देखील करत नाहीत.

वैयक्तिकरित्या, जीएफएस सारखी प्रणाली बनविणारी वैशिष्ट्ये आणि घटक यापुढे तणावपूर्ण नसतील, परंतु ती जटिल आहेत. त्यापैकी बर्‍याच जणांना या साइटवर तुलनेने नवीन नावीन्यपूर्ण म्हणून आच्छादित केले गेले आहेत जे नवीन, नेहमीच चालू असलेल्या, नेहमीच कनेक्ट केलेल्या जागतिक आयटी प्रणालीच्या पायाभूत कामांचे भाग आहेत. एकत्रितपणे, जीएफएस सारखी प्रणाली त्याच्या भागाच्या बेरीजपेक्षा खूपच जास्त आहे: वैयक्तिक डेटाचे तुकडे अशा प्रकारे टाकले जाणारे हे एक अदृश्य परंतु प्रचंड गुंतागुंतीचे नेटवर्क आहे आणि त्या प्रक्रियेत जे पूर्णपणे दृश्यात्मक पद्धतीने मोडले तर अराजकासारखे दिसते. सर्व डेटा कोठे जात आहे हे समजून घेण्यासाठी खूप ऊर्जा आणि वचनबद्धता आवश्यक आहे, कारण या यंत्रणेच्या लढाई केंद्रावर काम करणारे लोक सहजपणे कबूल करतील.

"बर्‍याच तपशील आहेत ज्यांचा उपयोग करण्याच्या क्षेत्रावर गहन प्रभाव पडतो - बाह्य आणि अंतर्गत विखंडन, लॉग-आधारित वि. जागेची अद्यतने आणि व्यवहार सुसंगततेचे स्तर - जे एका एका संक्षिप्त वाक्यात कार्य करते त्या पद्धतीचा सारांश म्हणून. , "मॉमचिल मिशॅलोव्ह, मुख्य कार्यकारी अधिकारी आणि सॅनबोलिकचे सह-संस्थापक म्हणतात.

"वितरित फाइल सिस्टम एकतर स्थानिक नावाची जागा आणि सहभागी नोड्सची मोकळी जागा, किंवा वितरित लॉक मॅनेजर घटकाच्या सहाय्याने शेअर्ड स्टोरेजमध्ये प्रवेश करणार्‍या एकाधिक नोडवर चालणारी स्थानिक फाइल सिस्टम आहे."

केरी लेबेल ऑटोमिक येथे स्केलेबल ऑटोमेशन प्लॅटफॉर्मसाठी प्रसिद्ध असलेल्या कंपनीचे वरिष्ठ उत्पादन व्यवस्थापक आहेत. लेबल म्हणतात की डीएफएस एक सिस्टम म्हणून वर्णन करणे अचूक आहे जे हार्डवेअरच्या कमी किमतीच्या तुकड्यांसह जोडलेल्या सर्व्हरवर वर्कलोड्स नियुक्त करते, जे खरोखर संपूर्ण कथा सांगत नाही.

कोणतीही दोष नाही, तणाव नाही - आपले जीवन नष्ट न करता जीवन-बदलणारे सॉफ्टवेअर तयार करण्यासाठी चरण चरण बाय चरण

जेव्हा कोणालाही सॉफ्टवेअर गुणवत्तेची काळजी नसते तेव्हा आपण आपली प्रोग्रामिंग कौशल्ये सुधारू शकत नाही.

"आपण काय गमावत आहात हे सर्व थंड घटक आहे कसे ते जे करतात ते करतात, "लेबल म्हणाला.

जेव्हा आपण तांत्रिक तपशीलांपासून दूर जाता आणि वितरित फाइल सिस्टममागील मूलभूत कल्पनांबद्दल विचार करता तेव्हा लेबल ज्या "थंड फॅक्टर" बद्दल बोलतात ते स्पष्ट होते. या मोठ्या डेटा हँडलिंग सिस्टम जुन्या फाईल / फोल्डर्स सिस्टीम्सची रचना बदलतात ज्यात केवळ एकाधिक वितरण प्रणालीच नसतात, परंतु "ऑब्जेक्ट ओरिएंटेड" दृष्टीकोन असतो, जिथे मोठ्या संख्येने युनिट येथे अडथळा आणतात आणि अडथळे टाळतात.

उदाहरणार्थ, अत्याधुनिक हायवे सिस्टमचा विचार करा, जिथे शेकडो हजारो कार फक्त एका बहुद्देशीय खाली सरकल्या जात नाहीत, परंतु त्याभोवती व्यवस्थित आणि कोंबलेल्या सुबक पाण्यात किंवा ऑक्सबो उपनद्यामध्ये बसल्या आहेत. विविध प्रवासावर त्यांच्या गंतव्य दिशेने. आकाशातून, प्रत्येक गोष्ट स्विस घड्याळाइतकी कोरिओग्राफिक दिसते. अभियंते जेव्हा मल्टी-टायर्ड डेटा कंटेन्ट स्कीमच्या विविध स्तरांवर "लाथ मारून" मर्यादांभोवती माहिती देण्याचे नवीन मार्ग स्वप्न पाहतात तेव्हा हे दृश्य मॉडेलचे प्रकार पाहतात. चष्मा बाजूला ठेवून हे एक हाताळणी प्रणालीचे उच्च-स्तरीय ध्येय आहे: त्या एम्बेड केलेल्या मेटाडेटासह त्या आत्म-समाविष्ट वस्तू ठेवण्यासाठी ज्या ठिकाणी असणे आवश्यक आहे तेथे सातत्य ठेवण्यासाठी, सुसंगततेच्या लक्ष्यांपर्यंत पोहोचण्यासाठी, अंतिम वापरकर्त्यास संतुष्ट करणे किंवा अगदी एखाद्या उच्च-स्तरीय निरीक्षणास किंवा विश्लेषणाची माहिती देण्यासाठी.

कोअर टेक्नॉलॉजीवर एक नजर

सीन गॅलाघरचा एक लेख जो आर्स टेक्निकावर दिसला त्याने जीएफएस डिझाइनचे काही अधिक व्यवस्थापकीय भाग तोडले आणि Google वरील शीटच्या खाली काय आहे याची सूचना दिली.

डेटा वाचण्यासाठी आणि लिहिण्यासाठी जीएफएस एक निरर्थक आणि फॉल्ट टॉलरंट मॉडेलपासून सुरू होते. येथे कल्पना अशी आहे की एका ड्राइव्हवर विशिष्ट अद्यतन लिहिण्याऐवजी नवीन प्रणाली एकाधिक गंतव्यस्थानावर डेटाचे तपशील लिहितो. अशाप्रकारे, जर एखादे लिखाण अयशस्वी झाले तर इतर टिकून राहतील. हे समायोजित करण्यासाठी, एक प्राथमिक नेटवर्क घटक इतर गौण घटकांना डेटा हाताळण्यासाठी शेतात असतो, जेव्हा क्लायंट "कॉल करतो" तेव्हा डेटा पुन्हा एकत्रित करतो. हे सर्व मेटाडेटा प्रोटोकॉलद्वारे शक्य झाले आहे जे विशिष्ट सिस्टीममध्ये काही अद्यतने आणि प्रसारणाचे निकाल कुठे आहेत हे ओळखण्यास मदत करतात.

यासंदर्भातील आणखी एक महत्त्वाची बाब म्हणजे या डुप्लिकेट-हेवी सिस्टम डेटा सुसंगततेची अंमलबजावणी कशी करतात. गॅलाघरने नमूद केले आहे की, जीएफएस डिझाइन अद्याप "अणुत्व लागू करते" किंवा कालांतराने सामना करण्यासाठी एकाधिक स्टोरेज युनिट्समध्ये डेटा कसा अद्ययावत होतो या तत्त्वाचे रक्षण करतेवेळी काही सुसंगततेचे बलिदान देते. गूगलचे "रिलॅक्स कॉन्सिस्टन्सी मॉडेल", बीएएसई मॉडेलच्या आवश्यक सिद्धांताचे अनुसरण करीत असल्यासारखे दिसते आहे, जे सुसंगतता अंमलबजावणीसाठी दीर्घ मुदतीच्या बदल्यात अधिक लवचिकता प्रदान करते.

इतर मोठ्या प्रणाल्या हे कसे प्राप्त करतात?

"जेव्हा पुरेसे मोठ्या प्रमाणात पोहोचले जाते तेव्हा डेटामध्ये विसंगती किंवा भ्रष्टता अपरिहार्य ठरतात," मीखॅलोव्ह म्हणतात. "म्हणूनच, वितरित फाइल सिस्टमचे प्राथमिक लक्ष्य भ्रष्टाचाराच्या उपस्थितीत शक्य तितक्या ऑपरेशन्स करण्याची क्षमता असणे आवश्यक आहे, तसेच भ्रष्टाचाराला एकाच वेळी सामोरे जाण्यासाठी कार्यक्षम पद्धती प्रदान करणे." मायकेलॉव्हने अतिरेकीपणाची काळजीपूर्वक अंमलबजावणी करून कामगिरी जपण्याची गरजही नमूद केली.

"उदाहरणार्थ, प्रत्येक डिस्कवर मेटाडेटा (डेटाबद्दल डेटा) तयार करणे त्या आरसाची प्रत खराब झाल्यास त्या डिस्कला त्याची योग्य डेटा स्ट्रक्चर पुन्हा तयार करण्यास सक्षम करते," मीखॅलोव्ह म्हणाले. "या व्यतिरिक्त, RAID स्तर फाइल सिस्टम aggग्रिगेटर किंवा सामायिक व्हॉल्यूम व्यवस्थापक स्तरावर एकतर स्टोरेज अपयशी लढण्यासाठी वापरले जाऊ शकतात."

दुसर्‍या सुसंगततेच्या मॉडेलवर चर्चा करताना लेबल हॅडॉप वितरित फाइल सिस्टम (एचडीएफएस) नावाच्या प्रणालीवर लक्ष केंद्रित करतात, ज्याला तो "इंडस्ट्री डी-फॅक्टो स्टँडर्ड" म्हणतो.

लेबेल म्हणतात, एचडीएफएसमध्ये, प्रत्येक डेटा ब्लॉकची वेगवेगळ्या नोड्सवर आणि दोन भिन्न रॅकवर तीन वेळा पुनरावृत्ती केली जाते. डेटा शेवटी ते शेवटी तपासला जातो. अपयशांची नोंद नेमनोडला दिली जाते, डेटा हँडलर जो भ्रष्ट अवरोधांपासून मुक्त होतो आणि नवीन तयार करतो.

या सर्वांनी अशा प्रकारच्या "क्लीन डेटा" चे समर्थन केले आहे जे या मोठ्या डेटा सिस्टमच्या अखंडतेसाठी इतके महत्वाचे आहेत.

डीएफएस राखत आहे

जीएफएसबद्दलचा आणखी एक वेगळा देखावा वायर्ड लेखक स्टीव्हन लेवी यांच्या ऑक्टोबर २०१२ मधील लेखातून आला आहे. Google च्या सामूहिक टॉप-डाउन नेटवर्क हाताळणीसाठी सॉफ्टवेअर दृष्टीकोन दर्शविण्यामध्ये हे खूपच चांगले आहे.

लेव्ही लिहितात, “बर्‍याच वर्षांत, गुगलने एक सॉफ्टवेअर सिस्टम देखील बनविली आहे ज्यामुळे ती असंख्य सर्व्हर जसे की ती एक महाकाय अस्तित्व आहे अशा प्रकारे व्यवस्थापित करण्यास परवानगी देते. त्याचे घरगुती विकासक हजारो संगणक पाठवण्यासाठी पाठवण्याच्या कठपुतळीसारखे काम करतात. एकच मशीन चालवण्याइतके सहज कार्य. "

असे करण्यामध्ये डेटा क्रिप्टच्या हॉलमधील तपमान काळजीपूर्वक नियंत्रित करण्यासाठी सर्व्हर सिस्टम "ब्रेक" करण्याचा प्रयत्न करणार्या समर्पित चाचणी संघांकडून, अनेक सायबर-आधारित आणि पर्यावरणीय देखभाल देखील समाविष्ट आहेत.

लेव्हीने जीएफएससाठी पूरक तंत्रज्ञानाचा देखील उल्लेख केला आहे, जसे की मेप edप्लिकेशन टूल, मॅपरेड्यूस आणि हॅडूप, विश्लेषक इंजिन जे जीएफएससह काही डिझाइन तत्त्वे सामायिक करतात. या डेटाचा मोठा डेटा सेंटर हँडलिंग सिस्टम कशी बनविली जाते आणि भविष्यात कोणत्या गोष्टी उद्भवू शकतात यावर या उपकरणांचा स्वतःचा प्रभाव आहे. (बिग डेटाच्या उत्क्रांतीत या तंत्रज्ञानाविषयी अधिक जाणून घ्या.)

मायकेलव्हचा असा विश्वास आहे की मॅपरेड्यूसमध्ये नेहमीपेक्षा जास्त डेटा सेंटर सिस्टमचे समर्थन करण्याची क्षमता आहे आणि सामायिक आणि एकत्रित फाइल सिस्टमच्या "एकल अंमलबजावणी" बद्दल चर्चा आहे जे "एकत्रित फाइल सिस्टमचे नाव नोड्स" स्टोरेजसाठी एसएसडीजसह सामायिक क्लस्टरमध्ये ठेवू शकतात. "

त्याच्या भागासाठी लेबले बॅच प्रोसेसिंगपासून (हडूप-समर्थित पद्धत) प्रवाहापासून दूर जाणे पाहते, जे या डेटा ऑपरेशन्सला रिअल-टाइम जवळ आणेल.

“आम्ही डेटावर जितक्या वेगाने प्रक्रिया करू शकतो आणि व्यवसायातील निर्णय घेणार्‍या किंवा आमच्या ग्राहकांना उपलब्ध करुन देऊ शकतो तितकाच स्पर्धात्मक फायदा होईल,” असे लिबेल म्हणतात, ज्या वरील प्रक्रिया शब्दावलीऐवजी पुढील अटींवर लक्ष देतात. अंतिम वापरकर्ता. "सिंक्रोनस" क्रियाकलाप किंवा अंमलबजावणीच्या बाबतीत अधिक लवचिक असलेल्या "अतुल्यकालिक" क्रियाकलापांविषयी समक्रमित केलेल्या क्रियाकलापांबद्दल आणि "लेबल म्हणतात की कंपन्या एसएलए आणि इतर संसाधनांचा वापर सेवा सेवा कशी कार्य करेल हे परिभाषित करण्यासाठी करू शकतात." .

एका अर्थाने हे सर्व काय उकळत आहे ते म्हणजे विकासक आणि अभियंत्यांनी त्यांच्या क्लासिक, 1990 च्या काळातील पुरातन वास्तूंच्या पलीकडे वाढलेल्या प्लॅटफॉर्मवर सेवा वाढविणे आणि सुधारण्यासाठी सतत काम करणे आवश्यक आहे. याचा अर्थ डेटाची मशिनरीकडे बारकाईने पाहणे आणि केवळ वाढती लोकसंख्याच नव्हे तर पंडितांना "पुढची औद्योगिक क्रांती" म्हणत असलेल्या ब्रेक-मानेच्या वेगाने होणार्‍या घसघशीत मोडण्यांचा मार्ग मोडून काढणे. अशी शक्यता आहे की जे लोक या आघाड्यांवर सर्वात जास्त जागा तोडतात त्यांना भविष्यातील बाजारपेठेत आणि अर्थव्यवस्थांमध्ये वर्चस्व मिळते.