गुणवत्ता बिग डेटा ticsनालिटिक्सची गुरुकिल्ली: भिन्न समजून घेणे - टेक वाइज भाग 4 ट्रान्सक्रिप्ट

लेखक: Roger Morrison
निर्मितीची तारीख: 17 सप्टेंबर 2021
अद्यतन तारीख: 21 जून 2024
Anonim
गुणवत्ता बिग डेटा ticsनालिटिक्सची गुरुकिल्ली: भिन्न समजून घेणे - टेक वाइज भाग 4 ट्रान्सक्रिप्ट - तंत्रज्ञान
गुणवत्ता बिग डेटा ticsनालिटिक्सची गुरुकिल्ली: भिन्न समजून घेणे - टेक वाइज भाग 4 ट्रान्सक्रिप्ट - तंत्रज्ञान

सामग्री


स्रोत: जाकुब जिरसाक / ड्रीम्सटाईल.कॉम

टेकवे:

होस्ट एरिक कवनाघ उद्योग तज्ञांसह मोठ्या डेटा analyनालिटिक्सवर चर्चा करतात.

एरिकः बायका आणि सज्जनांनो, २०१ 2014 चा शेवट आहे - किमान, जवळजवळ. लोकांनो, हे आमच्या वर्षाचे शेवटचे वेबकास्ट आहे! टेकवाइजमध्ये आपले स्वागत आहे! हो नक्कीच! माझे नाव एरिक कवानाग आहे. लोकांनो, मस्त वेबकास्टसाठी मी तुमचा नियंत्रक होईल. मी खरोखर, खरोखर उत्साही आहे. आमच्याकडे ऑनलाइन दोन आश्चर्यकारक विश्लेषक आणि दोन उत्कृष्ट कंपन्या आहेत - या संपूर्ण मोठ्या डेटा इकोसिस्टममध्ये वास्तविक नवनिर्मिती. आणि आम्ही मोठ्या डेटा ticsनालिटिक्सच्या की बद्दल बोलणार आहोत फरक समजणे. तर, लोकांनो, पुढे जाऊया आणि त्याच जागी डुबकी मारू.


आमच्याकडे अनेक प्रेझेंटर्स आहेत. आपण पहातच आहात की खरोखरच येथे शीर्षस्थानी आहे. माईक फर्ग्युसन यूकेमधून सर्व मार्गाने कॉल करीत आहेत, जिथे त्याला उशिरा कार्यालयातील इमारतीत राहण्यासाठी विशेषाधिकार मिळावे लागले. त्याच्यासाठी किती उशीर झालेला आहे. आम्हाला ब्लॉर ग्रुपमध्ये आमचे स्वतःचे मुख्य विश्लेषक डॉ. रॉबिन ब्लॉर मिळाले आहेत. आणि आमच्याकडे रेडपॉईंट ग्लोबलचे सीईओ आणि सह-संस्थापक जॉर्ज कोरुगेडो आणि एसएएस संस्थेचे वरिष्ठ सोल्यूशन्स आर्किटेक्ट कीथ रेनिसन आहेत. लोकांनो, या विलक्षण कंपन्या आहेत. या अशा कंपन्या आहेत जे खरोखरच नाविन्यपूर्ण असतात. आणि आम्ही मोठ्या डेटाच्या संपूर्ण जगात सध्या काय घडत आहे त्यातील काही चांगल्या गोष्टी शोधून काढत आहोत. आणि त्याचा सामना करू, छोटा डेटा निघून गेला नाही. आणि त्यासाठी मी माझा कार्यकारी सारांश येथे देत आहे.



तर, एक जुनी फ्रेंच अभिव्यक्ती आहे: "जितक्या जास्त गोष्टी बदलतात, तितक्या त्या तशाच राहतात." आणि येथे काही तथ्यांचा सामना करूया - मोठा डेटा लहान डेटाची समस्या सोडवणार नाही. कॉर्पोरेट लघु डेटा अद्याप तेथे आहे. हे अजूनही सर्वत्र आहे. आजच्या माहितीच्या अर्थव्यवस्थेचे कामकाजाचे ते इंधन आहे. आणि मोठा डेटा या तथाकथित लहान कॉर्पोरेट डेटाची प्रशंसा करतो परंतु तो लहान डेटाची पूर्तता करत नाही. हे अद्याप सुमारे होणार आहे. मला मोठ्या डेटाविषयी बर्‍याच गोष्टी आवडतात, विशेषत: मशीन-व्युत्पन्न डेटासारख्या सामग्री.


आणि आज आम्ही बहुधा सोशल मीडिया डेटाबद्दल थोडीशी चर्चा करू, जी खूप शक्तिशाली सामग्री आहे. आणि जर आपण विचार केला तर, उदाहरणार्थ, सामाजिक व्यवसाय कसा बदलला आहे, फक्त येथे तीन द्रुत वेबसाइटबद्दल चांगले विचार कराः, लिंक्डइन आणि. पाच वर्षांपूर्वी, कोणीही अशी सामग्री करत नव्हता याचा विचार करा. आजकाल एक अचूक जुगलबंदी आहे. अर्थातच ते खूप मोठे आहे. हे प्रचंड आहे. आणि मग, कॉर्पोरेट नेटवर्किंग आणि संप्रेषणासाठी लिंक्डइन हे एक वास्तविक-प्रमाणित मानक आहे. या साइट्स निरुपयोगी आहेत आणि त्यामध्ये असलेल्या डेटाचा फायदा घेण्यास सक्षम होण्यासाठी ती काही गेम बदलणार्‍या कार्यक्षमतेस पुनरुज्जीवित करणार आहे. हे बर्‍याच संघटनांसाठी खरोखर बरेच काही करणार आहे - किमान त्याचाच फायदा घेणार्‍या.



कोणतीही दोष नाही, तणाव नाही - आपले जीवन नष्ट न करता जीवन-बदलणारे सॉफ्टवेअर तयार करण्यासाठी चरण चरण बाय चरण

जेव्हा कोणालाही सॉफ्टवेअर गुणवत्तेची काळजी नसते तेव्हा आपण आपली प्रोग्रामिंग कौशल्ये सुधारू शकत नाही.

तर, प्रशासन - कारभार अजूनही महत्त्वाचा आहे. पुन्हा, मोठा डेटा कारभाराची आवश्यकता रद्द करत नाही. अगदी स्पष्टपणे, मोठ्या डेटाच्या जगावर कसे शासन करावे यावर लक्ष केंद्रित करण्याची एक नवीन नवीन गरज आहे. आपल्याकडे आपल्या कार्यपद्धती आणि धोरणे आहेत हे आपण कसे सुनिश्चित करता; की योग्य लोकांना योग्य डेटामध्ये प्रवेश मिळतो; आपल्याशी संपर्क साधलेले आहेत, आपणास येथे वंशावळीत सामील झाले आहे? डेटा कोठून आला आहे, त्यास काय झाले आहे हे आपल्याला खरोखर माहित आहे. आणि ते सर्व बदलत आहे.


हडूप इकोसिस्टमचा फायदा घेत या संपूर्ण नवीन जगात मी पाहिलेल्या काही गोष्टींबद्दल मी अगदी मनापासून प्रभावित झालो आहे, जे अर्थातच कार्यक्षमतेच्या दृष्टीने स्टोरेजपेक्षा बरेच काही आहे. हडूप हे संगणकीय इंजिन देखील आहे. आणि त्या संगणकीय शक्तीची समांतर प्रक्रिया करण्याची क्षमता कशी वापरावी हे कंपनीला शोधावे लागेल. ते खरोखर, खरोखर छान गोष्टी करणार आहेत. आम्ही आज त्याबद्दल शिकू.


दुसर्‍या गोष्टीचा उल्लेख करा, ही अशीच एक गोष्ट आहे. डॉ. ब्लॉर यांनी अलीकडच्या काळात ज्या गोष्टी बोलल्या त्या म्हणजे नाविन्याची लहर संपली नाही. तर, आम्ही हडूपच्या आसपास बरेच काही पाहिले आहे. आम्ही क्लोडेरा आणि हॉर्टनवर्क्स सारख्या कंपन्या पाहिल्या आहेत, आपल्याला माहित आहे की खरोखर काही लाटा निर्माण करीत आहेत. आणि ते आज अगदी कॉलमध्ये, अगदी कंपन्यांसह, भागीदारी विकसित करीत आहेत. आणि बर्‍याच लोकांसह भागीदारी विकसित करीत आहेत. पण नाविन्याची लाट संपली नाही. अपाचे फाउंडेशनच्या बाहेर असे बरेच प्रकल्प आहेत जे केवळ अंतिम बिंदू नव्हे तर लोक वापरत असलेले अनुप्रयोग - पण मूलभूत सुविधाच बदलत आहेत.


तर, यार्नचा हा संपूर्ण विकास - अजून एक संसाधन वार्तालाप - खरोखर मोठ्या डेटासाठी ऑपरेटिंग सिस्टमसारखे आहे. आणि ही एक मोठी, मोठी गोष्ट आहे. तर, त्या गोष्टी कशा बदलतात हे आपण शिकत आहोत. तर, येथे स्पष्ट सल्ला देण्याकरिता फक्त दोन तुकडे, पुढे जाण्यासाठी लांब करारांपासून सावध रहा, तुम्हाला माहिती आहे, पाच-दहा वर्षांच्या करारांमध्ये तरंग होणार आहे, मला वाटणारा मार्ग. आपण कोणत्याही किंमतीत लॉक-इन टाळण्यास इच्छुक आहात. आम्ही आज त्या सर्वाबद्दल जाणून घेणार आहोत.


म्हणून, आज बोलणारे आमचे पहिले विश्लेषक - संपूर्ण प्रोग्रामचे आमचे पहिले स्पीकर माईक फर्ग्युसन आहेत, जे यूकेमधून बोलले आहेत. त्यासह, मी तुमच्या कळा माइककडे सोपवित आहे, आणि आपणास ती घेऊन जाऊ देतो. माईक फर्ग्युसन, मजला आपला आहे.


माईक, आपण तिथे आहात? आपण निःशब्द असाल. मी त्याला ऐकत नाही. आम्ही त्याला परत कॉल करावे लागेल. आणि आम्ही फक्त रॉबिन ब्लॉरच्या स्लाइडवर चढू. रॉबिन, मी येथे गरीब माईक फर्ग्युसनवर रँक खेचणार आहे. मी एक सेकंद जात आहे.


तो तू आहेस, माइक? तू आम्हाला ऐकू शकतोस का? नाही मला वाटते की आपण पुढे जावे लागेल आणि आधी रॉबिनबरोबर जावे. तर, लोकांनो, एक सेकंद धरा. मी काही मिनिटातच येथे स्लाइडचे काही दुवे खेचेन. तर त्यासह, मी रॉबिन ब्लॉरकडे कळा देऊ. रॉबिन, माइक ऐवजी तुम्ही प्रथम जाऊ शकता आणि मी सेकंदात माइकला कॉल करेन.


रॉबिन: ठीक आहे.


एरिकः रोख. मी पुढे जा आणि तुझी स्लाइड येथे घे, रॉब. हे एक सेकंद घेणार आहे.


रॉबिन: ठीक आहे.


एरिक: होय शासनाच्या दृष्टीने आम्ही ज्या गोष्टींबरोबर वागतो आहोत त्याविषयी आपण एक प्रकारची चर्चा करू शकता. मला माहित आहे की आपण कारभाराबद्दल बोलणार आहात. लहान कॉर्पोरेट डेटाच्या बाबतीत असा विचार केला जातो. तर आता, मला स्लाइड अप मिळाली, रॉबिन. काहीही हलवू नका. आणि येथे आपण जा. मजला आपला आहे. घेऊन जा.


रॉबिन: ठीक आहे. हो मी म्हणालो, ठीक आहे, आम्ही यापूर्वी एक प्रकारची व्यवस्था केली होती, माइक विश्लेषक बाजूबद्दल बोलेल आणि मी सरकारच्या बाजूबद्दल बोलू. एका विशिष्ट मर्यादेपर्यंत, प्रशासन विश्लेषणाचे अनुसरण करते या अर्थाने की आपण एक मोठी डेटा सामग्री करत आहात हे एक कारण आहे आणि विश्लेषक करण्यासाठी आपण सर्व सॉफ्टवेअर एकत्रित करण्याचे कारण म्हणजे मूल्य आहे.


एक समस्या आहे. आणि मुद्दा असा आहे की, आपल्याला माहिती आहे, डेटा विरंगुळला जाणे आवश्यक आहे. डेटा मार्श करणे आवश्यक आहे. डेटा एकत्र आणला पाहिजे आणि त्या मार्गाने व्यवस्थापित केले जावे जेणेकरून संपूर्ण विश्वासाने विश्लेषणे घडवून आणू शकतील - माझ्या मते, हा शब्द आहे. तर, मला वाटले मी समीकरण ची कारभाराची बाजू आहे. माझ्या मते, खरोखर सांगायची गोष्ट म्हणजे ती, तुम्हाला माहिती आहे, शासन हा आधीपासूनच एक मुद्दा होता. शासन हा आधीच एक मुद्दा होता आणि संपूर्ण डेटा वेअरहाऊस गेममध्ये ही समस्या बनण्यास सुरवात होते.


प्रत्यक्षात जे घडले ते एका मोठ्या प्रकरणात बदलले आहे. आणि हे एका मोठ्या समस्येसह तसेच अधिक डेटामध्ये रूपांतरित होण्याचे कारण आहे, परंतु मी म्हणालो, ही कारणे खरोखर आहेत. डेटा स्रोतांची संख्या मोठ्या प्रमाणात वाढली आहे. पूर्वी, आमच्याकडे असलेले डेटा स्त्रोत डेटा वेअरहाऊस जे काही दिले त्याद्वारे मोठ्या प्रमाणात परिभाषित केले गेले. डेटा वेअरहाऊस सामान्यत: आरटीपी सिस्टमद्वारे दिले जाते. थोडासा बाह्य डेटा शक्य आहे, जास्त नाही.


आता, आम्ही अशा जगात गेलो आहोत जेथे आपल्याला माहिती आहे की आत्ताच एक डेटा बाजार अस्तित्त्वात आला आहे आणि म्हणूनच डेटामध्ये व्यापार होईल. आपल्याकडे डेटाच्या भिन्न प्रवाह स्त्रोतांचे भार आणि भार आधीच प्राप्त झाले आहेत जे आपण संस्थेमध्ये आणू शकता. आमच्याकडे सोशल मीडिया डेटा आहे ज्याने तो घेतला आहे, त्याच्या स्वतःच्या खात्यावर घेतला आहे, म्हणून बोलण्यासाठी. म्हणजे, सोशल मीडिया साइट्समधील मूल्य म्हणजे ती एकत्रित केलेली माहिती आणि म्हणूनच ती लोकांना उपलब्ध करुन देऊ शकते.


आम्हाला आधीपासून अस्तित्त्वात आहे असेच आहे हे देखील आपल्याला माहित आहे. आमच्याकडे आधीपासूनच स्प्लंकच्या आगमनात त्या लॉग फाइल्स होत्या. आणि लवकरच, हे स्पष्ट झाले की लॉग फाइलमध्ये त्याचे मूल्य आहे. तर, संस्थेमध्ये असे डेटा होते - जे आम्ही नवीन डेटा स्रोता तसेच बाह्य स्त्रोतांना कॉल करु शकतो. तर ती एक गोष्ट आहे आणि याचा अर्थ असा आहे की, आपल्या आधी डेटा व्यवस्थापनाच्या कोणत्याही नियमांबद्दल आम्हाला माहिती आहे, त्या एका मार्गाने किंवा दुसर्‍या प्रकारे वाढवल्या जातील आणि प्रत्यक्षात प्रशासनासाठी वाढविणे आवश्यक आहे. डेटा. परंतु आम्ही आता एक मार्ग किंवा दुसर्‍या मार्गाने एकत्र येऊ लागलो आहोत.


आणि या सूची खाली जात असताना आमच्याकडे प्रवाह आणि डेटा आगमांचा वेग आहे. मला वाटतं, हडूपच्या लोकप्रियतेमागील एक कारण म्हणजे बरेच डेटा पकडण्यासाठी याचा वापर केला जाऊ शकतो. हे डेटा गती देखील अंतर्भूत करू शकते, की आपल्याला त्वरित वापरण्याची आवश्यकता नसल्यास ते एक छान समांतर, प्रचंड समांतर वातावरण आहे. परंतु आपणास हे देखील प्राप्त झाले आहे की स्ट्रीमिंग ticsनालिटिक्सची बर्‍याच प्रमाणात रक्कम चालू आहे. हे फक्त बँकिंग क्षेत्रे असायची ज्यांना अनुप्रयोगांना प्रवाहात आणण्यात रस होता, परंतु आता ते एक प्रकारचे जागतिक बनले आहे. आणि प्रत्येकजण एखाद्या मार्गाने अनुप्रयोग प्रवाहित करण्याकडे पहात आहे, डेटामधून मूल्य मिळविण्याचे संभाव्य माध्यम आणि संस्थेसाठी विश्लेषणे.


आम्हाला अप्रचलित डेटा मिळाला आहे. सांख्यिकी, सामान्यत: जगाच्या केवळ 10% डेटाचा भाग रिलेशनल डेटाबेसमध्ये होता. आता, त्यामागील मुख्य कारणांपैकी एक मुख्यत: ती खरोखरच अप्रचलित होती, आणि ती होती - याचा एक चांगला फायदा वेबवर होता, परंतु बर्‍याच वेबसाइट्सबद्दल याबद्दल बरेच काही पसरलेले नाही. तो डेटा विश्लेषक, वापरण्यायोग्य देखील असल्याचे सिद्ध झाले आहे. आणि हळूहळू परिस्थितीत घसरत जाणार्‍या सिमॅनटेक तंत्रज्ञानाच्या आगमनाने हे अधिकाधिक होत चालले आहे.तर, प्रत्यक्षात अलिखित संरचित डेटा एकत्रित करण्याची आणि व्यवस्थापित करण्याची आवश्यकता आहे आणि याचा अर्थ असा होता की तो आधीच्यापेक्षा खूपच मोठा आहे. आमच्याकडे आधीपासूनच मी उल्लेख केलेला एक सामाजिक डेटा मिळाला आहे, परंतु त्यामागील मुख्य मुद्दा म्हणजे त्यास साफ करणे आवश्यक आहे.


आम्हाला इंटरनेट ऑफ थिंग्ज डेटा मिळाला आहे. ही एक वेगळी प्रकारची परिस्थिती आहे. त्यात बरेच काही असण्याची शक्यता आहे, परंतु बर्‍याच ठिकाणी ते चालत असलेल्या स्थानाजवळच कोठेही वितरित रहावे लागेल. परंतु आपण देखील इच्छित आहात, एका मार्गाने किंवा मार्गाने, डेटावरील संस्थेतील विश्लेषणे करण्यासाठी त्यास खेचून घ्या. तर, त्यात आणखी एक घटक जोडला गेला आहे. आणि तो डेटा वेगवेगळ्या प्रकारे संरचित केला जाईल, कारण बहुधा ते कदाचित JSON किंवा XML मध्ये स्वरूपित केले जाईल जेणेकरून ते स्वतःच घोषित करेल. आणि केवळ, एका मार्गाने किंवा दुसर्‍या मार्गाने नव्हे, तर आम्ही त्या डेटाच्या विशिष्ट तुकड्यावर वाचन करण्यासाठी डेटा काढत आहोत आणि स्किमा प्रकारात सक्षम आहोत.


आम्हाला प्रोव्हेंन्सचा मुद्दा आला आहे आणि ही एक विश्लेषक समस्या आहे. आपण डेटा करीत असलेल्या कोणत्याही विश्लेषणाचे परिणाम खरोखरच असू शकत नाहीत - आपल्यास इच्छित असल्यास - मंजूर असल्यास, वैध असल्याचे मानले जाऊ शकते, जोपर्यंत आपल्याला डेटा प्रोव्हिएन्स माहित नाही. म्हणजे, डेटा वैज्ञानिकांच्या क्रियाकलापांच्या दृष्टीने ती फक्त व्यावसायिकता आहे. परंतु आपल्याला माहिती आहे डेटा शोधण्यासाठी याचा अर्थ असा आहे की आम्हाला वास्तविक डेटा नियंत्रित करावा लागेल आणि त्याच्या वंशाची नोंद ठेवावी लागेल.


आमच्याकडे संगणक उर्जा आणि समांतरांचा मुद्दा आहे आणि जे काही करतो ते सर्व काही वेगवान बनवते. समस्या अशी आहे की आपल्याकडे आढळलेल्या काही प्रक्रिया इतर सर्व गोष्टींसाठी धीम्या असू शकतात. तर, गतीच्या बाबतीत कदाचित जुळत नाही.


आम्हाला मशीन शिक्षणाचे आगमन झाले आहे. मशीन लर्निंगचा प्रभाव खरोखरच विश्लेषणांपेक्षा वेगळा खेळ बनविण्यावर झाला आहे. परंतु आपल्याकडे सामर्थ्य प्राप्त झाल्यास आपण खरोखरच ते वापरू शकता.


आम्ही नवीन विश्लेषक वर्कलोडची वस्तुस्थिती मिळविली आहे. आम्हाला एक समांतर जागतिक मिळाले आहे आणि जास्तीत जास्त प्रभावासाठी काही विश्लेषणात्मक अल्गोरिदम समांतर कार्यान्वित करणे आवश्यक आहे. आणि म्हणूनच समस्या आपण प्रत्यक्षात कशी चालत आहात हे नियंत्रित करीत आहे की एका मार्गाने किंवा दुसर्‍या मार्गाने डेटा जवळपास ढकलून द्या, ते उपलब्ध असल्यास डेटा तयार करा. आणि आपण विश्लेषणात्मक वर्कलोड्स कोठे अंमलात आणता कारण आपण कदाचित डेटाबेसमध्ये असे करत आहात. तर, विश्लेषणात्मक अनुप्रयोगांमध्ये आपण हे करत असाल.


तर, प्रशासनाच्या आव्हानांची एक संपूर्ण मालिका आहे. आम्ही यावर्षी काय केले - आम्ही यावर्षी केलेले संशोधन खरोखर मोठ्या डेटा आर्किटेक्चरच्या आसपास होते. आणि जेव्हा आम्ही प्रत्यक्षात त्याचे सामान्यीकरण करण्याचा प्रयत्न करतो तेव्हा आपण ज्या निष्कर्षावर आलो आहोत - ज्या आकृती आम्ही समोर आणल्या त्या खूपच अशा दिसल्या.


मी यामध्ये जाणार नाही, विशेषत: माइक विश्लेषणासाठी डेटा आर्किटेक्चरवर बरीच रक्कम करणार आहे. परंतु लोकांना मी फक्त ज्या गोष्टींवर लक्ष केंद्रित करू इच्छितो ते म्हणजे आपण जेथे आहोत तेथे हा एक तळाचा भाग आहे, डेटा एकत्रित करणे. आमच्याकडे काहीतरी आहे ज्याचा मी संदर्भ घेऊ इच्छितो ते म्हणजे डेटा रिफायनरी किंवा डेटा प्रोसेसिंग हब. आणि तिथेच शासन होते. तर, आपणास माहित आहे की, जर आपण लक्ष केंद्रित केले तर असे दिसते. आपल्याला माहिती आहे, हे अंतर्गत आणि बाह्य स्रोतांच्या डेटाद्वारे दिले जाते. सिद्धांततः हब व्युत्पन्न होत असलेला सर्व डेटा घेत असावा. आपल्याला विश्लेषण आणि स्ट्रीमिंग डेटा करण्याची आवश्यकता असल्यास, आणि नंतर हबवर पुरविली गेली तर ती एकतर प्रवाहित आणि व्यवस्थापित केली पाहिजे. किंवा अन्यथा, हे सर्व हबमध्ये येते. आणि बर्‍याच गोष्टी चालू आहेत - त्या केंद्रात चालू आहेत. आणि आपल्याकडे हबमध्ये काही विशिष्ट विश्लेषणे आणि एसक्यूएल चालू नसतात. परंतु आपल्याकडे डेटा अन्य भागात डेटा हलविण्यासाठी प्रत्येक सेलमध्ये डेटा व्हर्च्युअलायझेशनची आवश्यकता देखील आहे. परंतु त्यापैकी काहीही होण्यापूर्वी आपल्याला डेटाची परिष्करण करण्याची एक मार्ग किंवा दुसर्‍या मार्गाने वास्तविक आवश्यकता आहे. आपण त्यास डेटा तयारी म्हणू शकता. हे त्याहून खूप मोठे आहे. या गोष्टी ज्या माझ्या मते त्यात समाविष्ट आहेत.


आमच्याकडे सिस्टम मॅनेजमेंट आणि सर्व्हिस मॅनेजमेन्ट आहे, एका अर्थाने हा डेटा लेयरचा मुख्य भाग आहे, तर आम्ही प्रत्यक्षात ऑपरेटिव्ह सिस्टम मॅनेजमेंटच्या प्रयत्नांना सांभाळणा all्या सर्व यंत्रणा लागू करायच्या आहेत ज्या आम्ही पारंपारिकपणे सर्व ऑपरेशनल सिस्टमसाठी केल्या आहेत. परंतु आम्हाला हे देखील आवश्यक आहे की या विविध सेवा स्तरांची पूर्तता होत असल्याचे सुनिश्चित करण्यासाठी चालू असलेल्या इतर गोष्टींवर लक्ष ठेवणे आवश्यक आहे, कारण तेथे सेवा स्तर किंवा कोणत्याही प्रकारच्या विश्लेषणे म्हणून कार्य करणे निश्चित केले जाईल किंवा बीआय डेटा आहे कारवाई केली जात आहे.


आम्हाला कामगिरीचे परीक्षण आणि व्यवस्थापन आवश्यक आहे. आणखी काही असल्यास, आम्हाला वेळेत वेगवेगळ्या बिंदूंवर इतर संगणक संसाधनांचे वाटप करण्याची आणखी कोणती संगणक संसाधने आहेत हे जाणून घेण्यासाठी आवश्यक आहे. परंतु, कामाचा ताण खूपच वास्तविक येथे आहे जो बर्‍यापैकी गुंतागुंतीचा आहे आणि संसाधनांसाठी एकमेकांशी स्पर्धा करीत आहे. तेथे एक अतिशय अत्याधुनिक काहीतरी आहे जे त्या क्षेत्रात करणे आवश्यक आहे.


आपल्याकडे डेटा लाइफ सायकल अशा प्रकारे प्राप्त झाले आहे की आपल्याकडे पूर्वी कधीही नव्हते. आम्ही येथे डेटा गोळा केला नाही आणि आधी तो दूर फेकला नाही, यासाठी येथे खरोखर खरोखर वरील गोष्टी आहेत. आम्ही आम्हाला आवश्यक असलेला डेटा एकत्रित करण्याचा विचार केला आणि कदाचित तो ठेवला आणि मग आम्ही त्यास संग्रहित करतो. परंतु येथून आपण जे काही करत आहोत त्यातील एक महत्त्वाची माहिती म्हणजे डेटा एक्सप्लोर करणे. आणि जर आपल्याला डेटा नको असेल तर तो दफन करू या. तर परिस्थितीनुसार डेटा लाइफ सायकल ही वेगळी गोष्ट आहे, परंतु त्यातील डेटाचे एकत्रिकरण देखील एक भयानक असेल. म्हणूनच, आपल्याला माहिती आहे की एकत्रित कोठून आले हे जाणून घेत… एकत्रित करण्याचे स्रोत काय आहे, इत्यादी. ते सर्व आवश्यक आहे.


डेटा वंश नैसर्गिकरित्या कर्ज देते. त्याशिवाय, आपल्याला समस्या जाणून घेतल्या पाहिजेत, म्हणून डेटा ... आम्हाला डेटा वैध आहे हे माहित असले पाहिजे, परंतु प्रत्यक्षात ते किती विश्वासार्ह आहे.


आम्हाला डेटा मॅपिंग देखील मिळाले आहे, कारण बर्‍याच डेटा प्रत्यक्षात येणार आहेत, एका मार्गाने किंवा दुसर्‍या मार्गाने. आणि हे आहे, आपल्याला आवडत असल्यास, हे एमडीएमच्या काही अंशी संबंधित आहे. हे फक्त इतकेच गुंतागुंतीचे आहे कारण जेव्हा आपल्याकडे जेएसओएनद्वारे परिभाषित केलेले किंवा आमच्या एक्सएमएल स्कीमावर आधारित वाचनावर आधारित एखादा भयानक डेटा आला असेल, तेव्हा आपल्याला एका मार्गाने किंवा इतर मार्गाने जाणे आवश्यक आहे. डेटा मॅपिंग क्रियाकलाप चालू आहे.


एमडीएमपेक्षा जास्त मेटाडेटा व्यवस्थापनाची परिस्थिती आहे, कारण आपल्याला स्वारस्य असलेल्या प्रत्येक गोष्टीचे मेटाडाटा वेअरहाउस म्हणून आता जे काही मला म्हणायचे आहे ते तयार करण्यासाठी एक मार्ग किंवा दुसर्या मार्गाची आवश्यकता आहे. मेटाडाटा आहे शोध, कारण काही डेटा आवश्यक नसल्यास त्याचा मेटाडेटा घोषित केला जात नाही आणि आम्ही तो त्वरित वापरू इच्छितो. आणि मग डेटा साफ करणं ही एक मोठी गोष्ट आहे की तिथल्या गोष्टी कशा केल्या जाऊ शकतात. तसेच डेटा सुरक्षा देखील आहे. हा सर्व डेटा स्वीकार्य पातळीवर सुरक्षित करणे आवश्यक आहे, आणि याचा अर्थ काही उदाहरणे देखील असू शकतात - उदाहरणार्थ, बर्‍याच मूल्यांना एनक्रिप्ट करणे.


तर, या सर्व कामाचा ताण हे प्रत्यक्षात कारभाराचे साम्राज्य आहे. हे सर्व, एका मार्गाने किंवा दुसर्‍या प्रकारे, आपल्या सर्व विश्लेषणात्मक क्रियाकलाप एकाच वेळी किंवा आधी चालू असले पाहिजेत. हे मोठ्या संख्येने संयोजित अनुप्रयोग आहेत. ही एक स्वतःची व्यवस्था आहे. आणि मग जे लोक वेळोवेळी वेगवेगळ्या ठिकाणी हे करत नाहीत ते पुढे जात असताना अभाव निर्माण करतील कारण या गोष्टी खरोखरच पर्यायी नसतात. आपण त्यांना न केल्यास केवळ वाढत्या एन्ट्रोपीचा शेवट कराल.


तर डेटा ticsनालिटिक्स आणि गव्हर्नन्सच्या बाबतीत, मी जे सांगतो ते म्हणजे खरोखरच एका हाताने दुस other्या हाताने धुलाई. कारभाराशिवाय, ticsनालिटिक्स आणि बीआय वेळेत चमकणार नाहीत. आणि andनालिटिक्स आणि बीआयशिवाय, तरीही डेटा नियंत्रित करण्याची फारशी गरज भासणार नाही. तर, दोन गोष्टी खरोखरच हातांनी चालतात. ते मध्य-पूर्वेमध्ये म्हणतात त्याप्रमाणे, "एका हाताने दुसर्‍या हाताने धुलाई." आणि हेच मला म्हणायचे आहे. मी आशा करतो - आशेने, आम्ही आता माईक परत आला.


एरिक: आम्ही करतो. माईक, मी गृहित धरतो की तुम्ही तिथे आहात. मी तुझी स्लाइड वर खेचणार आहे.


माईक: मी आहे. ठीक आहे, आपण मला ऐकू शकता?


एरिक: होय, मी तुला ऐकू शकतो. आपण मस्त वाटता. तर, मला ओळख द्या ... तेथे तुम्ही जा. आणि आपण आता प्रस्तुतकर्ता आहात. घेऊन जा.


माईक: ठीक आहे, धन्यवाद! सुप्रभात, शुभ दुपार, आपणा सर्वांना सुप्रभात. सुरुवातीला हिचकीला माफ करा. काही कारणास्तव, मी स्वत: ला नि: शब्द केले आणि सर्वांना पाहू शकतो परंतु ते मला ऐकू शकले नाहीत.


ठीक. तर, मला त्वरेने काय करायचे आहे त्याबद्दल चर्चा आहे, हे आपल्याला माहिती आहे, बिग डेटा ecनालिटिकल इकोसिस्टम. आपण मला प्रश्न विचारू इच्छित असल्यास, मी असेन की या सत्रात किंवा नंतर मी माझ्या संपर्क तपशीलांवर आपण येथे घट्ट बसू शकता. मी म्हटल्याप्रमाणे, मध्यरात्री येथे यूकेमध्ये.


बरं, मला ज्याविषयी बोलायचं आहे ते मिळवा. स्पष्टपणे, गेल्या काही वर्षांमध्ये, आम्ही व्यवसायांनी आता विश्लेषण करू इच्छित सर्व प्रकारच्या नवीन-आढळलेल्या प्रकारच्या डेटाचे उदय पाहिले आहे - क्लिक करा डेटापासून ऑनलाइन वर्तन समजण्यासाठी प्रत्येक गोष्ट, एरिक ज्याबद्दल बोलत होता त्या सोशल मीडिया डेटा कार्यक्रमाची सुरुवात येथे. मला वाटते रॉबिनने जेएसओएन, बीएसओएन, एक्सएमएल - म्हणून, स्व-वर्णन करणार्‍या अर्ध-संरचित डेटाचा उल्लेख केला आहे. अर्थात, आमच्याकडे बरीच टन सामग्री देखील आहे - प्रत्येक गोष्ट अप्रबंधित डेटा, आयटी इन्फ्रास्ट्रक्चर नोंदी, सेन्सर डेटा पासून. या सर्व तुलनेने नवीन डेटा स्त्रोतांनी व्यवसायांमध्ये आता रस घेतला आहे कारण त्यात मौल्यवान अंतर्दृष्टी आहे जी आम्हाला जे माहित आहे त्यास संभाव्यपणे सखोल करू शकते.


तर, याचा अर्थ असा आहे की विश्लेषक लँडस्केप पारंपारिक डेटा वेअरहाउसिंगच्या पलीकडे गेले आहे. आम्ही अद्याप संरचित आणि बहु-संरचित डेटाच्या संयोजनाच्या जगात डेटा बनवतो, जेथे बहु-संरचित डेटा बर्‍याच प्रकरणांमध्ये एंटरप्राइझच्या आतील किंवा बाहेरून येऊ शकतो. आणि या नवीन डेटा प्रकारांचे आणि विश्लेषणासाठी नवीन आवश्यकतेच्या परिणामी आम्ही नवीन विश्लेषणात्मक वर्कलोड्सचे उदय पाहिले आहे - गतीतील डेटाचे विश्लेषण करण्यापासून प्रत्येक गोष्ट, कोणत्या प्रकारची पारंपारिक डेटा वेअरहाउसिंग आर्किटेक्चर त्याच्या डोक्यावर वळवते, काही प्रमाणात, जिथे आम्ही , पारंपारिक मंडळांमध्ये डेटा समाकलित केला, तो साफ केला, तो बदलला, संचयित केला आणि त्याचे विश्लेषण केले. परंतु गतीमधील डेटाचे विश्लेषण करीत आहोत, आम्ही डेटा संकलित करीत आहोत, त्यास एकत्रित करत आहोत, विश्लेषण करुन त्यास तयार करतो आणि नंतर त्यास संचयित करतो. तर, डेटा कोठूनही संग्रहित होण्यापूर्वी त्याचे विश्लेषण चालू आहे.


आम्ही स्ट्रक्चर्ड डेटाचे जटिल विश्लेषण, कदाचित मॉडेल डेव्हलपमेंट, सांख्यिकीय आणि भविष्यवाणी मॉडेल विकासासाठी पारंपारिक डेटा वेअरहाउसिंग स्पेसमधील काही लोकांना नवीन नाही. आम्हाला ऑन-मॉडेल डेटाचे अन्वेषण विश्लेषण मिळाले आहे. तेथील संरचित डेटाची तीच संख्या आहे. आम्हाला ग्राफिक विश्लेषणाच्या रूपात नवीन कार्यभार मिळाले आहेत ज्यात माझ्या ग्राहकांसाठी आर्थिक सेवांमध्ये फसवणूकीसारख्या गोष्टींचा समावेश आहे. यात सायबर सिक्युरिटीचा समावेश आहे. यात सोशल नेटवर्क्स, अर्थातच, समजून घेणारे प्रभावक आणि तेथे असलेल्या सामग्रीचा समावेश आहे. मी त्या व्यवस्थापनातही प्राविण्य मिळवले आहे, काही वर्षांचा आलेख विश्लेषण आहे.


आम्हाला डेटा वेअरहाऊस ऑप्टिमायझेशन किंवा ईटीएल प्रोसेसिंगचे ऑफलोडिंग मिळाले आहे, जे आयटी वापर प्रकारात अधिक आहे, सीआयओ कदाचित त्यास निधी देईल. तसेच डेटा आणि डेटा वेअरहाउसचे संग्रहण देखील हडूप सारख्या गोष्टींमध्ये ऑनलाइन ठेवण्यासाठी. तर, या सर्व नवीन विश्लेषणात्मक वर्कलोडने विश्लेषक लँडस्केपमध्ये नवीन प्लॅटफॉर्म, नवीन स्टोरेज प्लॅटफॉर्म जोडले आहेत. तर, पारंपारिक डेटा वेअरहाऊस, डेटा मार्ट्स करण्याऐवजी आपल्याकडे जे आता मिळाले ते हडूप आहे. आम्हाला ग्राफिक डेटाबेससारखे NoSQL डेटाबेस मिळाले आहेत जे बहुतेकदा विश्लेषणात्मक वर्कलोडसाठी वापरले जातात. नक्कीच, आम्ही आता हॅडॉप व एनओएसक्यूएल ग्राफ डीबीएमएस वर ग्राफ विश्लेषण करू शकतो. आमच्याकडे रॉबिनने उल्लेख केलेले प्रवाह विश्लेषक मिळाले आहेत. आणि आम्हाला मिळाले आहे - आपल्यास आवडत असल्यास - मॉडेल तयार करणे, कदाचित विश्लेषणात्मक डेटा वेअरहाऊस उपकरणांवर देखील. परंतु त्या सर्वांनी विश्लेषणात्मक लँडस्केप क्लिष्ट केले आहे, आता एकाधिक प्लॅटफॉर्मची आवश्यकता आहे. आणि फ्रंट ऑफिस किंवा बॅक ऑफिस, किंवा वित्त, खरेदी, एचआर आणि काही प्रकारच्या ऑपरेशन्स असलेल्या कोणत्याही व्यवसायासाठी पारंपारिक डेटा वेअरहाउसिंग दृश्यासह कोणते विश्लेषणात्मक प्रकल्प संबंधित आहेत हे शोधून काढणे हे माझे आव्हान आहे. आणि एकदा आपल्याला हे माहित असेल की विश्लेषणात्मक प्रकल्प या नवीन मोठ्या डेटा प्लॅटफॉर्मवर आणि कोठे चालवावे यासाठी संबद्ध आहेत, आपल्याला माहित आहे की कोणते विश्लेषणात्मक कार्यभार आहे, परंतु व्यवसायाचा दृष्टिकोन त्या दृष्टीकोनातून गमावू नका - आपण आता हे पहाण्याचा प्रयत्न करीत आहात की हे मोठे आहे डेटा विश्लेषक प्रकल्प आणि पारंपारिक मोठे डेटा वेअरहाउसिंग प्रकल्प जे एकत्र ग्राहकांच्या आसपास किंवा ऑपरेशनच्या आसपास, जोखीम किंवा वित्तपुरवठा किंवा टिकाव टिकवून ठेवण्यासाठी आवश्यक असतात. आणि म्हणूनच आम्हाला या सर्व गोष्टी आमच्या धोरणात्मक व्यवसायाच्या प्राथमिकतेशी जुळवून घ्याव्यात अशी आपली इच्छा आहे, आम्ही आपणास ठाऊक आहे की आपल्या सुईमध्ये ढकलणे आवश्यक आहे, आपल्याला माहित आहे, व्यवसायातील कार्यक्षमता सुधारित करण्यासाठी, खर्च कमी करण्यासाठी, संपूर्ण आमच्या कंपनीसाठी जोखीम इत्यादी कमी करण्यासाठी. तर, असे नाही की एखाद्याने येथे मोठा डेटा आणि पारंपारिक बदलले. हे दोन्ही एकत्र वापरले जात आहे. आणि हे नाटकीयरित्या आर्किटेक्चरला बदलते, हे आपल्याला माहिती आहे.


तर, माझ्याकडे जे आहे ते तुलनेने नवीन आर्किटेक्चर आहे जे मी माझ्या क्लायंटसह वापरणार आहे. आणि म्हणूनच, आपण आता तळाशी पाहू शकता, डेटाची विस्तृत स्रोत, केवळ यापुढे संरचित नाही. त्यातील काही सेन्सर्स सारखे थेट डेटा प्रवाहित करीत आहेत, जसे मार्केट डेटा, या प्रकारची. तो थेट क्लिकस्ट्रीम डेटा देखील असू शकतो. तो थेट व्हिडिओ प्रवाह डेटा असू शकतो. त्यामुळे याची रचना करणे आवश्यक नव्हते. तर, रिअल टाइममध्ये स्वयंचलित कृती करण्यासाठी आम्ही त्या डेटावर स्ट्रीम प्रोसेसिंग करू शकतो आणि व्याजातील कोणताही डेटा फिल्टर करुन एंटरप्राइझ माहिती व्यवस्थापन साधनांमध्ये पाठविला जाऊ शकतो जो विश्लेषणात्मक डेटा स्टोअर्स लोकप्रिय करण्यासाठी वापरला जाऊ शकतो. जोपर्यंत आपण येथे मिश्रणात पाहू शकत नाही तोपर्यंत आता आमच्याकडे पारंपारिक डेटा वेअरहाउसिंग, हडूप आणि NoSQL डेटाबेस आहेत. आम्हाला मिक्समध्ये मास्टर डेटा व्यवस्थापन देखील प्राप्त झाले आहे. आणि हे संपूर्ण डेटा मॅनेजमेंट टूल सुटवर अधिक दबाव आणते, केवळ हे डेटा स्टोअर्स लोकप्रिय करण्यासाठीच नाही तर त्या दरम्यान डेटा हलविण्यासाठी.


त्या वर, आम्हाला प्रवेश साधने सुलभ करावीत. आम्ही फक्त वापरकर्त्याकडे वळू शकत नाही आणि म्हणू शकत नाही, "हे सर्व डेटा स्टोअर्स मिळवा, या एपीआय धरून ठेवा - आपली समस्या." आपल्याला जे काही करायचे आहे ते म्हणजे प्रवेश सुलभ करणे. आणि म्हणूनच, तेथे ठिपके असलेल्या रेषांमध्ये, आपल्याला डेटा व्हर्च्युअलायझेशन आणि ऑप्टिमायझेशन हे एकाधिक डेटा स्टोरेजची गुंतागुंत लपविण्यासारखे दिसेल, प्रयत्न करा आणि शेवटच्या वापरकर्त्यांना यासाठी प्रवेश करणे सुलभ करा. आणि अर्थातच, वरच्या बाजूला अनेक साधनांची श्रेणी आहे, तुम्हाला माहिती आहे - पारंपारिक बीआय टूल्सपासून सर्व काही डेटा वेअरहाऊसिंगच्या शीर्षस्थानी सुरु झाले आहे, हडूप्समध्ये कनेक्ट होण्याच्या प्रकारासाठी हळू हळू आपल्या चार्टच्या डाव्या बाजूला सरकले आहे. आणि नंतर जगातील NoSQL डेटाबेस.


आम्हाला विशेषत: शरीराच्या संरचनेत, संरचित नसलेल्या डेटाच्या आसपास जीवनासाठी नवीन पट्टे मिळवून शोध सापडला आहे जो बहुधा हडूपमध्ये संचयित केला जातो. आम्हाला मॅपरेड्यूससह हडूप प्लॅटफॉर्मवर करण्यासाठी सानुकूल विश्लेषणात्मक अनुप्रयोग मिळाले आहेत, उदाहरणार्थ स्पार्क फ्रेमवर्क, उदाहरणार्थ. आपल्याकडे ग्राफिक अ‍ॅनालिटिक्स टूल्स आम्हाला मिळाली आहेत जे तुम्हाला माहितच आहे की तिथे विशिष्ट वर्कलोड्सवर लक्ष केंद्रित करा. तर, अनेक साधने आणि डेटा प्रवाह देखील अधिक जटिल आहेत. आता डेटा वेअरहाऊसमध्ये हा एक-मार्ग मार्ग नाही. अर्थातच तो आता मास्टर डेटा आहे.


आमच्याकडे नवीन डेटा स्रोत येत आहेत, एकतर नो एस क्यू एल मध्ये कॅप्चर केले जात आहेत, आपल्याला माहिती आहे, मोंगोडीबी सारख्या डेटा स्टोअरमध्ये, कॅसँड्रासारखे, एचबेस. आम्हाला विश्लेषण आणि डेटा तयार करण्यासाठी थेट हडूपमध्ये डेटा आणला गेला आहे. आम्हाला हडूप व डेटा गोदामांमधून नवीन अंतर्दृष्टी प्राप्त झाली आहे. हडूपमध्ये डेटा गोदामांमधून संग्रहण येत आहे. आता आम्हाला माहिती फीड्स मिळतील ज्यात तुम्हाला माहिती आहे की सर्व नॉट्सक्यूएल डाटाबेस आणि डेटा मार्ट देखील आहेत. तर, आपण येथे काय पाहू शकता हे आहे डेटा व्यवस्थापन मध्ये बरेच अधिक क्रियाकलाप चालू आहेत. आणि याचा अर्थ असा आहे की तो डेटा व्यवस्थापन सॉफ्टवेअरवर दबाव आणत आहे. आता यापुढे तो फक्त एकतर्फी मार्ग नाही. ही दुहेरी डेटा हालचाल आहे. हे बरेच अधिक क्रियाकलाप चालू आहे आणि म्हणूनच डेटा-व्यवस्थापन-टूल फ्रंट तसेच डेटा स्रोतावर स्केलेबिलिटी महत्त्वपूर्ण आहे.


म्हणून, हा चार्ट त्या आर्किटेक्चरकडे परत जातो ज्याचा मी काही वर्षांपूर्वी उल्लेख केला होता. हे आपल्याला या आर्किटेक्चरच्या वेगवेगळ्या भागात चालू असलेले भिन्न विश्लेषक कार्यभार दर्शवते. डावीकडील तळाशी क्रमवारी लावता, आपणास रिअलटाइम प्रवाह, डेटा प्रक्रियेस बाहेर येण्याचे प्रवाह प्रक्रिया, आपल्‍याला माहित आहे की कोणत्याही प्रकारचे थेट डेटा स्टोअर आहे. आमच्याकडे NoSQL आलेख डेटाबेसवर वर्ग विश्लेषण घडले आहे. हे हॅडॉपवरही होऊ शकते. स्पार्क फ्रेमवर्कसह, आणि तेथे ग्राफिक्ससह, आम्हाला शोध विश्लेषण आणि रॉबिन हडूपवर घडत असलेल्या डेटा रिफायनरीमधून विश्लेषण प्राप्त झाले. आमच्याकडे अद्याप पारंपारिक वर्कलोड आणि डेटा वेअरहाऊसिंग आहे, आपल्याला माहिती आहे की पॉवर यूजर्स सांख्यिकीय आणि भविष्यवाणी करणारे मॉडेल तयार करतात, कदाचित डेटा वेअरहाऊस उपकरणांवर. आणि तरीही अंतिम वापरकर्त्यांसाठी हे सुलभ करण्यासाठी आम्ही या सर्वांमध्ये प्रवेश सुलभ करण्याचा प्रयत्न करीत आहोत.


तर, या संपूर्ण सेटअपच्या आसपास यश फक्त विश्लेषणात्मक बाजूपेक्षा अधिक आहे. आपल्याला माहिती आहे की आम्ही विश्लेषणात्मक प्लॅटफॉर्म त्या जागी ठेवू शकतो, परंतु जर आम्ही कॅप्चर करू शकत नाही आणि शोधू शकत नाही, तर आपल्याला माहित आहे की, वेग आणि उच्च व्हॉल्यूम डेटा स्केलवर फारसा मुद्दा नाही. तुम्हाला माहिती आहे, माझ्याकडे विश्लेषण करण्यासाठी काहीही नाही. आणि म्हणूनच, मोठ्या डेटा ticsनालिटिक्सच्या यशासाठी ऑपरेटिंग सिस्टमची मोजमाप करणे आवश्यक नसते. म्हणजेच, नवीन व्यवहारांचे समर्थन करण्यास सक्षम होण्यासाठी, आपल्याला माहित आहे, शिखरे. आपणास माहित आहे की, तेथे हस्तगत केलेला कोणताही नॉन-ट्रॅन्झॅक्शनल डेटा असू शकतो, आपल्याला माहित आहे की कोणतेही नवीन आगमन दर, सेन्सर्स किंवा इनजेस्ट सारख्या उच्च-वेग डेटावर खूप उच्च आगमन दर असू शकतात. आम्हाला या सर्वांची पूर्तता करण्यास सक्षम असावे - या प्रकारचा डेटा मिळविण्यात सक्षम होण्यासाठी आणि विश्लेषणासाठी त्यात आणा. आम्हाला स्वतः विश्लेषक देखील मोजावे लागतील, मी आधीच नमूद केलेल्या डेटामध्ये प्रवेश सुलभ करतो. आणि मग, ते बांध. आपल्याला माहिती आहे की, आम्हाला बंद लूप देण्यासाठी त्या ऑपरेटिंग सिस्टममध्ये परत परिष्कृत केले जावे लागेल.


तर, डेटा कॅप्चर करण्यासाठी घराच्या ऑपरेशनल बाजूचे स्केलिंग करणे, आपल्याला माहित आहे की NoSQL डेटाबेसच्या जगात प्रवेश करते. म्हणजे, येथे आपणास NoSQL डेटाबेसच्या पाच श्रेणी दिसतील. ही श्रेणी वरील चार इतरांचे संयोजन असून फक्त मॉडेलिंग केली जाईल. सर्वसाधारणपणे, आपल्याला माहिती आहे की तिची प्रमुख मूल्ये, संग्रहित कागदपत्रे आणि स्तंभ कुटुंब डेटाबेस - तिथले पहिले तीन - जे अधिक प्रकारचे व्यवहार आणि अव्यवसायिक डेटासाठी वापरले जातात.


गुणधर्म म्हणून समर्थन करणारे काही डेटाबेस; त्यापैकी काही नाही. परंतु असे असले तरी, आपल्याला माहिती आहे की अशा प्रकारच्या अनुप्रयोगांचे प्रमाण मोजण्यासाठी आम्ही त्यांची ओळख पहात आहोत. आणि म्हणूनच, उदाहरणार्थ कीबोर्डवरील व्यवहारात प्रवेश करणार्‍या केवळ कर्मचार्‍यांकडून आता ग्राहक आणि काल्पनिक उपकरणे वापरत असलेल्या सामान्य लोकांना असे करण्यास सक्षम आहोत. आम्ही उद्योजकांद्वारे व्यवहार करण्याच्या संख्येत प्रचंड वाढ झाली आहे. आणि म्हणूनच आम्हाला त्या करण्यासाठी व्यवहारात्मक अनुप्रयोग मोजण्याची आवश्यकता आहे.


आता सामान्यत: बोलल्यास ते न्यूओडीबी आणि व्होल्टडीबीसारखे रिलेशनल डेटाबेस म्हणून न्यूएसक्यूएल डेटाबेसवर करता येते. किंवा व्यवहार प्रक्रियेची हमी देऊ शकणार्‍या एसीआयडी गुणधर्मांना समर्थन देणारे काही एनओएसक्यूएल डेटाबेस प्ले असू शकतात. हे व्यवहार करण्यापूर्वी शॉपिंग कार्ट डेटासारख्या गैर-व्यावहारिक डेटावर देखील लागू होते, आपल्याला माहिती आहे, लोक वस्तू खरेदी करण्यापूर्वी, सेन्सर डेटा घेतात, हे तुम्हाला माहिती आहेच, कोट्यवधी सेन्सर रीडिंगमध्ये मी सेन्सर वाचन गमावतो. क्षुल्लक बाब. क्लिक्स, आपल्याला माहित आहे की क्लिकस्ट्रीमच्या जगात - मी एक क्लिक वापरत असल्यास, ही काही मोठी गोष्ट नाही.तर, आपल्याला माहिती आहे की आम्हाला तेथे एसीड गुणधर्म असणे आवश्यक नसते आणि बहुतेक वेळेस जेथे एनओएसक्यूएल डेटाबेस अस्तित्त्वात येतात, तिथेच असे होते - या नवीन प्रकारच्या डेटा कॅप्चर करण्यासाठी मोठ्या प्रमाणात योग्य प्रक्रिया करण्याची क्षमता.


त्याच वेळी, आम्हाला विश्लेषक मोजण्याची इच्छा आहे. आणि म्हणूनच डेटा स्टोअरमधून डेटा विश्लेषणात्मक प्लॅटफॉर्मवर खेचणे यापुढे हॅक होणार नाही कारण डेटा खूप मोठा आहे. आम्हाला खरोखर हवे आहे ते म्हणजे विश्लेषकांना दुसर्‍या मार्गाने, हडूपमधील एंटरप्राइझ डेटा वेअरहाऊसमध्ये ढकलणे, विश्लेषणास डेटामध्ये ढकलण्यासाठी सक्षम होण्यासाठी प्रवाह प्रक्रियेमध्ये. तथापि, कोणीतरी ते डेटाबेस ticsनालिटिक्समध्ये किंवा हडूप ticsनालिटिक्समध्ये असल्याचे म्हटले आहे म्हणूनच विश्लेषणे समांतर चालणे आवश्यक नाही. आणि अगदी स्पष्टपणे सांगायचे तर, आपण क्लस्टर केलेल्या स्ट्रीम प्रोसेसिंग इंजिनांसारख्या डेटा वेअरहाउस उपकरणे आणि व्हॉट नॉट यासारख्या नवीन मोठ्या प्रमाणात समांतर स्केलेबल तंत्रज्ञानात गुंतवणूक करीत असाल तर आम्हाला समांतर चालण्यासाठी विश्लेषकांची आवश्यकता आहे.


तर, हे फक्त चेक आउट आहे. आपणास माहित आहे की ग्राहकांसाठी, ऑपरेशन्स, जोखीम इत्यादींसाठी अंदाज लावण्यासाठी आमच्याकडे विश्लेषणे मिळाली असल्यास, ती फक्त व्यासपीठावर न चालता, समांतर चालवावी अशी आमची इच्छा आहे. आम्हाला दोन्ही हवे आहेत. आणि हेच कारण आपल्याला माहिती आहे तंत्रज्ञान एसएएस सारख्या या नवीन व्हिज्युअल डिस्कवरी साधनांसारखे आहे. हे खरोखर येथे आमच्या प्रायोजकांपैकी एक आहे.


लोकांना हव्या त्या गोष्टीची एक गोष्ट म्हणजे हडूप व नंतर डेटाबेस ticsनालिटिक्समध्ये त्यांचे शोषण करणे. आणि आम्ही अशा उच्च डेटा व्हॉल्यूमवर आवश्यक कार्यक्षमता वितरीत करण्यास सक्षम होण्यासाठी समांतर चालवावे अशी आमची इच्छा आहे. त्याच वेळी, आम्ही या सर्वांमध्ये प्रवेश सुलभ करण्याचा प्रयत्न करीत आहोत. आणि म्हणूनच एसक्यूएल आता अजेंडावर आला आहे. तुम्हाला माहिती आहे, एस क्यू एल आहे - हडूपवरील एस क्यू एल सध्या गरम आहे. मी आत्ता 19 एस क्यू एल आणि हॅडॉप पुढाकारांमध्ये त्याचा मागोवा घेत आहे. तसेच, आपण पाहू शकता की आम्ही हा डेटा मिळवू शकतो, आपल्याला माहित आहे की अनेक मार्गांनी थेट हडूप वर एसक्यूएल प्रवेश करणे म्हणजेच एसक्यूएल एका शोध अनुक्रमणिकेवर जाऊ. अशा प्रकारे, आपल्याला माहिती आहे, त्या जागेत काही शोध विक्रेते आमच्याकडे विश्लेषणात्मक रिलेशनल डेटाबेसमध्ये एस क्यू एल प्रवेश मिळवू शकतात ज्यात हडूपकडे एक्सेल सारण्या आहेत.


आपल्याकडे आता डेटा व्हर्च्युअलायझेशन सर्व्हरवर एसक्यूएल प्रवेश असू शकतो जो नंतर हडूपच्या डेटा वेअरहाऊसशी जोडला जाऊ शकतो. मी आत्ताच थेट प्रवाह डेटामध्ये एसक्यूएल प्रवेशाचा उदय पाहण्यास सुरवात करीत आहे. तर, या सर्वांसाठी एसक्यूएल प्रवेश वेगाने वाढत आहे. आणि आव्हानाचा एक भाग म्हणजे एसक्यूएल प्रवेश तेथेच विकले जात आहे. प्रश्न असा आहे की एसक्यूएल जटिल डेटासह डील करू शकतो? आणि ते सरळसुद्धा नाही. येथे सर्व प्रकारच्या गुंतागुंत आहेत, त्यासह जेएसओएन डेटा नेस्ट केला जाऊ शकतो. आमच्याकडे स्कीमा व्हेरिएंट रेकॉर्ड असू शकतात. तर पहिल्या रेकॉर्डला एक स्कीमा मिळाला आहे. दुसर्‍या रेकॉर्डला एक वेगळी स्कीमा मिळाली आहे. रिलेशनशियल जगात घडणार्‍या गोष्टींपेक्षा या गोष्टी फार भिन्न आहेत.


म्हणून, आम्ही विश्लेषण करण्याचा प्रयत्न करीत आहोत तो कोणत्या प्रकारचा डेटा आहे आणि कोणत्या प्रकारचे विश्लेषणात्मक वैशिष्ट्ये आहेत याबद्दल आम्हाला प्रश्न विचारण्याची आवश्यकता आहे. आपण करू इच्छित पॅनेल हे आपल्याला माहिती आहे काय? हे मशीन शिक्षण आहे? हे ग्राफ विश्लेषण आहे का? आपण एस क्यू एल वरून हे करू शकता? आपणास माहित आहे की एसक्यूएल वरुन ती अ‍ॅव्होजेबल आहे का? आमच्याकडे हे किती समवर्ती वापरकर्ते आहेत? आपल्याला माहिती आहे की, आम्हाला शेकडो समवर्ती वापरकर्ते मिळाले आहेत. जटिल डेटावर ते शक्य आहे? तुम्हाला माहिती आहे, या सर्व गोष्टी महत्त्वाचे प्रश्न आहेत. म्हणून मी येथे काहींची यादी तयार केली ज्या मला वाटते की आपण विचार केला पाहिजे. तुम्हाला माहिती आहे, कोणत्या प्रकारचे फाइल स्वरूप? आम्ही कोणत्या प्रकारचे डेटा बोलत आहोत? जटिल डेटा मिळविण्यासाठी आम्ही कोणत्या प्रकारचे विश्लेषणात्मक कार्ये एसक्यूएलकडून विचारू शकतो? आणि प्रकारची कार्ये समांतर चालतात. याचा अर्थ असा की आम्ही हे मोजण्यात सक्षम असल्यास ते समांतर चालले आहेत. आणि मी आज हडूपमध्ये त्या बाहेरच्या डेटामध्ये सामील होऊ शकतो, आपल्याला माहिती आहे किंवा ते शक्य नाही? आणि या सर्व प्रकारच्या क्वेरी वर्कलोड्ससह मी काय करेन?


आणि जसे आपण पहात आहोत, आपल्याला माहित आहे की मी काय पाहिले आहे त्यावरून एस क्यू एल आणि हॅडूप वितरणात बरेच फरक आहेत. मी ट्रॅक करीत असलेल्या या सर्व गोष्टी आहेत. आणि तसे, हॅडॉप वर ते शुद्ध एस क्यू एल आहे. यात याक्षणी डेटा व्हर्च्युअलायझेशनचा समावेश नाही. आणि म्हणूनच, तेथे बरेच काही आहे आणि एकत्रिकरणासाठी भरपूर जागा आहे, जे मला वाटते की पुढच्या वर्षी, अठरा महिने किंवा बरेच काही होणार आहे. परंतु ही आणखी एक गोष्ट उघडते, ती म्हणजे हडूपमधील समान डेटावर माझ्याकडे बहुविध एसक्यूएल इंजिन असू शकतात. आणि हे असे काहीतरी आहे जे आपण रिलेशनशिपमध्ये करू शकत नाही.


अर्थात, याचा अर्थ असा आहे की आपल्याला नंतर माहित असणे आवश्यक आहे, आपल्याला माहित आहे, मी कोणत्या प्रकारचे क्वेरी वर्कलोड चालवित आहे? हॅडॉप पुढाकाराने मी त्या बॅचमध्ये एखाद्या विशिष्ट एसक्यूएलवर चालवावे? मी हॅडॉप पुढाकारावरील दुसर्‍या एसक्यूएलमार्फत परस्पर क्वेरी वर्कलोड्स चालवावे जेणेकरुन मला कोणाशी कनेक्ट करावे हे माहित असावे? तद्वतच, आपण हे करू नये. आपणास त्यावर एक प्रश्न विचारला पाहिजे. आपणास माहित आहे की काही ऑप्टिमायझर हे करण्याचा सर्वोत्तम मार्ग शोधतात. परंतु माझ्या मते आम्ही अद्याप तेथे पूर्णपणे नाही.


परंतु तरीही, मी डेटा वर्च्युअलायझेशन, एकाधिक डेटा स्टोअरमध्ये प्रवेश सुलभ करण्यासाठी खूप महत्वाची भूमिका बजावली आहे. आणि जर आपण हॅडॉपवर नवीन अंतर्दृष्टी तयार केली तर डेटा व्हर्च्युअलायझेशनद्वारे डेटा-टू-डेटा आणि पारंपारिक डेटा गोदामांमध्ये सामील होणे आपल्यासाठी नक्कीच शहाणपणाचे आहे, उदाहरणार्थ, हडूपमधून डेटा पारंपारिक डेटा वेअरहाऊसमध्ये न हलविता. नक्कीच, आपण हे देखील करू शकता. मी पारंपारिक डेटा वेअरहाऊसमधील डेटा हॅडॉपमध्ये संग्रहित केल्यास ते देखील वागण्यासारखे आहे. मी अद्याप त्यात येऊ शकतो आणि त्यामध्ये डेटा व्हर्च्युअलायझेशनच्या आमच्या डेटा वेअरहाऊसमधील सामग्रीमध्ये परत सामील होऊ शकतो. तर, माझ्यामते, डेटा व्हर्च्युअलायझेशनला या एकूणच आर्किटेक्चरमध्ये एक मोठे भविष्य मिळाले आहे आणि या सर्व डेटा स्टोअरमध्ये सुलभ प्रवेश आहे.


आणि हे विसरू नका की जेव्हा आम्ही हे नवीन अंतर्दृष्टी तयार करतो, ते रिलेशनल किंवा नोएसक्यूएल सिस्टमवर असले तरीही तरीही आपल्याला त्या अंतर्दृष्टी आपल्या ऑपरेशन्समध्ये परत आणायच्या आहेत, जेणेकरून आम्हाला सापडलेल्या गोष्टीचे मूल्य वाढवू शकेल जेणेकरुन आम्ही आमच्या व्यवसायाला अनुकूलित करण्यासाठी त्या वातावरणात अधिक प्रभावी, अधिक वेळेवर निर्णय घेण्यासाठी फायदा घ्या.


तर मग लपेटण्यासाठी, मी काय पहात आहे, मग आपल्याला आवश्यक आहे, आपल्याला माहित आहे, नवीन डेटा स्रोत उदयास येत आहेत. आम्हाला अधिक क्लिष्ट आर्किटेक्चरवर नवीन प्लॅटफॉर्म मिळाले आहेत, जर तुम्हाला आवडत असेल तर ते हाताळा. आणि हॅडूप खूप महत्वाचे बनले, आमच्या लिक्विड सँडबॉक्सेससाठी डेटा तयार करण्यासाठी, आर्काइव्ह क्वेरीसाठी, डेटा वेअरहाऊसमधील आर्काइव्ह, डेटा प्लॅटफॉर्मवरील डेटा वेअरहाऊसिंगच्या पलीकडे जाण्यासाठी डेटा पंख पसरविणारे, आणि नवीन साधने बनण्यासाठी पुरेसे या वातावरणात डेटाचे विश्लेषण आणि त्यात प्रवेश करण्यात सक्षम, डेटाचे अधिक चांगले अंतर्ज्ञान करण्यासाठी स्केलेबल तंत्रज्ञान सक्षम करण्यास सक्षम आणि विश्लेषणे त्यांना अधिक समांतर बनविण्यासाठी प्लॅटफॉर्मवर खाली ढकलून स्केलिंग करणे. आणि मग, आशेने, वरच्या दिशेने येणा the्या उद्दीपक एसक्यूएलद्वारे या सर्वाचा प्रवेश सुलभ करण्यासाठी. तर, आम्ही कोणत्या मार्गाने आपण जात आहोत या प्रकारची कल्पना देते. तर, त्यासह, मी परत जाईल, असा अंदाज आहे, एरिक आता आहे का?


एरिक: ठीक आहे, ते विलक्षण आहे. आणि लोकांनो, मला म्हणायचे आहे की रॉबिन आणि माईककडून तुम्हाला जे मिळाले, त्या दरम्यान संपूर्ण लँडस्केपच्या विहंगावलोकनमध्ये आपण कदाचित कोठेही शोधत आहात हे पाहण्यासारखे ते कदाचित विस्तृत आणि संक्षिप्त आहे. मी पुढे जाऊ आणि प्रथम जॉर्ज कोरुगेडो रांगेत. आणि तेथे आहे. मी हे द्रुत सेकंदासाठी घेते. ठीक आहे, जॉर्ज, मी तुमच्याकडे चाव्या सोपवणार आहे आणि घेऊन जात आहे. मजला आपला आहे.


जॉर्ज: मस्त! एरिक आणि तुमचे खूप खूप आभार, रॉब आणि माईक. ती चांगली माहिती आणि बरेच गोष्टी ज्यावर आम्ही सहमत होतो. तर, रॉबिनच्या चर्चेकडे परत जा कारण, तुम्हाला माहिती आहे, रेडपॉईंट येथे आहे आणि एसएएस येथे आहे हा योगायोग नाही. रेडपॉईंट असल्यामुळे आम्ही कारभारावर त्यातील आकडेवारीकडे लक्ष केंद्रीत करतो, डेटाच्या प्रक्रियेवर आणि inनालिटिक्सच्या वापराच्या तयारीवर. तर मी या दोन स्लाइड्स मध्ये बारगे करू. आणि एमडीएम बद्दल रॉबिनच्या मुद्द्यांविषयी खरोखरच बोला आणि ते निवडा, आणि ते किती महत्वाचे आहे आणि मला कसे वाटते ते उपयुक्त आहे - आणि आम्हाला वाटते - हॅडूप एमडीएम आणि डेटा गुणवत्तेच्या जगात असू शकतात.


तुम्हाला माहिती आहे, रॉबिन याबद्दल थोडासा बोलत होता, आपल्याला माहिती आहे की एंटरप्राइझ डेटा वेअरहाऊस जगाशी हे कसे संबंधित आहे आणि मी येतो - तुम्हाला माहित आहे की, मी अ‍ॅकेंचरमध्ये बरीच वर्षे घालविली आहेत. आणि मनोरंजक बाब म्हणजे आम्हाला किती वेळा कंपन्यांमध्ये जावे लागले आणि डेटा वेअरहाऊसचे काय करावे लागेल हे शोधण्याचा प्रयत्न केला जो मुळात सोडला गेला होता. आणि बरेच काही घडले कारण डेटा वेअरहाउस कार्यसंघाने त्यांचे बांधकाम व्यावसायिक वापरकर्त्यांसाठी किंवा डेटा ग्राहकांना खरोखर संरेखित केले नाही. किंवा, ते इतकेच काळ गेले की त्यांनी वस्तू तयार केल्यावर, त्यातील व्यवसायाचा वापर किंवा व्यवसायाचा तर्क विकसित झाला असेल.


आणि मला वाटणार्‍या गोष्टींपैकी एक म्हणजे, मी खूप उत्साही आहे, मास्टर डेटा व्यवस्थापन, डेटा गुणवत्ता आणि डेटा तयार करण्यासाठी हडूप वापरण्याची कल्पना ही आहे की आपण नेहमीच अणु डेटावर परत जाऊ शकता हडूप डेटा लेक किंवा डेटा जलाशय, किंवा डेटा रेपॉजिटरी किंवा हब किंवा आपण वापरू इच्छित असलेले काही बीझ फॉर्म. परंतु आपण तो अणु डेटा नेहमीच ठेवत असल्यामुळे आपल्याकडे नेहमीच व्यवसाय वापरकर्त्यांसह पुन्हा एकत्रित करण्याची संधी असते. कारण, विश्लेषक म्हणून - कारण मी प्रत्यक्षात माझे आकडेवारीशास्त्रज्ञ म्हणून माझ्या कारकिर्दीची सुरुवात केली आहे - आपल्याला माहिती आहे, त्यापेक्षा काहीही वाईट नाही, हे आपल्याला माहिती आहे, एंटरप्राइझ डेटा वेअरहाऊस अहवाल चालविण्यास आश्चर्यकारक आहेत, परंतु जर तुम्हाला खरोखर भविष्य सांगणारे विश्लेषण करायचे असेल तर ते आहेत खरोखर तितके उपयुक्त नाही, कारण आपल्याला जे हवे आहे ते म्हणजे डेटा ग्रॅममध्ये कसा तरी सारांशित आणि एकत्रित केलेला दाणेदार वर्तन डेटा आहे. तर, मला वाटते की ते खरोखरच एक महत्त्वाचे वैशिष्ट्य आहे आणि मला वाटते की रॉबिन यांच्याशी कदाचित मी असहमत आहे अशी आहे की मी वैयक्तिक लेखाच्या तलावामध्ये किंवा डेटा हबपर्यंत शक्यतोपर्यंत डेटा सोडतो, कारण जोपर्यंत डेटा तिथे आहे आणि तो स्वच्छ आहे, आपण त्यास एका दिशेने, दुसर्‍या दिशेने पाहू शकता. आपण हे इतर डेटामध्ये विलीन करू शकता. आपल्याकडे पुन्हा त्याकडे परत येण्याची आणि पुनर्रचना करण्याची संधी असते आणि नंतर स्वत: ला व्यवसायाच्या युनिटसह आणि या युनिटची आवश्यकता असू शकते.


या विषयीची एक वेगळ्या प्रकारची मनोरंजक गोष्ट म्हणजे ती एक शक्तिशाली संगणकीय व्यासपीठ आहे, ज्या कामाविषयी आपण बोलत आहोत त्यापैकी बरेच काम आम्ही पाहत आहोत की हे सर्व सरळ हडूपमध्ये येत आहे. आणि मला वाटतं की, माइक जगात अस्तित्त्वात असलेल्या सर्व तंत्रज्ञानाविषयी बोलत होते - या प्रकारच्या मोठ्या डेटा इकोसिस्टममध्ये, आम्हाला असे वाटते की संगणकीयदृष्ट्या गहन प्रक्रियेमध्ये मोठ्या प्रमाणावर हेडूप करणे खरोखरच वर्क हॉर्स आहे मुख्य डेटा आणि डेटा गुणवत्ता आवश्यक. कारण जर आपण ते तेथे करू शकलात तर तुम्हाला माहिती असेल की आपल्या महागड्या डेटाबेसमधून आणि आर्थिक डेटाबेसमध्ये डेटा हलविण्याचे फक्त एक अत्यंत अर्थशास्त्र, हे मोठ्या उद्योजकांमध्ये सध्या खरोखर खूप जास्त प्रमाणात चालले आहे.


आता नक्कीच काही आव्हाने आहेत, बरोबर? तंत्रज्ञानाच्या भोवती आव्हाने आहेत. त्यापैकी बर्‍याच गोष्टी खूप अपरिपक्व असतात. मी म्हणेन, आपल्याला माहिती आहे, मला माहित नाही किती, परंतु माईकने नमूद केलेली अनेक तंत्रज्ञान अद्याप शून्य-बिंदू-काहीतरी रिलीझवर आहे, बरोबर? तर ही तंत्रज्ञान खूप तरूण आहेत, अगदी अपरिपक्व आहेत, तरीही कोड-आधारित आहेत. आणि हे खरोखर उद्योजकांसाठी एक आव्हान निर्माण करते. आणि आम्ही खरोखर एंटरप्राइझ-स्तरीय समस्या सोडविण्यावर लक्ष केंद्रित करतो. आणि म्हणूनच, आम्हाला वाटते की तेथे एक वेगळा मार्ग असणे आवश्यक आहे आणि अशीच काही नवीन तंत्रज्ञानाचा वापर करून काही गोष्टींबद्दल जाण्याचा आमचा प्रस्ताव आहे.


आणि म्हणूनच, आणि नंतर येथे एक वेगळा मुद्दा, ज्याचा आधी उल्लेख केला गेला आहे, जेव्हा जेव्हा आपल्याकडे डेटा असतो जेव्हा आपण हडूप वातावरणात जे काही प्रकारात हस्तगत करीत आहात, आपल्याला माहित असेल, तो सहसा लिहिण्याऐवजी स्कीमाऐवजी वाचनावर स्किमा असतो. काही अपवाद वगळता. आणि हे वाचन, पुष्कळशा सांख्यिकीशास्त्रज्ञ करीत आहेत. आणि म्हणून, सांख्यिकीशास्त्रज्ञांकडे अशी साधने असणे आवश्यक आहे जे विश्लेषणाच्या हेतूसाठी डेटाची योग्यरित्या रचना करण्यास परवानगी देतात, कारण दिवसाच्या शेवटी, डेटा उपयुक्त बनविण्यासाठी, काही पहाण्यासाठी किंवा एखाद्या प्रश्नाचे उत्तर देण्यासाठी काही स्वरूपात रचना केली पाहिजे किंवा एक व्यवसाय, काही प्रकारचे व्यवसाय, व्यवसाय मूल्य तयार करतात.


तर, जिथे आपण आत आलो आहोत ते म्हणजे आपल्याकडे खूप ब्रॉड-बेस्ड आणि मॅच्योर ईपीएल, ईएलटी डेटा क्वालिटी मास्टर की आणि मॅनेजमेंट .प्लिकेशन आहे. हे बर्‍याच वर्षांपासून बाजारात आहे. आणि त्यामध्ये रोबिनने त्या परिपत्रक आलेखात सूचीबद्ध केलेली कार्यक्षमता किंवा कार्यक्षमता यापैकी बरेच काही आहे - संपूर्ण शुद्धीकरणाच्या क्षमतेपर्यंत, संपूर्ण शुद्ध स्वरूपात आणि एक्सएमएल संरचनांमध्ये व व्हॉट नॉट्सपासून पूर्णपणे शुद्ध डेटा कॅप्चर करणे. डेटा पूर्ण करणे, डेटाची दुरुस्ती करणे, डेटाचे भौगोलिक कोर बिट्स. या गोष्टी आजकाल इंटरनेटच्या गोष्टींसह अधिकाधिक महत्त्वपूर्ण होत चालल्या आहेत. आपणास माहित आहे की आपण काय करतो किंवा त्या डेटाचा बराचसा भाग भूगोलशी संबंधित असतो. आणि म्हणून, सर्व पार्सिंग, टोकनलायझेशन, क्लींजिंग, करेक्शन, फॉरमॅटिंग, स्ट्रक्चरिंग इ. सर्व काही आपल्या व्यासपीठावर केले गेले आहे.


आणि मग आणि कदाचित आम्ही सर्वात महत्वाचा विचार करतो तो म्हणजे वजा करण्याची कल्पना. आपणास माहित आहे की, कोर्स येथे आपण मास्टर डेटा व्यवस्थापनाची कोणतीही व्याख्या पाहिल्यास त्यातील मूळ म्हणजे वजा करणे. हे डेटाच्या भिन्न स्त्रोतांमधून घटक ओळखण्यात आणि त्यानंतर त्या घटकासाठी एक मास्टर रेकॉर्ड तयार करण्यात सक्षम आहे. आणि ती अस्तित्व एक व्यक्ती असू शकते. उदाहरणार्थ एखादी वस्तू एखाद्या विमानाचा भाग असू शकते, उदाहरणार्थ. आम्ही आमच्या आरोग्य क्लबच्या एका क्लायंटसाठी केले त्यासारखे घटक अन्न असू शकते. आम्ही त्यांच्यासाठी एक मास्टर फूड डेटाबेस तयार केला आहे. म्हणून, ज्या कंपन्या ज्या आम्ही कार्य करीत आहोत त्या कशा आहेत - आणि निश्चितच वाढत्या प्रमाणात असे लोक आहेत आणि त्यांच्या ओळखीचे प्रॉक्सी आहेत जे सामाजिक हँडल किंवा खाती यासारख्या गोष्टी आहेत, लोकांशी संबंधित कोणतीही साधने, काही गोष्टी कार आणि फोन आणि इतर काही जे आपण विचार करू शकता.


आपल्याला माहित आहे की आम्ही एका क्लायंटसह कार्य करीत आहोत जो स्पोर्ट्सवेअरमध्ये सर्व प्रकारचे सेन्सर ठेवत आहे. तर, डेटा प्रत्येक दिशेने येत आहे. आणि एका मार्गाने किंवा हे मुख्य घटकांचे प्रतिबिंब किंवा प्रतिनिधित्व आहे. आणि वाढत्या प्रमाणात, हे लोक आणि डेटाचे या सर्व स्त्रोतांमधील संबंध ओळखण्याची आणि त्या मूळ घटकाशी कसे संबंध आहेत हे ओळखण्याची क्षमता आणि नंतर त्या मूळ घटकाचा मागोवा घेण्यास सक्षम असणे जेणेकरुन आपण त्या घटकामधील बदलांचे विश्लेषण आणि समजू शकता आणि त्या घटकाच्या त्या सादरीकरणात असलेल्या इतर सर्व घटक, उदाहरणार्थ लोकांसाठी दीर्घकालीन आणि रेखांशाचा विश्लेषण करणे खरोखर कठीण आहे. आणि खरोखरच हा एक महत्त्वाचा फायदा आहे जो मला वाटतो, मोठा डेटा आपल्याला लोकांपर्यंत आणि दीर्घकाळापर्यंत चांगल्या प्रकारे समजून घेतो, आणि काय साधने इत्यादीद्वारे वर्तन करीत असताना लोक कसे वागतात हे समजून घेतात. .


तर, मी इथून द्रुतगतीने जाऊ. एरिकने यार्नचा उल्लेख केला. तुम्हाला माहिती आहे, मी हे फक्त एका सेकंदासाठी फेकतो, कारण यार्न असताना - लोक यार्नबद्दल बोलतात. यार्न विषयी मला वाटते की अजूनही बरेचसे दुर्लक्ष आहे. आणि खरोखर बरेच लोक नाहीत - यार्नबद्दल अजूनही बरेच गैरसमज आहेत. आणि वस्तुस्थिती अशी आहे की जर आपला अनुप्रयोग योग्य मार्गाने आर्किटेक्टेड केला गेला आहे आणि आपल्याकडे आपल्या अनुप्रयोग आर्किटेक्चरमध्ये योग्य पातळी किंवा समांतर आहे तर आपण हॅडॉपला आपले स्केलिंग प्लॅटफॉर्म म्हणून वापरण्यासाठी यार्नचा फायदा घेऊ शकता. आणि आम्ही हेच केले आहे.


तुम्हाला माहिती आहे, पुन्हा, यार्नच्या सभोवतालच्या काही परिभाषा दाखवण्यासाठी. आमच्यासाठी, खरोखर काय यार्न आहे ते आम्हाला स्वतःस आणि इतर संस्थांना मॅपड्र्यूस आणि स्पार्कचे समक्रमित करण्यास सक्षम आहे, आणि तेथे इतर सर्व साधने आहेत. परंतु वस्तुस्थिती अशी आहे की आमचे अनुप्रयोग ऑप्टिमाइझ्ड कोड थेट यार्न मध्ये हडूपमध्ये ड्राइव्ह करतात. आणि तेथे माइकने खरोखरच एक मनोरंजक टिप्पणी दिली आहे, कारण आपल्याला माहित आहे, विश्लेषक आणि आमच्या विश्लेषणाबद्दल प्रश्न आहे की ते क्लस्टरमध्ये आहेत, खरोखरच ते समांतर चालत आहेत? आपण तेथे असलेल्या डेटाच्या अनेक गुणवत्तेच्या साधनांविषयी समान प्रश्न विचारू शकता.


बहुतेक दिवस, तेथील गुणवत्तेची साधने एकतर डेटा बाहेर काढावी लागतात किंवा ते कोड इन करत असतात. आणि बर्‍याच प्रकरणांमध्ये, डेटाचा एकच प्रवाह आहे जो आपल्या मार्गावर असल्याने प्रक्रिया केली जात आहे. रेकॉर्डची तुलना करा, कधीकधी डेटा-गुणवत्तेच्या प्रकारांमध्ये. आणि वस्तुस्थिती अशी आहे की आम्ही यार्नचा वापर करीत असल्यामुळे, आम्ही खरोखरच समांतरतेचा फायदा घेण्यास सक्षम आहोत.


आणि फक्त आपल्याला एक द्रुत विहंगावलोकन देण्यासाठी, कारण पारंपारिक डेटाबेस, नवीन डेटाबेस इत्यादींचा विस्तार करण्यात सक्षम होण्याच्या महत्त्वबद्दल आणखी एक टिप्पणी केली गेली आहे, आम्ही क्लस्टरच्या बाहेर लागू करतो किंवा आम्ही स्थापित करतो. आणि आम्ही आमच्या बायनरीस थेट स्त्रोत व्यवस्थापक यार्न मध्ये ढकलतो. आणि आणि नंतर यार्न हे क्लस्टरमधील नोड्सवर वितरीत करते. आणि हे काय आहे ते म्हणजे यार्न - आम्ही यार्नला त्याचे कार्य व्यवस्थापित करण्यास आणि ते करण्यास अनुमती देतो, म्हणजे डेटा कोठे आहे हे शोधून काढणे आणि डेटाकडे काम करणे, डेटाकडे कोड करणे आणि डेटा जवळपास न हलविणे. जेव्हा आपण डेटा गुणवत्तेची साधने ऐकता आणि ते आपल्याला सांगत असतात की डेटा हाडोपच्या बाहेर हलवा, आपल्या जीवनासाठी धाव घ्या, कारण तसे तसे नाही. आपण कामावर डेटाकडे नेऊ इच्छित आहात. आणि यार्न हेच ​​करतो. हे आमच्या बायनरीस जिथे डेटा राहते तेथे नोड्सपर्यंत नेते.


आणि आम्ही क्लस्टरच्या बाहेरील असल्याने, आम्ही सर्व पारंपारिक आणि रिलेशनल डेटाबेसमध्ये प्रवेश करू शकतो जेणेकरुन पारंपारिक डेटाबेसवर १००% क्लायंट सर्व्हर, हडूप क्लायंट सर्व्हरच्या १००% हडूप किंवा हायब्रिड जॉब मिळतील. , ओरॅकल, तेराडाटा - आपल्यास जे पाहिजे ते आहे आणि सर्व एकाच नोकरीमध्ये कारण एक अंमलबजावणी जगातील दोन्ही बाजूंनी प्रवेश करू शकते.


आणि मग, साधनांच्या अनिवार्यतेच्या संपूर्ण कल्पनेकडे परत जाताना, आपण येथे पहा, हे फक्त एक साधे प्रतिनिधित्व आहे. आणि आपण जे करण्याचा प्रयत्न करीत आहोत ते म्हणजे जग सुलभ करणे. आणि आम्ही तो करण्याचा मार्ग म्हणजे एचडीएफएसच्या आसपास कार्यक्षमतेचा एक व्यापक संच आणणे ... आणि असे नाही कारण आम्ही तिथल्या सर्व नाविन्यपूर्ण तंत्रज्ञानाचा नाश करण्याचा प्रयत्न करीत आहोत. फक्त उद्योजकांना स्थिरतेची आवश्यकता असते आणि त्यांना कोड-आधारित निराकरणे आवडत नाहीत. आणि म्हणूनच आम्ही करण्याचा प्रयत्न करीत आहोत ते म्हणजे उद्योजकांना एक परिचित, पुनरावृत्ती करण्यायोग्य, सातत्यपूर्ण अनुप्रयोग वातावरण जे त्यांना अंदाजे मार्गाने डेटा तयार करण्याची आणि प्रक्रिया करण्याची क्षमता देते.


द्रुतपणे, आमच्या अनुप्रयोगासह आम्हाला हा एक प्रकारचा प्रभाव पडतो. आपल्याला मॅपरेड्यूस विरुद्ध पिग विरुद्ध रेडपॉईंट दिसेल - रेडपॉईंटमध्ये कोडच्या ओळी नाहीत. मॅपरेड्यूसमध्ये सहा तास विकास, पिगमध्ये तीन तास विकास आणि रेडपॉईंटमध्ये 15 मिनिटांचा विकास. आणि तिथेच आपला खरोखर प्रभाव पडतो. प्रक्रिया वेळ देखील वेगवान आहे, परंतु लोक वेळ, लोक उत्पादनक्षमता वेळ, लक्षणीय वाढ झाली आहे.


आणि माझी येथे शेवटची स्लाइड, मला या कल्पनेकडे परत जायचे आहे, कारण डेटा लेक किंवा डेटा हब किंवा डेटा रिफायनरीचा अंतर्ग्रहणाचा मुख्य मुद्दा म्हणून वापरणे हे आमचे आहे. या कल्पनेवर अधिक सहमत होऊ शकत नाही. आणि आम्ही सध्या मोठ्या जागतिक बँकांच्या मुख्य डेटा अधिका officers्यांसह चर्चेत आहोत आणि ही पसंतीची आर्किटेक्चर आहे.सर्व स्रोतांकडील डेटा अंतर्ग्रहण डेटा लेकच्या आतील डेटा गुणवत्ता प्रक्रिया आणि मास्टर डेटा व्यवस्थापन करतात आणि त्यानंतर, बीआयला समर्थन देण्यासाठी, अनुप्रयोगांना समर्थन देण्यासाठी, जेथे जाण्याची आवश्यकता असते तेथे डेटा ढकलतात. आणि मग, जर आपल्याकडे बीआयमध्ये विश्लेषक असतील तर ते थेट डेटा लेकच्या आतील बाजूस धावू शकतात, जेथे सर्व चांगले आहे, ते लगेचच सुरू होऊ शकते. परंतु या कल्पनेसह बरेच काही ही टोपोलॉजी येथे एक आहे - जी आम्हाला आढळली आहे की मार्केटमध्ये बरेच ट्रेक्शन मिळवित आहेत. आणि, तेच


एरिक: ठीक आहे, छान आहे. चला इथून पुढे जाऊया. मी पुढे जाऊन कीथला देईन. आणि, किथ, तुला इथे घर दगड लावण्यास सुमारे 10, 12 मिनिटे मिळाली. आम्ही या शो मध्ये थोडा लांब जाण्यासाठी घेतला. आणि या साठी आम्ही 70 मिनिटांची जाहिरात केली. तर, पुढे जा आणि त्या स्लाइडवर कोठेही क्लिक करा आणि डाऊन बाण वापरा आणि तो घेऊन जा.


किथ: नक्कीच काही हरकत नाही, एरिक. मी याचं कौतुक करतो. मी पुढे जाईन आणि एसएएस बद्दल काही तुकडे मारणार आहे, त्यानंतर मी थेट तंत्रज्ञान आर्किटेक्चरमध्ये प्रवेश करू, जिथे एसएएस मोठ्या डेटा वर्ल्डसह काटेल. या सर्व गोष्टींमध्ये बरेच काही स्पष्ट आहे. आम्ही त्यात बरेच तास घालून तास घालवू शकलो, परंतु दहा मिनिटे - एसएएसने या मोठ्या डेटा जगात विश्लेषणे, डेटा व्यवस्थापन आणि व्यवसाय बुद्धिमत्ता तंत्रज्ञान कोठे घेतले याची थोडीशी माहिती देऊन आपण तेथून निघून जाण्यास सक्षम असावे.


प्रथम, एसएएस बद्दल थोडेसे. आपण या संस्थेस परिचित नसल्यास, आम्ही गेल्या 38 वर्षांपासून प्रगत विश्लेषणे, व्यवसाय बुद्धिमत्ता आणि डेटा व्यवस्थापन करीत आहोत केवळ मोठ्या डेटासहच नाही, परंतु लहान डेटा आणि डेटा संपत्ती मागील 38 वर्षांपासून करत आहोत. आमच्याकडे जगातील विपुल अस्तित्वातील ग्राहकांचे पाय आहेत, जगभरातील सुमारे 75,000 साइट्स, तेथील काही प्रमुख संस्थांसह कार्य करीत आहेत. आम्ही जवळपास 13,000 कर्मचारी आणि 3 अब्ज डॉलर्स महसूल असलेली एक खासगी संस्था आहोत. आणि अगदी खरोखरच, माझ्या मते, महत्त्वाचा भाग म्हणजे आमच्या परंपरेने आमच्या उत्पन्नाच्या महत्त्वपूर्ण रकमेचा आमच्या आर अँड डी संस्थेमध्ये पुन: गुंतवणूकीचा दीर्घकाळ इतिहास होता, ज्याने खरोखरच या आश्चर्यकारक तंत्रज्ञान आणि प्लॅटफॉर्मवर आपल्यासाठी बर्‍याच गोष्टींचा भार उचलला आहे. ' आज परत बघायला जात आहे.


तर, मी खरोखर या खरोखर भयानक आर्किटेक्चर आकृत्यामध्ये उडी मारणार आहे. माझ्या स्लाइडमध्ये आम्ही डावीकडून उजवीकडे कार्य करू. तर, या व्यासपीठामध्ये ज्या गोष्टी आपण पहात आहात त्या तेथे परिचित आहेत. डावीकडील, आम्ही या मोठ्या डेटा प्लॅटफॉर्मवर घुसखोरी करण्याविषयी बोलत आहोत ते सर्व डेटा स्रोत. आणि मग, आपणास हे मोठे डेटा प्लॅटफॉर्म प्राप्त झाले आहे.


मी हडूप हा शब्द तिथे सर्वात वर ठेवलेला नाही, कारण शेवटी, मी आज जी उदाहरण देणार आहे ती सर्व तंत्रज्ञानाच्या आसपास आहे जिथे आपण या मोठ्या डेटा प्लॅटफॉर्मसह छेदतो. हडूप फक्त एक असेच झाले आहे जिथे आपल्याकडे काही सर्वात मजबूत उपयोजन पर्याय आहेत, परंतु आम्ही थोडासा छेदतो आणि टेराडाटासारख्या आमच्या इतर एंटरप्राइझ डेटा वेअरहाऊस भागीदारांसह काही काळ या तंत्रज्ञानाचा विकास केला आहे. ओरॅकल, मुख्य आणि सारखे. म्हणून, मी कोणत्या मंचावर सर्व भिन्न तंत्रज्ञानाचे समर्थन करीत आहे याविषयी मी तपशीलवार माहिती घेऊ शकत नाही, परंतु फक्त खात्री बाळगा की मी आज ज्या सर्व गोष्टींचे वर्णन करतो त्या बहुतेक सर्व हॅडूप आणि त्यापैकी बर्‍याच प्रमाणात इतर तंत्रज्ञानाच्या भागीदारांना छेदतात. आमच्याकडे आहे. तर, आपल्याकडे ते मोठे प्लॅटफॉर्म तिथे बसलेले आहे.


पुढील उजवीकडे, आमच्याकडे आमचा एसएएस एलएएसआर ticनालिटिका सर्व्हर आहे. आता, हे मूलतः मेमरी analyनालिटिक्स applicationप्लिकेशन सर्व्हरमध्ये मोठ्या प्रमाणात समांतर आहे. आम्ही स्पष्ट करू की तो स्मृतीतला डेटाबेस नाही. हे खरोखर ग्राउंड अप पासून डिझाइन केलेले आहे. हे क्वेरी इंजिन नाही, परंतु मोठ्या प्रमाणात समांतर मार्गाने विश्लेषणात्मक विनंत्या मोठ्या प्रमाणात सेवा करण्यासाठी डिझाइन केलेले आहे. तर, तेच उजवे बाजूने आपण पाहता ती सेवा की अनुप्रयोग आहे.


लोक या गोष्टी कशा तैनात करतात हे आपल्याला माहितीच आहे अशा आणखीन गोष्टींमध्ये आपण थोडासा प्रवेश करू. परंतु मूलभूतपणे, अनुप्रयोग - आपण तेथे पहात आहात काय - प्रथम एक, आमचे एसएएस उच्च-कार्यप्रदर्शन विश्लेषक आहे. ते होणार आहे - मी आमची सध्याची तंत्रज्ञान आणि एंटरप्राइझ माइनर किंवा फक्त एसएएस सारख्या प्लॅटफॉर्मचा वापर करीत आहे, आणि आम्ही त्या साधनांमध्ये तयार केलेल्या काही अल्गोरिदमांसह फक्त मल्टीथ्रेडिंग करत नाही. वर्षे, परंतु मोठ्या प्रमाणात त्या समांतर करण्यासाठी. तर, त्या मोठ्या डेटा प्लॅटफॉर्मवरून डेटा त्या मेमरी स्पेसमध्ये त्या एलएएसआर ticनालिटिक्स सर्व्हरवर हलविण्यासाठी, जेणेकरून आम्ही विश्लेषणात्मक अल्गोरिदम कार्यान्वित करू शकू - आपल्याला माहित आहे, बरेच नवीन मशीन शिक्षण, तंत्रिका जाळे, यादृच्छिक फॉरेस्ट रिग्रेशन्स, अशा प्रकारचे गोष्टी - पुन्हा, मेमरीवर बसलेला डेटा. तर, आम्ही त्या प्लॅटफॉर्मवर आमच्याकडे दाखल होईपर्यंत त्या विशिष्ट मॅपरेड्यूज प्रतिमानाच्या अडथळापासून मुक्त होऊ, आपण विश्लेषक कार्य करू इच्छिता असे नाही. तर, आम्ही एकदाच मेमरी स्पेसमध्ये डेटा उंचावू आणि त्याद्वारे पुनरावृत्ती करण्यास सक्षम होऊ इच्छितो, आपल्याला माहित आहे की कधीकधी हजारो वेळा. तर, ती उच्च कार्यक्षमता विश्लेषक एलएएसआर सर्व्हर वापरण्याची संकल्पना आहे.


आम्ही देखील - त्याखालील इतर अनुप्रयोग, व्हिज्युअल ticsनालिटिक्स, जे आम्हाला हा डेटा मेमरीमध्ये टिकवून ठेवण्याची आणि त्याच डेटावर मोठ्या संख्येने लोकसंख्या वाढविण्याची परवानगी देतो. तर, लोकांना मोठा डेटा अन्वेषण करण्याची अनुमती. म्हणून, आमची मॉडेल डेव्हलपमेंटची कामे करण्यापूर्वी आम्ही डेटा शोधत आहोत, समजून घेत आहोत, परस्परसंबंध चालवित आहोत, भविष्यवाणी करतो किंवा निर्णय घेतेय वृक्ष - अशा प्रकारच्या गोष्टी - परंतु स्मृतीत बसलेल्या डेटावर अगदी दृश्यास्पद आणि परस्पर मार्गाने व्यासपीठ हे आमच्या बीआय समुदायास मदत करते जिथे वापरकर्त्यांचे विस्तृत ब्रॉड बेस आहेत जे आपण पाहू शकता अशा मानक प्रकारचे रेकॉर्डिंग करण्यासाठी त्या व्यासपीठावर ठोकू शकतात - जे बीआय विक्रेता आहे.


पुढील चरण, आम्ही नंतर सेवेत जाऊ. आणि व्हिज्युअल iansनालिटिक्स आणि एक्सप्लोरेशनमधून आमच्या व्हिज्युअल आकडेवारी अनुप्रयोगामध्ये काढून टाकलेल्या डेटासह हे असे अ‍ॅड-हॉक मॉडेलिंग करण्यास आमच्या आकडेवारीतज्ञ आणि आमच्या विश्लेषकांना मदत करण्यासाठी. लोकांना ही एक संधी आहे ज्याद्वारे बॅचमध्ये आकडेवारी चालविण्याची गरज नसते जे लोक पुनरावृत्ती करायचे, मॉडेल्स चालवतात, परिणाम पाहत असत. तर हे मॉडेल चालवू शकेल, निकाल पहा. हे दृष्यदृष्ट्या ड्रॅग करण्यासाठी आणि परस्परसंवादी सांख्यिकी मॉडेलिंगमध्ये सोडणे आहे. तर, ही प्रारंभिक अन्वेषण व्हिज्युअल सांख्यिकी कार्य बरेच काम करण्यासाठी आमची सांख्यिकी शास्त्रज्ञ आणि आमचे डेटा वैज्ञानिकांना देते.


आणि मग, आम्ही आमचे कोडर विसरलो नाही - खरोखर इच्छित असलेल्या लोकांना, इंटरफेसचे स्तर उलट्या सोलण्यास सक्षम असणे, अनुप्रयोग लिहिणे आणि एसएएसमध्ये त्यांचा स्वतःचा कोड बेस लिहायचा आहे. आणि तेच आमचे हडूपसाठी मेमरी आकडेवारी आहे. आणि तो म्हणजे - मूलत: कोड लेयरने आम्हाला त्या विश्लेषक एलएएसआर सर्व्हरशी थेट संवाद साधण्याची परवानगी दिली आणि आमच्या विनंतीच्या आधारे ते अनुप्रयोग सानुकूलित केले. हा विश्लेषक भाग आहे.


या गोष्टी कशा सेट केल्या जातात… अरेरे, मला माफ करा. तिथे आम्ही जाऊ.


म्हणून, तेथे असे काही मार्ग आहेत ज्याद्वारे आपण हे करतो. एक म्हणजे मोठ्या डेटासह - या प्रकरणात, हॅडॉपसह. आणि आमच्याकडे असे आहे की हार्डवेअर ticsनालिटिक्ससाठी अनुकूलित केलेल्या मशीनच्या वेगळ्या क्लस्टरमध्ये एसएएस एलएएसआर ticनालिटिक्स सर्व्हर चालू आहे. हे छान आहे आणि मोठ्या डेटा प्लॅटफॉर्म जवळ आहे, आम्हाला ते मोठ्या डेटा प्लॅटफॉर्मपासून वेगळे मोजण्याची परवानगी देते. म्हणून, आम्ही जेव्हा लोक हॅडॉप क्लस्टरवर असलेल्या प्रत्येक नोडवर व्हॅम्पायर सॉफ्टवेअरसारखे खातात त्यासारखे मला नकोसे वाटू लागले तेव्हा आम्ही हे करीत आहोत. आणि मेमरी लिफ्टिंग इन मेमरी ticsनालिटिक्स करण्यासाठी ते मोठे डेटा प्लॅटफॉर्म योग्यरित्या मोजत नाहीत. तर, आपल्याकडे त्यांच्या हडूप क्लस्टरचे १२ नोड असू शकतात परंतु त्यांच्याकडे असे कार्य करण्यासाठी डिझाइन केलेले विश्लेषक सर्व्हरचे १ n नोड्स असू शकतात.


डेटा अजूनही मेमरीमध्ये खेचण्यासाठी आम्हाला मोठ्या डेटा प्लॅटफॉर्मवरून समानता कायम ठेवण्याची परवानगी आहे. तर हडूप प्लॅटफॉर्मसह हे खरोखर वापरणारे एसएएस आहे. त्यानंतर एक वेगळे अपॉईंटमेंट मॉडेल म्हणायचे आहे, बरं, आम्ही ते कमोडिटी प्लॅटफॉर्म देखील वापरू शकतो आणि त्यास धक्का देऊ शकतो - हडूप प्लॅटफॉर्मवर Analyनालिटिक्स एलएएसआर सर्व्हर मूलत: चालवा. म्हणून, आम्ही येथे आहोत… आपण मोठ्या डेटा प्लॅटफॉर्मवर कार्य करीत आहात. हे आमच्या इतर उपकरण विक्रेत्यांचाही आहे. तर, त्या काम करण्यासाठी त्या वस्तू व्यासपीठाचा मूलत: वापर करण्याची आम्हाला अनुमती आहे.


आम्ही पाहतो की उच्च कार्यक्षमता विश्लेषणे यासारख्या गोष्टींसह जिथे तो एकल सेवा देणारा किंवा एकल-वापर प्रकारचा विश्लेषणात्मक धाव असतो, अधिक प्रकारची बॅच आपण जेथे असतो तेथे - आपल्याला हडूपमधील मेमरी स्पेस वापरण्याची आवश्यकता नसते. व्यासपीठ आम्ही छान क्लस्टर्स खेळत आहोत हे सुनिश्चित करण्यासाठी आम्ही या प्रकारासह यार्न बरोबर काम करण्यामध्ये या प्रकारात बरेच लवचिक आहोत.


ठीक आहे, म्हणूनच ते विश्लेषक जगाचे आहे, विश्लेषक अनुप्रयोगासह तेथे स्पष्ट होईल. परंतु मी नमूद केले की एसएएस अगदी सुरुवातीस डेटा व्यवस्थापन प्लॅटफॉर्म देखील आहे. आणि अशा गोष्टी आहेत ज्या त्या व्यासपीठावर तर्कसंगततेस योग्य वाटेल तेथे योग्य असेल. तर असे काही मार्ग आहेत ज्याद्वारे आपण ते करतो. एक डेटा एकत्रीकरण जगात आहे, डेटा वर डेटा ट्रान्सफॉर्मेशनचे काम करणे हे आपण आधी ऐकल्याप्रमाणे, त्यास मागे खेचण्यात अर्थपूर्ण ठरणार नाही, डेटा डेटा रूटीन चालवितो जी एक मोठी आहे. आम्हाला डेटा गुणवत्ता दिनचर्यासारख्या गोष्टी त्या प्लॅटफॉर्ममध्ये निश्चितपणे खाली ढकलल्या पाहिजेत. आणि मग मॉडेल स्कोअरिंगसारख्या गोष्टी. तर, मी माझे मॉडेल विकसित केले आहे. मला त्या गोष्टी MapReduc मधून पुन्हा लिहायच्या आहेत आणि मूळ डेटाबेस प्लॅटफॉर्ममध्ये कार्य करणारे माझ्यासाठी पुन्हा करणे कठीण आणि वेळ घेण्यास कठीण बनवू इच्छित नाही.


म्हणूनच, उदाहरणार्थ, जर आपण हडूपसाठीचे स्कोअरिंग प्रवेगक पाहिले तर ते आपल्याला त्या हडूप प्लॅटफॉर्ममध्ये एसएएस गणिताचे तर्कशास्त्र खाली आणू देते आणि त्या अंमलात आणू शकतात, त्या मोठ्या डेटा प्लॅटफॉर्ममध्ये असलेल्या समांतरतेचा वापर करुन. त्यानंतर आमच्याकडे हडूपसह विविध प्लॅटफॉर्मसाठी कोड प्रवेगक आहे आणि जो आम्हाला एसएएस डेटा स्टेप कोड मोठ्या प्रमाणात समांतर मार्गाने प्लॅटफॉर्ममध्ये चालविण्यास परवानगी देतो - म्हणून, प्लॅटफॉर्ममध्ये डेटा ट्रान्सफॉर्मेशन प्रकारची कामे करत असतो. आणि मग आमचा एसएएस डेटा गुणवत्ता प्रवेगक जो तिथे आम्हाला गुणवत्ता ज्ञान आधारित बसण्याची परवानगी देतो जो लिंग जुळणी, मानकीकरण सामना कोड यासारख्या गोष्टी करू शकतो - यापूर्वी आपण पूर्वी ऐकलेल्या सर्व भिन्न डेटा गुणवत्तेच्या गोष्टी.


आणि मग, शेवटचा तुकडा, तेथे डेटा लोडर आहे. आम्हाला माहित आहे की आमच्या व्यवसाय वापरकर्त्यांना कोड लिहावा लागणार नाही, डेटा डेटा ट्रान्सफॉर्मेशनचे काम या मोठ्या डेटा प्लॅटफॉर्मवर करावे लागेल. डेटा लोडर एक छान WYSIWYG GUI आहे जी आम्हाला ती इतर तंत्रज्ञान एकत्र गुंडाळण्याची परवानगी देते. हे वाक-थ्रू विझार्डसारखे आहे जसे की, एक पोळेची क्वेरी चालवा किंवा डेटा गुणवत्ता दिनचर्या चालवा आणि त्या प्रकरणात कोड लिहावा लागू नये.


शेवटची गोष्ट मी उल्लेख करतो तो पुढील भाग आहे. आमच्याकडे आहे - जसे मी आधी नमूद केले आहे - जगात तेथे एक प्रचंड एसएएस पाऊल आहे. आणि हे, या जागेत त्वरित येण्यासाठी तेथे असलेले सर्व प्लॅटफॉर्म केवळ केलेच पाहिजेत. तर, आमच्याकडे निश्चितपणे विद्यमान वापरकर्ते आहेत ज्यांना या मोठ्या डेटा प्लॅटफॉर्मवर बसून डेटा मिळवणे आवश्यक आहे जसे की टेराडाटामधून डेटा बाहेर काढून तो पुन्हा हॅडोपमध्ये ठेवणे आणि त्याउलट. मॉडेल्स चालवित असताना मला माझ्या एसएएस सर्व्हरवर कसे चालवायचे हे आधीच माहित आहे, परंतु आता मला हडूप प्लॅटफॉर्ममध्ये ठेवलेला डेटा मिळविला पाहिजे. तर, तेथे आणखी एक "आयकॉन" नावाचे लहान आयकॉन आहे आणि ते आम्हाला आमच्या एसएएस engक्सेस इंजिन - पोलातील हडूप ते क्लोडेरा ते तेराडाटा, ग्रीनप्लम ते ग्रीनप्लम ते… पर्यंत वापरुन इंजिन वापरुन कनेक्ट करण्याची अनुमती देते. हे आम्हाला या प्लॅटफॉर्मवरून डेटा मिळविण्यासाठी आधीच अस्तित्त्वात असलेली आमची विद्यमान परिपक्व एसएएस प्लॅटफॉर्म वापरण्याची अनुमती देते, आम्हाला जे कार्य करणे आवश्यक आहे ते पूर्ण करा आणि परीणाम या भागात परत घ्या.


शेवटची गोष्ट मी सांगत आहे ती म्हणजे आपण पहात असलेली ही सर्व तंत्रज्ञान समान मानक सामान्य मेटाडेटाद्वारे नियंत्रित केली जातात. तर, आम्ही रूपांतर कार्य, कार्यक्षेत्रात डेटा गुणवत्तेचा नियम मिळविण्याबद्दल चर्चा करतो, विश्लेषणे करण्यास सक्षम होण्यासाठी मेमरीमध्ये हलवित आहोत, स्कोअरिंगमध्ये मॉडेल डेव्हलपमेंट करतो. आम्ही तेथे संपूर्ण विश्लेषणात्मक जीवनशैली, सामान्य मेटाडेटा, शासन, सुरक्षा, आज आपण ज्या ज्या गोष्टींबद्दल बोललो त्या सर्व गोष्टींनी प्रशासित केले गेले आहे.


तर, फक्त एक पुनर्प्राप्ती, खरोखरच त्या तीन मोठ्या गोष्टी तिथे घेऊन गेल्या आहेत. एक म्हणजे, आम्ही डेटा प्लॅटफॉर्मला इतर डेटा स्रोत प्रमाणेच त्यांच्याकडून खेचून, योग्य आणि सोयीस्कर असतो तेव्हा त्यांच्याकडे खेचून घेऊ शकतो. आम्ही त्या मोठ्या डेटा प्लॅटफॉर्मसह कार्य करू शकतो, मेमरी प्लॅटफॉर्ममधील हेतू-निर्मित प्रगत विश्लेषकांमध्ये डेटा सूचीबद्ध करू. तर, तो LASR सर्व्हर आहे.


आणि नंतर, शेवटचे म्हणजे आम्ही डेटा त्याभोवती न हलवता त्यांच्या मोठ्या वितरण प्लॅटफॉर्ममध्ये कार्य करू शकतो.


एरीक: लोकांनो, ती मस्त आहे. हं, हे छान आहे! तर मग, आपण काही प्रश्नांकडे डोकावू. आम्ही सामान्यत: या घटनांमध्ये सुमारे 70 मिनिटे किंवा थोड्या वेळाने जाऊ. तर, मी अजूनही तेथे उत्तम प्रेक्षक बसलेले पाहत आहोत. जॉर्ज, माझा अंदाज आहे की मी आपला पहिला प्रश्न तुमच्याकडे पाठवीन. जर आपण आपला बायनरी आवाज हॅडोपमध्ये ढकलण्याबद्दल बोलत असाल तर मला असे वाटते की आपण खरोखर संगणकीय कार्यप्रवाह ऑप्टिमाइझ केले आहेत असे मला वाटते. या प्रकारच्या रीअल-टाईम डेटा गव्हर्नन्स, डेटा क्वालिटी शैलीतील कामगिरी करण्यास सक्षम होण्यासाठी संपूर्ण की असे आहे कारण आपण प्राप्त करू इच्छिता तेच मूल्य आहे ना? जर आपल्याला MDM च्या जुन्या जगात परत जायचे नसेल जेथे ते खूप अवजड आहे आणि ते अत्यंत वेळखाऊ आहे आणि आपल्याला खरोखरच लोकांना विशिष्ट मार्गांनी वागण्यास भाग पाडले पाहिजे जे जवळजवळ कधीच कार्य करत नाही. आणि म्हणूनच, आपण जे केले ते म्हणजे आपण जे होते त्याविषयीचे चक्र कमी केले. चला याला दिवस, आठवडे, कधीकधी काही महिने अगदी सेकंदांपर्यंत कॉल करूया, बरोबर? हे काय चालू आहे?


जॉर्ज: हे अगदी बरोबर आहे, कारण आम्हाला मिळणारे स्केल आणि क्लस्टरमधून मिळणारी कामगिरी खरोखरच थक्क करणारी आहे, फक्त, तुम्हाला माहिती आहे, मी नेहमीच बेंचमार्कविषयी थोडासा संकोच करतो. परंतु केवळ विशालतेच्या क्रमाने, जेव्हा आपण अब्ज, १.२ अब्ज रेकॉर्ड चालवितो आणि संपूर्ण पत्ता मानकीकरण करतो - मी मध्यम-श्रेणी एचपी मशीन म्हणतो - हे आपल्याला माहित आहे, असे आठ प्रोसेसर मशीन आहेत, आपल्याला माहित आहे , प्रति कोर रॅमच्या 2 गिग, तुम्हाला माहित असेल की, यासाठी 20 तास लागतील. 12-नोड क्लस्टर ए वर आपल्याला आता आठ मिनिटात असे करता येईल. आणि म्हणूनच, आम्ही आता करू शकत असलेल्या प्रक्रियेचे प्रमाण इतके नाट्यमय आहे की - आणि आपल्याकडे हा सर्व डेटा आपल्याकडे आहे या कल्पनेने हे अगदी छान होते. तर, प्रक्रिया करणे इतके धोकादायक नाही. आपण हे चुकीचे केले असल्यास आपण ते पुन्हा करु शकता. तुम्हाला माहिती आहे, तुम्हाला वेळ मिळाला आहे. जेव्हा ते एमडीएम सोल्यूशन्स ऑपरेट करण्याचा प्रयत्न करीत होते तेव्हा अशा प्रकारच्या जोखीम खरोखरच वास्तविक व्यवसाय समस्या बनल्या आहेत हे आपल्याला खरोखर माहित आहे. आपल्याकडे डेटा गव्हर्नन्स आणि सर्व काही ऑफशोरकडे 30 लोक असले पाहिजेत. आणि म्हणूनच, आपल्याकडे अद्याप त्यापैकी काही असणे आवश्यक आहे परंतु आपण ज्या प्रक्रियेवर आता प्रक्रिया करू शकता त्याचा वेग आणि प्रमाणात खरोखर आपल्याला श्वासोच्छवासाची खोली देते.


एरिक: होय, तो खरोखर, खरोखर चांगला मुद्दा आहे. मला ती टिप्पणी आवडली. तर, आपल्याकडे पुन्हा काम करण्याची वेळ आहे. हे उत्कृष्ट आहे.


जॉर्ज: हं.


एरिक: बरं, ते गतिशीलता बदलते, बरोबर? आपण प्रयत्न करीत असलेल्या गोष्टीबद्दल आपला विचार कसा बदलतो हे बदलते. म्हणजे १ 18 वर्षांपूर्वी मला हे विशेष प्रभाव पाडण्याच्या उद्योगात आठवते, कारण त्या ठिकाणी माझ्याकडे एक ग्राहक होता. आणि आपण ते प्रस्तुत करण्यासाठी बटणे दाबा आणि आपण घरी जा. आणि शनिवारी दुपारी ते कसे चालले आहे हे पाहण्यासाठी आपण परत याल. परंतु जर आपणास हे चुकले असेल, तर ते खूप, खूप वेदनादायक होते. आणि आता हे जवळजवळ नाही - ते इतके क्लेशकारक देखील नसते की आपल्याला अधिक सामग्री वापरण्याची संधी मिळेल. मला म्हणायचे आहे, मला वाटते की ती खरोखर, खरोखर चांगली बिंदू आहे.


जॉर्ज: अगदी बरोबर आहे. होय, आणि आपण आपला अतिरिक्त पाय फुंकला. आपल्याला माहिती आहे, जुन्या दिवसात आपण अर्ध्यावर नोकरी प्राप्त करता आणि ती अपयशी ठरते, आपण आपला एसओएस उडविला आहे. बस एवढेच.


एरिक: बरोबर. आणि आपण मोठ्या संकटात आहात, होय. ते बरोबर आहे.


जॉर्ज: बरोबर आहे. ते बरोबर आहे.


एरिक: कीथ, मला एक टेकू दे. मला आठवतंय की तुमच्या सीआयएल, कीथ कॉलिन्सची मुलाखत घेत आहे, मला विश्वास आहे, परत, मला वाटते, कदाचित 2011. आणि एसएएसकडून प्राप्त केलेल्या विश्लेषणेला ऑपरेटिंग सिस्टममध्ये एम्बेड करण्यासाठी ग्राहकांसोबत काम करण्याच्या संदर्भात एसएएस विशेषतः ज्या दिशेने घेत होते त्याबद्दल त्याने मोठ्या प्रमाणात चर्चा केली. आणि नक्कीच, आम्ही माइक फर्ग्युसनला लक्षात ठेवण्याच्या महत्त्वबद्दल बोलताना ऐकले. येथे संपूर्ण कल्पना अशी आहे की आपण आपल्या ऑपरेशन्समध्ये ही सामग्री बांधण्यास सक्षम होऊ इच्छित आहात. एंटरप्राइझवरून डिस्कनेक्ट केलेले, आपल्याला व्हॅक्यूममध्ये विश्लेषण नको आहे. जे काही मूल्य नाही.


आपणास असे विश्लेषण हवे असेल जे ऑपरेशन्सवर थेट परिणाम आणि ऑप्टिमाइझ करु शकतात. आणि जर मी मागे वळून पाहिले तर - आणि मला म्हणायचे आहे की, मी त्यावेळेस ही एक चांगली कल्पना आहे असे म्हटले आहे - ती भूतग्रंथातील खरोखर, खरोखर हुशार कल्पना आहे. आणि मी अंदाज लावत आहे, हा आपल्यासाठी खरोखर फायदा आहे. आणि अर्थातच, हा महान वारसा, हा प्रचंड स्थापित आधार आणि आपण या विश्लेषणे ऑपरेटिव्ह सिस्टममध्ये एम्बेड करण्यावर लक्ष केंद्रित केले आहे, याचा अर्थ आता - आणि मंजूर झाले आहे, हे काही कार्य करणार आहे - मला खात्री आहे की आपण ' यावर जोरदार प्रयत्न करत आहोत. परंतु आता, आपण या सर्व नवीन नवकल्पनांचा लाभ घेऊ शकता आणि खरोखरच आपल्या ग्राहकांसह सर्व सामग्री कार्यान्वित करण्यास सक्षम आहात. ते योग्य मूल्यांकन आहे?


किथ: होय, अगदी. संकल्पना अशी आहे की, आपल्याला ही कल्पना डिझाइन किंवा निर्णय विज्ञान ही कल्पना आहे जी आपल्याला काही प्रमाणात संशोधनात्मक, विज्ञान-वाय प्रकारची गोष्ट आहे. जोपर्यंत आपण खरोखर प्रक्रियेवर अभियांत्रिकी करू शकत नाही तोपर्यंत ... आपण कार विकसित करण्याबद्दल विचार करत असल्यास, आपल्याकडे ही सुंदर कार बनविणारे डिझाइनर सापडले आहेत, परंतु अभियंत्यांनी ती योजना त्या ठिकाणी ठेवली नाही आणि वास्तविक व्यवहार्य उत्पादन तयार करेपर्यंत नाही. प्रत्यक्षात गोष्टी ठेवू शकतात आणि एसएएसने हे केले आहे. याने निर्णय-अभियांत्रिकी प्रक्रियेसह निर्णय-डिझायनिंग प्रक्रिया एकत्र विलीन केली आहे, जेणेकरून आपण विशेषत: प्रवेगक, स्कोअरिंग प्रवेगकांबद्दल बोलता तेव्हा आपल्याला माहित असेल की आपण विकसित केलेले मॉडेल घेतल्यास आणि त्यास पुढे ढकलण्यास सक्षम असाल तर तेराडाटाला किंवा मॉडेलच्या विकासासाठी शून्य डाउनटाइमसह मॉडेल तैनातीसाठी ओरेकल किंवा हॅडूपला बाहेर ढकल. ते महत्त्वाचे आहे, कारण मॉडेल कालांतराने अधोगती करतात, त्या मॉडेल्सची अचूकता. तर, हे घेण्यास आणि उत्पादनास तयार होण्यास आपल्याला जितका वेळ लागेल, ते मॉडेल अचूकतेचे नुकसान आहे.


आणि मग, दुसरा भाग असा आहे की आपण वेळोवेळी त्या प्रक्रियेचे परीक्षण आणि व्यवस्थापन करण्यास सक्षम होऊ इच्छित आहात. जेव्हा मॉडेल जुन्या आणि चुकीच्या होतात तेव्हा आपण त्यांना नापसंत करू इच्छित आहात. आपल्याला ते पहायचे आहे, वेळोवेळी त्यांची अचूकता तपासा आणि ती पुन्हा तयार करा. आणि म्हणूनच आपल्याकडे मॉडेल मॅनेजमेंट टूल्स देखील आहेत जी त्याही वर बसून आहेत, जे मॉडेलिंग प्रक्रियेच्या आसपास मेटाडेटाचा खरोखर मागोवा ठेवते. आणि लोकांनी म्हटले आहे की मॉडेलिंग, आपल्याला माहित आहे की अशा प्रकारची संकल्पना मॉडेल कारखान्यासारखी आहे किंवा आपल्याला ज्याला कॉल करायचे आहे. गोष्ट अशी आहे की हे मेटाडेटा आणि व्यवस्थापन प्रक्रियेत ठेवत आहे आणि जिथे आपण मारलेल्या तीन मोठ्या गोष्टी - आम्ही लोकांना पैसे कमविण्यास मदत करतो, पैसे वाचवतो आणि त्यांना तुरूंगातून बाहेर ठेवतो.


एरिक: हे शेवटचेही खूपच मोठे आहे. मी हे सर्व टाळण्याचा विचार करीत आहे तर, याबद्दल बोलूया ...मी एक अंतिम प्रश्न देत आहे, कदाचित आपण प्रत्येकजण यावर जोरदार उडी मारू शकेल. आमच्या जगाची विषमता केवळ वाढेल, मला वाटते. मला वाटते आम्ही संकरीत मेघ वातावरणाभोवती काही स्फटिकरुप नक्कीच पाहणार आहोत. परंतु असे असले तरी, आपण सभोवताल असलेले बरेच मोठे खेळाडू पाहत असाल. आयबीएम कुठेही जात नाही. ओरॅकल कुठेही जात नाही. एसएपी कुठेही जात नाही. आणि असे बरेच विक्रेते आहेत जे या गेममध्ये सामील आहेत.


तसेच, कार्यकारी बाजूस, जिथे आपल्याला अक्षरशः हजारो आणि हजारो विविध प्रकारचे अनुप्रयोग मिळाले आहेत. आणि मी ऐकले - तुमच्यापैकी बहुतेकजण याबद्दल बोलतात परंतु मला असे वाटते की मी जे काही बोलतो त्यावर तुम्ही दोघेही सहमत होता. आम्ही हा ट्रेंड आता विश्लेषणात्मक इंजिन, आर्किटेक्चर मधील संगणकीय शक्तीच्या दृष्टीने पाहिला आहे. कंपन्या आता बर्‍याच वर्षांपासून तेथे असलेल्या इतर इंजिनमध्ये टॅप करण्यास सक्षम असण्याविषयी बोलत आहेत आणि एक प्रकारचा ऑर्केस्ट्रेशन पॉईंटची सेवा देतात. आणि माझा अंदाज आहे, जॉर्ज, मी ते प्रथम तुझ्यापर्यंत फेकून देईन. मला असे वाटते की ती काहीतरी बदलणार नाही. आमच्याकडे हे वैशिष्ट्यपूर्ण वातावरण आहे ज्याचा अर्थ असा आहे की रिअलटाइम सीआरएम आणि डेटा गुणवत्ता आणि डेटा प्रशासन यासारखी सामग्री आहे. विक्रेता म्हणून आपल्याला त्या सर्व भिन्न साधनांसह संवाद साधण्याची आवश्यकता असेल. आणि ग्राहकांना तेच हवे आहे. त्यांना असे काही नको आहे जे या साधनांसह ठीक करते आणि त्या साधनांसह ठीक नाही. त्यांना एमडीएम आणि सीआरएमचा स्वित्झर्लंड पाहिजे आहे, बरोबर?


जॉर्ज: बरोबर आहे. आणि हे मनोरंजक आहे, कारण आपण बरेच जण त्यास स्वीकारले आहे. त्याचा एक भाग म्हणजे आमच्याकडे अंतराळातील इतिहास होता. आणि अर्थातच, आम्ही आधीच इतर सर्व डेटाबेस, तेरादातास आणि जगाच्या तुकड्यांवर काम करत होतो. आणि नंतर - अंमलबजावणीच्या प्रक्रियेत, विशेषत: ज्याप्रमाणे आम्ही केले, केवळ त्याप्रमाणे केले - आपल्याकडे या सर्व विविध डेटाबेसमध्ये विस्तारित आहे. मला आवडलेल्या गोष्टींपैकी एक म्हणजे आपल्याकडे असे काही ग्राहक आहेत जे सर्व रिलेशनशियल डेटाबेस काढून टाकण्यावर नरक आहेत. आणि ते मनोरंजक आहे. तुला माहित आहे, मला म्हणायचे आहे, ते ठीक आहे. हे मनोरंजक आहे परंतु हे खरोखर मोठ्या एंटरप्राइझ स्केलवर घडत असल्याचे मला दिसत नाही. मी बर्‍याच दिवसांपासून हे घडत नाही. तर, मला वाटते हायब्रिड इथे खूप काळ आहे आणि आमच्या अ‍ॅप्लिकेशनच्या दुसर्‍या बाजूला जिथे आमचा मेसेजिंग प्लॅटफॉर्म आमच्या मोहिमेच्या मॅनेजमेंट प्लॅटफॉर्मवर आहे. आम्ही प्रत्यक्षात हे डिझाइन केलेले आहे. आता आम्ही ती आवृत्ती प्रकाशित केली आहे जी ती करते आणि ती आता संकरित डेटा वातावरणाशी कनेक्ट होऊ शकते आणि हडूपची चौकशी करू शकते किंवा डेटाबेस, कोणत्याही विश्लेषक डेटाबेसची चौकशी करू शकते. तर, मला वाटतं ते फक्त भविष्यातील लाट आहे. आणि मी सहमत आहे की व्हर्च्युअलायझेशन नक्कीच यात एक मोठी भूमिका निभावेल, परंतु आम्ही फक्त आहोत - आम्ही आमच्या सर्व अनुप्रयोगांमधील डेटा शोधत आहोत.


एरिक: ठीक आहे, छान आहे. आणि, कीथ, मी ते तुमच्याकडे फेकीन. आपण ज्या प्रकारच्या विषम जगाचा सामना करीत आहोत त्याबद्दल आपण काय विचार करता?


किथ: होय, ते खरोखरच आकर्षक आहे. मला वाटतं, आपल्याला काय सापडतं - केवळ डेटा व्यवस्थापन बाबींमध्येच नाही - परंतु सध्या जे खरोखर आकर्षक आहे ते म्हणजे विश्लेषक तळाचे मुक्त स्रोत आहे. म्हणून, आम्ही स्पार्क सारख्या तंत्रज्ञान बोर्डवर येत असल्याचे आणि पायथन आणि आर वापरणारे लोक आणि या सर्व मुक्त-स्त्रोत तंत्रज्ञानाकडे पाहतो. मला वाटते की हे एखाद्या विवादाचे किंवा काही प्रमाणात धोक्याचे म्हणून वर्णन केले जाऊ शकते. परंतु वास्तविकता अशी आहे की, आमच्याकडे त्या सर्व मुक्त-स्त्रोत तंत्रज्ञानाविषयी खरोखर आश्चर्यकारक कौतुक आहे. म्हणजे, एकासाठी, आम्ही देवाच्या सेवेसाठी ओपन-सोर्स प्लॅटफॉर्मच्या शीर्षस्थानी कार्य करीत आहोत.


परंतु देखील, समाकलित करण्यात सक्षम होण्यासारखे, उदाहरणार्थ, एसएएस प्रतिमानामध्ये आर मॉडेल आपल्याला दोन्ही जगातील सर्वोत्कृष्ट वापरण्याची परवानगी देतो, बरोबर? आवडले, म्हणून आम्हाला माहित आहे की शैक्षणिक जगातील काही प्रयोगात्मक गोष्टी आणि काही मॉडेल विकास कार्य मॉडेल विकास प्रक्रियेत विलक्षण आणि उत्कृष्ट मदत करतात. परंतु, जर आपण त्यास उत्पादनांच्या उत्पादनांच्या प्रकारासह जोडू शकले असाल तर ते पुष्कळसे क्लींजिंग आणि क्वालिटी करते आणि मॉडेलला देत असलेला डेटा आहे याची तपासणी करुन हे अचूकपणे तयार केले गेले आहे जेणेकरून ते अयशस्वी होणार नाही. अंमलबजावणी वर. आणि मग, मुक्त-स्त्रोत मॉडेल्ससह चॅम्पियन चॅलेंजर्स मॉडेलसारख्या गोष्टी करण्यात सक्षम असणे. आम्ही ज्या गोष्टी सक्षम करण्यासाठी पहात आहोत त्या त्या गोष्टी आहेत आणि या सर्व तंत्रज्ञानाच्या खरोखरच भिन्नलिंगी पर्यावरणातील एक भाग म्हणून. होय, म्हणून ते अधिक आहे - आमच्यासाठी ते त्या तंत्रज्ञानाचा स्वीकार करणे आणि प्रशंसा शोधणे याविषयी अधिक आहे.


एरिक: हो, लोकांनो, ही मस्त आहे. आम्ही येथे थोडा लांब गेलो, परंतु आम्हाला शक्य तितक्या अनेक प्रश्नांकडे जायचे आहे. आम्ही आज आमच्या सादरकर्त्यांकडे प्रश्नोत्तर फाइल पाठवू. म्हणून, जर आपण विचारलेल्या कोणत्याही प्रश्नाचे उत्तर मिळाले नाही तर आम्ही त्यास उत्तर दिलेले असल्याचे निश्चित करू. आणि लोकांनो, हे २०१ 2014 मध्ये गुंडाळले आहे. उद्या आणि पुढच्या आठवड्यात डीएम रेडिओवर तुमचा खरोखरच समावेश आहे, आणि मग हे सर्व झाले आणि ही सुट्टीचा ब्रेक आहे.


या सर्व आश्चर्यकारक वेबकास्ट्सवर टिकून राहिल्याबद्दल आपला वेळ आणि लक्ष दिल्याबद्दल आपणा सर्वांचे खूप खूप आभार. २०१ 2015 साठी आमच्यासाठी एक उत्तम वर्ष उभे आहे. आणि लोकांनो, आम्ही लवकरच आपल्याशी बोलू. पुन्हा धन्यवाद. आम्ही काळजी घेऊ. बाय-बाय.