सूचनेची शक्ती: डेटा कॅटलॉग विश्लेषकांना कसे सामर्थ्य देते

लेखक: Lewis Jackson
निर्मितीची तारीख: 11 मे 2021
अद्यतन तारीख: 1 जुलै 2024
Anonim
डेटा कॅटलॉग विश्लेषकांना कसे सशक्त बनवते हे सूचनेचे सामर्थ्य
व्हिडिओ: डेटा कॅटलॉग विश्लेषकांना कसे सशक्त बनवते हे सूचनेचे सामर्थ्य

टेकवे: होस्ट रेबेका जोझवियाकने डेझ ब्लांचफिल्ड, रॉबिन ब्लॉर आणि डेव्हिड क्रॉफर्ड यांच्यासह डेटा कॅटलॉगच्या फायद्यांविषयी चर्चा केली.




व्हिडिओ पाहण्यासाठी आपण या कार्यक्रमासाठी नोंदणी करणे आवश्यक आहे. व्हिडिओ पाहण्यासाठी नोंदणी करा.

रेबेका जोझवियाक: स्त्रिया व सज्जनांनो, २०१ 2016 च्या हॉट टेक्नॉलॉजीजस आपले नमस्कार आणि त्यांचे स्वागत आहे. आज आम्हाला मिळाले आहे, “सूचनांचे पॉवर: डेटा कॅटलॉग विश्लेषकांना कसे सामर्थ्यवान बनवतो.” मी आज तुमचा नेहमीचा यजमान एरिक कवानागसाठी भरला आहे. जग प्रवास करीत आहे, म्हणूनच आमच्यात सामील झाल्याबद्दल धन्यवाद. हे वर्ष गरम आहे, मी जिथे आहे तेथे टेक्सासमध्ये फक्त गरम नाही, परंतु सर्व ठिकाणी ते गरम आहे. सर्व प्रकारच्या नवीन तंत्रज्ञानाचा स्फोट उद्भवत आहे. आपल्याकडे आयओटी, स्ट्रीमिंग डेटा, क्लाऊड अ‍ॅपॉप्शन, हॅडॉप परिपक्व होत आहे आणि त्याचा अवलंब केला जातो. आमच्याकडे ऑटोमेशन, मशीन लर्निंग आहे आणि या सर्व गोष्टी नक्कीच डेटाद्वारे अधोरेखित केल्या आहेत. आणि दिवसेंदिवस एंटरप्राइजेस अधिकाधिक डेटा बनत आहेत. आणि अर्थातच, त्यामागचा मुद्दा म्हणजे ज्ञान, आणि शोध आणि आपल्याला चांगले माहित आहे की चांगले निर्णय घ्या. परंतु डेटामधून खरोखर अधिक मूल्य प्राप्त करण्यासाठी, ते मिळविणे सोपे झाले. जर आपण ते लॉक केलेले किंवा दफन केले असल्यास किंवा एंटरप्राइझमधील काही लोकांच्या मेंदूत ठेवले असेल तर ते संपूर्ण एंटरप्राइझसाठी बरेच काही करणार नाही.


आणि मी डेटा कॅटलिग करणे आणि ग्रंथालयांच्या कोर्सविषयी विचार करण्याचा एक प्रकारचा विचार करीत होतो, जिथे आपण शोधण्यासाठी काही शोधण्याची आवश्यकता असल्यास किंवा आपण काही माहिती शोधण्यासाठी आवश्यक असल्यास, आपण ग्रंथालयात गेला होता , आणि अर्थातच आपण कार्ड कॅटलॉगवर गेला होता किंवा तेथे काम करणार्‍या क्रॅबी बाईकडे गेला होता. पण एक प्रकार फिरणे देखील मजेदार आहे, जर आपल्याला फक्त पहायचे असेल आणि आपल्याला काहीतरी व्यवस्थित सापडले असेल तर कदाचित आपल्याला कळाले नाही अशा काही मनोरंजक तथ्या सापडतील परंतु आपल्याला खरोखर काहीतरी शोधण्याची आवश्यकता असल्यास आणि आपण काय शोधत आहात हे आपल्याला माहित आहे, आपल्याला कार्ड कॅटलॉगची आवश्यकता आहे आणि अर्थातच एंटरप्राइझ समकक्ष एक डेटा कॅटलॉग आहे, जो आपल्या वापरकर्त्यांना समृद्ध करण्यासाठी, शोधण्यात, सामायिक करण्यास, उपभोगण्यास आणि लोकांना मदत करण्यात खरोखर मदत करण्यात मदत करू शकेल. डेटा वेगवान आणि सुलभ करण्यासाठी.

तर आज आम्हाला डेझ ब्लान्कफिल्ड मिळाला, जो आमचा स्वतःचा डेटा वैज्ञानिक आहे, आणि आमच्याकडे डॉक्टर रॉबिन ब्लॉर, आमचे स्वतःचे मुख्य विश्लेषक, आम्हाला अ‍ॅलेशनकडून डेव्हिड क्रॉफर्ड मिळाला आहे, जो त्याच्या कंपनीच्या डेटा कॅटलिग कथेबद्दल बोलणार आहे, परंतु प्रथम आम्ही जात आहोत Dez सह बंद आघाडी देझ, मी बॉल तुमच्याकडे जात आहे आणि मजला तुमची आहे.


डेझ ब्लांचफील्ड: धन्यवाद, आज मला आल्याबद्दल धन्यवाद. ही एक गोष्ट आहे ज्यामध्ये मला अत्यंत रस आहे, कारण जवळपास प्रत्येक संस्था ज्याला मी दररोज कामात आणतो, मला नेमका तोच मुद्दा आढळतो ज्याबद्दल आम्ही शो-प्री-बॅनरमध्ये अगदी थोडक्यात बोलत होतो आणि तेच काही वर्षांपेक्षा जास्त काळ व्यवसायात असलेल्या संस्थांकडे संस्थेच्या आजूबाजूला, विविध स्वरुपाची माहिती पुरविली गेली आहे आणि खरं तर माझ्याकडे क्लायंट आहेत ज्यांचे डेटा सेट आहेत जे लोटस नोट्सकडे परत आहेत, काहींमध्ये अजूनही कार्यरत असलेले डेटाबेस त्यांचा छद्म व्यत्यय आला आहे आणि ते सर्व त्यांचा डेटा कोठे आहे हे शोधण्याचे आव्हान करीत आहेत आणि त्यात प्रवेश कसा मिळवायचा, त्यात प्रवेश कसा द्यायचा, त्यांना कधी प्रवेश द्यावा आणि कसे करावे कॅटलॉग आणि ते त्या ठिकाणी कसे पोहोचेल जेथे प्रत्येकजण येऊ शकेल: अ) तेथे काय आहे आणि त्यामध्ये काय आहे याची जाणीव असू द्या, आणि बी), त्यात प्रवेश कसा मिळवायचा आणि कसा वापरावा. आणि त्यातल्या सर्वात मोठ्या आव्हानांपैकी एक म्हणजे ते शोधणे, दुसरे मोठे आव्हान म्हणजे तिथे काय आहे आणि त्यात कसे प्रवेश करावे हे जाणून घेणे.

मला ठाऊक असेल की माझ्याकडे डझनभर डेटाबेस आहेत, परंतु तेथे काय आहे किंवा तेथे काय आहे ते कसे शोधावे हे मला माहित नाही आणि म्हणूनच आम्ही आता प्री-शो डेटामध्ये शोधत आहोत, आपण चालत जाणे कार्यालयाभोवती प्रश्न विचारणे आणि क्यूबिकल भिंती ओलांडून पहा आणि समजून घ्या, बर्‍याचदा माझा अनुभव असा आहे की, तुम्ही समोरच्या डेस्ककडे, रिसेप्शनमध्ये भटकत असता आणि एखाद्याला आपण कोण आहात हे माहित असल्यास विचाराल पुन्हा बोलू जा. बर्‍याचदा हे नेहमी आयटी लोक नसतात कारण त्यांना डेटा सेटविषयी माहिती नसते कारण एखाद्याने नुकताच तो तयार केला आहे आणि हे एक सोपे काहीतरी असू शकते - बर्‍याचदा आम्हाला आयटी वातावरणात उभा असलेला एखादा प्रकल्प सापडेल आणि प्रोजेक्ट मॅनेजरने सर्व गोष्टींचे स्प्रेडशीट वापरलेले आहे आणि मालमत्ता आणि फसवणूक व नावे याबद्दल मौल्यवान माहिती मिळविली आहे आणि जो प्रकल्प आपल्याला माहित नाही आणि जोपर्यंत आपण त्या व्यक्तीस ओळखत नाही तोपर्यंत आपण ती माहिती शोधू शकत नाही. हे फक्त उपलब्ध नाही आणि आपल्याला ती मूळ फाईल धरुन मिळाली आहे.

आकडेवारीसंदर्भात अशी एक वाक्यांश आहे ज्याच्या भोवती मी बॅन केले आहे आणि मला त्याशी सहमत होणे आवश्यक नाही, परंतु मला वाटते की हे एक छानसे लहानसे आहे आणि ते असे आहे की काही लोकांना वाटते की डेटा नवीन तेल आहे, आणि मला खात्री आहे की आम्ही हे आजच्या काही बाबींशी संबंधित आहे. परंतु जे मला लक्षात आले आहे की ते त्या परिवर्तनाचा नक्कीच एक भाग आहे, ते म्हणजे त्या व्यवसायांच्या संस्था ज्या त्यांच्या डेटाचे मूल्य शिकण्यास शिकलेल्या आहेत त्यांनी त्यांच्या प्रतिस्पर्ध्यांपेक्षा महत्त्वपूर्ण फायदा मिळविला आहे.

सुमारे पाच किंवा सहा वर्षांपूर्वी आयबीएमचा एक मनोरंजक पेपर होता, आणि त्यांनी येथे ऑस्ट्रेलियात सुमारे ,000,००० कंपन्यांचे सर्वेक्षण केले आणि त्यांनी सर्व माहिती, सर्व कामगिरी डेटा, सर्व फायनान्स डेटा घेतला आणि एका उकळत्या भांड्यात एकत्र ठेवले आणि त्यानंतर ते ऑस्ट्रेलियन स्कूल ऑफ इकॉनॉमिक्सकडे पाठविले आणि त्यांनी येथे खरोखर एक सामान्य ट्रेंड सुरू केला आणि ते म्हणजे तंत्रज्ञानाचा फायदा उठविणार्‍या कंपन्यांनी त्यांच्या प्रतिस्पर्धी आणि प्रतिस्पर्धी प्रति स्पर्धकांवर असा प्रतिस्पर्धी फायदा मिळविला की त्यांचे प्रतिस्पर्धी जवळजवळ कधीच पकडत नाहीत आणि मला वाटते लोक आत्ताच डिजिटल ट्रान्सफॉर्मेशन म्हणून ओळखले आहेत अशा आकडेवारीमुळे डेटा सापडला आहे जिथे आपल्याला मिळालेला डेटा कसा शोधायचा, डेटा उपलब्ध करुन देण्यासाठी, आणि काही सोप्या उपभोगण्यायोग्य वस्तूंमध्ये उपलब्ध करुन देणा organizations्या संस्थांना स्पष्टपणे कळले आहे संस्थेस फॅशन, नेहमीच संघटनेची आवश्यकता का असू शकते हे जाणून घेतल्याशिवाय आणि प्रतिस्पर्ध्यांकडून महत्त्वपूर्ण फायदा मिळवणे.

या स्लाइडवर माझ्याकडे दोन उदाहरणे आहेत, जी आपण पाहू शकता. माझा एक मुद्दा असा आहे की माझ्या दृष्टीने जवळजवळ प्रत्येक उद्योग क्षेत्रात मोठ्या प्रमाणात व्यत्यय आला आहे आणि डेटाद्वारे चालविला जात आहे आणि जर सध्याचा ट्रेंड काही जाणारा असेल तर माझे मत आहे की आपण फक्त खरोखर मिळवले आहे सुरुवात केली कारण जेव्हा दीर्घकाळ अस्तित्त्वात असलेल्या ब्रॅन्ड्स शेवटी काय याचा अर्थ जागृत करतात आणि गेममध्ये प्रवेश करतात तेव्हा घाऊक ठिकाणी ते गेममध्ये प्रवेश करतात. जेव्हा डेटाचे डोंगर असलेले मोठे किरकोळ विक्रेते डेटावर काही ऐतिहासिक विश्लेषण लागू करण्यास प्रारंभ करतात, जर त्यांना हे देखील माहित असेल की ते अस्तित्त्वात आहे, तर काही ऑनलाइन खेळाडूंना थोडासा वेकअप कॉल मिळेल.

परंतु यापैकी बर्‍याच ब्रँडसह, माझा अर्थ असा आहे की आम्हाला जगातील सर्वात मोठी टॅक्सी कंपनी उबर मिळाली आहे. त्यांच्याकडे कुठल्याही टॅक्सीचे मालक नाहीत, मग काय आहे जे त्यांना जादू करते, त्यांचा डेटा काय आहे? एरबीएनबी, सर्वात मोठी निवास व्यवस्था प्रदान करणारी कंपनी, आम्हाला वेचॅट ​​ही जगातील सर्वात मोठी फोन कंपनी मिळाली आहे, परंतु त्यांच्याकडे प्रत्यक्ष पायाभूत सुविधा नाहीत, हँडसेट नाहीत, फोन लाइन नाहीत. अलिबाबा, जो ग्रहातील सर्वात मोठा किरकोळ विक्रेता आहे, परंतु त्यांच्याकडे कोणत्याही मालकाची मालकी नाही. , या शब्दातील सर्वात मोठी मीडिया कंपनी. माझ्या मते आता शेवटच्या मोजणीत त्यांचेकडे 1.4 अब्ज सक्रिय डेटा वापरकर्ते आहेत, जे मनाने-धक्कादायक संख्या आहे. हे कोठेही जवळ नाही - मला असे वाटते की एखाद्याने असा दावा केला आहे की या ग्रहाचा एक चतुर्थांश भाग दररोज तिथे आहे आणि तरीही येथे एक सामग्री प्रदाता आहे जो प्रत्यक्षात सामग्री तयार करीत नाही, त्यांनी सर्व्ह केलेला सर्व डेटा त्यांच्याद्वारे तयार केलेला नाही, तो त्यांच्याद्वारे तयार केलेला आहे ग्राहक आणि हे मॉडेल आपल्या सर्वांना माहित आहे.

सोसायटी एक, जो तुम्ही ऐकला नसेल किंवा ऐकला नसेल, हा एक स्थानिक ब्रँड आहे, मला असे वाटते की दोन देशांमध्ये ही एक बँक आहे जी प्रत्यक्षात पीअर-टू-पीअर कर्ज देते, म्हणजेच दुसर्‍या शब्दांत सांगायचे तर, त्यास पैसे नसतात. हे सर्व ते व्यवस्थापित करते आणि डेटा खाली बसतो. नेटफ्लिक्स, आम्ही सर्व खूपच परिचित आहोत, त्याविषयी येथे एक मनोरंजक एक-लाइनर आहे. जेव्हा नेटफ्लिक्स ऑस्ट्रेलियात कायदेशीररीत्या वापरण्यास सक्षम होता, जेव्हा याची अधिकृत घोषणा केली गेली होती, तेव्हा आपण त्याकडे जाण्यासाठी व्हीपीएन वापरण्याची गरज नव्हती, तेव्हा जगभरातील बर्‍याच लोकांचा कल असतो - आपण आपल्या स्थानिक क्षेत्रात जेव्हा ते घेऊ शकत नाही - तेव्हा नेटफिक्स ऑस्ट्रेलियात लाँच करण्यात आला होता, त्याने आमच्या इंटरनेट दुवेवरील आंतरराष्ट्रीय बँडविड्थ मध्ये 40 टक्क्यांनी वाढ केली, म्हणून ऑस्ट्रेलियाने रात्रीच्या वेळी इंटरनेटचा वापर जवळजवळ दुप्पट केला, फक्त एका अनुप्रयोगाद्वारे, क्लाऊड-होस्ट केलेला अनुप्रयोग जो डेटासह खेळण्याशिवाय काहीही करत नाही. ती फक्त एक मानसिक-चिंताजनक आकडेवारी आहे.

आणि नक्कीच, आम्ही सर्व Appleपल आणि गूगलशी परिचित आहोत, परंतु हे या ग्रहावरील सर्वात मोठे सॉफ्टवेअर व्यवसाय आहेत, तरीही ते अॅप्स प्रत्यक्षात लिहित नाहीत. या सर्व संस्थांशी सुसंगत गोष्ट काय आहे? बरं, हा डेटा आहे आणि तो तिथे पोचला नाही कारण त्यांचा डेटा कुठे आहे हे त्यांना माहिती नव्हतं आणि ते कॅटलॉग कसे करायचे ते त्यांना माहिती नव्हते.

आम्ही आत्ता शोधत आहोत की डेटा म्हणून उल्लेख केलेला हा संपूर्ण नवीन मालमत्ता वर्ग आहे आणि कंपन्या त्याकडे जागृत आहेत. परंतु त्यांच्याकडे नेहमीच साधने आणि माहिती नसते की त्या सर्व डेटाचा नकाशा तयार करणे, त्या सर्व डेटाची सूची तयार करणे आणि ते उपलब्ध करणे, परंतु आम्हाला आढळले आहे की जवळजवळ कोणतीही भौतिक मालमत्ता नसलेल्या कंपन्यांनी विक्रमी वेळेत उच्च बाजार मूल्य मिळवले आहे. या नवीन डेटा मालमत्ता वर्गाद्वारे. मी म्हटल्याप्रमाणे, काही जुन्या खेळाडू आता याकडे जागृत झाले आहेत आणि निश्चितच ते बाहेर आणत आहेत.

मी थोड्याशा प्रवासात लोक घेण्याचा एक मोठा चाहता आहे, म्हणून अठरा शतकांमध्ये, अठरा शतके उशीरा आणि अमेरिकेच्या बाजारपेठेत आपणास त्यापेक्षा जास्त परिचित व्हावे लागेल, जनगणना चालवावी लागेल. प्रत्येक वर्षी किंवा त्यावेळेस, मला वाटते की ते त्या ठिकाणी दर दहा वर्षांनी त्या ठिकाणी धावतात, परंतु जर आपण दरवर्षी जनगणना करणार असाल तर डेटा विश्लेषण करण्यासाठी आपल्याला आठ किंवा नऊ वर्षे लागू शकतात. असे आढळले की तो डेटा कागदाच्या ठिकाणी बॉक्समध्ये बाकी होता आणि जवळजवळ कोणालाही तो सापडला नाही. त्यांनी फक्त हे अहवाल पुढे आणले, परंतु वास्तविक डेटा मिळणे फारच कठीण आहे, दुसर्‍या महायुद्धानंतर आमच्याकडे दुसर्‍या जगाच्या महत्त्वपूर्ण क्षणासारखीच परिस्थिती आहे, १ 40 s० च्या दशकात, आणि ही गोष्ट म्हणजे बॅलेटले पार्क बोम्बेने बोम्बेला स्पेल केले , आणि हे एक प्रचंड संख्या-क्रंचिंग विश्लेषणात्मक साधन होते जे लहान डेटा सेट्समधून जात होते आणि त्यामध्ये सिग्नल शोधत असत आणि एनिग्माद्वारे क्रॅक कोडमध्ये मदत करण्यासाठी वापरले जायचे.

ही गोष्ट पुन्हा एकदा मूलभूतपणे तयार केलेली एक डिव्हाइस होती, कॅटलॉगसाठी जास्त नव्हती, परंतु डेटा टॅग करणे आणि नकाशा बनविणे आणि त्यास नमुन्यांची तपासणी करणे आणि डेटा सेटमध्ये ते शोधणे शक्य करणे, या प्रकरणात कोड्स तोडणे, कळा आणि वाक्ये शोधा आणि शोधा त्या नियमितपणे डेटा सेटमध्ये असतात आणि म्हणून आम्ही डेटामध्ये गोष्टी शोधण्याच्या आणि डेटा सूचीबद्ध करण्याच्या दिशेने वाटचाल करत होतो.

आणि मग या गोष्टी आल्या, ही प्रचंड स्वस्त किमतीची रॅक, फक्त ऑफ-द शेल्फ मशीन. आणि आम्ही काही अतिशय मनोरंजक गोष्टी केल्या आणि त्यापैकी एक गोष्ट म्हणजे आम्ही अत्यंत कमी खर्चाचे क्लस्टर तयार केले जे या ग्रहाची अनुक्रमणिका बनवू शकतील आणि फार प्रसिद्ध म्हणजे या मोठ्या ब्रॅण्ड ज्या आल्या आणि गेल्या आहेत, परंतु कदाचित Google सर्वात सामान्य घर आहे ज्या ब्रँडचा आपण सर्वांनी ऐकला आहे - तो एक वास्तविक क्रियापद बनला आहे आणि आपला ब्रँड क्रियापद झाला की आपण यशस्वी व्हाल हे आपल्याला माहित आहे. परंतु Google ने आम्हाला काय शिकवले, हे लक्षात न घेता, शक्यतो व्यवसाय जगात, ते संपूर्ण ग्रह एका विशिष्ट स्तरावर अनुक्रमित करण्यास सक्षम होते आणि जगभरातील डेटाची सूची बनविण्यास सक्षम होते आणि ते अगदी सोप्या पद्धतीने उपलब्ध करुन देण्यास सक्षम होते, थोड्याशा एक-लाइन सूत्रामध्ये सोयीस्कर फॉर्म, एक वेबपृष्ठ ज्यावर जवळजवळ काहीही नाही आणि आपण आपल्या क्वेरीमध्ये टाइप करता, ते जाऊन ते सापडते कारण त्यांनी आधीपासूनच ग्रह क्रॉल केले आहे, अनुक्रमित केले आहे आणि ते सहज उपलब्ध केले आहे.

आणि आमच्या लक्षात आले की, “बरं रहा, आम्ही संस्थांमध्ये हे करत नाही - असं का आहे? आपल्याकडे असे एक संघटन कसे आहे जे संपूर्ण ग्रहाचा नकाशा बनवू शकेल आणि त्यास अनुक्रमित करेल, त्यास रेंगाळेल आणि अनुक्रमणिका बनवू शकेल आणि ती उपलब्ध करुन देऊ शकेल, मग आपण त्यास शोधू आणि मग शोधून काढलेल्या वस्तूवर क्लिक करू आणि मग आपण कसे येऊ आंतरीकपणे हे केले नाही? ”म्हणून आता जगभरात अशा बर्‍याच लहान रॅक आहेत ज्या इंट्रानेट्ससाठी करतात आणि गोष्टी शोधतात, परंतु अजूनही ते पारंपारिक वेब पृष्ठापलीकडे जाण्याच्या कल्पनेने पकडत आहेत, किंवा फाइल सर्व्हर.

आता या पुढील पिढीला डेटा कॅटलॉगच्या कित्येक मार्गांनी प्रवेश करण्याऐवजी पोस्ट नोट्स आणि वॉटर कूलर संभाषणांद्वारे डेटा एक्सेस शोधणे खरोखर डेटा शोध आणि कॅटलॉगसाठी खरोखर योग्य पद्धत नाही आणि खरं तर, मला वाटत नाही की ती खरोखर खरोखर होती . आम्ही यापुढे हे सर्व आव्हान लोकांना फक्त नोट्स पाठविण्यापर्यंत, आणि नोट्स पोस्ट करणे आणि त्याबद्दल गप्पा मारत आणू शकत नाही. डेटा कॅटलिग करण्यासाठी हा पुढील-सर्वसाधारण दृष्टीकोन जिथे आला आणि आता गेला त्या प्रदेशाच्या पलीकडे आम्ही आहोत. आजूबाजूला आपले हात घ्यावेत. जर ही एक सोपी समस्या असेल तर आम्ही आधीपासूनच बर्‍याच प्रकारे निराकरण केले असते, परंतु मला असे वाटते की ही एक सोपी समस्या नाही, फक्त डेटा सूचीबद्ध करणे आणि मेटाडेटा तयार करणे हे डेटाची अनुक्रमणिका आणि कॉल करणे त्यातील केवळ एक भाग आहे. आम्हाला जे सापडते त्याभोवती आणि नंतर त्यास सोप्या, वापरण्यायोग्य स्वरूपात, विशेषत: स्वयं-सेवा आणि विश्लेषणासाठी उपलब्ध करुन देणे. ही अजूनही निराकरण केलेली समस्या आहे, परंतु पाच वर्षात कोडे बरेच भाग चांगले आणि खरोखर निराकरण झाले आहेत आणि उपलब्ध आहेत.

जसे आपल्याला माहित आहे की, डेटाची यादी करणे मानके अपयशाची एक कृती आहे कारण मानवी त्रुटी ही आम्ही डेटा प्रोसेसिंगमध्ये सामोरे जाणा greatest्या सर्वात वाईट स्वप्नांपैकी एक आहे आणि मी या विषयाबद्दल नियमितपणे बोलतो जिथे माझ्या दृष्टीने कागदाचे फॉर्म भरलेले मानव बहुधा सर्वात वाईट स्वप्न आहे. तारीख आणि फिल्ड यासारख्या सोप्या गोष्टींपर्यंत लोक चुकीच्या स्वरुपात ठेवतात त्याप्रमाणे गोष्टी सतत करत असतात आणि त्यासाठी आम्ही मोठा डेटा आणि विश्लेषणात काम करतो.

परंतु मी म्हटल्याप्रमाणे, आम्ही इंटरनेट शोध इंजिने दररोज जगातील अनुक्रमणिका पाहिले आहे, म्हणून आता आम्ही या कल्पनेवर पोहोचलो आहोत की ते शोध प्रक्रियेतील व्यवसायाच्या डेटा सेटवर केले जाऊ शकते आणि साधने आणि सिस्टीम आता आज आपण जसा शिकणार आहात तसतसे सहज उपलब्ध. तर युक्ती, खरोखर माझ्या दृष्टीने, योग्य साधने, नोकरीसाठी सर्वोत्तम साधने निवडत आहे. आणि त्याउलट योग्यरित्या, या मार्गास प्रारंभ करण्यास मदत करण्यासाठी त्याचा उजवा भाग शोधणे. आणि माझा विश्वास आहे की आपण आज त्याबद्दल ऐकत आहोत, परंतु हे करण्यापूर्वी मी माझ्या कॉलेजमध्ये जाईन रॉबिन ब्लॉर आणि त्या विषयावर घेतलेली सुनावणी. रॉबिन, मी तुला पाठवू शकतो?

रॉबिन ब्लॉर: होय, नक्कीच आपण हे करू शकता. हे कार्य करते की नाही ते पाहूया, होय ते करतो. ठीक आहे, मी देझपेक्षा वेगळ्या दिशेने येत आहे, परंतु मी त्याच जागी येईन. हे डेटाशी कनेक्ट करण्याबद्दल आहे, म्हणून मी विचार केला आहे की मी डेटाद्वारे कनेक्ट होण्याच्या वास्तविकतेतून जात आहे.

एक तथ्य आहे की डेटा पूर्वीपेक्षा अधिक खंडित झाला आहे. डेटाचे प्रमाण आश्चर्यकारकपणे वाढत आहे, परंतु वास्तविकतेनुसार, डेटाचे भिन्न स्रोत देखील अविश्वसनीय दराने वाढत आहेत आणि म्हणूनच डेटा नेहमीच खंडित होत जात आहे. परंतु विशेषतः विश्लेषणात्मक अनुप्रयोगांमुळे - परंतु केवळ तेच अनुप्रयोग नाहीत - आम्हाला या सर्व डेटाशी कनेक्ट करण्याचे खरोखर चांगले कारण मिळाले आहे, म्हणून आम्ही एका कठीण ठिकाणी अडकलो आहोत, आम्ही खंडित डेटाच्या जगात अडकलो आहोत, आणि डेजमध्ये त्याला एक नवीन तेल म्हणत असताना संधी आहे.

डेटाविषयी, हे फाईल सिस्टम किंवा डेटाबेसमध्ये फिरकी डिस्कवरच रहायचे. आता हे बर्‍याच वैविध्यपूर्ण वातावरणात राहत आहे, ते फाईल सिस्टीममध्ये राहते परंतु हे आजकाल हॅडॉप उदाहरणांत किंवा स्पार्कच्या घटनांमध्ये देखील आहे. हे डेटाबेसच्या अनेक प्रजातींमध्ये राहते. इतके दिवसांपूर्वीच आम्ही काही रिलेशनल डेटाबेस प्रमाणित केले आहेत, हे तुम्हाला ठाऊकच आहे की मागील पाच वर्षात विंडो बाहेर गेली आहे कारण कागदपत्रांच्या डेटाबेसची आवश्यकता आहे आणि आलेख डेटाबेसची आवश्यकता आहे, म्हणजे गेममध्ये आहे बदलले तर ते कताई डिस्कवर राहत होते, परंतु आता ते एसएसडीवर आहे. एसएसडीची नवीनतम रक्कम - निश्चितपणे नवीनतम एसएसडी युनिट सॅमसंगमधून येत आहे - वीस गीगाबाइट, जे प्रचंड आहे. आता हे स्मृतीत राहते, या अर्थाने डेटाची मुख्य प्रत डिस्कवर न ठेवता मेमरीमध्ये असू शकते, आम्ही असे सिस्टम तयार करण्यासाठी वापरत नाही; आम्ही आता करतो. आणि तो ढगात राहतो. याचा अर्थ असा की तो ढगात या कोणत्याही गोष्टीमध्ये राहू शकतो, तो ढगामध्ये कोठे आहे हे आपणास ठाऊक नसते, आपल्यास त्याचा पत्ताच असेल.

फक्त पॉईंटवर जाण्यासाठी, हडूप आतापर्यंत एक्स्टेंसिबल डेटा स्टोअर म्हणून अयशस्वी झाला आहे. आम्ही आशा केली होती की हा एक विस्तारणीय स्केल-आउट डेटा स्टोअर होईल आणि ती प्रत्येक गोष्टीसाठी फक्त एक फाईल सिस्टम बनवेल आणि ती होईल - आकाशात इंद्रधनुष्य दिसून येईल, मुळात, युनिकॉर्न भोवती नाचतील आणि तसे घडले नाही. याचा अर्थ असा आहे की आपल्याकडे डेटा वाहतुकीची समस्या उद्भवते आणि काही वेळा डेटा वाहतुकीची आवश्यकता नसते परंतु ही एक अडचण देखील असते. आजकाल डेटामध्ये खरोखरच गुरुत्वाकर्षण असते, एकदा आपण एकाधिक-टराबाईट डेटामध्ये प्रवेश केला, तो उचलला आणि त्यास सुमारे फेकून दिला, तेव्हा आपल्या नेटवर्कवर काही प्रकारचे विलंब दिसू शकतात किंवा विविध ठिकाणी दिसू शकतात. आपण सुमारे डेटा वाहतूक करू इच्छित असल्यास, वेळ एक घटक आहे. जवळजवळ नेहमीच, आजकाल, आपल्याला एखादी गोष्ट मिळविण्यासाठी किती वेळ मिळाला यावर काही मर्यादा असतात, एका ठिकाणाहून दुसर्‍या ठिकाणी डेटा मिळतो. आम्ही जेव्हा बॅच विंडोज म्हणून विचार करायचो, जेव्हा मशीन एक प्रकारचा निष्क्रिय असेल आणि आपल्याकडे किती डेटा असेल तरीही आपण त्यास सुमारे फेकू शकता आणि हे सर्व कार्य करेल. बरं झालं, आपण बर्‍याच रिअल-टाइम जगात आहोत. म्हणून वेळ देणे हा एक घटक आहे. तितक्या लवकर आपण डेटा हलवू इच्छित म्हणून, म्हणून जर डेटामध्ये गुरुत्व असेल तर आपण कदाचित ते हलवू शकत नाही.

डेटा व्यवस्थापन हा एक घटक आहे ज्यायोगे आपल्याला हा सर्व डेटा व्यवस्थापित करावा लागला असेल, तो आपल्याला विनामूल्य मिळणार नाही, आणि त्याऐवजी आवश्यक असलेली कार्ये करण्यासाठी डेटा मिळविण्यासाठी नक्कल करणे आवश्यक असू शकते, कारण कदाचित तू जेथे ठेवले तेथे असू नकोस. डेटाची सामान्य प्रक्रिया करण्यासाठी त्याकडे पर्याप्त संसाधने नसू शकतात. तर डेटाची प्रत बनविली जाते आणि डेटा आपल्या कल्पनेपेक्षा जास्त प्रत बनवतो. मला वाटते की एखाद्याने बराच काळापूर्वी मला सांगितले होते की डेटाचा सरासरी तुकडा किमान अडीच वेळा प्रतिकृत केला जातो. ईएसबी किंवा कफका डेटा प्रवाहासाठी एक पर्याय सादर करतात, परंतु आजकाल ते आर्किटेक्चरची मागणी करतात. आजकाल आपल्याला खरोखर एक मार्ग किंवा दुसरे विचार करणे आवश्यक आहे डेटा जवळपास फेकणे याचा अर्थ काय आहे याबद्दल. म्हणूनच, जिथे आहे तेथे डेटामध्ये प्रवेश करणे सामान्यतः श्रेयस्कर आहे, जोपर्यंत आपण डेटासाठी प्रत्यक्षात जाताना आपल्याला आवश्यक कार्यप्रदर्शन मिळू शकते आणि जे कॉनवर अवलंबून असते. तर, तरीही, ही एक कठीण परिस्थिती आहे. डेटा क्वेरीच्या बाबतीत, आम्ही एसक्यूएलच्या दृष्टीने विचार करण्यास सक्षम होतो, आम्ही आता प्रत्यक्षात आलो आहोत, आपल्याला माहिती आहे, क्वेरीचे विविध प्रकार, एसक्यूएल होय, परंतु समीप, तसेच ग्राफ क्वेरी, स्पार्क हे ग्राफ करणे हे फक्त एक उदाहरण आहे. , कारण आम्हाला शोध घेण्याची देखील आवश्यकता होती, आपल्यापूर्वीच्यापेक्षा अधिक शोध, रेजेक्स प्रकारातील शोध, जे खरोखरच जटिल शोध नमुन्यांचा शोध आहे आणि अस्सल नमुना जुळत आहे, या सर्व गोष्टी प्रत्यक्षात बुडबुडाल्या आहेत. आणि हे सर्व उपयुक्त आहेत कारण आपण जे शोधत आहात ते आपल्याला मिळतात किंवा आपण ज्याला शोधत आहात ते ते आपल्याला मिळवू शकतात.

क्वेरी आता दिवसभर एकाधिक डेटामध्ये असतात, म्हणून हे नेहमीच तसे करत नाही आणि आपण असे केल्यास बर्‍याचदा कार्यप्रदर्शन भीतीदायक होते. तर, हे परिस्थितीवर अवलंबून आहे, परंतु एकाधिक डेटा स्रोतांकडून डेटा क्वेरी करण्यात सक्षम होण्याची लोकांची अपेक्षा आहे, म्हणून एका क्रमवारीत किंवा दुसर्‍या डेटा फेडरेशनचे प्रमाण अधिकाधिक चालू होत आहे. कार्यप्रदर्शनानुसार डेटा वर्च्युअलायझेशन करणे ही एक वेगळी पद्धत आहे. डेटा क्वेरी प्रत्यक्षात प्रक्रियेचा एक भाग असतात, संपूर्ण प्रक्रियेचा नसतात. हे खरोखरच सांगण्यासारखे आहे की आपण खरोखर विश्लेषणाची कार्यक्षमता पाहत असाल तर वास्तविक विश्लेषणे डेटा गोळा करण्यापेक्षा खूपच जास्त वेळ घेऊ शकतात, कारण ती परिस्थितीवर अवलंबून असते, परंतु आपल्याला काही करायचे असल्यास डेटा क्वेरी ही परिपूर्ण आवश्यकता आहे एकाधिक डेटा स्रोतांवरील विश्लेषकांचे प्रकार, आणि हे फक्त आपल्याकडे खरोखरच क्षमता असणे आवश्यक आहे.

कॅटलॉग बद्दल.कॅटलॉग्स एका कारणास्तव अस्तित्वात आहेत, कमीतकमी आम्ही असे म्हणत आहोत की, आपल्यास माहिती आहे, त्या आहेत, आमच्याकडे निर्देशिका आहेत आणि आमच्याकडे डेटाबेसमध्ये स्कीमा आहेत आणि आमच्याकडे प्रत्येक कॅटलॉग आहे आणि आपण जिथे जिथे जाल तिथे आपल्याला एक जागा मिळेल आणि नंतर आपण प्रत्यक्षात मिळवाल शोधून काढा की काही प्रकारचे कॅटलॉग आहे आणि युनिफाइड ग्लोबल कॅटलॉग ही एक चांगली चांगली कल्पना आहे. परंतु फारच कमी कंपन्यांकडे अशी गोष्ट आहे. मला आठवत नाही, परत वर्ष दोन हजारात - वर्ष दोन हजार पॅनीक - मला आठवत नाही की कम्युनिस्ट त्यांच्याकडे किती एक्झिक्युटेबल होते हे सांगू शकले नाहीत, त्यांच्याकडे किती भिन्न डेटा स्टोअर्स आहेत याची हरकतही नव्हती आणि कदाचित ही बाब आता आहे हे जाणून घ्या की बहुतेक कंपन्या जागतिक अर्थाने सक्रियपणे माहिती नसतात, त्यांचा कोणता डेटा आहे. परंतु प्रत्यक्षात जागतिक कॅटलॉग असणे आवश्यक आहे, किंवा डेटा स्त्रोतांच्या वाढीमुळे आणि अनुप्रयोगांच्या निरंतर वाढीमुळे काय चालले आहे याचे जागतिक चित्र असणे आवश्यक आहे आणि विश्लेषणासाठी हे विशेषतः आवश्यक आहे, कारण आपण देखील एका मार्गाने, आणि येथे इतर समस्या आहेत जसे आकडेवारी आणि डेटासह समस्या, आणि सुरक्षिततेसाठी आवश्यक आहे, डेटा कारभाराच्या अनेक बाबी, आपल्याला कोणता डेटा मिळाला हे खरोखर माहित नसल्यास, ही कल्पना ते शासन करणार आहेत ते फक्त हास्यास्पद आहे. तर, त्यामध्ये, सर्व डेटा कोणत्याही प्रकारे कॅटलॉग केलेला आहे ही केवळ एक वास्तविकता आहे. कॅटलॉग सुसंगत आहे की नाही हा प्रश्न आहे आणि प्रत्यक्षात आपण त्यासह काय करू शकता. म्हणून मी परत रेबेकाकडे जाईन.

रेबेका जोझवियाक: ठीक आहे, धन्यवाद रॉबिन. पुढे आमच्याकडे अ‍ॅलेशनकडून डेव्हिड क्रॉफर्ड आला, डेव्हिड मी पुढे जाऊन बॉल तुमच्याकडे पाठवित आहे, आणि आपण ते घेऊन जाऊ शकता.

डेव्हिड क्रॉफर्ड: खूप खूप धन्यवाद. या कार्यक्रमात तुम्ही मला घेतल्याबद्दल माझे खरोखर कौतुक आहे. मला वाटते की मी हे प्रारंभ करणार आहे, म्हणून मला वाटते की येथे माझी भूमिका आहे, त्यातील काही सिद्धांत घ्या आणि ती प्रत्यक्षात कशी लागू केली जात आहे हे पहाणे आणि आम्ही वास्तविक ग्राहकांकडे वाहन चालविण्यास सक्षम आहोत आणि त्यामुळे आपण पाहू शकता स्लाइडवर काही, मी विश्लेषणात शक्यतो सुधारणांमध्ये कोणते परिणाम पाहण्यास सक्षम आहोत याबद्दल बोलू इच्छितो. तर चर्चेला प्रवृत्त करण्यासाठी, ते तेथे कसे गेले याबद्दल आम्ही बोलत आहोत. म्हणून मी खरोखरच खूप स्मार्ट लोक, या ग्राहकांसोबत अगदी जवळून कार्य करण्याचे माझे भाग्य आहे आणि मी फक्त मोजके मोजू इच्छितो जे मोजमाप करू शकले आहेत आणि डेटा कॅटलॉगमुळे त्यांच्या विश्लेषकांवर कसा परिणाम झाला याबद्दल मी बोलू इच्छितो. कार्यप्रवाह आणि फक्त थोडक्यात समोर रहाण्यासाठी, मी डेटा कॅटलॉगच्या श्लोकांसह मागील मध्यस्थी सोल्यूशन्ससह आणि आपण एकत्र ठेवलेल्या समाधानाबद्दल संबंध खरोखर विचार करण्याचा एक मार्ग म्हणजे विश्लेषकांकडून प्रारंभ करणे ही एक गोष्ट आहे. आणि मागे काम. म्हणे, विश्लेषकांची उत्पादकता सक्षम करण्याबद्दल हे करू या. केवळ अनुपालनास विरोध म्हणून, किंवा फक्त एखादी यादी ठेवण्यास विरोध म्हणून, आम्ही एक असे साधन तयार करीत आहोत जे विश्लेषकांना अधिक उत्पादनक्षम बनवते.

म्हणून जेव्हा मी स्क्वेअर या वित्तीय सेवा कंपनीतील एखाद्या डेटा वैज्ञानिकांशी बोलतो तेव्हा निक नावाचा एक माणूस आहे, जो त्याच्याबद्दल सांगत होता, तो अहवाल सुरू करण्यासाठी योग्य डेटा सेट शोधण्यासाठी कित्येक तास घेत असे, आता तो करू शकतो मार्केट शेअर्सचा शोध घेऊन काही सेकंदात ते करा, आम्ही त्यांच्या सीटीओशी बोललो ज्याने त्यांचे विश्लेषक जे स्क्वेअर वापरत होते त्यांना खेचले, माफ करा, अ‍ॅलेशन वापरत होते, त्यांचे काय फायदे आहेत हे शोधण्यासाठी आणि त्यांनी नोंदवले 50 उत्पादकता वाढीला आणि जगाच्या सर्वोच्च विक्रेत्यांपैकी एक, eBay, त्यांना नियमितपणे एसक्यूएल विश्लेषण करणार्‍या हजाराहून अधिक लोक मिळाले आहेत, आणि मी देब म्हणतो की तिथे तिथे अगदी जवळून काम आहे, प्रकल्प कोण आहे त्यांच्या डेटा टूल्स टीममधील व्यवस्थापक आणि तिला आढळले की जेव्हा क्वेरीयर्स एलेशनचा अवलंब करतात, कॅटलॉगचा अवलंब करतात तेव्हा त्यांना डेटाबेसच्या विरूद्ध नवीन क्वेरी लिहिण्याची गती दुप्पट दिसते आहे.

तर हे वास्तविक परिणाम आहेत, हे लोक त्यांच्या संस्थेमध्ये प्रत्यक्षात कॅटलॉग लागू करणारे लोक आहेत आणि मला ते सेट करण्यासाठी जे पाहिजे ते घेतात. एखाद्या कंपनीमध्ये कॅटलॉग कसे स्थापित होते आणि कदाचित सर्वात महत्त्वाची गोष्ट म्हणजे ती बर्‍याच गोष्टी आपोआप होते, म्हणून डेझ सिस्टमविषयी, सिस्टमबद्दल शिकण्याबद्दल बोलले आणि आधुनिक डेटा कॅटलॉगमध्ये नेमके हेच आहे. म्हणून ते त्यांच्या डेटा सेंटरमध्ये एलेशन स्थापित करतात आणि नंतर ते त्यास त्यांच्या डेटा वातावरणात मेटाडेटाच्या विविध स्त्रोतांसह जोडतात. मी डेटाबेस आणि बीआय टूल्सवर थोडेसे लक्ष केंद्रित करेन - या दोन्हीपासून आम्ही तांत्रिक मेटाडेटा काढणार आहोत, मुळात काय आहे याबद्दल. बरोबर, मग कोणती टेबल? काय अहवाल? अहवालाची व्याख्या काय आहेत? म्हणून ते तांत्रिक मेटाडेटा काढतात आणि त्या सिस्टमच्या आतील प्रत्येक वस्तूसाठी एक कॅटलॉग पृष्ठ स्वयंचलितपणे तयार केले जाते आणि त्यानंतर ते तांत्रिक मेटाडेटाच्या वर देखील काढतात आणि थर वर ठेवतात, ते वापर डेटा वरच्या बाजूस ठेवतात. हे प्रामुख्याने डेटाबेसमधून क्वेरी नोंदी वाचून केले गेले आहे आणि ही खरोखरच एक मनोरंजक माहिती आहे. म्हणूनच जेव्हा विश्लेषक एखादी क्वेरी लिहितात, जेव्हा रिपोर्टिंग टूल, ते घरी घेतले आहे की शेल्फ बाहेर, रिपोर्टिंग साधन डॅशबोर्ड अद्यतनित करण्यासाठी क्वेरी चालवित आहे की नाही, जेव्हा एखादा अनुप्रयोग ऑपरेट करण्यासाठी डेटा समाविष्ट करण्यासाठी क्वेरी चालवितो डेटा सेट - त्या सर्व गोष्टी डेटाबेस क्वेरी लॉगमध्ये कॅप्चर केल्या आहेत. आपल्याकडे कॅटलॉग आहे की नाही, ते डेटाबेससह क्वेरी लॉगमध्ये घेतले आहेत. डेटा कॅटलॉग काय करू शकतो आणि विशेषत: अ‍ॅलेशन्स कॅटलॉग काय करू शकते, ते लॉग वाचले जाते, त्यातील क्वेरी विचारतात आणि त्या नोंदींवर आधारित खरोखर एक मनोरंजक वापर आलेख तयार करतात आणि भविष्यातील वापरकर्त्यांना माहिती देण्यासाठी आम्ही प्लेमध्ये आणतो भूतकाळातील वापरकर्त्यांनी याचा कसा उपयोग केला याबद्दल डेटाचे.

तर, आम्ही त्या सर्व ज्ञानास एक कॅटलॉगमध्ये एकत्र आणतो, आणि हे वास्तव घडवून आणण्यासाठी, ही एकत्रीकरणे आहेत जी आधीच ग्राहकांवर तैनात आहेत, म्हणून, आम्ही ओरॅकल, टेराडाटा, रेडशिफ्ट, व्हर्टीका आणि इतर बरेच काही पाहिले रिलेशनल डेटाबेस हडूप जगात, हडूप वर एसक्यूएलची एक श्रेणी आहे, हॅडूप फाइल सिस्टमच्या शीर्षस्थानी रिलेशनशिप, मेटा स्टोअर्स, इम्पाला, तेज, प्रेस्टो आणि पोळे, आम्ही अल्टीस्केल सारख्या क्लाऊड हॅडूप खाजगी प्रदात्यांसह यश देखील पाहिले आहे. तसेच टेबल प्लाव्हर, मायक्रोस्ट्रॅटी सर्व्हर आणि तेथील डॅशबोर्ड्सची अनुक्रमणिका तसेच प्लॉटली सारख्या डेटा सायन्स चार्टिंग साधनांसह एकत्रिकरण करण्यात सक्षम आहेत.

तर, आम्ही या सर्व यंत्रणांशी कनेक्ट होतो, आम्ही या प्रणाली ग्राहकांशी जोडल्या आहेत, आम्ही तांत्रिक मेटाडेटा ओढला आहे, आम्ही उपयोग डेटा ओढला आहे आणि आम्ही क्रमवारीनुसार डेटा कॅटलॉग प्राइम केले आहे, परंतु त्या मार्गाने आम्ही ज्ञान केंद्रीकृत करा, परंतु केवळ गोष्टींना डेटा कॅटलॉगमध्ये केंद्रीकृत करणे, ज्याद्वारे आम्ही ईबे, स्क्वेअर आणि मार्केट शेअरसह ज्या खरोखरच आश्चर्यकारक उत्पादकता वाढवितो त्या प्रदान करत नाहीत. तसे करण्यासाठी, विश्लेषकांना ज्ञान पोहचविण्याविषयी आपला विचारसरणीत बदल करणे आवश्यक आहे. ते यासाठी तयारीसाठी विचारत असलेल्या प्रश्नांपैकी एक म्हणजे, "विश्लेषकांच्या कार्यप्रवाहांवर कॅटलॉगचा खरोखर काय परिणाम होतो?"

आम्ही दिवसभर याच गोष्टीबद्दल विचार करतो आणि एक पुश मॉडेल पुश मॉडेलच्या या बदलांविषयी विचार करण्यासाठी, किंडल वर वाचण्यापूर्वी आणि जगाचे कसे होते याविषयी मला एक द्रुत सादृश्य बनवायचे होते. आपल्यापैकी काही जणांचा असा अनुभव असा असू शकतो की जेव्हा आपण एखादे भौतिक पुस्तक वाचत असता तेव्हा आपल्याला एक शब्द येतो, आपल्याला खात्री नाही की त्या शब्दाची व्याख्या आपल्याला चांगली माहिती आहे, आपणास अंदाज असू शकेल की आपण त्या शब्दाची व्याख्या करू शकत नाही. पलंगावरुन खाली उतरेल, आपल्या बुकशेल्फवर चालत जा, आपला शब्दकोश शोधा, तो धूळफेक करा आणि शब्दांच्या अक्षराच्या यादीमध्ये योग्य ठिकाणी झेपल हे सुनिश्चित करण्यासाठी की, होय, तुमची व्याख्या अगदी बरोबर आहे, आणि तुम्हाला माहिती आहे त्याच्या बारकावे. त्यामुळे खरोखर घडत नाही. म्हणून आपण एक प्रदीप्त अ‍ॅप खरेदी करता आणि आपण तेथे पुस्तके वाचण्यास प्रारंभ करता आणि आपल्याला एक शब्द दिसेल ज्याबद्दल आपल्याला खात्री नाही आणि आपण या शब्दाला स्पर्श करता. अचानक, त्याच स्क्रीनवर, शब्दाची शब्दकोष परिभाषा आहे, त्यातील सर्व बारीक बारीक उदाहरणे, भिन्न उदाहरणे वापरली जातात आणि आपण थोडेसे स्वाइप करता आणि त्या विषयावरील विकिपीडिया लेख मिळाला, आपण पुन्हा स्वाइप करा, आपणास एक भाषांतर साधन मिळाले जे त्याचे अन्य भाषांमध्ये किंवा अन्य भाषांमध्ये अनुवाद करू शकेल आणि अचानक भाषेचे आपले ज्ञान किती समृद्ध होते आणि आपण जावे लागले आणि त्या तुलनेत हे आश्चर्यकारक वेळा घडते. ते संसाधन स्वतःसाठी खेचा.

आणि म्हणून मी जे वाद घालणार आहे, ते म्हणजे विश्लेषकांचे वर्कफ्लो आणि विश्लेषक डेटा दस्तावेजीकरणाशी कसे व्यवहार करतात, प्रत्यक्षात वाचक शब्दकोशाशी कसे संवाद साधेल या शब्दाशी अगदी साम्य आहे, भौतिक असो की नाही प्रदीप्त, आणि म्हणूनच आम्ही ज्या प्रकारे ही उत्पादनक्षमता वाढविली आहे त्या मार्गाने कॅटलॉगचा प्रसार होत नाही, तर त्यास विश्लेषकांच्या वर्कफ्लोशी जोडत आहे, आणि म्हणूनच त्यांनी मला येथे डेमो करण्यास सांगितले आहे, आणि मला पाहिजे आहे या सादरीकरणाचे केंद्रबिंदू बनविणे. पण मला फक्त डेमोसाठी कॉन सेट करायचे आहे. जेव्हा जेव्हा आपल्याला डेटा आवश्यक असतो तेव्हा डेटा ज्ञानाचा धक्का देण्याचा विचार करतो, तेव्हा आम्हाला असे करण्याची योग्य जागा वाटते, ते ज्या ठिकाणी त्यांचा वेळ घालवतात आणि जेथे विश्लेषण करतात तिथे एक एसक्यूएल क्वेरी साधन आहे. असे स्थान जेथे आपण एस क्यू एल क्वेरी लिहिता आणि चालवित आहात. आणि म्हणून आम्ही एक तयार केले आणि आम्ही ते बांधले आणि इतर क्वेरी साधनांपेक्षा ती खरोखरच वेगळी आहे ती म्हणजे डेटा कॅटलॉगसह त्याचे एकत्रीकरण.

आमच्या क्वेरी टूलला एलेशन कंपोझ असे म्हणतात. हे वेब-आधारित क्वेरी साधन आहे आणि इल आपल्याला ते एका सेकंदात दाखवते. आपण मागील स्लाइडवर पाहिलेले त्या सर्व डेटाबेस लोगोवर कार्य करणारे वेब-आधारित क्वेरी साधन मी विशिष्ट प्रकारे डेमो करण्याचा प्रयत्न करणार आहे तो कॅटलॉग माहिती वापरकर्त्यांपर्यंत येतो. आणि हे अशा तीन वेगवेगळ्या मार्गांनी करते. हे हस्तक्षेपांद्वारे केले जाते आणि असे होते जेथे डेटा गव्हर्नर, किंवा डेटा कारभारी किंवा एखाद्या मार्गाचा प्रशासक किंवा व्यवस्थापक असे कोणी म्हणू शकतो की “मला नोट किंवा चेतावणीसह इंटरजेस क्रमवारी लावायची आहे. कार्यप्रवाह आणि हे सुनिश्चित करा की ते योग्य वेळी वापरकर्त्यांपर्यंत पोचले आहे. ”तर हे एक हस्तक्षेप ठरवते आणि ते चांगले दर्शवते.

स्मार्ट सूचना हा एक मार्ग आहे जिथे आपण हे लिहिता तसे साधन आणि क्वेरीचे काही भाग सूचित करण्यासाठी हे कॅटलॉगचे सर्व एकत्रित ज्ञान वापरते. सर्वात महत्वाची गोष्ट म्हणजे ती जाणून घेण्यासाठी, क्वेरी लॉगचा खरोखरच फायदा घेते, वापरावर आधारित गोष्टी सुचवतात आणि आधी लिहिलेल्या क्वेरीचे काही भाग शोधतात. आणि ते चांगले दाखवा.

आणि मग पूर्वावलोकने. पूर्वावलोकने अशी आहेत की जसे आपण एखाद्या ऑब्जेक्टच्या नावे टाइप करता तेव्हा आम्ही आपल्याला कॅटलॉगला माहित असलेली प्रत्येक गोष्ट किंवा कॅटलॉगला त्या ऑब्जेक्टबद्दल माहिती असलेल्या सर्वात कमी संबंधित गोष्टी दर्शवितो. तर डेटाचे नमुने, ज्यांनी यापूर्वी याचा वापर केला होता, त्या ऑब्जेक्टचे लॉजिकल नाव आणि वर्णन, हे विचारत न जाता लिहीत असताना सर्व आपल्याकडे येतात.

तर यापुढे बोलण्याशिवाय, मी डेमो वर येईन आणि मी ते दिसण्याची प्रतीक्षा करीत आहे. मी येथे काय दाखवणार आहे ते क्वेरी टूल आहे. हा एक समर्पित एसक्यूएल लेखन इंटरफेस आहे. हे एका विशिष्ट अर्थाने कॅटलॉगपासून वेगळे इंटरफेस आहे. डेझ आणि रॉबिन कॅटलॉगबद्दल बोलले आणि मी थेट कॅटलॉग इंटरफेसवरून थोडेसे उडी मारली की कार्यप्रवाहात थेट प्रवेश कसा आणला.

मी येथे एक जागा दर्शवित आहे जिथे मी एस क्यू एल टाईप करू शकेन, आणि तळाशी आपण पहाल की संदर्भित असलेल्या ऑब्जेक्ट्सबद्दल आमच्याकडे काही माहिती दिसते. तर मी फक्त क्वेरी टाइप करण्यास प्रारंभ करणार आहे आणि जेव्हा मी यापैकी एक हस्तक्षेप करेन तेव्हा इल स्टॉप. म्हणून मी टाइप करा "निवडा" आणि मला वर्ष पाहिजे. मला नाव पाहिजे आणि मी काही पगार डेटा शोधत आहे. तर हा एक शिक्षण डेटा सेट आहे. त्यात उच्च शिक्षण संस्थांविषयी माहिती आहे आणि मी यापैकी एका टेबलावर असलेल्या सरासरी प्राध्यापकांच्या पगाराकडे पाहत आहे.

म्हणून आयव्ह ने प्रत्यक्षात “पगार” हा शब्द टाईप केला आहे. कॉलमच्या नावावर तो असा नाही. आम्ही सूचना करण्यासाठी तार्किक मेटाडेटा आणि भौतिक मेटाडेटा दोन्ही वापरतो. आणि मला येथे निदर्शनास आणण्याची इच्छा आहे की हा पिवळा बॉक्स येथे दिसतो. या कॉलमवर चेतावणी असल्याचे ते म्हणतात. मी त्या शोधात गेलो नाही, हा डेटा योग्य प्रकारे कसा वापरायचा यावर मी एक वर्ग घेतला नाही. हे माझ्याकडे आले आणि गोपनीयतेच्या कराराबद्दलचा हा इशारा आहे ज्याचा या डेटाशी संबंध आहे. म्हणून काही प्रकटीकरण नियम आहेत. मी या डेटावर क्वेरी करीत असल्यास, मी या सारणीमधून डेटा घेईन, मी ते कसे उघड करेन याबद्दल सावधगिरी बाळगली पाहिजे. तर आपणास येथे शासनाचे धोरण आहे. काही अनुपालन आव्हाने आहेत जी मला डेटा पहात असताना मला जेव्हा या धोरणाबद्दल माहिती असते तेव्हा या धोरणाचे पालन करणे इतके सोपे करते.

तर माझ्याकडे ते माझ्याकडे येत आहे, आणि मग मी शिकवणी पाहणार आहे. आणि येथे आपण पूर्वावलोकने प्ले होत असल्याचे पाहिले. या शिकवणीच्या स्तंभात, मी पाहतो - संस्थेच्या टेबलावर एक ट्यूशन कॉलम आहे आणि मी त्याचे प्रोफाइल पाहत आहे. एलेशन सारण्यांमधून नमुना डेटा घेते आणि त्यास खेचते आणि या प्रकरणात, हे मला काहीतरी दाखवून देत आहे की ते खूपच मनोरंजक आहे. हे मला मूल्यांचे वितरण आणि हे दर्शविते की नमुनामध्ये शून्य मूल्य 45 वेळा आणि इतर मूल्यांपेक्षा जास्त आहे. म्हणून माझ्या लक्षात आले की कदाचित आमच्याकडे काही डेटा गहाळ आहे.

जर मी प्रगत विश्लेषक असेल तर कदाचित ते आधीपासून माझ्या वर्कफ्लोचा भाग असेल. मी विशेषत: सावध असल्यास, जिथे मी वेळेआधी प्रोफाइलिंग क्वेरींचा एक समूह करीन. मी जेव्हा जेव्हा डेटाच्या नवीन भागाकडे जातो तेव्हा मी आमच्या डेटा कव्हरेजचा विचार करतो. परंतु मी डेटा विश्लेषणामध्ये नवीन असल्यास, या डेटा सेटवर मी नवीन असल्यास, मी असे गृहित धरू शकते की स्तंभ असल्यास तिथे सर्व वेळ भरला आहे. किंवा मी असे समजू शकते की ते भरले नाही तर ते शून्य नाही, शून्य नाही किंवा असे काहीतरी आहे. परंतु या प्रकरणात, आमच्याकडे बरेच शून्य आहेत आणि मी सरासरी केले तर ते कदाचित चुकीचे असतील, जर मी फक्त असे गृहीत धरले की त्या शून्य डेटा गहाळ होण्याऐवजी शून्य आहेत.

परंतु एलेशन, हे पूर्वावलोकन आपल्या कार्यप्रवाहात आणून, प्रकारची आपल्याला या माहितीकडे कटाक्षाने विचारण्यास सांगते आणि अशा प्रकारच्या नवशिक्या विश्लेषकांना त्या डेटाबद्दल येथे काहीतरी लक्षात घेण्याची संधी देते. आपल्याकडे ते पूर्वावलोकन आहे.

आता मी करणार आहे ती ही आहे की ही माहिती मिळविण्यासाठी मी कोणत्या टेबलची माहिती मिळविण्याचा प्रयत्न करीत आहे. तर येथे आम्ही स्मार्ट सूचना पाहू. हे नेहमीच जात आहे, परंतु विशेषतः येथे मी काही टाइप केले नाही परंतु मला या क्वेरीसाठी कोणत्या टेबल्स वापरायच्या आहेत हे सुचवण्यासारखे आहे. आणि याविषयी जाणून घेण्याची सर्वात महत्वाची बाब म्हणजे तो वापर आकडेवारीचा फायदा घेतो. उदाहरणार्थ, इबे सारख्या वातावरणात, जेथे आपल्याकडे एकाच डेटाबेसमध्ये कोट्यावधी टेबल्स आहेत, ज्यावर एखादे साधन आहे जे भुसापासून गव्हास मारू शकेल आणि त्या वापरांची आकडेवारी वापरुन खरोखर हे महत्वाचे आहे. सूचना किमतीची.

तर हे हे टेबल सुचवित आहे. जेव्हा मी पूर्वावलोकन पाहतो, तेव्हा मी माझ्या क्वेरीमध्ये आधीच उल्लेख केलेले तीन स्तंभ अधोरेखित करतो. तर मला माहित आहे की हे तीन मिळाले, परंतु त्याचे नाव नाही. मला नाव मिळवणे आवश्यक आहे, म्हणून मी एक जॉइन करणार आहे. जेव्हा मी सामील होतो, तेव्हा पुन्हा मला हे पूर्वावलोकने होते की मला शोधण्यात मदत करते, नावाचे टेबल कुठे आहे? तर मला हे दिसते आहे की याचे छान स्वरूपित, योग्य प्रकारचे भांडवल केलेले नाव आहे. प्रत्येक संस्थेच्या नावाची एक पंक्ती असल्याचे दिसते आहे, म्हणून मी ते घेईन आणि आता मला जॉईन अट पाहिजे.

आणि म्हणून, येथे lationलेशन काय करीत आहे हे पुन्हा क्वेरीच्या नोंदींकडे पहात आहे, मागील दोन वेळा या दोन टेबल्समध्ये सामील झाल्या आहेत हे पाहून आणि त्यामध्ये सामील होण्यासाठी भिन्न मार्ग सुचवित आहेत. पुन्हा एकदा, तेथे काही हस्तक्षेप आहे. मी यापैकी एकाकडे लक्ष दिले तर त्यास एक चेतावणी मिळाली जी मला हे दर्शवते की हे केवळ एकूण विश्लेषणासाठी वापरले पाहिजे. जर आपण संस्थेद्वारे संस्थेद्वारे काहीतरी करण्याचा प्रयत्न करीत असाल तर हे कदाचित चुकीची गोष्ट निर्माण करेल. जर आपणास विद्यापीठ-स्तरीय डेटा हवा असेल तर या दोन टेबल्समध्ये सामील होण्याचा योग्य मार्ग म्हणून ओपीई आयडीसहित यास मान्यता दिली गेली आहे. म्हणून मी ते करतो आणि ही एक छोटी क्वेरी आहे, परंतु मी डेटा काय आहे याबद्दल अंतर्दृष्टी न ठेवता माझी क्वेरी लिहिलेली आहे. इव्हने या डेटा सेटच्या ईआर आकृत्याकडे प्रत्यक्षात पाहिलेच नाही, परंतु संबंधित डेटा माझ्याकडे येत असल्यामुळे मला या डेटाबद्दल आधीच बरेच काही माहित आहे.

एकात्मिक क्वेरी साधनाद्वारे कॅटलॉग करू शकणार्‍या तीन मार्गांपैकी ते एक प्रकार आहेत जे आपण लिहिलेल्या क्वेरीजवर थेट वर्कफ्लोवर परिणाम करतात. परंतु कॅटलॉगमध्ये क्वेरी टूल समाकलित करण्याचा आणखी एक फायदा म्हणजे, जेव्हा मी माझी क्वेरी पूर्ण करतो आणि जेव्हा मी ती वाचवते, तेव्हा मी “संस्था ट्यूशन आणि फॅकल्टी पगार” असे शीर्षक ठेवू शकते आणि मग माझ्याकडे येथे एक बटण आहे. मला ते फक्त कॅटलॉगवर प्रकाशित करण्याची परवानगी देते. मला हे परत खायला देणे खूप सोपे आहे. जरी मी हे प्रकाशित करू शकत नाही, तो क्वेरी लॉगचा एक भाग म्हणून हस्तगत केला जात आहे, परंतु जेव्हा मी ते प्रकाशित करतो, तेव्हा तो प्रत्यक्षात जेथे सर्व डेटा ज्ञान राहत असते अशा केंद्राच्या मार्गाचा भाग बनतो.

म्हणून मी एलेशनमधील सर्व क्वेरींसाठी शोध वर क्लिक केल्यास, मला घेतले जाईल - आणि येथे आपणास कॅटलॉग इंटरफेसचे आणखी काही दिसेल - मला संपूर्ण संस्थेमध्ये क्वेरी शोधण्याचा एक मार्ग दर्शविणारा समर्पित क्वेरी शोधात घेऊन गेला आहे. आणि आपण पहाल की माझी नवीन प्रकाशित केलेली क्वेरी शीर्षस्थानी आहे. आणि काहीजण येथे कदाचित लक्षात घेतील की ज्यावेळेस आम्ही क्वेरीस कॅप्चर करतो, तसेच आम्ही लेखकांना देखील पकडतो आणि मी याविषयी एक लेखक आणि या डेटा ऑब्जेक्ट्सच्या रूपात संबंध स्थापित करतो ज्याबद्दल मला आता काही माहिती आहे. आणि मी या क्वेरीवर आणि या डेटा ऑब्जेक्ट्सवर तज्ञ म्हणून स्थापित केले जात आहे. जेव्हा लोकांना डेटाबद्दल शिकण्याची आवश्यकता असते तेव्हा ते खरोखर उपयुक्त असतात, त्यानंतर त्याबद्दल जाणून घेण्यासाठी योग्य व्यक्ती शोधू शकतात. आणि जर मी प्रत्यक्षात डेटामध्ये नवीन आहे, जरी मी प्रगत विश्लेषक असलो तरी - प्रगत विश्लेषक म्हणून, कदाचित मी याकडे लक्ष देऊ आणि उदाहरणे पहावी जी मला नवीन डेटा सेटवर प्रारंभ करण्यास मदत करतील. ज्याला कदाचित एस क्यू एल सह सुपर जाणकार वाटणार नाही, म्हणून मी प्री-मेड क्वेरी शोधू शकतो ज्याचा मी फायदा घेऊ शकतो असे अहवाल आहेत.

फिल मॅजेनेटच्या मध्यवर्ती एसएटी स्कोअरबद्दल एक. यावर क्लिक करा आणि मला स्वतःच क्वेरीसाठी एक कॅटलॉग पृष्ठ क्रमवारी लावा. हे या लेखाबद्दल लिहिलेले लिखाणाबद्दल बोलले आहे जे या क्वेरीचा संदर्भ देते, म्हणून मला ते कसे वापरायचे ते शिकायचे असल्यास मला वाचण्यासाठी काही कागदपत्रे आहेत. आणि मी कम्पोझ बटणावर क्लिक करून क्वेरी टूलमध्ये हे उघडते आणि मी हे येथे संपादित न करताच येथे चालवू शकतो. आणि खरं तर, आपल्याला आमच्या हलक्या वजनाच्या क्षमतेच्या क्षमतेचा अहवाल पहायला मिळेल, जिथे आपण क्वेरी लिहिता तेव्हा आपण या सारख्या टेम्पलेट व्हेरिएबलमध्ये खाली टाकू शकता आणि क्वेरी कार्यान्वित करण्यासाठी फॉर्म तयार करण्याचा एक सोपा मार्ग तयार करतो ज्यावर आधारित दोन मापदंड.

डेमोसाठी माझ्याकडे काय ते आहे. मी स्लाइड्सवर परत स्विच करणार आहे.फक्त प्रकारची पुनर्बांधणी करण्यासाठी, आम्ही सांगितले की प्रशासक, डेटा गव्हर्नर, क्वेरी टूलमध्ये दर्शविलेल्या ऑब्जेक्ट्सवर चेतावणी देऊन कसे हस्तक्षेप करू शकतो, अ‍ॅलेशन स्मार्ट सूचना करण्यासाठी डेटा ऑब्जेक्ट्सच्या वापराचे ज्ञान कसे वापरते, ते कसे आणते. विशिष्ट वस्तूंना स्पर्श करतांना विश्लेषकांचे वर्कफ्लो सुधारण्यासाठी प्रोफाइलिंग आणि इतर टिप्स आणि जेव्हा नवीन क्वेरी लिहिल्या जातात तेव्हा त्या सर्व प्रकारची कॅटलॉगमध्ये कशी फीड होते.

अर्थातच मी कंपनीच्या वतीने प्रवक्ते आहे. मी डेटा कॅटलॉगबद्दल छान गोष्टी सांगत आहे. आपणास आमच्या एखाद्या ग्राहकांकडून थेट ऐकायचे असल्यास, सेफवे येथील क्रिस्टी lenलन विश्लेषकांची एक टीम चालविते आणि मार्केटिंगचा प्रयोग करण्यासाठी तिला घड्याळाला खरोखरच खरोखर पराभूत करण्याची गरज होती आणि तिचे संपूर्ण कसे असावे याबद्दलची मस्त कथा आहे. कार्यसंघाने सहयोगाने आणि त्या प्रकल्पात खरोखर द्रुतपणे फिरण्यासाठी एलेशनचा वापर केला. म्हणून आपण ही गोष्ट तपासण्यासाठी या बिट लिंकचा अनुसरण करू शकता किंवा एलेशन आपल्या संस्थेमध्ये डेटा कॅटलॉग कसा आणू शकतो याबद्दल आपल्याला थोडेसे ऐकायचे असल्यास, आम्ही वैयक्तिकृत डेमो सेट करण्यास आनंदित आहोत. खूप खूप धन्यवाद.

रेबेका जोझवियाक: डेव्हिड खूप खूप धन्यवाद. मला खात्री आहे की मी प्रेक्षकांच्या प्रश्नोत्तरांकडे वळण्यापूर्वी देझ आणि रॉबिन यांचे काही प्रश्न आहेत. देझ, तुम्हाला आधी जायचे आहे का?

डेझ ब्लांचफिल्ड: अगदी. प्रकाशित क्वेरीच्या या संकल्पनेची कल्पना आणि ती पुन्हा लेखनाच्या स्त्रोताशी जोडणे मला आवडते. मी इन-हाउस storeप स्टोअरच्या या कल्पनेचा दीर्घकाळ चॅम्पियन आहे आणि मला वाटते की यावर खरोखरच एक चांगला पाया आहे.

आपण असे करीत असलेल्या काही संस्थांविषयी आणि त्यांच्याकडे ज्या कदाचित यशस्वीरित्या घडलेल्या काही कथा पाहिल्या ज्यायोगे डेटा शोधण्यासाठी आपले साधन आणि व्यासपीठच नव्हे तर केवळ फायदा साधण्याच्या या संपूर्ण प्रवासात मला माहिती मिळाली. त्यांच्या अंतर्गत सांस्कृतिक आणि वर्तनात्मक वैशिष्ट्यांचे रूपांतर सुमारे करा. आता आपण या प्रकारच्या घरातील अ‍ॅप स्टोअर ठेवून जिथे आपण फक्त डाउनलोड कराल ही संकल्पना आहे जिथे त्यांना केवळ ते सापडत नाही परंतु त्या ज्ञान धारकांसह ते थोडे समुदाय विकसित करण्यास प्रारंभ करू शकतात.

डेव्हिड क्रॉफर्ड: होय, मला वाटते आश्चर्य वाटले. अ‍ॅडटेकमधील प्रॉडक्ट मॅनेजर म्हणून मी भूतकाळापासून आणि ज्या आमच्याशी बोललो होतो अशा सर्व ग्राहकांकडून, सामायिकरण क्वेरीच्या मूल्यावर आमचा विश्वास आहे, परंतु ग्राहक ज्या ज्या गोष्टी बोलतात त्या त्या पहिल्या गोष्टींपैकी किती वेळा याबद्दल मला आश्चर्य वाटले. ते अ‍ॅलेशनमधून बाहेर पडतात हे मूल्य.

मी आमच्या इनव्हॉईस टूगो नावाच्या ग्राहकांपैकी एकावर क्वेरी टूलचे काही प्रयोक्ता परीक्षण करीत होतो, आणि त्यांचे उत्पादन व्यवस्थापक होते जे तुलनेने नवीन होते, आणि ते म्हणाले - त्यांनी प्रत्यक्ष मला सांगितले, वापरकर्त्याच्या परीक्षेच्या वेळी बिनधास्त, “मी प्रत्यक्षात लिहित नाही एसक्यूएल अजिबात नसल्यास हे एलेशनद्वारे सोपे झाले. ”आणि अर्थातच पंतप्रधान म्हणून मी एकप्रकारे जातो,“ तुम्हाला काय म्हणायचे आहे, आम्ही ते कसे केले? ”आणि तो म्हणाला,“ बरं, खरंच ते फक्त कारण मी लॉग इन करू शकतो आणि या सर्व विद्यमान क्वेरी मी पाहू शकतो. एसक्यूएलने कोरी स्लेट सुरू करणे ही एक आश्चर्यकारक गोष्ट आहे, परंतु आपण जिथे निकाल पाहता येईल तिथे अस्तित्त्वात असलेल्या क्वेरीमध्ये बदल करणे आणि आपण म्हणू शकता की, "अरे , मला फक्त हा अतिरिक्त स्तंभ आवश्यक आहे, ”किंवा“ मला त्यास तारखांच्या एका विशिष्ट श्रेणीवर फिल्टर करण्याची आवश्यकता आहे, ”हे करणे खूप सोपे आहे.

आम्ही यासारख्या सहाय्यक भूमिका पाहिल्या आहेत, जसे की उत्पादन व्यवस्थापक, कदाचित विक्री ऑपमध्ये लोक, जे निवडण्यास प्रारंभ करतात आणि ज्यांना नेहमी एसक्यूएल शिकण्याची इच्छा असते आणि हे कॅटलॉग वापरुन ते निवडण्यास प्रारंभ करतात. आम्ही हे देखील पाहिले आहे की बर्‍याच कंपन्यांनी मुक्त स्त्रोत सॉर्ट करण्याचा प्रयत्न केला आहे. इव्हने या प्रकारच्या गोष्टी आंतरिकरित्या तयार करण्याचा प्रयत्न केला, जिथे ते क्वेरींचा मागोवा घेतात आणि उपलब्ध करून देतात आणि त्यांना उपयुक्त बनविण्यासाठी काही प्रकारच्या कपटी डिझाइन आव्हाने असतात. त्यांना अंतर्गत साधन आहे ज्यास त्यांनी हायपल म्हटले ज्याने हाईव्हवर लिहिलेल्या सर्व प्रश्नांना पकडले, परंतु आपणास असे आढळले की आपण योग्य प्रकारे वापरकर्त्यांना नकार देऊ नका तर आपण अगदी लांब यादीसह समाप्त कराल निवडक विधानांची. आणि एखादा वापरकर्ता म्हणून की एखादी क्वेरी माझ्यासाठी उपयुक्त आहे की नाही हे शोधण्याचा प्रयत्न करीत आहे किंवा काही चांगले असल्यास, जर मी फक्त निवडक विधानांची लांब यादी पाहिली तर त्यापेक्षा जास्त मूल्य मिळविण्यात मला जास्त वेळ लागेल. सुरवातीपासून प्रारंभ. आम्हाला योग्य क्लोरी समोर आणणारी आणि उपयुक्त मार्गाने प्रदान करणारी क्वेरी कॅटलॉग कशी तयार करावी याबद्दल आम्ही काळजीपूर्वक विचार केला.

डेझ ब्लांचफिल्ड: मला वाटते की आपण सर्वजण अगदी तरुण वयात, तारुण्यापर्यंत, अनेक मार्गांनी या प्रवासात जात आहोत. तंत्रज्ञानाचा गुच्छ मी स्वतः वैयक्तिकरित्या, कोड कट करणे शिकल्यासारख्या, अगदी त्याच अस्सल गोष्टीमधून गेलो आहे. मी मासिके आणि नंतर पुस्तकांतून जात असेन आणि मी एका विशिष्ट स्तरावर अभ्यास करीन आणि मग मला त्या जागेवर जाऊन आणखी काही प्रशिक्षण आणि शिक्षण घेण्याची गरज होती.

पण अनवधानाने मला असे आढळले की मी स्वतः शिकवताना आणि मासिके वाचत असताना, इतर लोकांचे कार्यक्रम तोडत असताना आणि त्यावर अभ्यासक्रम शिकत असतानाही मी इतरांशी बोलण्याइतके कोर्स करण्याइतकेच जास्त शिकले. ज्या लोकांना काही अनुभव आले. आणि मला वाटते की हा एक मनोरंजक शोध आहे जो आता आपण डेटा विश्लेषणेवर आणता, मुळात ते समानांतर पाहत होता, की माणसे खूपच स्मार्ट असतात.

मला खरोखर समजण्यास उत्सुक असलेली दुसरी गोष्ट म्हणजे, अगदी उच्च स्तरावर, बर्‍याच संस्था विचारतील, “त्या टप्प्यात जायला किती वेळ लागतो?” जेव्हा लोक तुमचा प्लॅटफॉर्म घेतील तेव्हा टिपिंग पॉईंट टाइम-फ्रेमनुसार काय आहे? स्थापित केले आणि त्यांनी साधनांचे प्रकार शोधण्यास सुरवात केली? ही गोष्ट खरोखरच त्वरित "ए-हा" क्षणात बदलली गेलेली माणसे किती वेगवान आहेत जिथे त्यांना कळले की आता तिथे आरओआयबद्दल चिंताही वाटत नाही कारण आता तिथे आहे, परंतु आता ते खरोखरच व्यवसाय करण्याचा मार्ग बदलत आहेत? आणि त्यांना एक हरवलेली कला सापडली आणि त्यांना अशी अपेक्षा आहे की ते खरोखर काहीतरी करू शकतात, त्यासह खरोखर मजेदार आहेत.

डेव्हिड क्रॉफर्ड: होय, मी त्यास थोडासा स्पर्श करू शकतो. मला असे वाटते की जेव्हा आपण स्थापित होईल तेव्हा त्या एक छान गोष्टी, लोकांना डेटा सिस्टीममध्ये थेट जोडलेल्या कॅटलॉगबद्दल आवडणारी एक गोष्ट म्हणजे आपण कोरे कोठे सुरू करू नका जिथे पृष्ठावर हे भरायचे आहे. पृष्ठ आणि हे मागील डेटा सोल्यूशन्सचे एक प्रकारचे खरे आहे जेथे आपण रिकाम्या साधनासह प्रारंभ करता आणि आपण दस्तऐवज करू इच्छित असलेल्या प्रत्येक गोष्टीसाठी आपल्याला पृष्ठ तयार करणे आवश्यक आहे.

आम्ही स्वयंचलितपणे सॉफ्टवेअर स्थापित केल्याच्या काही दिवसात मेटाडेटा काढून स्वयंचलितपणे बर्‍याच गोष्टींचे दस्तऐवजीकरण करीत असल्याने, आपल्याकडे आपल्या डेटा वातावरणाचे छायाचित्र टूलमध्ये कमीतकमी 80 टक्के असू शकते. आणि मग मला वाटतं की लोक साधनासह क्वेरी लिहिण्यास प्रारंभ करताच, स्वयंचलितपणे कॅटलॉगमध्ये स्वयंचलितपणे जतन केले जातात आणि म्हणूनच ते देखील दर्शविणे सुरू करतात.

मला ते सांगण्यात अति उत्सुक व्हायचे नाही. मला असे वाटते की महिन्यातून दोन आठवडे हा एक चांगला पुराणमतवादी अंदाज आहे. महिन्यातून दोन आठवडे, खरोखर वळण घेतल्याचा आणि त्यामधून आपल्याला मूल्य कमी होत असल्यासारखे वाटत असलेले पुराणमतवादी अंदाज जसे की आपण काही ज्ञान सामायिक करणे सुरू केले आहे आणि तेथे जाऊन आपल्या डेटाविषयी गोष्टी शोधण्यात सक्षम आहात.

डेझ ब्लांचफिल्ड: हे खरोखर आश्चर्यकारक आहे, जेव्हा आपण त्याबद्दल विचार करता. आपण प्रभावीपणे अनुक्रमित करणे आणि कॅटलिंग करणे यासह काही मोठ्या डेटा प्लॅटफॉर्मची अंमलबजावणी आणि उपयोजित करणे आणि योग्यरित्या उभे राहण्यास काहीवेळा वर्ष लागू शकेल.

मी रॉबिन ब्लॉरला हात लावण्यापूर्वी तुमच्यासाठी शेवटचा प्रश्न आहे, हा कनेक्टर आहे. माझ्यावर ताबडतोब उडी मारणारी एक गोष्ट म्हणजे तुम्हाला संपूर्ण आव्हान मिटवले आहे. त्यामुळे दोन प्रश्न अगदी खरोखर द्रुतपणे तेथे आहेत. एक, कनेक्टर्स किती वेगाने अंमलात आणले जातात? अर्थात आपण सर्वात मोठ्या व्यासपीठासह प्रारंभ करा, जसे की ओरॅकल्स आणि टेराडाटास आणि पुढे आणि डीबी 2. परंतु आपण नवीन कनेक्टर नियमितपणे कसे पहात आहात आणि ते कोणत्या वेळेस जातात? मी कल्पना करतो की त्यांच्यासाठी आपल्याकडे एक मानक चौकट आहे. आणि आपण त्यामध्ये किती खोलवर प्रवेश करता? उदाहरणार्थ, जगातील ओरॅकल्स आणि आयबीएम, आणि अगदी टेरेडाटा आणि नंतर उशीरा मुक्त-स्त्रोत प्लॅटफॉर्मवरील काही लोकप्रिय. ते आपल्याबरोबर थेट काम करत आहेत? आपण ते शोधत आहात? त्या प्लॅटफॉर्मवर तुम्हाला अंतर्गत ज्ञान असले पाहिजे काय?

एखाद्या प्रकारचा कनेक्टर विकसित करण्यासारखे काय दिसते आणि त्या कनेक्टर आपण शक्य तितक्या सर्व गोष्टी शोधत आहेत हे सुनिश्चित करण्यासाठी आपण त्या भागीदारीमध्ये किती गुंतलेले आहात?

डेव्हिड क्रॉफर्ड: होय, निश्चितपणे, हा एक चांगला प्रश्न आहे. मला असे वाटते की बर्‍याच भागासाठी आम्ही कनेक्टर विकसित करू शकतो. आम्ही तरुण स्टार्टअप असताना आणि ग्राहक नसताना नक्कीच केले. कोणत्याही अंतर्गत प्रवेशाशिवाय आम्ही निश्चितपणे कनेक्शन विकसित करू शकतो. आम्हाला सार्वजनिकपणे उपलब्ध नसलेल्या डेटा सिस्टीममध्ये कधीही प्रवेश मिळत नाही आणि बहुतेक वेळा अंतर्गत माहितीची आवश्यकता नसते. आम्ही स्वतः डेटा सिस्टमद्वारे उपलब्ध असलेल्या मेटाडेटा सेवांचा लाभ घेतो. बर्‍याचदा ते काम करणे खूपच जटिल आणि कठीण असू शकते. मला विशेषतः एस क्यू एल सर्व्हर माहित आहे, त्यांनी ज्या प्रकारे क्वेरी लॉग व्यवस्थापित केले त्या मार्गाने अनेक भिन्न कॉन्फिगरेशन आणि त्या गोष्टी आहेत ज्या आपल्याला खरोखर कार्य करावे लागतात. योग्यरित्या सेट करण्यासाठी आपल्याला बारकावे आणि ठोके आणि त्यावरील डायल समजून घ्याव्या लागतील आणि आम्ही असे अनेकदा काम केले आहे जे आम्ही यापूर्वीही बर्‍याचदा केल्या आहेत.

परंतु एका विशिष्ट मर्यादेपर्यंत, त्या प्रकारची सार्वजनिक एपीआय जी उपलब्ध आहेत किंवा सार्वजनिक इंटरफेस आहेत ज्या आम्ही उपलब्ध आहेत त्या उपलब्ध आहेत. यापैकी बर्‍याच कंपन्यांशी आमची भागीदारी आहे, मुख्यत: प्रमाणपत्रासाठी आधार आहे, जेणेकरून आम्ही काम करतो असे सांगत त्यांना आरामदायक वाटेल आणि ते आम्हाला चाचणीसाठी संसाधने देखील पुरवू शकतील, कधीकधी एखाद्या व्यासपीठावर लवकर प्रवेश मिळेल याची खात्री करुन घ्या. आम्ही नवीन आवृत्त्यांवर कार्य करतो.

नवीन कनेक्शनकडे वळण्यासाठी, मी पुन्हा म्हणेन, पुराणमतवादी होण्याचा प्रयत्न करून, सहा आठवड्यांपासून दोन महिन्यांपर्यंत बोलू या. ते किती साम्य आहे यावर अवलंबून आहे. तर पोस्टग्रे मधील काही कामे रेडशिफ्टसारखी दिसतात. रेडशिफ्ट आणि व्हर्टीका त्यांचे बरेच तपशील सामायिक करतात. तर आम्ही त्या गोष्टींचा लाभ घेऊ शकतो. पण हो, सहा आठवडे ते दोन महिने गोरा असेल.

आमच्याकडे एपीआय देखील आहेत, जेणेकरून - आम्ही अ‍ॅलेशनला मेटाडाटा प्लॅटफॉर्म म्हणून देखील विचार करतो, जेणेकरून आम्हाला आमच्यापर्यंत पोहोचण्यासाठी आणि स्वयंचलितरित्या हस्तगत करण्यासाठी काही उपलब्ध नसल्यास आपण स्वतः कनेक्टर लिहू शकता आणि आमच्या सिस्टममध्ये ढकलू शकता असे मार्ग आहेत. की सर्व काही अद्याप एका शोध इंजिनमध्ये केंद्रीकृत झाले आहे.

डेझ ब्लांचफिल्ड: विलक्षण. मला त्याच कौतुक वाटत. तर हे ते रॉबिनच्या स्वाधीन करणार होते, कारण मला खात्री आहे की त्याच्याकडेही प्रश्नांची बेसुमार वाढ आहे. रॉबिन?

रेबेका जोझवियाक: रॉबिन निःशब्द असू शकतो.

डेझ ब्लांचफिल्ड: आपण स्वत: ला निःशब्द केले.

रॉबिन ब्लॉर: हो बरोबर. क्षमस्व, मी स्वत: ला नि: शब्द केले. आपण याची अंमलबजावणी करताना, प्रक्रिया काय आहे? मी एक प्रकारचा उत्सुक आहे कारण बर्‍याच ठिकाणी बरेच डेटा असू शकतात. मग ते कसे कार्य करते?

डेव्हिड क्रॉफर्ड: हो नक्की. आम्ही प्रवेश करतो, प्रथम आमच्या सर्व्हरने तरतूद केली आहे याची खात्री करण्यासाठी आयटी प्रक्रियेचा क्रम लावतो, नेटवर्क कनेक्शन उपलब्ध आहेत याची खात्री करून, पोर्ट्स खुले आहेत जेणेकरून आम्ही प्रत्यक्षात प्रणालींमध्ये प्रवेश करू शकू. त्यांना कोणत्या प्रणालीसह प्रारंभ करायचा आहे हे बहुतेकदा माहित असते. डेटा सिस्टमचा आभास माहित असणे, जे - आणि कधीकधी आम्ही प्रत्यक्षात त्यांना मदत करू. त्यांच्या सिस्टमवरील कोणते आणि किती वापरकर्ते आहेत याचा वापर करणारे कोण हे समजण्यासाठी त्यांच्या क्वेरी लॉगचे प्रारंभिक स्वरूप पाहण्यास त्यांना मदत करा. कोठे शोधण्यात मदत करा - ते सहसा, जर त्यांना शेकडो किंवा हजारो लोक मिळाले ज्यांना कदाचित डेटाबेसमध्ये लॉग इन केले असेल तर त्यांना कोठे लॉग इन करावे हे त्यांना ठाऊक नसते, म्हणून आम्ही किती युनिक खाती खाती करतो याची चौकशीच्या चौकटीतून आपण शोधू शकतो आपण एका महिन्यात किंवा इतक्या कालावधीत येथे लॉग इन केले आहे आणि क्वेरी अंमलात आणल्या आहेत.

तर आम्ही त्याचा फायदा घेऊ शकतो, परंतु बर्‍याचदा फक्त सर्वात महत्वाच्या गोष्टींवरच. आम्ही त्यांना सेटअप मिळवून देतो आणि मग “प्राथमिकता द्या” अशी प्रक्रिया सुरू होते. समांतर मध्ये घडू शकतात अशा अनेक क्रियाकलाप आहेत. मी क्वेरी टूल वापरण्याच्या प्रशिक्षणात लक्ष केंद्रित करेन. एकदा लोक क्वेरी साधन वापरण्यास सुरवात करतात, सर्व प्रथम, बर्‍याच लोकांना हे आवडते की हे त्यांच्या वेगवेगळ्या सिस्टम्ससाठी फक्त एक इंटरफेस आहे. त्यांना हे देखील आवडले आहे की ते त्यांच्या वेब-आधारित, इच्छित नसल्यास कोणत्याही स्थापितमध्ये गुंतलेले नाहीत. सुरक्षेच्या दृष्टिकोनातून, कॉर्पोरेट आयटी नेटवर्क आणि उत्पादन डेटा स्रोत जिथे राहतात त्या डेटा सेंटर दरम्यान, नेटवर्कच्या दृष्टिकोनातून, एकच एंट्री पॉईंट ठेवणे त्यांना आवडते. आणि म्हणूनच, त्यांनी एलेशनला क्वेरी साधन म्हणून सेट अप केले आणि या सर्व प्रणाल्यांसाठी प्रवेश बिंदू म्हणून कम्पोझचा वापर करण्यास सुरवात केली.

एकदा असे झाल्यावर, आपण तिथे असलेल्या प्रशिक्षणात काय केंद्रित केले आहे हे समजून घेत आहे की आपल्या डेस्कटॉपवर वेब आधारित किंवा सर्व्हर-आधारित क्वेरी टूल दरम्यान काही फरक काय आहेत आणि ते वापरण्याच्या काही बारकावे समजून घेत आहेत. आणि त्याच वेळी जे करण्याचा प्रयत्न केला आहे ते म्हणजे सर्वात मौल्यवान डेटा ओळखणे, पुन्हा क्वेरी लॉग माहितीचा फायदा घेऊन आणि म्हणाणे, “अहो, आपण कदाचित त्यामध्ये जा आणि लोकांना हे समजण्यास मदत करू शकाल. या सारण्यांवर प्रतिनिधींचे प्रश्न प्रकाशित करण्यास प्रारंभ करूया. ”लोकांना वेगवान बनवण्यासाठी काहीवेळा हा सर्वात प्रभावी मार्ग आहे. आपल्या स्वतःच्या क्वेरीच्या इतिहासाकडे पाहू या, या गोष्टी प्रकाशित करा जेणेकरुन त्या पहिल्या क्वेरीच्या रूपात दिसतील. जेव्हा लोक टेबल पृष्ठ पाहतात तेव्हा त्यांना त्या टेबलाला स्पर्श झालेल्या सर्व शंका दिसू शकतात आणि त्या तेथून प्रारंभ करू शकतात. आणि मग या वस्तूंमध्ये शीर्षके आणि वर्णन जोडणे सुरू करू द्या जेणेकरुन ते शोधणे आणि शोधणे सुलभ होईल जेणेकरुन आपल्याला ते कसे वापरावे याची काही बारीक बारीक माहिती असेल.

आम्ही सुनिश्चित करतो की आमच्याकडे क्वेरी लॉगवर संपूर्ण नजर आहे जेणेकरुन आम्ही वंशावळी निर्माण करू शकू. आम्ही करतो त्यापैकी एक म्हणजे आम्ही डेटा एका टेबलवरून दुसर्‍या टेबलवर फिरतो तेव्हा क्वेरी लॉगकडे पाहतो आणि हे आपल्याला डेटा टेबलच्या बाबतीत नेहमी विचारले जाणारे प्रश्न ठेवण्यास अनुमती देते, हे कोठून आले? माझा यावर कसा विश्वास आहे? आणि म्हणूनच आपण दर्शवू शकतो की ती इतर कोणत्या तक्त्यांवरून आली हेच नाही तर मार्गात त्याचे कसे रूपांतर झाले. पुन्हा, हा प्रकार क्वेरी लॉगद्वारे समर्थित आहे.

म्हणून आम्ही हे सुनिश्चित करतो की त्या गोष्टी सेट केल्या आहेत आणि त्या सिस्टममध्ये वंशावळीत येत आहेत आणि आम्ही टेबल पृष्ठांवर स्थापित होऊ शकणार्‍या मेटाडेटाच्या सर्वात अत्यंत मौल्यवान आणि सर्वात उच्च लाभान्वित तुकड्यांना लक्ष्य करीत आहोत जेणेकरुन आपण शोधता तेव्हा, तुम्हाला काहीतरी उपयुक्त वाटले.

रॉबिन ब्लॉर: ठीक आहे. दुसरा प्रश्न - प्रेक्षकांकडून बरेच प्रश्न आहेत, म्हणून मला येथे बराच वेळ घ्यावा वाटणार नाही - दुसरा प्रश्न ज्या प्रकारचा मनात येतो तो म्हणजे फक्त वेदना बिंदू. बर्‍याच सॉफ्टवेअर विकत घेतल्या आहेत कारण लोक एका मार्गाने किंवा इतर मार्गाने अडचणी येत आहेत. तर सामान्य वेदना बिंदू काय आहे ज्यामुळे लोक एलेशनकडे जातात?

डेव्हिड क्रॉफर्ड: हो मला असे वाटते की तेथे काही आहेत, परंतु मला असे वाटते की आपण बर्‍याचदा ऐकत असलेल्यापैकी एक ऑनबोर्डिंग विश्लेषक आहे. “मला जवळपास मुदतीत १०, २०, people० लोकांना कामावर घेण्याची गरज आहे ज्यांना या डेटावरून नवीन अंतर्दृष्टी तयार कराव्या लागतील, ते कसे वेगवान होतील?” म्हणून ऑनबोर्डिंग विश्लेषक असे काहीतरी आहे ज्याला आपण नक्कीच तोंड देत आहोत. थेरेस ज्येष्ठ विश्लेषकांना डेटाविषयी इतर लोकांच्या प्रश्नांची उत्तरे देण्यास संपूर्ण वेळ घालवण्यापासून मुक्त होते. तसेच बर्‍याच वेळा एक. आणि त्या दोन्ही मूलभूत शिक्षणाच्या समस्या आहेत.

आणि मग मी दुसरे स्थान सांगेन जे लोक Aलेशनचा अवलंब करीत आहेत ते असे आहेत जेव्हा एखाद्याला कार्य करण्यासाठी एखाद्या नवीन डेटा वातावरणाची स्थापना करायची असते. लोक त्यांचा फायदा घेण्यासाठी त्यांना या अंतर्गत जाहिराती आणि बाजारपेठ इच्छिता. मग अ‍ॅलेशनला त्या नवीन विश्लेषणाच्या वातावरणाला अग्रगण्य बनविणे खूप आकर्षक आहे. त्यास दस्तऐवजीकरण प्राप्त झाले, त्यास एक ओळखीचा परिचय मिळाला - सिस्टममध्ये प्रवेश करण्याचा एक बिंदू, आणि म्हणूनच लोक आमच्याकडे येतील असे दुसरे स्थान ठरवते.

रॉबिन ब्लॉर: ठीक आहे, मी तुला रेबेका वर नेईन कारण प्रेक्षक आपल्याकडे येण्याचा प्रयत्न करीत आहेत.

रेबेका जोझवियाक: होय, आमच्याकडे येथे प्रेक्षकांसाठी खूप चांगले प्रश्न आहेत. आणि डेव्हिड, हा तुमच्यासाठी खास विचारला गेला होता. हे अशा एखाद्याचे आहे ज्याचे स्पष्टपणे लोकांशी गैरवापर करण्याच्या प्रश्नांचा काही अनुभव आहे आणि तो असे म्हणतो की आम्ही जितके अधिक वापरकर्त्यांना सामर्थ्यवान करतो तितके गणनेत संसाधनांच्या जबाबदार वापरावर नियंत्रण ठेवणे कठिण आहे. तर आपण चुकीच्या परंतु सामान्य क्वेरी वाक्यांशांच्या प्रसारापासून बचाव करू शकता?

डेव्हिड क्रॉफर्ड: होय, मी हा प्रश्न पाहतो. हा एक चांगला प्रश्न आहे - एक आपण वारंवार वारंवार घेतो. आधीच्या कंपन्यांमध्ये मी स्वत: ही वेदना पाहिली आहे, जिथे आपल्याला वापरकर्त्यांना प्रशिक्षित करण्याची आवश्यकता आहे. उदाहरणार्थ, “ही एक लॉग टेबल आहे, त्याचे नोंदी वर्षानुवर्षे परत जात आहेत. जर आपण या टेबलावर क्वेरी लिहित असाल तर आपल्याला तारखेस मर्यादित करणे आवश्यक आहे. ”उदाहरणार्थ, डेटाबेसमध्ये प्रवेश मिळण्यापूर्वी मी मागील कंपनीत शिकलो ते प्रशिक्षण.

आमच्याकडे असे दोन मार्ग आहेत जे आम्ही याकडे लक्ष देण्याचा प्रयत्न करतो. मी असे म्हणेन की मला वाटते की क्वेरी लॉग डेटा त्या संबोधित करण्यासाठी खरोखरच अनन्य मौल्यवान आहे. हे त्याच्या क्वेरी प्लॅनरसह डेटाबेस अंतर्गत काय करते या विरूद्ध दुसरी अंतर्दृष्टी देते. आणि आम्ही काय करतो, त्यातील एक हस्तक्षेप - आमच्याकडे मॅन्युअल हस्तक्षेप आहेत ज्या मी दाखवल्या आहेत आणि त्या उपयोगी आहेत, बरोबर? एका विशिष्ट जॉइनवर, उदाहरणार्थ, आपण असे म्हणू शकता की "याला नाकारू द्या." स्मार्ट सूचनेवर दिसते तेव्हा त्यात मोठा लाल ध्वज असेल. त्यामुळे लोकांपर्यंत पोहोचण्याचा प्रयत्न करण्याचा एक मार्ग आहे.

आपण करत असलेली आणखी एक गोष्ट म्हणजे अंमलबजावणीच्या वेळी हस्तक्षेप करताना स्वयंचलित. आम्ही क्वेरीच्या पार्स ट्रीचा वापर प्रत्यक्षात पाहण्यासाठी ते चालवण्यापूर्वीच करतो, त्यात एक विशिष्ट फिल्टर किंवा आम्ही तेथे करतो त्या काही गोष्टी समाविष्ट आहेत काय? परंतु सर्वात मौल्यवान आणि एक समजावून सांगणारा सर्वात सोपा म्हणजे त्यात फिल्टर समाविष्ट आहे काय? म्हणून मी नुकतेच दिले त्या उदाहरणाप्रमाणेच, हे लॉग टेबल, आपण क्वेरी करणार असाल तर तारीख श्रेणी असणे आवश्यक आहे, आपण तेथे टेबल पृष्ठात निर्दिष्ट करू शकता की आपण त्या तारीख श्रेणी फिल्टरला लागू केले पाहिजे. जर एखाद्याने क्वेरी चालविण्याचा प्रयत्न केला ज्यामध्ये त्या फिल्टरचा समावेश नसेल तर ते त्यांना एक मोठा इशारा देऊन थांबवेल आणि ते म्हणतील की, “आपण कदाचित आपल्या क्वेरीमध्ये असे काही एसक्यूएल जोडावे.” त्यांना हवे असल्यास ते सुरू ठेवू शकतात . प्रत्यक्षात त्यांचा वापर करण्यास पूर्णपणे बंदी घातली नव्हती - ही देखील एक क्वेरी आहे, दिवसाच्या शेवटी, क्वेरी चालवा. परंतु आम्ही त्यांच्यासमोर एक खूप मोठा अडथळा आणला आणि आम्ही त्यांची कार्यक्षमता सुधारण्यासाठी क्वेरी सुधारित करण्यासाठी एक सूचना, एक ठोस लागू सूचना देऊ.

आम्ही क्वेरी लॉगचे निरीक्षण करून पुन्हा काही बाबतीत स्वयंचलितपणे ते देखील करतो. या टेबलवरील काही क्वेरींच्या मोठ्या संख्येने विशिष्ट फिल्टरचा किंवा विशिष्ट जॉइन क्लॉजचा फायदा घेत असल्याचे आपण पाहिले तर त्यास खरोखर चांगले पॉप अप करा. तसेच त्यास हस्तक्षेप करण्यासाठी प्रोत्साहित करा. वास्तविक, माझ्याबरोबर अंतर्गत डेटा सेटवर हे घडले. आमच्याकडे ग्राहकांचा डेटा आहे आणि आमच्याकडे यूजर आयडी आहेत, परंतु यूजर आयडी सेट प्रकारचा असल्याने - आमच्याकडे प्रत्येक ग्राहकांकडे यूझर आयडी आहेत. हे अद्वितीय नाही, म्हणून आपल्याला एक अद्वितीय जॉइन की मिळविण्यासाठी क्लायंट आयडीसह जोडणे आवश्यक आहे.आणि मी एक क्वेरी लिहित होतो आणि मी एखाद्या गोष्टीचे विश्लेषण करण्याचा प्रयत्न केला आणि ते पॉप अप करुन म्हणाले, “अहो, प्रत्येकजण क्लायंट आयडी आणि यूजर आयडी या दोन्ही टेबलांमध्ये सामील होताना दिसते आहे. आपणास खात्री आहे की आपण हे करू इच्छित नाही? ”आणि यामुळे मला चुकीचे विश्लेषण करण्यापासून थांबवले. म्हणून विश्लेषणाची अचूकता तसेच कामगिरी या दोहोंसाठी ते कार्य करते. तर मग आम्ही त्या समस्येचा कसा सामना करतो यावर एक प्रकार आहे.

रेबेका जोझवियाक: ते मला प्रभावी वाटेल. आपण म्हटले आहे की आपण लोकांना संसाधनांना अडचणीत आणण्यास अपरिहार्यपणे अडथळा आणला आहे, परंतु त्यांना असे शिकवा की ते जे करत आहेत ते सर्वात चांगले होणार नाही का?

डेव्हिड क्रॉफर्ड: आम्ही नेहमीच असे गृहीत धरतो की वापरकर्ते द्वेषयुक्त नाहीत - त्यांना सर्वोत्तम हेतू द्या - आणि आम्ही त्या मार्गाने बरेच खुले असण्याचा प्रयत्न करतो.

रेबेका जोझवियाक: ठीक आहे. येथे आणखी एक प्रश्नः "कॅटलॉग व्यवस्थापक, आपल्या सोल्यूशनप्रमाणे आणि एमडीएम टूलमध्ये काय फरक आहे? किंवा क्वेरी सारण्यांची निवड विस्तृत करून हे प्रत्यक्षात भिन्न प्राचार्यावर अवलंबून आहे, तर एमडीएम स्वयंचलितपणे करेल, परंतु मेटाडेटा संकलित करण्याच्या त्याच मूलभूत प्रिन्सिपलसह. "

डेव्हिड क्रॉफर्ड: होय, मला असे वाटते की जेव्हा मी पारंपारिक एमडीएम समाधानाकडे पाहतो तेव्हा प्राथमिक फरक तात्त्विक असतो. हे सर्व वापरकर्ता कोण आहे याबद्दल आहे. माझ्या प्रेझेंटेशनच्या सुरूवातीस मी म्हणालो, 'एलेशन, मला वाटतं, जेव्हा आमची स्थापना झाली, तेव्हा विश्लेषकांना अधिक अंतर्दृष्टी तयार करण्यासाठी, ते जलद उत्पादन देण्यासाठी, अंतर्दृष्टीमध्ये अधिक अचूक बनविण्याच्या उद्देशाने आमची स्थापना केली गेली. उत्पादन. मला असे वाटते की पारंपारिक MDM समाधानाचे ते कधी लक्ष्य होते. हे निराकरण लोकांकडे लक्ष्य केले जाते ज्यांना एससीसीकडे किंवा कोणत्या प्रकारच्या आडिटिंग हेतूने अंतर्गत डेटा घेतला गेला आहे याचा अहवाल तयार करण्याची आवश्यकता आहे. हे कधीकधी विश्लेषकांना सक्षम करू शकते, परंतु हे बर्‍याच वेळा, जर ते एखाद्या प्रॅक्टिशनरला त्यांच्या कामात सक्षम बनवित असेल तर डीबीएसारखे डेटा आर्किटेक्ट सक्षम करण्याची अधिक शक्यता असते.

जेव्हा आपण एखाद्या विश्लेषकांच्या दृष्टिकोनातून गोष्टींबद्दल विचार करता, तेव्हा आपण एखादे क्वेरी साधन तयार करण्यास प्रारंभ करता जे एमडीएम साधन कधीच करत नाही. जेव्हा आपण कार्यप्रदर्शन तसेच अचूकतेबद्दल विचार करण्यास प्रारंभ करता तसेच डेटा माझ्या व्यवसायाची आवश्यकता असलेल्या डेटाशी संबंधित असतो तेव्हा समजतो. त्या सर्व गोष्टी अशा असतात ज्या उपकरणांचे डिझाइन करतात तेव्हा आपल्या मनात पॉप लावतात. हे आमच्या शोध अल्गोरिदममध्ये जाते, ते कॅटलॉग पृष्ठांच्या लेआउटमध्ये आणि संस्थेच्या आसपासच्या सर्व ज्ञानांचे योगदान देण्याच्या क्षमतेमध्ये जाते. आम्ही क्वेरी साधन तयार केले आहे आणि आम्ही त्यामध्ये थेट कॅटलॉग बनविला आहे ही वस्तुस्थितीत जाते, म्हणून मला वाटते की ते खरोखरच त्यातून आले आहे. आपण कोणत्या वापरकर्त्याच्या मनात प्रथम आहात?

रेबेका जोझवियाक: ठीक आहे, छान आहे. हे खरोखर स्पष्ट करण्यात मदत केली. कोण जाण्यासाठी अर्काईव्ह्ज घेण्यास मरत होता, कारण त्याला जायचे होते, परंतु आपल्या प्रश्नाचे उत्तर त्याला खरोखर हवे होते. ते म्हणाले की येथे सुरुवातीला उल्लेख करण्यात आला होता की तेथे अनेक भाषा आहेत, परंतु एस क्यू एल ची एकमेव भाषा कम्पोझ घटकात वापरली जाऊ शकते?

डेव्हिड क्रॉफर्ड: होय, ते खरे आहे. आणि माझ्या लक्षात आलेल्या गोष्टींपैकी एक, जसे मी विविध प्रकारचे डेटाबेस, दस्तऐवज डेटाबेस, ग्राफ डेटाबेस, की व्हॅल्यू स्टोअर्सचा स्फोट पाहिला आहे, ते म्हणजे अनुप्रयोगांच्या विकासासाठी खरोखर शक्तिशाली आहेत. रिलेशनल डेटाबेसपेक्षा चांगल्या प्रकारे ते तेथे चांगल्या गरजा भागवू शकतात.

परंतु जेव्हा आपण डेटा विश्लेषणावर परत आणता, तेव्हा आपण परत परत आणता - जेव्हा आपण ती माहिती लोकांकडे पाठवू इच्छित असाल जे लोक तदनुसार अहवाल देतात किंवा डेटामध्ये खोदकाम करतात तेव्हा ते नेहमीच नातेसंबंधात परत येतात किमान, मानवांसाठी इंटरफेस. याचाच एक भाग म्हणजे एस क्यू एल म्हणजे डेटा विश्लेषणाची भाषा फ्रॅन्का, म्हणजेच मानवांसाठी, समाकलित केलेल्या साधनांसाठीही. मला वाटते की हे असे कारण आहे की हॅडॉपवरील एसक्यूएल इतके लोकप्रिय आहे आणि त्याचे निराकरण करण्यासाठी बरेच प्रयत्न केले जात आहेत, कारण दिवसाच्या शेवटी, लोकांना काय ठाऊक आहे. बहुधा असे लाखो लोक आहेत ज्यांना एसक्यूएल कसे लिहायचे माहित आहे आणि मी कोट्यावधी लोकांना नाही ज्यांना मोंगो एकत्रीकरण पाइपलाइन फ्रेमवर्क क्वेरी कशी लिहावी हे माहित आहे. आणि ही ती एक प्रमाणित भाषा आहे जी खरोखरच विस्तृत व्यासपीठावर एकत्रिकरणासाठी वापरली जाते. म्हणून जे काही म्हणत आहे त्यास क्वचितच बाहेरून जाण्यास सांगितले गेले कारण बहुतेक विश्लेषक वापरत असलेला हा इंटरफेस आहे आणि ही अशी जागा आहे जेथे आम्ही एसक्यूएल लिहिण्यावर लक्ष केंद्रित केले.

मी म्हणेन डेटा सायन्स हे असे स्थान आहे जेथे ते सर्वात जास्त उद्यम करतात आणि म्हणून आम्हाला डुक्कर किंवा एसएएस वापरण्याबद्दल अधूनमधून प्रश्न पडतात. या अशा गोष्टी आहेत ज्या आम्ही कम्पोझमध्ये निश्चितपणे हाताळू शकत नाही आणि त्या कॅटलॉगमध्ये घेऊ इच्छितो. आणि मी आर आणि पायथन देखील पाहत आहे. आमच्याकडे दोन मार्ग आहेत ज्या आपण इंटरफेस बनवल्या आहेत ज्या आपण आर आणि पायथन स्क्रिप्ट्सच्या अंतर्गत एलेशनमध्ये लिहिलेल्या क्वेरी वापरू शकता, म्हणून जेव्हा आपण डेटा वैज्ञानिक असता आणि आपण स्क्रिप्टिंग भाषेमध्ये काम करत असता तेव्हा आपला स्त्रोत डेटा संबंधानुसार असतो डेटाबेस आपण एसक्यूएल क्वेरीसह प्रारंभ करा आणि नंतर आपण यावर पुढील प्रक्रिया करा आणि आर आणि पायथनच्या आत ग्राफ तयार करा. आणि आम्ही पॅकेजेस तयार केली आहेत ज्यात आपण एलिशनमधून क्वेरी काढलेल्या किंवा क्वेरीच्या निकालांवर स्क्रिप्टमध्ये आयात करू शकता जेणेकरून तेथे आपणास मिश्रित वर्कफ्लो मिळेल.

रेबेका जोझवियाक: ठीक आहे, छान. मला माहित आहे की आपण अगदी शेवटच्या घटकाच्या शेवटी अगदी थोडेसे धावलो आहे, मी फक्त एक वा दोन प्रश्न विचारत आहे. मला माहित आहे की आपण कनेक्ट केलेल्या सर्व भिन्न प्रणालींबद्दल आपण बोललो आहे, परंतु आतापर्यंत बाह्यरित्या होस्ट केलेला डेटा आणि अंतर्गत होस्ट केलेला डेटा, आपल्या एकाच व्यासपीठामध्ये एकत्र एकत्र शोधला जाऊ शकतो?

डेव्हिड क्रॉफर्ड: नक्की. असे करण्याचे काही मार्ग आहेत. म्हणजे, बाह्यरित्या होस्ट केलेले, मी कल्पना करेल, मी याचा अर्थ काय असावा याचा विचार करण्याचा प्रयत्न करीत आहे. याचा अर्थ असा आहे की एखादा डेटाबेस आपल्यासाठी एडब्ल्यूएसमध्ये होस्ट करीत आहे. याचा अर्थ डेटा.gov कडील सार्वजनिक डेटा स्त्रोत असू शकतो. डेटाबेस खात्यासह दुसर्‍या अनुप्रयोगासहच लॉग इन करून आम्ही डेटाबेसशी थेट कनेक्ट होतो आणि आम्ही मेटाडेटा कसा काढतो हे सांगत असतो. तर जर आपले खाते असेल आणि आमच्याकडे नेटवर्क पोर्ट उघडे असेल तर आम्ही ते मिळवू शकतो. आणि मग आपल्याकडे त्या गोष्टी नसतील तेव्हा आमच्याकडे व्हर्च्युअल डेटा सोर्स नावाची काहीतरी आहे, जी आपणास स्वयंचलितरित्या, आपला स्वतःचा कनेक्टर लिहून किंवा कागदजत्र करण्यासाठी सीएसव्ही अपलोड सारखे भरून दस्तऐवजीकरण पुढे ढकलू देते. आपल्या अंतर्गत डेटासह डेटा. ते सर्व शोध इंजिनमध्ये ठेवलेले आहे. हे लेख आणि इतर दस्तऐवजीकरण आणि सिस्टममधील संभाषणांमधील संदर्भणीय बनते. म्हणूनच जेव्हा आम्ही थेट सिस्टमशी कनेक्ट होऊ शकत नाही तेव्हा आम्ही कसे हाताळतो.

रेबेका जोझवियाक: ठीक आहे, अर्थ प्राप्त होतो. मी तुम्हाला आणखी एक प्रश्न विचारतो. एक उपस्थिती आहे विचारणे, "स्त्रोत डेटा सुधारित केल्यामुळे डेटा डेटा अद्ययावत केल्यानुसार डेटा कॅटलॉगची सामग्री कशी सत्यापित, सत्यापित किंवा देखरेखी करावी?"

डेव्हिड क्रॉफर्ड: हं, हा एक प्रश्न आहे जो आपल्याला खूप मिळतो, आणि मला वाटतं त्यापैकी एक - आमच्या तत्वज्ञानांपैकी एक, मी म्हटल्याप्रमाणे, आम्ही वापरकर्त्यांना दुर्भावनापूर्ण मानत नाही. आम्ही असे गृहीत धरतो की ते उत्तम ज्ञानाचे योगदान देण्याचा प्रयत्न करीत आहेत. ते आत येणार नाहीत आणि लोकांना जाणूनबुजून डेटाबद्दल दिशाभूल करतात. जर आपल्या संस्थेमध्ये ही समस्या असेल तर कदाचित अ‍ॅलेशन्स आपल्यासाठी योग्य साधन नसेल. परंतु जर आपण वापरकर्त्यांकडून चांगले हेतू गृहित धरले तर, आम्ही त्याबद्दल विचार करतो जेथे अद्यतने येतात आणि नंतर सहसा आपण जे करतो त्या प्रत्येक डेटा ऑब्जेक्टचा किंवा डेटाच्या प्रत्येक भागाचा कारभार आमच्यावर ठेवतो. मेटाडेटामध्ये बदल केल्यावर आम्ही त्या कारभाwards्यांना सूचित करू शकतो आणि त्या त्या मार्गाने हाताळू शकतात. ते अद्यतने पाहतात आणि ते सत्यापित करतात. जर ते ठीक नसतील तर ते परत जाऊ शकतात आणि त्यांना सुधारित करू शकतात आणि माहिती देऊ शकतात आणि आशा आहे की माहितीचे योगदान देणार्‍या वापरकर्त्यापर्यंत पोहोचू शकेल आणि त्यांना शिकण्यास मदत करेल.

म्हणून आम्ही त्या करण्याचा प्राथमिक विचार करतो. कारभाwards्यांद्वारे गर्दी आणि व्यवस्थापनाद्वारे या प्रकारची सूचना, जेणेकरून आमच्याकडे त्याभोवती काही क्षमता आहेत.

रेबेका जोझवियाक: ठीक आहे, चांगले. आणि जर आपण एलिसनसह सर्वोत्तम कसे प्रारंभ करू शकता आणि लोकांना अधिक माहिती मिळविण्यासाठी विशेषतः कोठे जाऊ शकता हे लोकांना कळवू शकले असल्यास. मला माहित आहे की आपण ते एक सामायिक केले आहे. ते सर्वोत्तम स्थान आहे का?

डेव्हिड क्रॉफर्ड: एलेशन.com/learnmore मला वाटते की जाण्याचा एक चांगला मार्ग आहे. डेमोसाठी साइन अप करण्यासाठी lationलेशन डॉट कॉम साइटवर बरीच चांगली संसाधने, ग्राहकांची श्वेतपत्रे आणि आमच्या समाधानाविषयी बातम्या आहेत. म्हणून मला वाटते की हे प्रारंभ करण्यासाठी एक चांगले ठिकाण आहे. तुम्ही देखील करू शकता .

रेबेका जोझवियाक: ठीक आहे, छान. आणि मला माहिती आहे, उपस्थितांनी, जर मला आज सर्व प्रश्नांची उत्तरे मिळाली नाहीत, परंतु जर तसे झाले नाही तर ते डेव्हिड किंवा त्याच्या विक्री संघाकडे किंवा एलेशनमधील कोणाकडे पाठविले जातील, जेणेकरून ते निश्चितपणे आपल्या प्रश्नांची उत्तरे देऊ शकतील आणि अ‍ॅलेशन काय आहे हे समजून घेण्यात मदत करतील करतो किंवा ते सर्वोत्कृष्ट काय करतात.

आणि त्या बरोबर, लोकांनो, मी पुढे जाईन आणि आम्हाला साइन आउट करा. आपण नेहमीच InsideAnalysis.com वर संग्रहणे शोधू शकता. आपणास ते टेकोपीडिया.कॉम वर देखील मिळू शकेल. त्यांचा थोडासा वेगवान अपडेट करण्याचा कल आहे, म्हणून नक्कीच ते तपासा. आणि आज डेव्हिड क्रॉफर्ड, डेझ ब्लांचफिल्ड आणि रॉबिन बूअर यांचे खूप आभार. तो एक चांगला वेबकास्ट आहे. आणि त्यासह, मी तुम्हाला निरोप देऊ. धन्यवाद, लोकांना. बाय बाय.

डेव्हिड क्रॉफर्ड: धन्यवाद.