आपला डेटा किती संरचित आहे? स्ट्रक्चर्ड, अनस्ट्रक्स्टर्ड आणि सेमी स्ट्रक्चर्ड डेटाची तपासणी करत आहे

लेखक: Roger Morrison
निर्मितीची तारीख: 25 सप्टेंबर 2021
अद्यतन तारीख: 21 जून 2024
Anonim
2. डेटा म्हणजे काय? विविध प्रकारचे डेटा? संरचित | अर्ध-संरचित | असंरचित डेटा
व्हिडिओ: 2. डेटा म्हणजे काय? विविध प्रकारचे डेटा? संरचित | अर्ध-संरचित | असंरचित डेटा

सामग्री



स्रोत: Monsitj / iStockphoto

टेकवे:

संरचित, अव्यवस्थित आणि अर्ध-संरचित डेटाबद्दल जाणून घ्या.

ऐतिहासिकदृष्ट्या, डेटा विश्लेषक केवळ एका प्रकारच्या डेटामधून डेटा डीक्रिप्ट करणे आणि काढणे सक्षम होते: संरचित डेटा. या प्रकारच्या डेटा त्याच्या स्पष्ट नमुन्यांमुळे सहज शोधण्यायोग्य होता, परंतु एकूण उपलब्ध डेटाची थोडी टक्केवारी दर्शविली.

अशक्य डेटामध्ये व्हिडिओ, ऑडिओ, आणि सोशल मीडिया आणि मोबाइल डिव्हाइसमधून तसेच डेटा येत आहे. हे खाली उपलब्ध आहे, कच्च्या माहितीचा सर्वात मोठा साठा उपलब्ध आहे, परंतु कोणीही या संसाधनास विश्वसनीयरित्या टॅप करु शकला नाही.

तथापि, स्टोरेजची वाढती उपलब्धता आणि उत्कृष्ट प्रक्रिया क्षमतेमुळे अनस्ट्रक्टेड डेटा ticsनालिटिक्सला एक नवीन आणि अशा प्रकारे तंत्रज्ञानाचे अपरिपक्व स्वरूप प्राप्त झाले. उत्तम व्यवसाय बुद्धिमत्ता या संधीचा पुरेपूर फायदा घेत आहे आणि माहितीच्या या स्पष्टपणे न संपणार्‍या सोन्याच्या सोन्यात प्रवेश करण्यासाठी एकत्रित रचनात्मक आणि अप्रचलित डेटा ticsनालिटिक्ससाठी भरीव गुंतवणूक केली जात आहे.

चला त्यांचे भिन्नता समजून घेण्यासाठी या दोन्ही डेटा स्वरूपांवर आणि भविष्यातील सर्व डेटा विश्लेषकांसाठी काय आहे ते पाहू या.


संरचित डेटा म्हणजे काय?

स्ट्रक्चर्ड डेटा मानव किंवा मशीन-व्युत्पन्न आणि अत्यंत संयोजित माहिती आहे जी रिलेशनल डेटाबेस (आरडीबी) म्हणून ओळखल्या जाणार्‍या रो डेटाबेस स्ट्रक्चर्समध्ये सहजपणे संग्रहित केली जाऊ शकते. हे अशा स्वरूपात अस्तित्वात आहे जे नंतरचे विश्लेषण करण्यासाठी आरडीबी संरचनेत सहजपणे कॅप्चर केले जाऊ शकते, संग्रहित आणि आयोजित केले जाऊ शकते. (डेटाबेसविषयी अधिक जाणून घेण्यासाठी आमचा डेटाबेसचा परिचय पहा.)

उदाहरणांमध्ये पिन कोड, फोन नंबर आणि वय किंवा लिंग यासारख्या वापरकर्ता लोकसंख्याशास्त्रांचा समावेश आहे. या डेटाबेसमध्ये आढळलेल्या डेटाची एक्सेल स्प्रेडशीटमध्ये स्ट्रक्चर्ड क्वेरी लँग्वेज (एसक्यूएल) किंवा व्हीएलओयूकूप फंक्शन्सद्वारे चौकशी केली जाऊ शकते. अल्गोरिदम त्यांचे अनुक्रमणिका किंवा त्यांचे संख्यात्मक आणि वर्णमाला डेटा वापरून विविध फील्डमध्ये सापडलेला डेटा द्रुतपणे शोधण्यासाठी देखील तयार केला जाऊ शकतो. तथापि, सर्व डेटा फील्ड प्रकार आणि नावाच्या बाबतीत कठोरपणे परिभाषित केले गेले आहे आणि अशा प्रकारे संचयित करणे, क्वेरी करणे आणि त्याचे विश्लेषण करण्याची क्षमता काही प्रमाणात मर्यादित आहे.


स्ट्रक्चर्ड डेटा वापरणार्‍या ठराविक अनुप्रयोगांमध्ये हॉस्पिटल मॅनेजमेंट सॉफ्टवेअर, ग्राहक रिलेशन मॅनेजमेंट (सीआरएम) andप्लिकेशन्स आणि एअरलाइन्स रिझर्वेशन सिस्टम यांचा समावेश आहे. त्याच्या व्यवस्थित संघटना आणि सुलभ सुलभतेमुळे, मोठ्या प्रमाणात माहितीचा व्यवहार करताना संरचित डेटा उपयुक्त आणि कार्यक्षम असतो. मानवतेद्वारे दररोज तयार होत असलेल्या डेटाच्या अतुलनीय प्रमाणात लपविलेल्या काळ्या तेलासाठी ड्रिलिंग करताना, संरचित डेटा शोधणे हे पृष्ठभाग स्क्रॅचिंग करण्याशिवाय काहीच नाही.

संरचित डेटा म्हणजे काय?

एखाद्या संस्थेत आढळणारा डेटा बहुसंख्य रचनात्मक नसतो आणि काही लोक असा अंदाज करतात की सध्या उपलब्ध असलेल्या एकूण डेटाच्या 80 टक्के इतके आहेत. परिभाषानुसार, अप्रबंधित डेटा ही प्रत्येक गोष्ट आहे ज्यास ओळखण्यायोग्य अंतर्गत रचना नसते. तथापि, काही प्रकारांचा डेटा या श्रेणीमध्ये येत आहे जरूर घ्या अस्पष्ट अंतर्गत संरचनेचे काही प्रकार, तरीही ते डेटाबेस किंवा स्प्रेडशीटशी जुळत नाही.

कोणतीही दोष नाही, तणाव नाही - आपले जीवन नष्ट न करता जीवन-बदलणारे सॉफ्टवेअर तयार करण्यासाठी चरण चरण बाय चरण


जेव्हा कोणालाही सॉफ्टवेअर गुणवत्तेची काळजी नसते तेव्हा आपण आपली प्रोग्रामिंग कौशल्ये सुधारू शकत नाही.

ग्राहक सेवा परस्परसंवाद, फायली, वेब नोंदी, व्हिडिओ आणि इतर मल्टीमीडिया सामग्री, विक्री स्वयंचलन, आणि सोशल मीडिया पोस्ट यामधील बहुतेक व्यवसाय डेटा पुनर्रचित नसतो. हा डेटा खनन, संघटित आणि विश्लेषित केल्यास ते किती मौल्यवान असू शकते हे सांगण्याची गरज नाही.

बहुतेक अप्रबंधित डेटा मानवांनी व्युत्पन्न केला आहे आणि अशा प्रकारे तो इतर मानवांनी समजून घेतला आहे. याचा अर्थ असा आहे की तंत्रज्ञानाच्या संगणक बुद्धिमत्तेला या प्रकारची माहिती मशीन भाषा आणि संरचित डेटाबेसच्या रेषांपेक्षा खूपच वेगळी समजली नाही.

दरम्यान पडणे: अर्ध-संरचित डेटा

अर्ध-संरचित डेटा हा तिसरा प्रकाराचा डेटा आहे जो संपूर्ण पाईच्या तुलनेत (5-10 टक्के) खूपच लहान भाग दर्शवितो. शब्दशः दोन्ही जगाच्या दरम्यान पकडले गेले, अर्ध-संरचित डेटामध्ये अंतर्गत सिमेंटिक टॅग आणि खुणा आहेत जे वेगळे घटक ओळखतात, परंतु रिलेशनल डेटाबेसमध्ये फिट बसण्यासाठी आवश्यक संरचनाची कमतरता आहे.

उदाहरणार्थ, कदाचित ते स्ट्रक्चर्ड डेटासारखे वाटले कारण तारीख, फाईल आकार किंवा वेळानुसार त्यांचे वर्गीकरण केले जाऊ शकते. तथापि, ते नाहीत, कारण सर्वात मौल्यवान माहिती त्याच्या तुलनेने सोप्या लेबलंपेक्षा अधिक आढळली आहे. सामग्री खरोखरच सामग्री आणि विषयानुसार व्यवस्थित मांडली जाऊ शकत नाही, कारण मशीन्स त्यांना स्पष्टपणे समजून घेण्याकरिता मनुष्य अशा कठोर नमुन्यांमध्ये बोलत नाही. अर्ध-संरचित डेटाच्या इतर उदाहरणांमध्ये NoSQL डेटाबेस, मुक्त मानक JSON आणि मार्कअप भाषा XML समाविष्ट आहे.

अर्ध संरचित डेटा सहसा मेटाडेटा विश्लेषणाद्वारे विश्लेषणासाठी क्वेरी केला जातो आणि कॅटलॉग केला जातो. उदाहरणार्थ, एक्स-रे स्कॅनमध्ये प्रतिमा तयार करणार्‍या मोठ्या संख्येने पिक्सल असतात - जे मूलभूत नसलेल्या संरचनात्मक डेटा असतात ज्यात प्रवेश करणे शक्य नाही. तथापि, स्कॅन फायलीमध्ये तरीही मेटाडेटा भाग समाविष्ट असेल जो त्याबद्दल माहिती प्रदान करेल, जसे की भाष्ये आणि वापरकर्ता आयडी.

स्ट्रक्चर्ड डेटामध्ये असंरचित डेटा बदलला जाऊ शकतो?

प्रत्येक डेटा विश्लेषकांना सामोरे जाणारे मूलभूत आव्हान म्हणजे माहिती व्यवस्थित व्यवस्थितपणे व्यवस्थित करणे जेणेकरुन त्यात प्रवेश केला जाऊ शकेल आणि समजू शकेल. डेटा खनन साधने सहसा माहितीचे विश्लेषण करण्यासाठी सज्ज नसतात, जी परिभाषानुसार मानवी भाषेइतकीच असते, याचा अर्थ असा होतो की दुसरा एखादा मनुष्य त्यास संग्रहित आणि वर्गीकृत करू शकतो.

तथापि, अप्रबंधित डेटाचे परिमाण खंड अत्यंत श्रम आणि महागडे संचयित किंवा आयोजन करण्याचा कोणताही प्रयत्न करते. म्हणा, वेब-आधारित शोध इंजिन कडून येणारा माहितीचा तलाव इतका भव्य आहे की बहुतेक मूलभूत गोष्टी काढण्यासाठी बहुतेक घटकांना काम आणि संसाधनाच्या बाबतीत मोठ्या गुंतवणूकीची आवश्यकता असते. अगदी सर्वात कार्यक्षम डेटा खनन तंत्र अद्यापही वेबवर आढळलेल्या माहितीची आणि त्याहूनही वाईट, खोल वेबमध्ये सापडलेल्या माहितीची विपुलता गमावतात.

पण तंत्र अस्तित्वात आहे. आणि ते आश्चर्यकारक वेगाने विकसित केले जात आहेत. उदाहरणार्थ, मेटाडेटा संरचित आणि अ-संरचित डेटा एकत्र जोडण्यासाठी वापरला जाऊ शकतो. कापणी केलेली माहिती केवळ संबंधित डेटाचे विश्लेषण करण्यासाठी तसेच वापरकर्त्यांद्वारे आणि अल्गोरिदमद्वारे फिल्टर आणि अनुक्रमित केली जाऊ शकते. इतर उपायांमध्ये "डेटा रॅंगलिंग" समाविष्ट आहे, ही एक प्रक्रिया आहे ज्याद्वारे जटिल डेटा क्रमागतपणे गैर-तांत्रिक वापरकर्त्यांद्वारे चरणबद्धपणे आयोजित केला जातो. (डेटा हाताळणार्‍या सामान्य वापरकर्त्यांविषयी अधिक माहितीसाठी सेल्फ-सर्व्हिस ticsनालिटिक्समध्ये मोठा डेटा कसा मदत करू शकतो ते पहा.)

काही क्षणी आम्ही या मोठ्या प्रमाणात असंगठित माहितीची कार्यक्षमतेने अधिक संयोजित आणि पुनर्रचित स्वरूपात रूपांतरित करू. कदाचित आज नाही, कदाचित उद्याही नाही, परंतु लवकरच आम्ही मानवजातीला पाहिलेल्या सर्वात मोठ्या तिजोरीवर छापा टाकण्यास सक्षम होऊ: मोठा डेटा.