![Excel Pivot टेबल्स सुरवातीपासून तज्ञ ते अर्ध्या तासात + डॅशबोर्ड!](https://i.ytimg.com/vi/4roVtL2mynA/hqdefault.jpg)
सामग्री
प्रश्नः
मोठ्या डेटामध्ये कधीही जास्त डेटा असू शकतो?
उत्तरः
प्रश्नाचे उत्तर एक उत्स्फूर्त होय होय. मोठ्या डेटा प्रोजेक्टमध्ये खूपच डेटा असू शकतो.
असे अनेक मार्ग आहेत ज्यामध्ये हे घडू शकते आणि व्यावसायिकांना योग्य परिणाम मिळविण्यासाठी अनेक मार्गांनी डेटा मर्यादित करणे आणि अचूक करणे आवश्यक असण्याची विविध कारणे आहेत. (बिग डेटाबद्दल 10 मोठे समज वाचा.)
सर्वसाधारणपणे, तज्ञ मॉडेलमधील "आवाज" पासून "सिग्नल" वेगळे करण्याबद्दल बोलतात. दुसर्या शब्दांत, मोठ्या डेटाच्या समुद्रात, संबंधित अंतर्दृष्टी डेटा लक्ष्य करणे कठीण होते. काही प्रकरणांमध्ये, आपण एका गवतच्या सुईचा शोध घेत आहात.
उदाहरणार्थ, समजा एखादी कंपनी ग्राहक बेसच्या विशिष्ट विभागाची विशिष्ट माहिती आणि विशिष्ट कालावधीत त्यांची खरेदी करण्यासाठी मोठा डेटा वापरण्याचा प्रयत्न करीत आहे. (वाचा मोठा डेटा काय करतो?)
विपुल प्रमाणात डेटा संपत्ती घेण्यामुळे यादृच्छिक डेटा घेण्याची शक्यता असू शकते आणि ते संबंधित नसते किंवा कदाचित एखादा पक्षपाती देखील तयार होऊ शकतो जो डेटा एका दिशेने किंवा दुसर्या दिशेने आकर्षित करतो.
संगणकीय प्रणालींना मोठ्या आणि मोठ्या डेटा सेटसह कुस्ती करावी लागत असल्याने हे प्रक्रिया नाटकीयरित्या देखील धीमे करते.
बर्याच प्रकारच्या प्रोजेक्ट्समध्ये, डेटा इंजिनिअर्ससाठी डेटा प्रतिबंधित आणि विशिष्ट डेटा सेट्ससाठी अचूक करणे महत्वाचे आहे - वरील बाबतीत, केवळ त्या त्या विभागातील ग्राहकांचा अभ्यास केला जाणारा डेटा असेल. फ्रेमचा अभ्यास केला जात आहे आणि अतिरिक्त अभिज्ञापक किंवा पार्श्वभूमीवरील माहिती बाहेर टाकणारी अशी एक पद्धत जी गोष्टींना गोंधळात टाकू शकते किंवा सिस्टम धीमा करू शकते. (वाचनजोल भूमिका: डेटा अभियंता.)
अधिक माहितीसाठी हे मशीन शिक्षण सीमेत कसे कार्य करते ते पाहूया. (मशीन लर्निंग 101 वाचा.)
मशीन लर्निंग तज्ञ "ओव्हरफिटिंग" नावाच्या एखाद्या गोष्टीबद्दल बोलतात जिथे जेव्हा मशीन लर्निंग प्रोग्राम नवीन उत्पादन डेटावर सैल होतो तेव्हा अती जटिल मॉडेल कमी परिणामकारक परिणाम देतात.
एखादी जटिल डेटा प्रारंभिक प्रशिक्षण सेटशी जुळते तेव्हा ओव्हरफिटिंग होते आणि प्रोग्रामला सहजपणे नवीन डेटाशी जुळवून घेण्याची परवानगी देऊ नका.
तांत्रिकदृष्ट्या, ओव्हरफिटिंग बर्याच डेटा नमुन्यांच्या अस्तित्वामुळे नव्हे तर बर्याच डेटा पॉइंट्सच्या राज्याभिषेकामुळे होते. परंतु आपण असा तर्क देऊ शकता की जास्त डेटा असणे देखील या प्रकारच्या समस्येस कारणीभूत ठरू शकते. आयामीपणाच्या शापात सामोरे जाण्यापूर्वी काही मोठ्या तंत्रज्ञानाचा समावेश आहे जे यापूर्वीच्या मोठ्या डेटा प्रकल्पांमध्ये केले गेले होते कारण व्यावसायिकांनी आयटी प्रणाली काय खायला घालत आहेत याचा निर्धार करण्याचा प्रयत्न केला.
सर्वात महत्त्वाची गोष्ट अशी आहे की मोठा डेटा कंपन्यांना मोठ्या प्रमाणात मदत करू शकतो किंवा ते एक मोठे आव्हान बनू शकते. याचा एक पैलू म्हणजे कंपनीकडे प्लेमध्ये योग्य डेटा आहे की नाही. तज्ञांना माहित आहे की सर्व डेटा मालमत्ता फक्त हॉपरमध्ये टाकणे आणि त्या मार्गाने अंतर्दृष्टी आणणे उचित नाही - नवीन क्लाउड-नेटिव्ह आणि अत्याधुनिक डेटा सिस्टममध्ये अधिक अचूक आणि अचूक मिळविण्यासाठी डेटा नियंत्रित आणि व्यवस्थापित करण्याचा प्रयत्न केला जातो. डेटा संपत्तीचा कार्यक्षम वापर