मजबुतीकरण शिक्षण वि. सखोल मजबुतीकरण शिक्षण: काय फरक आहे?

लेखक: Laura McKinney
निर्मितीची तारीख: 5 एप्रिल 2021
अद्यतन तारीख: 26 जून 2024
Anonim
Lecture 37 : IIoT Analytics and Data Management: Machine Learning and Data Science – Part 1
व्हिडिओ: Lecture 37 : IIoT Analytics and Data Management: Machine Learning and Data Science – Part 1

सामग्री


टेकवे:

आम्ही तज्ञांकडे गेलो आणि त्यांना मजबुतीकरण शिक्षण आणि खोल मजबुतीकरण शिक्षण यामधील महत्त्वाच्या फरकांचे उत्तर देण्यास सांगितले

मशीन लर्निंग अल्गोरिदम जीवन आणि कार्य अधिक सुलभ बनवू शकतात, जे लोकांच्या संपूर्ण कार्यसंघापेक्षा वेगवान - आणि हुशार - कार्य करत असताना आपल्याला निरर्थक कार्यांपासून मुक्त करतात. तथापि, मशीन शिक्षणांचे विविध प्रकार आहेत. उदाहरणार्थ, तेथे मजबुतीकरण शिक्षण आणि खोल मजबुतीकरण शिक्षण आहे.

न्यू जर्सीच्या वेन येथील विल्यम पेटरसन युनिव्हर्सिटीमधील संगणक शास्त्राचे सहायक प्राध्यापक डॉ. किहो लिम यांनी सांगितले की, “जरी मजबुतीकरण शिक्षण आणि खोल मजबुतीकरण शिक्षण हे दोन्ही मशीनी शिक्षण तंत्र आहेत जे स्वायत्तपणे शिकतात, तरी त्यात काही फरक आहेत.” "मजबुतीकरण शिक्षण गतीशीलतेने चाचणी आणि त्रुटी जास्तीतजास्त पद्धतीने शिकणे आणि निकाल जास्तीतजास्त शिकविणे होय, तर सखोल मजबुतीकरण शिक्षण विद्यमान ज्ञानापासून शिकत आहे आणि त्यास एका नवीन डेटा सेटवर लागू करते."

पण, नक्की, याचा अर्थ काय? आम्ही तज्ञांकडे गेलो - आणि त्यांना बरीच उदाहरणे देण्यास सांगितले!


मजबुतीकरण शिक्षण म्हणजे काय?

लिम म्हणतो त्याप्रमाणे, मजबुतीकरण शिक्षण ही चाचणी आणि त्रुटीनुसार शिकण्याची पद्धत - आणि सराव आहे. रेडमंड, डब्ल्यूए मधील डेटा सायन्स डोजो येथील डेटा सायन्स वैज्ञानिक ट्रेनी हनीद हमीद यांनी दिलेल्या माहितीनुसार, “या शिस्तीत, एक मॉडेल नियमितपणे अचूक भाकीत केल्याबद्दल प्रतिफळ मिळवून चुकीच्या भविष्यवाणीवर दंडात्मक कारवाई करून शिकते.” (मजबुतीकरण शिक्षण विपणनास एक छान डायनॅमिक स्पिन देऊ शकते वाचा.)

"एआय खेळ खेळताना आणि वेळोवेळी खेळ खेळण्यात सुधारण्यात सामान्यत: मजबुतीकरण शिक्षण पाहिले जाते."

मजबुतीकरण शिक्षणातील तीन आवश्यक घटक म्हणजे एजंट, कृती आणि बक्षीस. सीए मधील माउंटन व्ह्यूमधील फिडलर लॅबमधील डेटा सायन्सचे प्रमुख डॉ. अंकुर टाले यांच्या म्हणण्यानुसार, “मजबुतीकरण शिक्षण एखाद्या विशिष्ट पद्धतीचे पालन करते आणि सर्वोत्तम निकाल मिळविण्यासाठी सर्वोत्तम साधन ठरवते.” "आम्ही व्हिडिओ गेम कसा खेळतो या संरचनेशी अगदीच साम्य आहे, ज्यामध्ये वर्ण (एजंट) सर्वोच्च स्कोअर (बक्षीस) मिळविण्यासाठी अनेक चाचण्या (क्रियांची) मालिका गुंतवून ठेवतो."


तथापि, ही एक स्वायत्त स्वयं-शिक्षण प्रणाली आहे. व्हिडिओ गेम उदाहरण वापरुन, टॉले म्हणतात की स्कोअर किंवा गुण वाढविण्यामुळे सकारात्मक बक्षिसे मिळू शकतात आणि अडथळ्यांमध्ये धावणे किंवा प्रतिकूल हालचाली केल्यामुळे नकारात्मक बक्षिसे मिळू शकतात.

सॅन फ्रान्सिस्कोचे सीईओ ख्रिस निकल्सन, सीए-आधारित स्कायमइंड अल्गोरिदम कसे चाचणी व त्रुटींद्वारे शिकतात या उदाहरणावर आधारित आहेत. ”प्रथमच सुपर मारिओ ब्रदर्स खेळत असल्याची कल्पना करा आणि कसे जिंकता येईल ते शोधण्याचा प्रयत्न करा: आपण स्पेस एक्सप्लोर करा, तू परतलेस, उडी मारलीस, एका नाण्यावर आदळलीस, कासवावर उतरा आणि मग काय होईल ते तू पाहशील. ”

कोणतीही दोष नाही, तणाव नाही - आपले जीवन नष्ट न करता जीवन-बदलणारे सॉफ्टवेअर तयार करण्यासाठी चरण चरण बाय चरण

जेव्हा कोणालाही सॉफ्टवेअर गुणवत्तेची काळजी नसते तेव्हा आपण आपली प्रोग्रामिंग कौशल्ये सुधारू शकत नाही.

चांगल्या क्रिया आणि वाईट कृत्ये शिकून, गेम आपल्याला कसे वागावे हे शिकवते. “मजबुतीकरण शिक्षण असे करते की कोणत्याही परिस्थितीतः व्हिडिओ गेम, बोर्ड गेम्स, रिअल-वर्ल्ड वापराच्या घटनांचे सिम्युलेशन.” खरं तर निकोलसन म्हणतात की त्यांची संस्था कंपन्यांना जटिल परिस्थितीतून उत्तम निर्णय घेण्यास मदत करण्यासाठी मजबुतीकरण शिक्षण आणि सिम्युलेशन वापरते.

मजबुतीकरण शिक्षणात, एजंट मोठे लक्ष्य साध्य करण्यासाठी अनेक लहान निर्णय घेते. अजून एक उदाहरण म्हणजे रोबोटला चालणे शिकवणे. “एक पाय उचलण्यासाठी, गुडघे वाकणे, खाली ठेवणे इत्यादींच्या कठोर कोडिंग दिशानिर्देशांऐवजी, एक मजबुतीकरण शिकण्याच्या दृष्टीकोनातून वेगवेगळ्या हालचालींवर रोबोट प्रयोग केला जाऊ शकतो आणि ते तयार करण्यात कोणत्या जोड्या सर्वात यशस्वी आहेत हे शोधू शकेल. पुढे जा, ”महाविद्यालयीन उद्यानात इममुटा येथील डेटा वैज्ञानिक आणि विश्लेषक साधन तज्ज्ञ स्टीफन बेली म्हणतात.

व्हिडीओ गेम्स आणि रोबोटिक्स वगळता इतरही काही उदाहरणे आहेत जी मजबुतीकरण शिकणे कसे कार्य करते हे स्पष्ट करण्यात मदत करू शकते. वॉशिंग्टन डीसी मधील बॅबल स्ट्रीटचे मुख्य डेटा वैज्ञानिक ब्रॅंडन हेनी यांनी याची तुलना सायकल चालविण्याच्या मानवी शिक्षणाशी केली. "जर आपण स्थिर असाल आणि आपले पाय पॅडिंगशिवाय उचलले तर एक गडी बाद होण्याचा क्रम - किंवा दंड - अगदी जवळ आहे."

तथापि, आपण पेडल करणे सुरू केल्यास, नंतर आपण दुचाकीवर रहाल - बक्षीस - आणि पुढील राज्यात प्रगती करा.

हॅनी म्हणतात, “रीइनफोर्समेंट लर्निंगमध्ये अनेक निर्णय आहेत ज्यात आर्थिक निर्णय, रसायनशास्त्र, उत्पादन आणि अर्थातच रोबोटिक्सचा समावेश आहे.

दीप मजबुतीकरण शिक्षण म्हणजे काय?

तथापि, प्रबलित शिक्षण पध्दतीसाठी हे निर्णय खूपच जटिल होणे शक्य आहे. हेनी म्हणतात की अल्गोरिदमला सर्व राज्यांकडून शिकणे आणि बक्षीस मार्ग निश्चित करणे हे जबरदस्त असू शकते. "येथेच सखोल अंमलबजावणीचे शिक्षण सहाय्य करू शकते: 'खोल' भाग हा प्रत्येक सोल्यूशनचा नकाशा लावण्याऐवजी निर्णय प्रक्रियेमध्ये अधिक योग्य तोडगा काढण्याची जागा तयार करण्याऐवजी राज्यांचा अंदाज लावण्यासाठी मज्जासंस्थेच्या नेटवर्कच्या वापरास सूचित करतो."

ही नवीन संकल्पना नाही. हेनी म्हणतात की ते १ it s० च्या दशकापासून अस्तित्वात आहे. “पण स्वस्त आणि शक्तिशाली संगणकाच्या आगमनाने, न्यूरो नेटवर्कचे अतिरिक्त फायदे आता सोल्यूशनची जटिलता कमी करण्यासाठी क्षेत्रांचा सामना करण्यास मदत करू शकतात,” ते स्पष्ट करतात. (वाचा कृत्रिम बुद्धिमत्ता आणि न्यूरल नेटवर्क्समध्ये काय फरक आहे?)

तर, हे कसे कार्य करते? ए पी टीम मॅकेन्झी, एआय टीम लीड, तेराडाटा येथील अमेरिकेच्या मते, टेबलांमध्ये संग्रहित करणे खूप जास्त माहिती आहे, आणि सारणीपूर्ण पद्धतींसाठी एजंटला प्रत्येक राज्यात आणि कृती संयोजनाला भेट द्यावी लागेल.

तथापि, सखोल अंमलबजावणी शिक्षण कार्य मूल्यांकनासह राज्य मूल्यांचे अनुमान लावण्याच्या सारणीत्मक पद्धती पुनर्स्थित करते. "कार्य अंदाजे सर्व राज्य आणि मूल्य जोड्यांना एका टेबलमध्ये ठेवण्याची गरज केवळ काढून टाकते, एजंटला पूर्वी कधीही न पाहिलेली राज्ये मूल्ये सामान्य करण्यास सक्षम करते किंवा तत्सम राज्यांची मूल्ये वापरुन आंशिक माहिती मिळवते." मॅकेन्झी म्हणतात.

“सखोल मजबुतीकरण शिक्षणामधील बरीच रोमांचक प्रगती मोठ्या प्रमाणात जागांच्या जागी सामान्य करण्यासाठी तंत्रिका नेटवर्कच्या मजबूत क्षमतेमुळे झाली आहे.” आणि मॅकेन्झी नोंदवतात की डीप रीफोर्समेंट लर्निंगचा उपयोग अशा काही प्रोग्राममध्ये केला गेला आहे ज्याने काही उत्कृष्ट प्रतिस्पर्ध्यांना विजय मिळवून दिला आहे. बुद्धीबळ आणि गो यासारख्या गेममध्ये आणि रोबोटिक्सच्या बर्‍याच प्रगतींनाही ते जबाबदार असतात. (एआय, मशीन लर्निंग आणि रोबोटिक्स मधील 7 महिला नेते वाचा.)

बेली सहमत आहेत आणि पुढे म्हणतात, "या वर्षाच्या सुरूवातीस, अल्फास्टार नावाच्या एआय एजंटने जगातील सर्वोत्कृष्ट स्टारक्राफ्ट II खेळाडूला पराभूत केले - आणि हे विशेषतः मनोरंजक आहे कारण बुद्धिबळ आणि गो सारख्या खेळांप्रमाणेच, स्टारक्राफ्टमधील खेळाडूंना त्यांचा विरोधक काय करीत आहे हे माहित नाही." त्याऐवजी, तो म्हणतो की त्यांना प्रारंभिक रणनीती बनवावी लागेल आणि मग त्यांचा विरोधक काय योजना आखत आहे हे त्यांना समजले.

पण हे कसे शक्य आहे? एखाद्या मॉडेलमध्ये पाचपेक्षा जास्त स्तरांचे मज्जासंस्थेचे जाळे असल्यास, हमीद म्हणतो की त्यात उच्च मितीय डेटा पूर्ण करण्याची क्षमता आहे. ते म्हणतात, “यामुळे, मॉडेल मानवी अभियंता क्युरेट न घेता स्वतःच नमुने ओळखणे शिकू शकतो आणि मॉडेलमध्ये शिकण्यासाठी आवश्यक असणारे व्हेरिएबल्स सिलेक्ट करू शकतो.”

ओपन-एन्ड परिस्थीतीत आपण खरोखर खोल मजबुतीकरण शिक्षणाचे सौंदर्य पाहू शकता. टॅली रेस्टॉरंटमध्ये टेबल बुक करणे किंवा एखाद्या वस्तूसाठी ऑर्डर देण्याचे उदाहरण वापरतो - ज्या परिस्थितीत एजंटला दुसर्‍या टोकापासून कोणत्याही इनपुटला प्रतिसाद द्यावा लागतो.

ते म्हणतात, “डीप रीइन्फोर्समेंट लर्निंगचा उपयोग संभाषण एजंटला थेट दुस end्या टोकाकडून किंवा ऑडिओ सिग्नलवरून प्रशिक्षण देण्यासाठी केला जाऊ शकतो. “ऑडिओ सिग्नल वापरताना एजंट थांबा, इंटोनटेशन, इत्यादीसारख्या ऑडिओमधील सूक्ष्म संकेत निवडणे देखील शिकू शकतो - ही सखोल मजबुतीकरण शिकण्याची शक्ती आहे.”

आणि डीप रीइन्फोर्समेंट लर्निंगचे नवीन applicationsप्लिकेशन्स पुढे येत आहेत. ग्राहकाशी व्यस्त राहण्यासाठी पुढील सर्वोत्तम कृती ठरवताना मॅकेन्झी म्हणतात, "राज्य आणि कृतींमध्ये उत्पादने, ऑफर आणि मेसेजिंगची सर्व जोड्या सर्व वेगवेगळ्या वाहिन्यांवरील, ज्यात प्रत्येकाला वैयक्तिकृत केले जाऊ शकते - शब्दलेखन, प्रतिमा, रंग, फॉन्ट."

आणखी एक उदाहरण म्हणजे पुरवठा साखळी ऑप्टिमायझेशन, उदाहरणार्थ, संपूर्ण यूएस मध्ये नाशवंत उत्पादने वितरित करणे “संभाव्य राज्यांमध्ये विविध प्रकारच्या वाहतुकीचे सद्य स्थान, सर्व झाडे, गोदामे आणि किरकोळ दुकानातील यादी आणि सर्वांसाठी मागणीचा अंदाज आहे. स्टोअर, ”मॅकेन्झी म्हणतात.

"राज्य आणि कृती करण्याच्या जागेचे प्रतिनिधित्व करण्यासाठी सखोल शिक्षणाचा वापर केल्याने एजंटला चांगले लॉजिस्टिक निर्णय घेता येते ज्यामुळे कमी किमतीत अधिक वेळेवर वहन होते."