उद्योगातील अग्रगण्य कृत्रिम बुद्धिमत्ता कव्हर करण्यासाठी नवीनतम अद्यतने आणि विशेष सामग्री मिळविण्यासाठी दररोज आणि साप्ताहिक वृत्तपत्रांमध्ये सामील व्हा. अधिक जाणून घ्या
स्टॅनफोर्ड युनिव्हर्सिटी आणि गूगल डीपमाइंडच्या संशोधकांनी चरण -स्टेप रनफोर्समेंट लर्निंग (स्विर्ल) या चरणातून उघड केले आहे, जे एकाधिक -स्टेप विचार आणि साधनांचा वापर आवश्यक आहे अशा जटिल कार्ये संबोधित करण्यासाठी मोठ्या एलएलएमएस मॉडेलची क्षमता वाढविण्यासाठी डिझाइन केलेले एक तंत्र.
कृत्रिम बुद्धिमत्ता घटक आणि एलएलएम साधनातील स्वारस्यात सतत वाढ झाल्यामुळे हे तंत्रज्ञान त्यांच्या अनुप्रयोग आणि वर्कफ्लोमध्ये विचार मॉडेल एकत्रित करण्यास उत्सुक असलेल्या संस्थांना चांगले फायदे प्रदान करू शकते.
मल्टी -स्टेप्सला आव्हान द्या
वास्तविक जगाच्या अनुप्रयोगांमध्ये बर्याचदा मल्टी -स्टेप प्रक्रियेचा समावेश असतो. उदाहरणार्थ, जटिल विपणन मोहिमेच्या नियोजनात बाजार संशोधन, अंतर्गत डेटा विश्लेषण, बजेट खाते आणि ग्राहक समर्थन तिकिटांचे पुनरावलोकन समाविष्ट असू शकते. यासाठी ऑनलाइन शोध, अंतर्गत डेटाबेस आणि प्रतीकात प्रवेश आवश्यक आहे.
पारंपारिक पारंपारिक शिक्षण पद्धती (आरएल) (आरएल) एलएलएम समायोजित करण्यासाठी फोकस, जसे की मानवी टिप्पण्या (आरएलएचएफ) किंवा एआय (आरएलएआयएफ) च्या आरएल पासून मजबुतीकरण शिक्षण, सामान्यत: एकल -विचारांच्या कार्यांसाठी मॉडेल्स सुधारण्यावर लक्ष केंद्रित करते.
स्टॅनफोर्ड युनिव्हर्सिटीमधील एक स्पायरल पेपर, अण्णा गोल्डी, एक संशोधन वैज्ञानिक गूगल डीपमिंड आणि अझलिया मिरहोसेनी या कॉम्प्यूटर सायन्स एडचे मुख्य लेखक असा विश्वास करतात की वास्तविक जागतिक अर्जांद्वारे आवश्यक असलेल्या मल्टी -स्टेप विचारांच्या कार्यांसाठी सध्याच्या एलएलएम प्रशिक्षण पद्धती योग्य नाहीत.
“पारंपारिक पद्धतींद्वारे प्रशिक्षित एलएलएम सहसा मल्टी -स्टेप नियोजन आणि साधनांच्या समाकलनासह संघर्ष करतात, याचा अर्थ असा की त्यांना एकाधिक स्त्रोतांकडून (उदाहरणार्थ, कामाचा अहवाल लिहिणे) किंवा विचार आणि खाते खात्याच्या एकाधिक चरणांची (उदाहरणार्थ, आर्थिक सारांश तयार करणे) आवश्यक अशी कार्ये करण्यास अडचण येत आहे.”
चरण -स्टेप मजबुतीकरण (भोवरा) शिका
या मल्टी -स्टेप चॅलेंजच्या भोवरा कृत्रिम डेटा निर्मितीच्या संचासह आणि एक विशेष आरएल दृष्टिकोन आहे जो मॉडेल्सना प्रक्रियेच्या संपूर्ण क्रमावर प्रशिक्षण देतो.
संशोधकांनी त्यांच्या पेपरमध्ये असेही नमूद केले आहे की, “अधिक व्यवस्थापित सब -टास्क्सच्या मालिकेत जटिल समस्या विघटित कशी करावी हे मॉडेल शिकविणे हे आमचे ध्येय आहे, जेव्हा साधन कॉल केले जाऊ शकते, साधनाचे आमंत्रण कसे तयार करावे आणि जेव्हा या प्रश्नांचे परिणाम प्रश्नाचे उत्तर देण्यासाठी वापरले जातात आणि त्याचे परिणाम प्रभावीपणे कसे तयार करावे.”
हे दोन टप्प्यात एक पद्धतशीर चक्र वापरते. प्रथम, हे मोठ्या प्रमाणात मल्टी -स्टेप विचार डेटा आणि साधने वापरणे तयार आणि फिल्टर करते. दुसरे म्हणजे, आरएल अल्गोरिदम, जो चरण -स्टेप आहे, या तयार मार्गांचा वापर करून बेस सुधारण्यासाठी एलएलएमचा वापर करतो.
“या दृष्टिकोनात एक मोठे व्यावहारिक वैशिष्ट्य आहे जे आम्ही स्लो टूलची अंमलबजावणी करून प्रशिक्षण प्रक्रियेचा दम घुटू नये म्हणून समांतर कॉलद्वारे मोठ्या प्रमाणात मल्टी -स्टेप प्रशिक्षण डेटा द्रुतपणे तयार करू शकतो.” “याव्यतिरिक्त, ही विसंगत प्रक्रिया निश्चित डेटा सेटच्या उपस्थितीमुळे अधिक क्लोनिंगला अनुमती देते.”
प्रशिक्षण डेटा निर्मिती
पहिल्या टप्प्यात आपण शिकता त्या कृत्रिम डेटा आवर्तची निर्मिती समाविष्ट आहे. एलएलएमला शोध इंजिन किंवा कॅल्क्युलेटर सारख्या संबंधित साधनात प्रवेश दिला जातो. मग मॉडेलला “पथ” च्या निर्मितीची पुनरावृत्ती करणे आवश्यक आहे, जे एखाद्या विशिष्ट समस्येचे निराकरण करण्यासाठी चरणांची मालिका आहे. प्रत्येक चरणात, मॉडेल अंतर्गत विचारसरणी (“” विचार “) व्युत्पन्न करू शकते, एखाद्या साधनास कॉल करू शकते किंवा अंतिम उत्तर तयार करू शकते. जर एखादे साधन आवश्यक असेल तर क्वेरी काढली जाईल आणि अंमलात आणली जाईल (उदाहरणार्थ, संशोधन केले जाते) आणि परिणाम पुढील चरणात मॉडेलच्या संदर्भात पुन्हा दिले जाईल. मॉडेल अंतिम उत्तर देईपर्यंत हे चालूच आहे.
मग प्रत्येक संपूर्ण मार्ग, प्रारंभिक मागणीपासून अंतिम उत्तरापर्यंत, बर्याच आच्छादित उप -ट्रॅकमध्ये विभागला जातो. प्रत्येक सब -पथ विशिष्ट प्रक्रियेपर्यंत प्रक्रियेचे प्रतिनिधित्व करते, जे एका चरण -स्टेपसह लॉजिकची आवडती कामगिरी प्रदान करते. या पद्धतीचा वापर करून, कार्यसंघाने नियम (हॉटपोटक्यूए) आणि समस्या सोडवण्याचे मानक (जीएसएम 8 के) च्या एकाधिक उत्तर निकषांवर आधारित प्रश्नांवर आधारित मोठा डेटा सेट एकत्रित केला, ज्यामुळे हजारो ट्रॅक तयार होतील.
संशोधक चार भिन्न डेटा फिल्टरिंग रणनीती एक्सप्लोर करतात: तेथे कोणतेही लिक्विडेशन नाही, केवळ अंतिम उत्तराच्या वैधतेवर आधारित तरलता (निकालांचे लिक्विडेशन), प्रत्येक वैयक्तिक चरण (प्रक्रियेचे लिक्विडेशन) दर्शविलेल्या वाजवीतेवर आधारित तरलता आणि प्रक्रिया आणि परिणाम यावर आधारित लिक्विडेशन.
एसएफटी नियंत्रणासारख्या बर्याच मानक पद्धती “गोल्डन स्टिकर्स” वर मोठ्या प्रमाणात अवलंबून असतात (योग्य अचूक उत्तरे आणि बर्याचदा योग्य अंतिम उत्तरास कारणीभूत नसलेल्या डेटाकडे दुर्लक्ष करतात. आधुनिक आरएल पद्धती देखील वापरल्या जातात, जसे की डीपसीक-आर 1 मध्ये वापरल्या जाणार्या, मॉडेलला प्रशिक्षित करण्याच्या निकालांच्या आधारे निकाल.
दुसरीकडे, व्हर्लपूलने ऑपरेशनसाठी फिल्टर डेटाचा वापर करून त्याचे सर्वोत्तम परिणाम साध्य केले आहेत. याचा अर्थ असा आहे की डेटामध्ये प्रत्येक चरण एक चरण मानले जाते किंवा साधन मागील संदर्भाच्या दृष्टीने तार्किक आहे, जरी अंतिम उत्तर त्रुटीत बदलले तरीही.
संशोधकांना असे आढळले आहे की भोवरा “चुकीच्या अंतिम उत्तरांमध्ये समाप्त होणा the ्या मार्गावरून देखील शिकू शकतो. खरं तर, आम्ही निकालाची वैधता विचारात न घेता नामांकित डेटाचा समावेश करून आपले सर्वोत्तम परिणाम साध्य करतो.”
सर्पिलसह एलएलएमएस प्रशिक्षण

दुसर्या टप्प्यात, मजबुतीकरण शिक्षण चक्र तयार केलेल्या कृत्रिम मार्गांवरील मूलभूत एलएलएम प्रशिक्षणासाठी वापरले जाते. मार्गातील प्रत्येक चरणात, मागील संदर्भानुसार खालील योग्य प्रक्रियेचा अंदाज (मध्ययुगीन विचार चरण, टूल कॉल किंवा अंतिम उत्तर) अंदाज लावण्यासाठी मॉडेल सुधारित केले आहे.
एलएलएमला प्रत्येक चरणात स्वतंत्र प्रसूती बोनस मॉडेलद्वारे नोट्स प्राप्त होतात, जे त्या संदर्भात संदर्भ पाहता मॉडेलचे प्राणी स्थापित करते.
“आमचे ग्रॅन्युलर मॉडेल, चरण -दर -चरण, मॉडेलला दोन्ही स्थानिक निर्णय (पुढील चरणात अंदाज) शिकण्याची आणि जागतिक मार्ग (अंतिम प्रतिसादाची निर्मिती) सुधारण्याची परवानगी देते आणि प्रत्येक अंदाजाच्या अखंडतेवर त्वरित प्रतिक्रियांद्वारे निर्देशित करते,” संशोधकांनी लिहिले आहे.

युक्तिवादाच्या वेळी, भोवराचा प्रशिक्षक त्याच पुनरावृत्ती शैलीसह कार्य करतो. हे एक दावा प्राप्त करतो आणि प्रतिसादात मजकूर तयार करतो. जर त्याने एखादा टूल कॉल घेतला (जसे की संशोधन क्वेरी किंवा स्पोर्टिंग एक्सप्रेशन), सिस्टम त्याचा विस्तार करते, साधन कार्यान्वित करते, विंडो विंडोमध्ये पुन्हा निकालाचे पोषण करते. नंतर मॉडेल अधिक टूल कॉल व्युत्पन्न करत राहते, जोपर्यंत अंतिम उत्तर घेईपर्यंत किंवा चरणांच्या संख्येपर्यंत पूर्वनिर्धारित प्रमाणात पोहोचत नाही.
“मॉडेलला प्रत्येक क्षणी वाजवी पावले उचलण्याचे प्रशिक्षण देऊन (आणि हे ए मध्ये सुसंगत आणि अधिक व्याख्या करण्यासाठी हे करण्यासाठी), आम्ही पारंपारिक एलएलएममध्ये मूलत: कमकुवत आहोत, जे जटिल मल्टी -स्टेप कार्यांच्या तोंडावर त्यांची नाजूकपणा आहे, कारण हे मार्गाच्या लांबीसह यशाची शक्यता लक्षणीयरीत्या निश्चित करते,” गोल्डि आणि मिरिन म्हणाले. “उपयुक्त आणि शक्तिशाली एआयला विविध साधनांची विस्तृत श्रेणी विलीन करणे आवश्यक आहे आणि त्याचे अनुक्रम जटिल अनुक्रमात एकत्र करणे आवश्यक आहे.”
कामावर एक आवर्त
स्टॅनफोर्ड आणि गूगल डीपमाइंड टीमने बर्याच मल्टी -स्टेप -टू -स्टेप उत्तरे कार्यांद्वारे भोवराचे मूल्यांकन केले. मूलभूत मॉडेल्सच्या तुलनेत, जीएसएम 8 के, हॉटपोटक्यू, म्युझिक आणि बिअरका सारख्या डेटा गटांवर 11 % ते 21 % पेक्षा जास्त ते 21 % ते 21 % पेक्षा जास्त आहे.
प्रयोगांनी याची पुष्टी केली आहे की प्रक्रियेवर वर्गीकृत केलेल्या डेटावरील सर्पिलसह जीएमएमए 2-27 बी मॉडेल प्रशिक्षण घेतल्यास उत्कृष्ट परिणाम किंवा परिणामांद्वारे प्रदान केलेल्या डेटामध्ये प्रशिक्षण दिले गेले आहे किंवा पारंपारिक एसएफटीचा वापर केला गेला आहे. हे सूचित करते की व्हर्लपूल मूलभूत विचारांची प्रक्रिया अधिक प्रभावीपणे शिकते, त्याऐवजी उत्तर दुरुस्त करण्यासाठी मार्ग जतन करण्याऐवजी, जे अदृश्य समस्यांवरील कामगिरीस मदत करतात.

महत्त्वाचे म्हणजे, मजबूत सामान्यीकरण क्षमतांचे चक्र दर्शविले. उदाहरणार्थ, गणिताच्या विचारांच्या कार्यांच्या कामगिरीवरील मजकूराच्या आधारे प्रश्न रद्द करण्यासाठी उदाहरणांवर एक आवर्त वापरून त्याने मॉडेलचे प्रशिक्षण दिले, जरी मॉडेलला गणिताच्या समस्येचे स्पष्टपणे प्रशिक्षण दिले गेले नाही.
कार्ये आणि विविध प्रकारच्या साधनांद्वारे ही हस्तांतरण क्षमता उच्च मूल्याची आहे कारण भाषेच्या मॉडेल्सच्या एजंट अनुप्रयोगांसाठी एक स्फोट आहे आणि डेटा संकलन आणि कार्येद्वारे सामान्यीकृत केलेल्या पद्धती नवीन वातावरणाशी जुळवून घेण्यास सुलभ, स्वस्त आणि वेगवान असतील.
“आम्हाला सापडलेल्या क्षेत्रांमध्ये आवर्तचे सामान्यीकरण खूप मजबूत आहे, परंतु कोडिंगसारख्या इतर क्षेत्रात याची चाचणी घेणे मनोरंजक असेल,” गोल्डी आणि मेशेनी म्हणाले. “आम्हाला आढळले आहे की प्रशिक्षित संस्थेचे एआय मॉडेल हे एक मूलभूत काम आहे जे व्हर्टेक्सचा वापर करते जे इतर कार्यांवर उत्कृष्ट कामगिरी सुधारित करते, जे भविष्यातील क्षमतांमध्ये वाढते तेव्हा हे तंत्रज्ञान अधिक प्रभावी ठरते, असे दर्शविते की हे तंत्र भविष्यातील क्षमतांमध्ये अधिक प्रभावी होते.”
Source link