सुमारे दोन दशकांपासून संस्थांच्या नेत्यांवर विश्वास ठेवण्यात आलेल्या कार्यक्रमात सामील व्हा. व्हीबी ट्रान्सफॉर्म जे लोक एकत्र करतात जे वास्तविक संस्थांसाठी एआयची रणनीती तयार करतात. अधिक जाणून घ्या


मॅसेच्युसेट्स इन्स्टिट्यूट ऑफ टेक्नॉलॉजीच्या संशोधकांनी सेल्फ -अ‍ॅडॉप्टेशन मॉडेल्स (सील) नावाची एक चौकट विकसित केली आहे जी मोठ्या भाषेचे मॉडेल (एलएलएम) त्यांचे अंतर्गत पॅरामीटर्स अद्यतनित करून सतत शिकण्यास आणि अनुकूल करण्यास अनुमती देते. सील एलएलएमला त्याचा प्रशिक्षण डेटा तयार करण्यासाठी आणि सूचना अद्यतनित करण्यासाठी झुकत आहे, ज्यामुळे ते नवीन ज्ञान कायमचे आत्मसात करण्यास आणि नवीन कार्ये शिकू देते.

ही चौकट संस्था अनुप्रयोगांसाठी उपयुक्त ठरू शकते, विशेषत: डायनॅमिक वातावरणात काम करणार्‍या कृत्रिम बुद्धिमत्ता एजंट्ससाठी, जिथे त्यांनी सतत नवीन माहितीवर प्रक्रिया केली पाहिजे आणि त्यांचे वर्तन अनुकूल केले पाहिजे.

एलएलएमएस वातानुकूलनचे आव्हान

जरी मोठ्या भाषेच्या मॉडेल्सने उत्कृष्ट क्षमता दर्शविली आहेत, परंतु विशिष्ट कार्यांसह त्यांचे रुपांतर, नवीन माहिती समाविष्ट करणे किंवा नवीन विचारांच्या कौशल्यांमध्ये प्रभुत्व मिळविणे अद्याप एक मोठा अडथळा आहे.

सध्या, जेव्हा एखाद्या नवीन कार्याचा सामना करावा लागतो, तेव्हा एलएलएम सहसा फिनेटंग किंवा हरवलेल्या-संदर्भात “एएस-आयएस” डेटामधून शिकतात. तथापि, प्रदान केलेला डेटा कार्यक्षमतेने शिकण्यासाठी नेहमीच मॉडेलच्या इष्टतम स्वरूपात नसतो. मॉडेलच्या सध्याच्या पद्धती सर्वोत्कृष्ट रूपांतरण आणि नवीन माहितीमधून शिकण्यासाठी स्वतःच्या रणनीतींच्या विकासास परवानगी देत ​​नाहीत.

“उदाहरणार्थ, कोडिंग सहाय्यकास कंपनीच्या निर्दिष्ट प्रोग्राम फ्रेमवर्कला शोषून घेण्याची आवश्यकता असू शकते किंवा ग्राहकांच्या फेसिंग मॉडेलला कालांतराने अनोख्या वापरकर्त्याचे वर्तन किंवा प्राधान्ये शिकण्याची आवश्यकता असू शकते,” मॅसेच्युसेट्स इन्स्टिट्यूट ऑफ टेक्नॉलॉजीचे पीएचडी विद्यार्थी आणि पेपरचे सह -लेखक जिओ बॅरी म्हणाले.

अशा परिस्थितीत, तात्पुरते पुनर्प्राप्ती मर्यादित आहे आणि भविष्यातील सर्व प्रतिक्रियांवर परिणाम करण्यासाठी ज्ञान मॉडेलचे वजन “बेक केलेले” असणे आवश्यक आहे.

स्वयं -भाषेची भाषा मॉडेल तयार करा

“भाषेच्या मॉडेल्सचे विकास आणि प्रभावी रुपांतर करण्याच्या दिशेने एक पाऊल म्हणून, आम्ही सुचवितो की एलएलएम त्यांचा प्रशिक्षण डेटा तयार करण्याची क्षमता आणि हा डेटा वापरण्याच्या त्यांच्या दिशानिर्देशांसह सुसज्ज आहेत,” मॅसेच्युसेट्स इन्स्टिट्यूट ऑफ टेक्नॉलॉजीच्या संशोधकांनी त्यांच्या पेपरमध्ये म्हटले आहे.

सीलिंग फ्रेमवर्कचे विहंगावलोकन: आर्क्सिव्ह

संशोधक समाधान हा एक सील आहे, जो सेल्फ -अ‍ॅडॉप्टेशन मॉडेल्ससाठी लहान आहे. मजबुतीकरण शिक्षण अल्गोरिदम (आरएल) एलएलएमला “सेल्फ-एडिटिंग” तयार करण्यासाठी प्रशिक्षित करण्यासाठी वापरले जाते-मॉडेल किंवा स्वतःचे वजन कसे अद्यतनित करावे हे परिभाषित करते अशा नैसर्गिक भाषेत इन्स्ट्रक्शन. या स्वत: ची मते नवीन माहितीची पुनर्रचना करू शकतात, कृत्रिम प्रशिक्षण उदाहरणे तयार करू शकतात किंवा शिकण्याच्या प्रक्रियेचे तांत्रिक मापदंड देखील ओळखू शकतात.

अंतर्ज्ञानाने, सील एक मॉडेल शिकवते की त्याचे सानुकूल मार्गदर्शक कसे तयार करावे. फक्त एक नवीन दस्तऐवज (प्रारंभिक डेटा) वाचण्याऐवजी, फॉर्म पुन्हा लिहिणे आणि पुन्हा तयार करणे शिकते जे त्या अधिक सहजपणे शोषून घेईल आणि त्यास सहजपणे शोषून घेईल. या प्रक्रियेमुळे कृत्रिम बुद्धिमत्ता संशोधनाची अनेक प्रमुख क्षेत्रे एकत्र आणतात, ज्यात कृत्रिम डेटा निर्मिती आणि चाचणीच्या वेळी (टीटीटी) वाढविणे आणि प्रशिक्षण देणे आणि प्रशिक्षण देणे.

फ्रेम लूपच्या सिस्टमवर कार्य करते. “अंतर्गत रिंग” मध्ये, मॉडेल त्याच्या वजनासाठी तात्पुरते तात्पुरते अद्यतनित करण्यासाठी सेल्फ -एडिटिंगचा वापर करते. “बाह्य भाग” मध्ये, या अद्यतनाने लक्ष्यित मिशनवरील मॉडेलच्या कामगिरीमध्ये सुधारणा केली आहे की नाही हे सिस्टमचे मूल्यांकन करते. जर ते तसे करत असेल तर मॉडेलला सकारात्मक बक्षीस प्राप्त होते, जे भविष्यात या प्रकारचे प्रभावी स्वत: ची लोड तयार करण्याची क्षमता वाढवते. कालांतराने, एलएलएम स्वत: ला शिकविण्यात तज्ञ बनते.

त्यांच्या अभ्यासामध्ये, संशोधकांनी संपूर्ण स्टॅम्प फ्रेमचे एक मॉडेल वापरले. तथापि, त्यांच्या लक्षात आले की ही प्रक्रिया “शिक्षक-विद्यार्थी” मॉडेलमध्ये विभक्त केली जाऊ शकते. विशिष्ट शिक्षकांच्या मॉडेलला स्वतंत्र विद्यार्थी मॉडेलसाठी प्रभावी सेल्फ -एडिटिंग करण्यासाठी प्रशिक्षण दिले जाऊ शकते, जे त्यानंतर अद्यतनित केले जाईल. हा दृष्टिकोन संस्थेच्या सेटिंग्जमध्ये अधिक विशिष्ट आणि प्रभावी अनुकूलक पाइपलाइनला अनुमती देऊ शकतो.

सील

संशोधकांनी दोन मुख्य क्षेत्रात सीलची चाचणी केली: ज्ञान एकत्रित करणे (नवीन तथ्ये कायमस्वरुपी समाकलित करण्याची क्षमता) आणि थोडासा शॉट शिकणे (मूठभर उदाहरणांमधून सामान्यीकरण करण्याची क्षमता).

ज्ञान एकत्रितपणे सील (स्त्रोत: आर्क्सिव्ह)
ज्ञान स्रोत एकत्रित करण्यात सील: आर्क्सिव्ह

ज्ञान समाकलित करण्यासाठी, मॉडेल चौकशी दरम्यान क्लिपवर न पोहोचता मजकूर क्लिपबद्दलच्या प्रश्नांची उत्तरे देऊ शकते की नाही हे जाणून घेणे हे होते. कच्च्या मजकूरावर फक्त मूलभूत मॉडेलवर एक सीमांत सुधारणा सादर केली.

तथापि, जेव्हा सील मॉडेलने क्लिपमधून बर्‍याच “पुरातन वस्तू” तयार करून आणि या कृत्रिम डेटावर प्रशिक्षण देऊन “सेल्फ -एडिटिंग” तयार केले तेव्हा त्याची अचूकता 47 %पर्यंत वाढली. हे लक्षात घेण्यासारखे आहे की हे परिणाम सर्वात मोठ्या जीपीटी -4.1 द्वारे तयार केलेल्या कृत्रिम डेटाच्या वापराच्या कामगिरीपेक्षा जास्त आहेत, जे स्वतःसाठी उत्कृष्ट प्रशिक्षण सामग्री तयार करण्यास शिकलेल्या मॉडेलला सूचित करते.

काही शिक्षण सील (स्त्रोत: आर्क्सिव्ह)
थोड्याशा शिक्षणात शिक्का. स्रोत: आर्क्सिव्ह

थोडेसे शिकण्यासाठी, संशोधकांनी कमानीच्या विचारांच्या उदाहरणांवर शिक्का तपासला, जेथे मॉडेलने व्हिज्युअल कोडी सोडवली पाहिजे. सेल्फ -लीबरेशन टप्प्यात, मॉडेलला संपूर्ण अनुकूलन धोरण तयार करावे लागले, ज्यामध्ये डेटा मजबुतीकरण आणि वापरल्या जाणार्‍या साधनांचा समावेश आहे आणि शिक्षण दर लागू केला जाणे आवश्यक आहे.

सीलने 72.5 % यश दर प्राप्त केला, आरएल प्रशिक्षण न घेता 20 % दरामध्ये महत्त्वपूर्ण सुधारणा आणि संदर्भात 0 % मानक शिक्षण.

सील (रेड लाइन) आरएल चक्रांद्वारे सुधारत आहे (स्त्रोत: आर्क्सिव्ह)
सील (रेड लाइन) आरएल स्त्रोत स्त्रोतांद्वारे सुधारत आहे: आर्क्सिव्ह

संस्थेचा परिणाम

काही तज्ञ ऑफर करतात की मानवांनी तयार केलेला उच्च -गुणवत्ता प्रशिक्षण डेटा प्रदान करणे येत्या काही वर्षांत संपू शकते. प्रगती लवकरच “उच्च -वापर प्रशिक्षण सिग्नल तयार करण्याच्या मॉडेलच्या क्षमतेवर अवलंबून असू शकते,” संशोधकांनी सांगितले. ते पुढे म्हणाले, “पुढील नैसर्गिक चरण म्हणजे समर्पित कृत्रिम निवासस्थान जनरेटरचे रूप तयार करणे जे नवीन प्रीटरिंग कॉर्पोरा कंपनी तयार करते, जे भविष्यातील साहित्य डेटा कार्यक्षमतेचा विस्तार करण्यास आणि अतिरिक्त मानवी मजकूरावर अवलंबून न राहता अधिक डेटा साध्य करू देते.”

उदाहरणार्थ, संशोधक असे सूचित करतात की एलएलएम शैक्षणिक कागदपत्रे किंवा आर्थिक अहवाल यासारख्या जटिल कागदपत्रे खाऊ शकतात आणि हजारो अर्थ लावून त्यांचे आकलन वाढविण्यावर परिणाम करतात.

“सेल्फ -एक्सप्रेशन आणि सेल्फ -फॉर्मेशनचा हा पुनरावृत्तीचा भाग अतिरिक्त बाह्य देखरेखीच्या अनुपस्थितीतही दुर्मिळ विषयांमध्ये किंवा सक्रिय अभिनेत्रीमध्ये वैशिष्ट्ये सुधारू शकतो,” संशोधकांनी स्पष्ट केले.

ही क्षमता विशेषत: कृत्रिम बुद्धिमत्ता एजंट तयार करण्याचे आश्वासक आहे. एजंट्सने ज्ञान प्राप्त केले पाहिजे आणि ते त्यांच्या वातावरणाशी संवाद साधत असताना त्यांना ठेवावे. सील यासाठी एक यंत्रणा प्रदान करते. प्रतिक्रियेनंतर, एजंट वजन अद्यतनित करण्यासाठी सेल्फ -एडिटिंग संश्लेषित करू शकतो, ज्यामुळे त्याला शिकलेले धडे शोषून घेण्यास अनुमती मिळते. हा एजंट वेळोवेळी विकासास सक्षम करतो, अनुभवाच्या आधारे त्याची कामगिरी सुधारतो आणि निश्चित प्रोग्रामिंग किंवा वारंवार मानवी मार्गदर्शनावर त्याचे अवलंबन कमी करते.

“सील स्पष्ट करते की मोठ्या भाषेची मॉडेल प्रशिक्षण घेतल्यानंतर निश्चित राहत नाहीत,” संशोधक लिहितात. “त्यांचा सेल्फ -एडिटिंग डेटा व्युत्पन्न करणे आणि ते हलके अद्यतनांद्वारे लागू करणे शिकून, ते स्वतंत्रपणे नवीन ज्ञान समाकलित करू शकतात आणि नवीन कार्यांशी जुळवून घेऊ शकतात.”

सील निर्बंध

तथापि, सील हा जागतिक समाधान नाही. उदाहरणार्थ, ते “आपत्तीजनक विसरण्या” पासून ग्रस्त असू शकते, जिथे सतत री -ट्रेडिंग अभ्यासक्रम पूर्वी मॉडेल शिकू शकतात.

“आमच्या सध्याच्या अंमलबजावणीमध्ये आम्ही संकरित दृष्टिकोनास प्रोत्साहित करतो,” बॅरी म्हणाले. “संस्थांनी त्यांना कायमस्वरुपी एकत्र करण्यासाठी पुरेसे महत्त्वाच्या ज्ञानाबद्दल निवडक असले पाहिजे.”

वास्तववादी आणि विकसित डेटा कटिंगद्वारे बाह्य स्मृतीत राहू शकतो, तर वर्तनाच्या स्वरूपात दीर्घकालीन ज्ञान सील वजन पातळी अद्यतनांसाठी अधिक योग्य आहे.

ते म्हणाले: “या प्रकारच्या हायब्रीड मेमरी स्ट्रॅटेजी हे सुनिश्चित करते की मॉडेलला जबरदस्त न करता किंवा अनावश्यक विसरता न देता योग्य माहिती चालूच राहते.”

हे देखील लक्षात घ्यावे की सीलला एक वेळ लागतो जो स्वत: ची लिमिटरी आणि मॉडेलला प्रशिक्षण देण्याची उदाहरणे सेट करण्यासाठी वेळ वेगळे करत नाही. हे बर्‍याच उत्पादन सेटिंग्जमध्ये वास्तविक वेळेत सतत मुक्ती देते.

बॅरी म्हणाले: “आम्ही अधिक व्यावहारिक प्रकाशनाच्या मॉडेलची कल्पना करतो कारण सिस्टम काही कालावधीसाठी डेटा संकलित करते, किंवा काही तास किंवा दिवस-आणि नंतर ते नियोजित आधुनिकीकरणाच्या कालावधीत सेल्फ-एडिटिंगला लक्ष्य करीत आहे.” “नवीन ज्ञान आत्मसात करण्याची टॉरंटची क्षमता सुरू ठेवताना हा दृष्टिकोन संस्थांना अनुकूलतेच्या किंमतीवर नियंत्रण ठेवण्यास अनुमती देतो.”


Source link