मॅसेच्युसेट्स इन्स्टिट्यूट ऑफ टेक्नॉलॉजी (एमआयटी) मधील संशोधकांना तंत्रज्ञान विकसित करण्यास नूतनीकरण केले जात आहे जे मोठ्या भाषेच्या मॉडेल्सला (एलएलएम) अनुमती देते-जसे की चॅटजीपीटी आणि सर्वात आधुनिक एआय-शक्तीच्या चॅटबॉट्स-ट्यूनसाठी सिंथेटिक डेटा तयार करून स्वत: ला सुधारित करतात.
सील (सेल्फ-अॅडॉप्टिंग एलएलएमएस) म्हणून ओळखल्या जाणार्या तंत्रज्ञानाचे वर्णन गेल्या जूनमध्ये प्रथम प्रकाशित झालेल्या एका पेपरमध्ये केले गेले होते आणि त्यावेळी व्हेंचरबीटने कव्हर केले होते.
गेल्या महिन्यात गीथब (एमआयटी परवान्याअंतर्गत, व्यावसायिक आणि संस्थात्मक वापरास परवानगी देऊन) ओपन सोर्स कोडसह, या पेपरची लक्षणीय विस्तारित आणि अद्ययावत आवृत्ती रिलीज करण्यात आली होती आणि या आठवड्यात सोशल नेटवर्क एक्स वर एआय वापरकर्त्यांमध्ये नवीन लाटा आणत आहेत.
सील एलएलएमला स्वतंत्रपणे त्यांची स्वतःची ललित-ट्यूनिंग रणनीती तयार करण्यास आणि लागू करण्यास अनुमती देते. पारंपारिक मॉडेल्सच्या विपरीत जे स्थिर बाह्य डेटा आणि मानवनिर्मित ऑप्टिमायझेशन पाइपलाइनवर अवलंबून असतात, सील मॉडेलला त्यांचे स्वतःचे कृत्रिम प्रशिक्षण डेटा तयार करून आणि संबंधित ऑप्टिमायझेशन मार्गदर्शनाद्वारे विकसित करण्यास सक्षम करते.
हा विकास एमआयटीच्या अशक्य कृत्रिम बुद्धिमत्ता प्रयोगशाळेशी संबंधित असलेल्या टीमकडून आला आहे, ज्यात अॅडम झ्वेइगर, ज्योथेश बॅरी, हान जु, एकिन अक्युरेक, युन किम आणि पुल्किट अग्रवाल यांचा समावेश आहे. त्यांचे संशोधन अलीकडेच न्यूरल इन्फॉर्मेशन प्रोसेसिंग सिस्टम (न्यूरिप्स 2025) वर 39 व्या परिषदेत सादर केले गेले.
पार्श्वभूमी: “स्टॅटिक एआयच्या पलीकडे” ते सेल्फ-अॅडॉप्टिव्ह सिस्टमपर्यंत
या वर्षाच्या सुरूवातीस, व्हेंचरबीटने प्रथम सीलवर प्रारंभिक-स्टेज फ्रेमवर्क म्हणून अहवाल दिला ज्यामुळे भाषेचे मॉडेल त्यांचे स्वतःचे कृत्रिम डेटा तयार करण्यास आणि त्यावर प्रशिक्षण देण्यास अनुमती देतात-एकदा तैनात केल्यावर प्री-प्रशिक्षित मॉडेल्सच्या स्थिरतेसाठी संभाव्य उपचार.
त्या क्षणी, सील ही संकल्पनेचा पुरावा म्हणून तयार केली गेली जी एंटरप्राइझ एआय एजंट्सना मॅन्युअल प्रशिक्षण न घेता गतिशील वातावरणात सतत शिकू शकेल.
तेव्हापासून, संशोधनात लक्षणीय वाढ झाली आहे. नवीन आवृत्ती मागील फ्रेमवर्कवर मॉडेलच्या आकारासह सीलची सेल्फ-अॅडॉप्टिव्ह क्षमता स्केल दर्शवून विस्तारित करते, आपत्तीजनक विसरणे कमी करण्यासाठी अधिक प्रभावीपणे मजबुतीकरण समाविष्ट करते आणि पुनरावृत्तीसाठी सीलच्या डबल-लूप स्ट्रक्चरचे (पर्यवेक्षी अंतर्गत ललित-ट्यूनिंग आणि बाह्य मजबुतीकरण ऑप्टिमायझेशन) औपचारिक करते.
अद्ययावत पेपर वेगवेगळ्या उत्तेजन स्वरूपात मूल्यांकन देखील सादर करते, शिकण्याच्या चक्रांच्या दरम्यान स्थिरता सुधारते आणि अनुमान वेळी व्यावहारिक उपयोजन आव्हानांवर चर्चा करते.
निश्चित मॉडेल्सच्या मर्यादांना संबोधित करणे
एलएलएमने मजकूर निर्मिती आणि आकलनामध्ये उल्लेखनीय क्षमता दर्शविली आहेत, परंतु त्यांचे नवीन कार्ये किंवा ज्ञानाशी जुळवून घेणे बर्याचदा मॅन्युअल, नाजूक किंवा संदर्भ अवलंबून असते.
सील या यथास्थितीला आव्हान देते की लेखक ज्याला “सेल्फ-अॅडजस्टमेंट्स” म्हणतात-मॉडेलचे वजन कसे अद्यतनित करते हे निर्दिष्ट करते.
हे स्वयं-समायोजन सुधारित माहिती, तार्किक परिणाम किंवा वाढ आणि प्रशिक्षणासाठी साधन कॉन्फिगरेशनचे स्वरूप घेऊ शकतात. एकदा तयार झाल्यानंतर, मॉडेल या सुधारणांच्या आधारे स्वतः समायोजित करते. प्रक्रियेस मजबुतीकरण शिक्षणाद्वारे मार्गदर्शन केले जाते, जिथे बक्षीस सिग्नल त्यानंतरच्या कार्यावरील सुधारित कामगिरीमधून येते.
माहिती अधिक चांगल्या प्रकारे शोषून घेण्यासाठी मानवी शिकणारे कोर्स मटेरियलमध्ये सुधारणा किंवा पुनर्रचना कशी करतात याची रचना तयार करते. आत्मसात करण्यापूर्वी ज्ञानाची पुनर्रचना करणे हा मॉडेलपेक्षा एक मोठा फायदा आहे जो नवीन डेटा “जसे आहे तसे” वापरतो.
कार्ये कार्यप्रदर्शन
दोन मुख्य क्षेत्रांमध्ये सीलची चाचणी घेण्यात आली: नॉलेज फ्यूजन आणि काही-शॉट शिक्षण.
नॉलेज फ्यूजन फ्रेमवर्कमध्ये, संशोधकांनी मॉडेलमध्ये स्टॅनफोर्ड युनिव्हर्सिटीने २०१ 2016 मध्ये स्टॅनफोर्ड युनिव्हर्सिटीने प्रदान केलेले एक मानक वाचन आकलन डेटासेट, विकिपीडिया लेख (राजपूरकर एट.) च्या आधारे २०१ 2016 मध्ये स्टॅनफोर्ड युनिव्हर्सिटीने प्रदान केलेले एक मानक वाचन आकलन डेटासेट असलेल्या परिच्छेदांमधून नवीन वास्तविक-जगातील सामग्री किती चांगल्या प्रकारे सामावून घेता येईल याचे मूल्यांकन केले.
क्लिप मजकूरावर थेट बारीक-ट्यूनिंग करण्याऐवजी, मॉडेलने सेगमेंटचे रचनात्मक ट्रेस व्युत्पन्न केले आणि मग ते त्यांच्यावर सेट करा.
मजबुतीकरणाच्या दोन फे s ्यांनंतर, मॉडेलने पथकाच्या संदर्भ-मुक्त आवृत्तीमध्ये 33.5% ते 47.0% पर्यंत प्रश्न-उत्तर अचूकता सुधारली-जीपीटी -4.1 द्वारे व्युत्पन्न केलेल्या सिंथेटिक डेटाचा वापर करून प्राप्त झालेल्या परिणामांपेक्षा.
काही-शॉट शिकण्याच्या वातावरणामध्ये, कमानीच्या निकषाच्या सबसेटचा वापर करून सीलचे मूल्यांकन केले गेले, जेथे कार्यांना केवळ काही उदाहरणांद्वारे विचार करणे आवश्यक आहे. येथे, सीलने स्वत: ची समायोजन तयार केले आहे जे डेटा वाढ आणि हायपरपॅरामीटर्स परिभाषित करते.
मजबुतीकरण शिक्षणानंतर प्रलंबित कामे योग्यरित्या सोडवण्याचा यशस्वी दर 72.5% पर्यंत वाढला, तर 20% च्या तुलनेत मजबुतीकरण शिक्षण न घेता स्वयं-व्युत्पन्न बदलांचा वापर केला. कोणत्याही अनुकूलतेशिवाय केवळ संदर्भात शिकण्यावर अवलंबून असलेल्या मॉडेल्सना 0%स्कोअर प्राप्त झाले.
तांत्रिक चौकट
सील टू-लूप आर्किटेक्चरचा वापर करून कार्य करते: अंतर्गत लूप सेल्फ-एडिटिंगच्या आधारे पर्यवेक्षी ललित-ट्यूनिंग करते, तर बाह्य लूप त्या स्वत: ची संपादन व्युत्पन्न करणार्या धोरणास अनुकूल करण्यासाठी मजबुतीकरण शिक्षणाचा वापर करते.
वापरलेली मजबुतीकरण शिक्षण अल्गोरिदम रेस्टेमवर आधारित आहे, जे फिल्टर केलेल्या वर्तनाचे नमुना आणि पुनरुत्पादन एकत्र करते. प्रशिक्षणादरम्यान, सुधारित कामगिरीला कारणीभूत ठरलेल्या केवळ स्वत: ची समायोजन अधिक मजबूत केले जाते. हा दृष्टिकोन मॉडेलला प्रभावीपणे शिकवते की कोणत्या प्रकारचे बदल शिकण्यासाठी सर्वात फायदेशीर आहेत.
कार्यक्षमतेसाठी, सील पूर्ण पॅरामीटर अद्यतनांऐवजी एलओआरए-आधारित फाईन-ट्यूनिंगला लागू करते, वेगवान प्रयोग आणि कमी किमतीच्या रुपांतरणास सक्षम करते.
सामर्थ्य आणि मर्यादा
संशोधकांनी अहवाल दिला आहे की सील कमीतकमी पर्यवेक्षणासह अत्यंत उपयुक्त प्रशिक्षण डेटा तयार करू शकते, विशिष्ट कार्यांवर जीपीटी -4.1 सारख्या मोठ्या बाह्य मॉडेल्सला मागे टाकते.
ते हे देखील दर्शवितात की सील त्याच्या मूळ सेटअपच्या पलीकडे सामान्यीकरण करते: सिंगल पास अद्यतनांपासून सतत बहु-दस्तऐवज प्रीट्रेनिंग परिस्थितीत विस्तारित करताना ते चांगले कामगिरी करत राहते.
तथापि, फ्रेमवर्क मर्यादाशिवाय नाही. एक समस्या म्हणजे आपत्तीजनक विसरणे, जिथे नवीन माहिती समाविष्ट करण्याच्या अद्यतनांमुळे पूर्वी शिकलेल्या कार्यांवरील कामगिरी कमी होऊ शकते.
या चिंतेच्या उत्तरात, सह-लेखक जिओ बॅरी यांनी ईमेलद्वारे व्हेंचरबेटला सांगितले की, मजबुतीकरण शिक्षण (आरएल) या विषयावरील अलीकडील पेपरचा हवाला देऊन पर्यवेक्षी ललित-ट्यूनिंग (एसएफटी) पेक्षा अधिक प्रभावीपणे विसरणे कमी करते. सीलसह या अंतर्दृष्टी एकत्रित केल्याने नवीन व्हेरिएबल्स होऊ शकतात कारण सील केवळ प्रशिक्षण डेटाच शिकत नाही तर बक्षीस कार्ये शिकते.
संगणकीय ओव्हरहेड हे आणखी एक आव्हान आहे: प्रत्येक स्वयं-सुधारिततेचे मूल्यांकन करण्यासाठी ललित-ट्यूनिंग आणि परफॉरमन्स टेस्टिंगची आवश्यकता असते, जी प्रति सुधारित 30 ते 45 सेकंद लागू शकते, मानक मजबुतीकरण शिक्षण कार्यांपेक्षा बरेच काही.
जिओने स्पष्ट केल्याप्रमाणे, “प्रशिक्षण सील गैर-क्षुल्लक आहे कारण त्यासाठी दोन ऑप्टिमायझेशन लूप, बाह्य आरएल लूप आणि अंतर्गत एसएफटी लूप आवश्यक आहे. अनुमान वेळी, मॉडेलचे वजन अद्यतनित करण्यासाठी नवीन सिस्टमची पायाभूत सुविधा देखील आवश्यक आहे.” सील चालू ठेवण्याचा एक गंभीर मार्ग म्हणून उपयोजन प्रणालींमध्ये भविष्यातील संशोधनाची गरज त्यांनी व्यक्त केली.
याव्यतिरिक्त, सीलची सध्याची रचना संबंधित कार्ये आणि प्रत्येक संदर्भातील संदर्भ उत्तरेची उपस्थिती गृहीत धरते, जे अज्ञात गटांपर्यंत त्याची थेट लागूता मर्यादित करते. तथापि, जिओने स्पष्ट केले की जोपर्यंत कॅल्क्युलेबल बक्षीस असलेले अंतिम मिशन आहे, तोपर्यंत सेफ्टी-क्रिटिकल भागातही-त्यानुसार परिस्थितीशी जुळवून घेण्याचे प्रशिक्षण दिले जाऊ शकते. तत्वतः, सील-प्रशिक्षित मॉडेल योग्य बक्षीस सिग्नलद्वारे मार्गदर्शन केले असल्यास हानिकारक किंवा दुर्भावनायुक्त इनपुटवरील प्रशिक्षण टाळणे शिकू शकते.
एआय समुदाय अभिप्राय
एआय रिसर्च अँड कन्स्ट्रक्शन कम्युनिटीने सील पेपरवर उत्साह आणि अनुमानांच्या मिश्रणाने प्रतिक्रिया दिली आहे. एक्स वर, पूर्वी ट्विटरवर, अनेक प्रमुख एआय-केंद्रित खात्यांनी संभाव्य परिणामाकडे लक्ष दिले.
वापरकर्ता @व्हीआरएएसईआरएक्स, एक स्वयं-वर्णन केलेला एआय शिक्षक आणि उत्साही, सील “सतत सेल्फ-लर्निंग एआय” असे म्हणतात आणि ओपनईच्या जीपीटी -6 सारख्या मॉडेल्सने समान आर्किटेक्चर स्वीकारू शकतो असा अंदाज वर्तविला आहे.
त्यांच्या शब्दांत, सील “गोठवलेल्या वजनाच्या युगाचा शेवट” दर्शवते, जे त्यांच्या सभोवतालच्या जगात बदलते म्हणून विकसित होणार्या प्रणालींमध्ये प्रवेश करतात.
ते स्थिर आठवणी तयार करण्याची, ज्ञान दुरुस्त करण्याची आणि रीअल-टाइम डेटामधून शिकण्याची सीलची क्षमता हायलाइट करतात आणि मॉडेलच्या दिशेने पायाभूत पायरीशी तुलना करतात जे केवळ माहितीचा वापर करतात तर ते शोषून घेतात.
दरम्यान, एआय-शक्तीच्या विपणन प्रकल्पाचे सह-संस्थापक, @एलेक्स_प्रॉम्प्टरने स्वत: ला पुन्हा लिहिलेल्या मॉडेल्सकडे झेप म्हणून सील दर्शविली. “एमआयटीने नुकतेच एक एआय तयार केला आहे जो हुशार होण्यासाठी स्वत: चा कोड पुन्हा लिहू शकेल,” त्यांनी लिहिले. कागदपत्र की निष्कर्ष-जीपीटी -4.1 च्या वास्तविक आठवणीत आणि स्वत: ची व्युत्पन्न डेटा वापरुन 40% वाढ – त्यांनी या निकालांचे वर्णन केले की “सेल्फ-रेग्युलेटिंग एलएलएम यापुढे विज्ञान कल्पित कथा नाही.”
हा उत्साह एआयमधील विस्तृत भूक प्रतिबिंबित करतो जे सतत प्रशिक्षण घेतल्याशिवाय किंवा मानवी देखरेखीशिवाय विकसित होऊ शकतात – विशेषत: वेगाने बदलणार्या फील्डमध्ये किंवा वैयक्तिक वापर प्रकरणांमध्ये.
भविष्यातील दिशानिर्देश आणि खुले प्रश्न
मोठ्या मॉडेल्स आणि मिशनमध्ये सील विस्तृत करण्याच्या प्रश्नांच्या उत्तरात, जीईओने प्रयोगांकडे लक्ष वेधले (परिशिष्ट बी .7) जे मॉडेलचे आकार वाढत असताना हे दर्शविते की स्वत: ची अनुकूलता वाढते. कालांतराने विद्यार्थ्यांनी त्यांचे अभ्यास तंत्र सुधारित केले आहे-उपयुक्त स्वत: ची समायोजन तयार करण्यात मोठी मॉडेल्स चांगली आहेत.
सील प्रोग्राम नवीन प्रेरणादायक पद्धतींचे सामान्यीकरण करतो का असे विचारले असता, त्याने पेपरमध्ये तक्ता 10 उद्धृत करून याची पुष्टी केली. तथापि, त्यांनी हे देखील कबूल केले की कार्यसंघाने अद्याप संपूर्ण नवीन डोमेन किंवा मॉड्यूलर आर्किटेक्चरमध्ये वाहतुकीच्या सीलच्या क्षमतेची चाचणी घेतली नाही.
ते म्हणाले, “सील ही एक प्रमुख कृती आहे जी संभाव्यतेचे प्रदर्शन करते.” “पण त्यासाठी अधिक चाचणी आवश्यक आहे.” ते पुढे म्हणाले की, सामान्यीकरण सुधारू शकते कारण सील अधिक व्यापकपणे वितरीत करण्यासाठी ट्रेन आहे.
विशेष म्हणजे, कार्यसंघाला असे आढळले की केवळ थोड्या प्रमाणात मजबुतीकरण शिकण्याच्या चरणांमुळे मोजमाप करण्यायोग्य कामगिरीचा फायदा झाला. “हे रोमांचक आहे, कारण याचा अर्थ असा आहे की अधिक संगणनासह, आशा आहे की आम्हाला अधिक सुधारणा मिळू शकतात,” जिओने नमूद केले. त्यांनी सुचवले की भविष्यातील प्रयोगांनी रेस्टेमच्या पलीकडे अधिक प्रगत मजबुतीकरण शिक्षण पद्धती, जसे की गट प्रमाणित पॉलिसी ऑप्टिमायझेशन (जीआरपीओ) सारख्या अन्वेषण केले पाहिजेत.
अधिक अनुकूली आणि प्रभावी मॉडेल्सकडे
सील मॉडेलच्या दिशेने एक पाऊल दर्शवते जे कालांतराने स्वतंत्रपणे सुधारू शकतात, नवीन ज्ञान समाविष्ट करून किंवा आपण कसे शिकतो हे बदलून. लेखक भविष्यातील विस्तारांची कल्पना करतात जेथे सील सेल्फ-ट्रेनिंग, सतत शिक्षण आणि एजंट सिस्टमच्या विकासास मदत करू शकतात-मॉडेल जे विकसनशील वातावरणावर प्रतिक्रिया देतात आणि वाढीव अनुकूलतेस अनुकूल असतात.
अशा सेटिंग्जमध्ये, मॉडेल प्रत्येक परस्परसंवादानंतर वजन अद्यतने गोळा करण्यासाठी सील वापरू शकते, हळूहळू वर्तन किंवा विचारांना आत्मसात करते. हे वारंवार पर्यवेक्षण आणि मॅन्युअल हस्तक्षेपाची आवश्यकता कमी करू शकते, विशेषत: मर्यादित किंवा विशेष डेटा असलेल्या क्षेत्रांमध्ये.
सार्वजनिक वेब मजकूर संतृप्त झाल्यामुळे आणि स्केलिंग एलएलएमएस डेटाच्या उपलब्धतेद्वारे प्रतिबंधित होते, सील सारख्या स्वयं-निर्देशित पध्दती एलएलएम काय साध्य करू शकतात या सीमांना धक्का देण्यास महत्त्वपूर्ण भूमिका बजावू शकतात.
आपण अतिरिक्त कोड आणि दस्तऐवजीकरणासह सील प्रकल्पात प्रवेश करू शकता: https://jyopari.github.io/posts/seal