शांघाय जिओ टोंग युनिव्हर्सिटी आणि इतर संस्थांमधील संशोधकांनी विकसित केलेले नवीन तंत्रज्ञान मोठ्या भाषेच्या मॉडेल्सच्या एजंटना महागड्या फाइन-ट्यूनिंगची गरज न पडता नवीन कौशल्ये शिकण्यास सक्षम करते.

संशोधक सुचवतात MemRLएक फ्रेमवर्क जे एजंटांना एपिसोडिक मेमरी विकसित करण्याची क्षमता देते, न पाहिलेल्या कार्यांचे निराकरण करण्यासाठी मागील अनुभव आठवण्याची क्षमता देते. MemRL एजंटना समस्या सोडवण्याच्या धोरणांमध्ये सतत सुधारणा करण्यासाठी पर्यावरणीय अभिप्राय वापरण्याची परवानगी देते.

MemRL हा संशोधन समुदायामध्ये विकसित होण्याच्या व्यापक प्रयत्नाचा एक भाग आहे सतत शिकणे कृत्रिम बुद्धिमत्ता अनुप्रयोग क्षमता. प्रमुख उद्योग बेंचमार्कवर आयोजित केलेल्या चाचण्यांमध्ये, फ्रेमवर्कने इतर बेसलाइन जसे की RAG आणि इतर मेमरी ऑर्गनायझेशन टेक्नॉलॉजी, विशेषत: जटिल वातावरणात ज्यांना अन्वेषण आणि प्रयोगाची आवश्यकता असते त्यापेक्षा जास्त कामगिरी केली. हे सूचित करते की मेमआरएल AI अनुप्रयोग तयार करण्यासाठी एक महत्त्वपूर्ण घटक बनू शकते जे डायनॅमिक, वास्तविक-जागतिक सेटिंग्जमध्ये कार्य करणे आवश्यक आहे जेथे आवश्यकता आणि कार्ये सतत बदलत असतात.

स्थिरता आणि प्लॅस्टिकिटीची कोंडी

एजंट ऍप्लिकेशन्स तैनात करण्यामधील मुख्य आव्हानांपैकी एक म्हणजे प्रारंभिक प्रशिक्षण टप्प्यानंतर नवीन ज्ञान आणि कार्यांसाठी मूलभूत मॉडेलचे रुपांतर करणे. विद्यमान पद्धती सामान्यतः दोन श्रेणींमध्ये मोडतात: पॅरामेट्रिक पद्धती, उदा छान ट्यूनिंगआणि नॉन-पॅरामेट्रिक दृष्टिकोन, जसे की RAG. परंतु दोन्ही महत्त्वपूर्ण ट्रेड-ऑफसह येतात.

फाइन-ट्यूनिंग, नवीन माहिती मिळविण्यासाठी प्रभावी असले तरी, संगणकीयदृष्ट्या महाग आणि मंद आहे. महत्त्वाचे म्हणजे, यामुळे अनेकदा… आपत्तिमय विस्मरणएक घटना ज्यामध्ये नवीन मिळवलेले ज्ञान पूर्वी शिकलेला डेटा ओव्हरराइट करते, मॉडेलच्या एकूण कार्यक्षमतेस बिघडवते.

याउलट, RAG सारख्या नॉन-पॅरामेट्रिक पद्धती अनिवार्यपणे निष्क्रिय आहेत; ते इनपुट क्वेरीसाठी माहितीच्या वास्तविक उपयुक्ततेचे मूल्यमापन न करता केवळ अर्थविषयक समानतेवर आधारित माहिती पुनर्प्राप्त करतात, जसे की वेक्टर एम्बेडिंग. हा दृष्टिकोन असे गृहीत धरतो "समान अर्थ उपयुक्त," जे बहुधा गुंतागुंतीच्या तर्काच्या कार्यात सदोष असते.

संशोधकांचा असा विश्वास आहे की मानवी बुद्धिमत्ता “संज्ञानात्मक विचारांची स्थिरता आणि एपिसोडिक स्मरणशक्तीची लवचिकता यांच्यातील एक नाजूक संतुलन राखून” या समस्येचे निराकरण करते. मानवी मेंदूमध्ये, स्थिर विचार (सेरेब्रल कॉर्टेक्सशी संबंधित) डायनॅमिक एपिसोडिक मेमरीपासून वेगळे केले जाते. हे मानवांना नवीन कार्ये न करता जुळवून घेण्यास अनुमती देते "न्यूरल सर्किट्सचे पुनरुत्पादन" (मॉडेल फाइन-ट्यूनिंगचे अंदाजे समतुल्य).

MemRL फ्रेमवर्कमध्ये

एपिसोडिक मेमरी आणि संज्ञानात्मक तर्कशक्तीच्या मानवांच्या वापराने प्रेरित होऊन, MemRL एजंटला त्याच्या LLM पाठीच्या स्थिरतेशी तडजोड न करता तैनातीनंतर त्याची कामगिरी सतत सुधारण्यासाठी सक्षम करण्यासाठी डिझाइन केले आहे. मॉडेल पॅरामीटर्स बदलण्याऐवजी, फ्रेमवर्क अनुकूलन यंत्रणा स्वयं-विकसित बाह्य मेमरी स्ट्रक्चरमध्ये रूपांतरित करते.

या संरचनेत, LLM पॅरामीटर्स पूर्णपणे गोठलेले राहतात. मॉडेल म्हणून प्रभावीपणे कार्य करते "कवच" एकूण विचार, तर्कशास्त्र आणि कोड जनरेशनसाठी जबाबदार, परंतु तैनातीनंतर आलेल्या विशिष्ट यश किंवा अपयश संचयित करण्यासाठी जबाबदार नाही. ही रचना स्थिर संज्ञानात्मक विचारांची खात्री देते आणि आपत्तीजनक विसरणे टाळते.

अनुकूलन हाताळण्यासाठी, MemRL डायनॅमिक एपिसोडिक मेमरी घटक राखते. साधा मजकूर दस्तऐवज संग्रहित करण्याऐवजी आणि निश्चित समाविष्ट मूल्ये, जसे की RAG मध्ये सामान्य आहे, MemRL मेमरी मध्ये व्यवस्थापित करते "लाभाचा अनुभव घेण्याचा हेतू" तिप्पट यामध्ये वापरकर्त्याची क्वेरी (उद्देश), विशिष्ट निराकरणाचा मार्ग किंवा घेतलेली कृती (अनुभव) आणि Q मूल्य म्हणून ओळखले जाणारे परिणाम समाविष्ट आहेत, जे हा विशिष्ट अनुभव भूतकाळात किती यशस्वी झाला हे दर्शविते (उपयुक्तता).

एंटरप्राइझ वास्तुविशारदांसाठी महत्त्वपूर्णपणे, या नवीन डेटा आर्किटेक्चरला विद्यमान पायाभूत सुविधा नष्ट करण्याची आवश्यकता नाही. "MemRL हे विद्यमान तंत्रज्ञान स्टॅकमधील पुनर्प्राप्ती स्तरासाठी “थेट” बदलण्यासाठी डिझाइन केलेले आहे आणि विविध वेक्टर डेटाबेसशी सुसंगत आहे." मोनिंग वेन, पेपरचे सह-लेखक आणि शांघाय जिओ टोंग विद्यापीठातील डॉक्टरेट उमेदवार यांनी व्हेंचरबीटला सांगितले. "”क्यू-व्हॅल्यू” चे अस्तित्व आणि अद्ययावत करणे हे केवळ डायनॅमिक डेटाचे अधिक चांगले मूल्यांकन आणि व्यवस्थापन करण्याच्या उद्देशाने आहे… आणि ते स्टोरेज फॉरमॅटपासून स्वतंत्र आहे."

हा युटिलिटी परिणाम क्लासिक RAG सिस्टममधील मुख्य फरक आहे. अनुमानाच्या वेळी, MemRL एजंट ए "दोन-चरण पुनर्प्राप्ती" यंत्रणा प्रथम, सिस्टीम त्यांच्या प्रासंगिकतेची खात्री करण्यासाठी शब्दार्थाने क्वेरीच्या जवळ असलेल्या आठवणी ओळखते. हे नंतर या उमेदवारांना त्यांच्या Q मूल्याच्या आधारे पुनर्वर्गीकृत करते, प्रभावी सिद्ध झालेल्या धोरणांना प्राधान्य देते.

फ्रेमवर्क मजबुतीकरण शिक्षण थेट मेमरी पुनर्प्राप्ती प्रक्रियेत समाकलित करते. जेव्हा एखादा सॉल्व्हर सोल्यूशनचा प्रयत्न करतो आणि पर्यावरणीय अभिप्राय प्राप्त करतो (म्हणजे यश किंवा अपयश), तो पुनर्प्राप्त केलेल्या मेमरीचे Q मूल्य अद्यतनित करतो. यामुळे एक बंद फीडबॅक लूप तयार होतो: कालांतराने, एजंट विचलित करणाऱ्या आठवणींकडे दुर्लक्ष करण्यास आणि अंतर्निहित MBA ला पुन्हा प्रशिक्षण न देता उच्च-मूल्य धोरणांना प्राधान्य देण्यास शिकतो.

मजबुतीकरण शिकण्याची पायरी जोडताना ते लक्षणीय विलंब जोडते असे वाटू शकते, वेनने नोंदवले की संगणकीय ओझे कमी आहे. "Q मूल्याची गणना संपूर्णपणे CPU वर केली जाते," तो म्हणाला.

MemRL मध्ये रनटाइममध्ये सतत शिकण्याची क्षमता देखील असते. जेव्हा एजंटला नवीन परिस्थिती येते, तेव्हा प्रणाली नवीन मार्गाचा सारांश देण्यासाठी आणि नवीन ट्रिपल म्हणून मेमरी बँकेत जोडण्यासाठी गोठवलेल्या LLM चा वापर करते. हे एजंटला जगाशी संवाद साधत असताना त्याच्या ज्ञानाचा आधार डायनॅमिकरित्या विस्तारित करण्यास अनुमती देते.

हे लक्षात घेण्यासारखे आहे की स्वयंचलित मूल्य असाइनमेंट जोखमीसह येते: जर सिस्टम चुकून वाईट परस्परसंवाद प्रमाणित करते, तर एजंट चुकीचा धडा शिकू शकतो. आम्ही हे मान्य करत नाही "विषारी स्मृती" धोकादायक, परंतु हे सूचित करते की ब्लॅक-बॉक्स न्यूरल नेटवर्कच्या विपरीत, MemRL पारदर्शक आणि ऑडिट करण्यायोग्य राहते. "जर एखाद्या वाईट परस्परसंवादाला चुकून सकारात्मक उदाहरण म्हणून लेबल केले गेले तर… ते अधिक व्यापकपणे पसरू शकते." वेन म्हणाले. "तथापि… आम्ही मेमरी बँकेतून कलंकित डेटा काढून किंवा त्याची Q मूल्ये रीसेट करून सहजपणे त्याचे निराकरण करू शकतो."

MemRL कृतीत आहे

संशोधकांनी मेमआरएलचे चार वैविध्यपूर्ण उद्योग बेंचमार्कवर अनेक बेसलाइन्सच्या विरुद्ध मूल्यमापन केले: BigCodeBench (कोड जनरेशन), ALFWorld (मूर्त नेव्हिगेशन), लाइफलाँग एजंट बेंच (ऑपरेटिंग सिस्टम आणि डेटाबेस परस्परसंवाद), आणि मानवतेसाठी अंतिम चाचणी (जटिल बहुशाखीय तर्क).

परिणामांवरून असे दिसून आले आहे की मेमआरएल ऑन-द-रन लर्निंग (सेशनमध्ये सुधारणा) आणि ट्रान्सफर लर्निंग (न पाहिलेल्या कामांचे सामान्यीकरण) या दोन्ही बाबतीत बेसलाइन्सला सातत्याने मागे टाकते.

या मूल्य-जागरूक पुनर्प्राप्ती यंत्रणेचे फायदे ALFWorld सारख्या अन्वेषण-केंद्रित वातावरणात सर्वात स्पष्ट होते. या बेंचमार्कमध्ये, ज्यासाठी एजंट्सना नॅव्हिगेट करणे आणि घरातील सिम्युलेटेड वातावरणाशी संवाद साधणे आवश्यक आहे, MemRL ने अंदाजे 56% पेक्षा अधिक सापेक्ष सुधारणा केली. मेमपप्रॉक्सी मेमरीसाठी दुसरे फ्रेमवर्क. संशोधकांना असे आढळले की मजबुतीकरण शिक्षण घटकाने एजंटला जटिल कार्यांचे अन्वेषण आणि निराकरणे शोधण्यासाठी प्रभावीपणे प्रोत्साहित केले जे समानता-आधारित पुनर्प्राप्ती पद्धती सोडविण्यात अयशस्वी ठरतात.

जेव्हा मेमरी बँक गोठवली गेली आणि सामान्यीकरण मोजण्यासाठी मेमरी केलेल्या सेटवर चाचणी केली गेली, तेव्हा MemRL ने बेंचमार्कमध्ये सर्वोच्च अचूकता प्राप्त केली. उदाहरणार्थ, लाइफलाँग एजंट बेंचमध्ये, OS टास्कमधील मानक RAG बेसलाइनपेक्षा ते लक्षणीयरीत्या सुधारले आहे. हे सूचित करते की प्रणाली केवळ प्रशिक्षण डेटा वाचवतेच असे नाही तर उच्च-उपयोगिता अनुभव टिकवून ठेवण्यासाठी कमी-मूल्याच्या आठवणी प्रभावीपणे फिल्टर करते जे नवीन परिस्थितींमध्ये सामान्य केले जाऊ शकतात.

स्वयं-विकसित घटकांचे विस्तृत चित्र

MemRL मेमरी-आधारित मार्कोव्ह निर्णय प्रक्रिया (M-MDP) वर लक्ष केंद्रित करणाऱ्या संशोधनाच्या वाढत्या भागामध्ये बसते, एक अशी रचना जी मेमरी पुनर्प्राप्तीला निष्क्रिय शोध कार्याऐवजी सक्रिय निर्णय घेण्याचे पाऊल म्हणून फ्रेम करते. पुनर्प्राप्ती प्रक्रिया म्हणून हाताळून ते मजबुतीकरण शिक्षण, फ्रेमवर्क जसे की MemRL आणि तत्सम पद्धतींद्वारे सुधारले जाऊ शकते जसे की स्मरणिका हे अधिक स्वायत्त प्रणालींसाठी मार्ग प्रशस्त करते.

एंटरप्राइझ AI साठी, ही शिफ्ट महत्त्वाची आहे. हे एक भविष्य प्रस्तावित करते जेथे एजंट सामान्य-उद्देश LLM वापरून तैनात केले जाऊ शकतात आणि नंतर केवळ परस्परसंवादाद्वारे दिलेल्या कंपनीच्या वर्कफ्लो, मालकी डेटाबेस आणि अनन्य समस्या सेटशी त्वरित जुळवून घेतात. आम्ही पाहत असलेल्या प्रमुख बदलांमध्ये फ्रेमवर्क आहे जे ॲप्लिकेशन्सना डायनॅमिक वातावरण मानतात जिथून शिकायचे आहे.

या उदयोन्मुख क्षमता संस्थांना त्यांच्या व्यवसायाच्या गरजेनुसार विकसित होणारे सातत्यपूर्ण, उच्च-कार्यक्षम एजंट्स कायम ठेवण्यास अनुमती देतील, वारसा मॉडेलच्या समस्येचे निराकरण करण्यासाठी सतत पुन्हा प्रशिक्षणासाठी प्रतिबंधात्मक खर्च न करता.

हे आम्ही डेटाचे मूल्यमापन कसे करतो यामधील बदल दर्शवते. "भविष्यात जेथे स्थिर डेटा संपणार आहे, प्रत्येक बुद्धिमान एजंटने त्याच्या जीवनकाळात व्युत्पन्न केलेला परस्परसंवादाचा अनुभव नवीन इंधन बनेल." वेन म्हणाले.

Source link