सध्याच्या मल्टी-एजंट AI प्रणालींसमोरील मुख्य आव्हानांपैकी एक म्हणजे ते मजकूर क्रम तयार करून आणि सामायिक करून संवाद साधतात, ज्यामुळे विलंब होतो, टोकन खर्च वाढतो आणि संपूर्ण प्रणालीला एकसंध एकक म्हणून प्रशिक्षित करणे कठीण होते.
या आव्हानावर मात करण्यासाठी, युनिव्हर्सिटी ऑफ इलिनॉय अर्बाना-चॅम्पेन आणि स्टॅनफोर्ड विद्यापीठातील संशोधकांनी ते विकसित केले. परत या MOREएक फ्रेमवर्क जे एजंटना मजकुराऐवजी जागा समाविष्ट करून माहितीचे सहयोग आणि हस्तांतरण करण्यास सक्षम करते. या बदलामुळे कार्यक्षमता आणि कार्यक्षमतेत वाढ होते.
प्रयोग दर्शविते की RecursiveMAS कोड निर्मिती, वैद्यकीय तर्क आणि संशोधन यासारख्या जटिल डोमेनमध्ये अचूकतेमध्ये सुधारणा करते, तसेच अनुमान गती वाढवते आणि टोकन वापर कमी करते.
RecursiveMAS हे मानक पूर्ण फाइन-ट्यूनिंग किंवा LoRA पद्धतींपेक्षा प्रशिक्षित करणे खूपच स्वस्त आहे, ज्यामुळे ती कस्टम मल्टी-एजंट सिस्टमसाठी एक स्केलेबल आणि किफायतशीर योजना बनते.
मल्टी-एजंट सिस्टम ऑप्टिमाइझ करण्याची आव्हाने
मल्टी-एजंट सिस्टम हे एकल एजंट सिस्टम हाताळण्यासाठी संघर्ष करणारी जटिल कार्ये हाताळण्यास मदत करू शकते. रिअल-वर्ल्ड ॲप्लिकेशन्ससाठी मल्टी-एजंट सिस्टम्स स्केलिंग करताना, सिस्टमला विकसित, सुधारणे आणि कालांतराने वेगवेगळ्या परिस्थितींशी जुळवून घेण्यास सक्षम करणे हे एक मोठे आव्हान आहे.
रिअल-टाइम अनुकूलन एजंटना प्रदान केलेले सामायिक संदर्भ पुनरावृत्ती सुधारून एजंट संवाद सुधारते. प्रॉम्प्ट अद्ययावत करून, सिस्टम व्यवस्थापक म्हणून कार्य करते, एजंटना प्रतिसाद तयार करण्यासाठी निर्देशित करते जे एकूण ध्येयाशी अधिक सुसंगत असतात. मूलभूत मर्यादा अशी आहे की प्रत्येक एजंटच्या अंतर्गत असलेल्या मॉडेलची क्षमता स्थिर राहते.
अंतर्निहित मॉडेल्सचे वजन अद्ययावत करून एजंटना प्रशिक्षित करणे हा अधिक परिष्कृत दृष्टीकोन आहे. एजंट्सच्या संपूर्ण प्रणालीला प्रशिक्षण देणे कठीण आहे कारण अनेक मॉडेल्समध्ये सर्व पॅरामीटर्स अद्यतनित करणे संगणकीयदृष्ट्या सोपे नाही.
जरी एखादा अभियांत्रिकी कार्यसंघ त्याच्या मॉडेल्सचे प्रशिक्षण देण्यास वचनबद्ध असेल, तरीही मजकूर परस्परसंवादाद्वारे एजंट ज्या प्रमाणित मार्गाने संप्रेषण करतात त्यामुळे महत्त्वपूर्ण अडथळे निर्माण होतात. एजंट अनुक्रमिक मजकूर निर्मितीवर अवलंबून असल्याने, यामुळे विलंब होतो कारण प्रत्येक मॉडेलने त्याची प्रक्रिया सुरू करण्यापूर्वी मागील मॉडेलने मजकूर तयार करणे पूर्ण होण्याची प्रतीक्षा केली पाहिजे.
मॉडेलना त्यांचा इंटरमीडिएट लॉजिक कोड कोडद्वारे समजावून सांगण्यास भाग पाडणे जेणेकरुन पुढील मॉडेल ते वाचू शकेल हे अत्यंत अकार्यक्षम आहे. हे नाटकीयरित्या टोकन वापर वाढवते, संगणकीय खर्च वाढवते आणि संपूर्ण प्रणालीमध्ये पुनरावृत्तीचे शिक्षण कमी प्रमाणात कमी करते.
RecursiveMAS कसे कार्य करते
प्रत्येक एजंटला एक वेगळा, स्वतंत्र घटक म्हणून ऑप्टिमाइझ करण्याचा प्रयत्न करण्याऐवजी, RecursiveMAS ची रचना संपूर्ण मल्टी-एजंट प्रणालीला एकल एकीकृत युनिट म्हणून सह-उत्क्रांत करण्यासाठी आणि स्केल करण्यासाठी केली गेली आहे.
फ्रेम द्वारे प्रेरित आहे आवर्ती भाषा मॉडेल (RLMs). मानक भाषेच्या मॉडेलमध्ये, डेटा वेगळ्या स्तरांच्या संचाद्वारे रेखीयपणे प्रवाहित होतो. याउलट, रिकर्सिव्ह लँग्वेज मॉडेल शेअर्ड क्लासेसचा संच पुन्हा वापरतो जे डेटावर प्रक्रिया करतात आणि ते स्वतःकडे परत देतात. गणनेची पुनरावृत्ती करून, मॉडेल पॅरामीटर्स न जोडता त्याचे तर्कशास्त्र अधिक खोल करू शकते.
RecursiveMAS हे स्केलिंग तत्त्व एका मॉडेलपासून मल्टी-एजंट आर्किटेक्चरपर्यंत विस्तारित करते जे युनिफाइड रिकर्सिव्ह सिस्टम म्हणून कार्य करते. या सेटिंगमध्ये, प्रत्येक एजंट रिकर्सिव्ह लँग्वेज मॉडेलमध्ये लेयर म्हणून काम करतो. स्क्रिप्ट तयार करण्याऐवजी, एजंट वारंवार त्यांचे सततचे अव्यक्त प्रतिनिधित्व अनुक्रमात पुढील एजंटकडे पाठवतात, ज्यामुळे सिस्टीममधून माहितीचा एक छुपा, आवर्ती प्रवाह तयार होतो.
हे सुप्त वितरण सर्व ग्राहकांमध्ये कायम आहे. जेव्हा अंतिम एजंट त्याची प्रक्रिया पूर्ण करतो, तेव्हा त्याचे सुप्त आउटपुट थेट पहिल्या एजंटला दिले जाते, नवीन पुनरावृत्ती फेरी सुरू होते.
ही रचना संपूर्ण मल्टी-एजंट सिस्टमला संपूर्णपणे सुप्त जागेत अनेक फेऱ्यांमध्ये परस्परसंवाद, परावर्तित आणि त्याच्या सामूहिक तर्काला अनुकूल करण्याची परवानगी देते, केवळ शेवटचा एजंट अंतिम फेरीत मजकूर आउटपुट तयार करतो. जणू काही एजंट टेलीपॅथिक पद्धतीने युनिफाइड युनिट म्हणून संवाद साधत आहेत आणि अंतिम एजंट मजकूर म्हणून अंतिम प्रतिसाद देतो.
सुप्त सहयोग रचना
सतत अव्यक्त-स्पेस सहयोग शक्य करण्यासाठी, लेखक रिकर्सिव्हलिंक नावाचा एक विशेष आर्किटेक्चरल घटक सादर करतात. हे एक हलके, दोन-लेयर मॉड्यूल आहे जे मजकूर डीकोड करण्यास भाग पाडण्याऐवजी मॉडेलच्या सुप्त स्थिती प्रसारित करण्यासाठी आणि वर्धित करण्यासाठी डिझाइन केलेले आहे.
भाषा मॉडेलच्या शेवटच्या लेयरच्या लपलेल्या अवस्थांमध्ये त्याच्या अनुमान प्रक्रियेचे समृद्ध अर्थपूर्ण प्रतिनिधित्व असते. RecursiveLink ची रचना ही उच्च-आयामी माहिती जतन करण्यासाठी आणि ती एका एम्बेडिंग जागेवरून दुसऱ्या ठिकाणी हलवण्यासाठी केली गेली आहे.
अनेक मोठ्या भाषा मॉडेल्समध्ये प्रत्येक पॅरामीटर अद्यतनित करण्याची किंमत टाळण्यासाठी, फ्रेमवर्क मॉडेल पॅरामीटर्स गोठवते. त्याऐवजी, ते फक्त RecursiveLink मॉड्यूल्सच्या पॅरामीटर्सचे प्रशिक्षण देऊन सिस्टमला अनुकूल करते.
अंतर्गत विचार आणि बाह्य संप्रेषण दोन्ही हाताळण्यासाठी, सिस्टम मॉड्यूलच्या दोन भिन्न आवृत्त्या वापरते. अंतर्गत RecursiveLink त्याच्या तर्काच्या टप्प्यात एजंटच्या आत चालते. हे मॉडेलचे नवीन व्युत्पन्न केलेले एम्बेडिंग घेते आणि ते थेट त्याच्या इनपुट एम्बेडिंग जागेवर रीसेट करते. हे एजंटला स्वतंत्र स्क्रिप्ट कोड तयार न करता सतत सुप्त कल्पनांचा प्रवाह निर्माण करण्यास अनुमती देते.
बाह्य RecursiveLink एजंट्समधील पूल म्हणून काम करते. वास्तविक-जागतिक प्रणालीमधील एजंट भिन्न मॉडेल आर्किटेक्चर आणि आकार वापरू शकतात, त्यांच्या अंतर्गत एम्बेडिंग स्पेसमध्ये खूप भिन्न परिमाण असतात. बाह्य RecursiveLink मध्ये एका एजंटच्या लपलेल्या परिमाणापासून पुढील एजंटच्या एम्बेडिंग जागेशी एम्बेडिंग जुळण्यासाठी डिझाइन केलेला अतिरिक्त स्तर समाविष्ट आहे.
प्रशिक्षणादरम्यान, प्रत्येक एजंटची सतत सुप्त परिणामांबद्दल विचार करण्याची क्षमता वाढवण्यासाठी प्रथम, अंतर्गत कनेक्शन स्वतंत्रपणे प्रशिक्षित केले जातात. प्रणाली नंतर बाह्य लूप प्रशिक्षणात प्रवेश करते, जेथे विविध गोठलेले मॉडेल एका लूपमध्ये एकत्र जोडलेले असतात आणि अंतिम एजंटच्या अंतिम मजकूर आउटपुटवर आधारित प्रणालीचे मूल्यांकन केले जाते.
प्रशिक्षण प्रक्रियेत एकच गोष्ट अपडेट केली जाते ती म्हणजे रिकर्सिव्हलिंक पॅरामीटर्स आणि मूळ मॉडेलचे वजन अपरिवर्तित राहते, जसे की निम्न-रँक अनुकूलन (लॉरा). या प्रणालीचा आणखी एक फायदा कार्यात येतो जेव्हा आपल्याकडे समान मूलभूत मॉडेलच्या शीर्षस्थानी अनेक एजंट असतात.
जर तुमच्याकडे मल्टी-एजंट सिस्टम असेल जिथे दोन एजंट एकाच मूलभूत मॉडेलवर वेगवेगळ्या भूमिकांमध्ये चालत असतील, तर तुम्हाला मॉडेलच्या दोन प्रती तुमच्या GPU च्या मेमरीमध्ये लोड करण्याची गरज नाही किंवा तुम्ही त्यांना वेगळे प्रशिक्षण देऊ शकत नाही. एजंट समान मेंदूचा मणका सामायिक करतील आणि संयोजी ऊतक म्हणून रिकर्सिवलिंक वापरतील.
RecursiveMAS क्रियेत
संशोधकांनी गणित, विज्ञान, औषध, कोड जनरेशन आणि संशोधन-आधारित प्रश्नांची उत्तरे यासह नऊ निकषांवर रिकर्सिव्हएमएएसचे मूल्यांकन केले. त्यांनी Qwen, Llama-3, Gemma3 आणि Mistral यासह ओपन वेट मॉडेल वापरून एक मल्टी-एजंट प्रणाली तयार केली. या मॉडेल्सना एजंट्सच्या विविध सहकार्य पद्धतींना आकार देण्यासाठी भूमिका नियुक्त केल्या जातात जसे की अनुक्रमिक तर्क आणि तज्ञांचे सहकार्य.
RecursiveMAS ची तुलना समान प्रशिक्षण बजेट अंतर्गत बेसलाइनशी केली गेली, ज्यात LoRA सह वाढवलेले स्वतंत्र मॉडेल किंवा पूर्णपणे पर्यवेक्षित फाइन-ट्यूनिंग, पर्यायी मल्टी-एजंट फ्रेमवर्क जसे की मिश्रण-ऑफ-एजंट्स आणि टेक्स्टग्रॅड आणि लूपएलएम सारख्या रिकर्सिव बेसलाइनचा समावेश आहे. त्याची तुलना Recursive-TextMAS शी देखील केली गेली आहे, जी RecursiveMAS सारखीच रिकर्सिव लूप रचना वापरते परंतु एजंटना मजकूराद्वारे स्पष्टपणे संप्रेषण करण्यास भाग पाडते.
RecursiveMAS ने बेंचमार्कमधील सर्वात मजबूत बेसलाइनपेक्षा 8.3% ची सरासरी अचूकता सुधारली आहे. AIME2025 वर 18.1% आणि AIME2026 वर 13% ने TextGrad सारख्या मजकूर-आधारित ऑप्टिमायझेशन पद्धतींना मागे टाकत, सखोल विचार आवश्यक असलेल्या कार्यांमध्ये हे विशेषतः उत्कृष्ट आहे.
कारण ते प्रत्येक टप्प्यावर मजकूर व्युत्पन्न करणे टाळते, RecursiveMAS एंड-टू-एंड अनुमानाचा 1.2x ते 2.4x स्पीडअप प्राप्त करते. RecursiveMAS हे पर्यायापेक्षा अधिक टोकन कार्यक्षम आहे. मजकूर-आधारित रिकर्सिव-टेक्स्टएमएएसच्या तुलनेत, ते पुनरावृत्तीच्या पहिल्या फेरीत टोकन वापर 34.6% कमी करते आणि तिसऱ्या फेरीपर्यंत, 75.6% टोकन कपात करते. RecursiveMAS देखील प्रशिक्षित करण्यासाठी उल्लेखनीयपणे स्वस्त असल्याचे सिद्ध झाले आहे. हे फक्त हलके रिकर्सिव्हलिंक मॉड्यूल्स अद्यतनित करते, ज्यामध्ये अंदाजे 13 दशलक्ष पॅरामीटर्स असतात किंवा फ्रोझन मॉडेल्सच्या ट्रेन करण्यायोग्य पॅरामीटर्सपैकी सुमारे 0.31% असतात, यासाठी कमी पीक GPU मेमरी आवश्यक असते आणि पूर्ण फाइन-ट्यूनिंगच्या तुलनेत प्रशिक्षण खर्च अर्ध्याहून कमी करते.
संस्था मान्यता
कार्यक्षमतेतील नफा – कमी टोकन वापर, कमी GPU मेमरी आवश्यकता आणि जलद अनुमान – एंटरप्राइझ एजंट तैनाती मर्यादित करणाऱ्या कॉम्प्युट ओव्हरहेडशिवाय उत्पादन वातावरणात जटिल, मल्टी-स्टेप एजंट वर्कफ्लो व्यवहार्य बनवण्याचा हेतू आहे. संशोधकांनी Apache 2.0 लायसन्स अंतर्गत प्रशिक्षित मॉडेलचे कोड आणि वजन जारी केले.
















