2025 हे वर्ष होते "कृत्रिम बुद्धिमत्ता एजंट्स," एनव्हीडियाचे मुख्य कार्यकारी अधिकारी जेन्सेन हुआंग आणि एआय उद्योगातील इतरांच्या मते. बर्‍याच मार्गांनी, असे घडले आहे, ओपनई, गूगल आणि अलिबाबासारख्या चिनी प्रतिस्पर्ध्यांसारख्या अनेक आघाडीच्या एआय मॉडेल प्रदात्यांसह वेब शोध आणि अहवाल लेखन यासारख्या अरुंद कार्यावर लक्ष केंद्रित करण्यासाठी डिझाइन केलेले ललित-दाणेदार एआय मॉडेल किंवा अॅप्स रिलीझ करतात.

परंतु अद्याप उच्च-कार्यक्षमता, विश्वासार्ह एआय एजंट्सच्या भविष्यासाठी एक मोठा अडथळा आहे: जेव्हा कार्य बर्‍याच चरणांपर्यंत वाढते तेव्हा त्यांना कामावर रहाण्यासाठी त्यांना पटवून देणे. तृतीय-पक्षाच्या बेंचमार्क चाचण्या दर्शविते की सर्वात शक्तिशाली एआय मॉडेल्स देखील उच्च अपयशाचा अनुभव घेतात आपण एखादे कार्य पूर्ण करण्यासाठी अधिक चरण आणि आपण त्यावर जितका जास्त वेळ घालवाल (तासांच्या पलीकडे).

ईगलेट नावाची एक नवीन शैक्षणिक चौकट एलएलएम-आधारित एजंट्समध्ये दीर्घकालीन कार्य कार्यक्षमता सुधारण्यासाठी व्यावहारिक आणि प्रभावी मार्ग प्रस्तावित करते-मॅन्युअल डेटा वर्गीकरण किंवा प्रशिक्षण आवश्यक नसताना.

हे त्सिंगुआ युनिव्हर्सिटी, पेकिंग युनिव्हर्सिटी, डीप्लेंग एआय आणि इलिनॉय युनिव्हर्सिटी ऑफ इलिनॉय उर्बाना-चॅम्पेन यांनी विकसित केले आहे. ईगलेट ऑफर अ "ग्लोबल चार्ट" जे भ्रम कमी करण्यासाठी आणि कार्य कार्यक्षमता सुधारण्यासाठी एजंटच्या विद्यमान वर्कफ्लोमध्ये समाकलित केले जाऊ शकते.

ईगलेट हे एक बारीक-ट्यून केलेले भाषा मॉडेल आहे जे कार्य सूचनांचे स्पष्टीकरण देते-सामान्यत: वापरकर्त्याने किंवा एजंटच्या ऑपरेटिंग वातावरणाद्वारे प्रॉम्प्ट म्हणून सादर केले आणि एजंटसाठी उच्च-स्तरीय योजना तयार करते (त्याच्या एलएलएमद्वारे समर्थित). अंमलबजावणी दरम्यान तो हस्तक्षेप करीत नाही, परंतु त्याचे आगाऊ मार्गदर्शन नियोजनातील त्रुटी कमी करण्यास आणि कार्य पूर्ण होण्याचे दर सुधारण्यास मदत करते.

लाँग-होरिझन एजंट्समधील नियोजन समस्येचे निराकरण

बरेच एलएलएम-आधारित एजंट दीर्घकालीन कार्ये पूर्ण करण्यासाठी संघर्ष करतात कारण ते प्रतिक्रियाशील, चरण-दर-चरण विचारांवर अवलंबून असतात. या दृष्टिकोनामुळे बर्‍याचदा चाचणी-आणि-त्रुटी वर्तन, भ्रामक नियोजन आणि कारवाईचे कुचकामी अभ्यासक्रम उद्भवतात.

ईगलेटने या मर्यादेची ओळख करुन दिली ग्लोबल प्लॅनिंग युनिट जे पोर्ट एजंटसह एकत्र कार्य करते.

एका मॉडेलमध्ये नियोजन आणि कार्य निर्मितीचे मिश्रण करण्याऐवजी, ईगलेट त्यांना वेगळे करते, अधिक एकत्रित कार्य-स्तरीय रणनीतींना परवानगी देते.

कोणत्याही मानवी भाष्याविना दोन-चरण प्रशिक्षण पाइपलाइन

ईगलेट प्लॅनरला दोन-चरण प्रक्रियेचा वापर करून प्रशिक्षण दिले जाते आणि मानवी-लिखित योजना किंवा भाष्य आवश्यक नसते.

पहिल्या टप्प्यात जीपीटी -5 आणि दीपसेक-व्ही .1.१-विचार सारख्या अत्यंत सक्षम एलएलएमसह संश्लेषण योजना तयार करणे समाविष्ट आहे.

त्यानंतर या योजना सममितीय एकमत फिल्टरिंग नावाच्या नवीन रणनीतीचा वापर करून फिल्टर केल्या जातात, जे केवळ तज्ञ आणि नवशिक्या अंमलबजावणी एजंट्ससाठी कार्य कार्यक्षमता सुधारित करतात.

दुसर्‍या टप्प्यात, नियम-आधारित मजबुतीकरण शिक्षण प्रक्रिया प्रत्येक योजना एकाधिक एजंटांना यशस्वी होण्यास किती मदत करते याचे मूल्यांकन करण्यासाठी विशेष डिझाइन केलेले बक्षीस कार्य वापरुन योजना आणखी परिष्कृत करते.

निर्यात क्षमता गेन बोनस (ईसीजीआर) सादर करीत आहे

ईगलेटच्या मुख्य नवकल्पनांपैकी एक म्हणजे पोर्ट क्षमता गेन बोनस (ईसीजीआर).

हे बक्षीस तयार केलेल्या योजनेचे मूल्य मोजते की ते उच्च- आणि कमी-क्षमता एजंटांना कार्ये अधिक यशस्वीरित्या आणि कमी चरणांसह पूर्ण करण्यास मदत करते की नाही हे तपासून.

यात लहान, अधिक कार्यक्षम मिशन पथांच्या बाजूने एक क्षय घटक देखील समाविष्ट आहे. हा दृष्टिकोन अत्यधिक बक्षीस देणारी योजना टाळतो जी केवळ सक्षम एजंट्ससाठी उपयुक्त आहे आणि अधिक सामान्यीकृत नियोजन मार्गदर्शनास प्रोत्साहित करते.

सध्याचे विक्रेते आणि मॉडेल्सशी सुसंगत

ईगलेट चार्ट मॉड्यूलर आणि म्हणून डिझाइन केलेले आहे "प्लग आणि प्ले," याचा अर्थ असा आहे की ते कार्यकारीला पुन्हा न घेता विद्यमान प्रॉक्सी पाइपलाइनमध्ये घातले जाऊ शकते.

मूल्यमापनांमध्ये, या योजनेने जीपीटी -4.1, जीपीटी -5, लामा -3.1 आणि क्वेन 2.5 यासह विविध बेस मॉडेल्समध्ये कामगिरीला चालना दिली.

उत्तेजनाच्या धोरणाची पर्वा न करता हे देखील प्रभावी सिद्ध झाले आहे, मानक रिएक्ट-स्टाईल प्रॉम्प्ट्स तसेच रिफ्लेक्सियनसारख्या पद्धतींसह चांगले कार्य करणे.

बेंचमार्कमध्ये अत्याधुनिक कामगिरी

ईगलेटची दीर्घकालीन एजंट कार्यांसाठी तीन मोठ्या प्रमाणात वापरल्या जाणार्‍या बेंचमार्कवर चाचणी केली गेली आहे: विज्ञान-वर्ल्ड, जे मजकूर-आधारित प्रयोगशाळेच्या वातावरणात वैज्ञानिक प्रयोगांचे अनुकरण करते; अल्फवर्ल्ड, जे एजंट्सला एक नक्कल घर वातावरणात नैसर्गिक भाषेद्वारे घरगुती क्रियाकलाप पूर्ण करणारे कार्य करते; आणि वेबशॉप, जे वास्तववादी ऑनलाइन शॉपिंग इंटरफेसमधील ध्येय-निर्देशित वर्तनाचे मूल्यांकन करते.

तिन्ही डोमेनमध्ये, ईगललेट-सुसज्ज अंमलबजावणी एजंट्सने एमपीओ आणि नॉजेंटसह त्यांचे नॉन-प्लॅनिंग भाग आणि इतर नियोजन बेसलाइनला मागे टाकले.

ओपन सोर्स लामा -3.1-8 बी-इन्स्ट्रक्ट मॉडेलवर आयोजित केलेल्या प्रयोगांमध्ये, ईगलेटने सरासरी कामगिरी 39.5 वरून 59.4 पर्यंत वाढविली, जे कामांमध्ये +19.9 गुणांची वाढ.

सायन्सवर्ल्डच्या अदृश्य परिस्थितींमध्ये कामगिरी 42.2 वरून 61.6 पर्यंत वाढली.

अल्फवर्ल्डने पाहिलेल्या परिस्थितींमध्ये, ईगलेटने स्कोअरमध्ये 22.9 वरून 54.3 पर्यंत सुधारणा केली, ही कामगिरी 2.3x पेक्षा जास्त आहे.

अधिक सक्षम मॉडेल्ससह मजबूत नफा दिसला आहे.

उदाहरणार्थ, जीपीटी -4.1 ईगलेटसह सरासरी सरासरी 75.5 वरून 82.2 पर्यंत सुधारली आणि जीपीटी -5 84.5 वरून 84.5 वरून 88.1 वरून वाढली, आधीच मजबूत कामगिरी असूनही.

काही बेंचमार्कमध्ये, कामगिरी नफा +11.8 गुणांपर्यंत पोहोचला, जसे की अल्फवर्ल्डच्या अदृश्य मिशनमध्ये ईटो पोर्ट पद्धतीसह ईगलेटची जोडणी करताना.

एमपीओ सारख्या इतर नियोजन बेसलाइनच्या तुलनेत ईगलेटने सातत्याने उच्च कार्य पूर्ण दर प्रदान केले. उदाहरणार्थ, जीपीटी -4.1 वापरुन अल्फवर्ल्डच्या न पाहिलेल्या कार्यांमध्ये, एमपीओने 79.1 प्राप्त केले, तर ईगलेटने 83.6-एक +4.5 पॉईंट फायदा घेतला.

याव्यतिरिक्त, पेपर सूचित करतो की एजंट्स सरासरी कमी चरणांमध्ये ईगलेट पूर्ण कार्ये वापरणारे एजंट. जीपीटी -4.1 पोर्ट म्हणून वापरणे, सरासरी हॉप गणना 13.0 (नाही योजना) वरून 11.1 (ईगलेट) पर्यंत कमी झाली. जीपीटी -5 सह, ते 11.4 वरून 9.4 पर्यंत कमी झाले, जे सुधारित अंमलबजावणीच्या कार्यक्षमतेच्या दाव्याचे समर्थन करते.

प्रशिक्षण आणि अंमलबजावणीमध्ये कार्यक्षमतेचा फायदा

गिगपो सारख्या आरएल-आधारित पद्धतींच्या तुलनेत, ज्यास शेकडो प्रशिक्षण पुनरावृत्ती आवश्यक असू शकतात, ईगलेटने अंदाजे एक-आठव्या प्रशिक्षण प्रयत्नांसह चांगले किंवा तुलनात्मक परिणाम साध्य केले.

ही कार्यक्षमता देखील अंमलबजावणीकडे वळते: ईगलेट वापरणार्‍या एजंटांना कार्ये पूर्ण करण्यासाठी सामान्यत: कमी चरणांची आवश्यकता असते. हे उत्पादन परिस्थितीतील कमी अनुमान वेळ आणि किंमतीच्या गणनामध्ये अनुवादित करते.

कोणताही सामान्य कायदा नाही – अद्याप

आर्क्सिव्हला सबमिट केलेल्या आवृत्तीनुसार, लेखकांनी ईगलेटची मुक्त स्त्रोत अंमलबजावणी सोडली नाही. हे कोड किंवा केव्हा सोडले जाईल हे स्पष्ट नाही, कोणत्या परवान्याअंतर्गत किंवा ते कसे राखले जाईल, जे नजीकच्या कालावधीत एंटरप्राइझ तैनातीसाठी फ्रेमवर्कची उपयुक्तता मर्यादित करू शकते.

हे मुद्दे स्पष्ट करण्यासाठी व्हेंचरबीट लेखकांपर्यंत पोहोचले आहे आणि जेव्हा आपण परत ऐकतो तेव्हा हा तुकडा अद्यतनित करेल.

एंटरप्राइझ-स्तरीय उपयोजन संबंधित अजूनही प्रश्न आहेत

जरी या योजनेचे वर्णन प्लग-अँड-प्ले सॉफ्टवेअर म्हणून केले गेले आहे, तरीही हे अद्याप अस्पष्ट आहे की ईगलेट सहजपणे लँगचेन किंवा ऑटोजेन सारख्या लोकप्रिय एंटरप्राइझ एजंट फ्रेमवर्कमध्ये समाकलित केले जाऊ शकते किंवा योजनेच्या अंमलबजावणीच्या डिकुलिंगला समर्थन देण्यासाठी सानुकूल स्टॅकची आवश्यकता असल्यास.

त्याचप्रमाणे, प्रशिक्षण सेटिंग एकाधिक अंमलबजावणी एजंट्सचा लाभ घेते, जे मॉडेलमध्ये मर्यादित प्रवेशासह एंटरप्राइझ वातावरणात प्रतिकृती बनविणे कठीण आहे. व्हेंचरबीटने संशोधकांना विचारले की एकमत फिल्टरिंग पद्धत केवळ एकच एक्झिक्युटर मॉडेल किंवा मर्यादित संगणकीय संसाधनांमध्ये प्रवेश असलेल्या कार्यसंघांसाठी अनुकूल केली जाऊ शकते का?

ईगलेट लेखक मॉडेल प्रकार आणि आकारांमध्ये यशाचा अहवाल देतात, परंतु व्यावहारिक उपयोजनासाठी किमान व्यवहार्य मॉडेल स्केल काय आहे हे अद्याप माहित नाही. उदाहरणार्थ, एंटरप्राइझ कार्यसंघ विलंब-संवेदनशील वातावरणात सबपॅरामीटर 10 बी ओपन मॉडेल्ससह स्कीमाचा प्रभावीपणे वापर करू शकतात? याव्यतिरिक्त, फ्रेमवर्क ग्राहक समर्थन किंवा आयटी ऑटोमेशन सारख्या क्षेत्रांमध्ये उद्योग-विशिष्ट मूल्य प्रदान करू शकते, परंतु अशा क्षेत्रांसाठी ही योजना किती सहजपणे सुपीक किंवा सानुकूलित केली जाऊ शकते हे पाहणे बाकी आहे.

पूर्व-निर्मित नियोजन विरूद्ध रिअल टाइम

आणखी एक खुला प्रश्न आहे की ईगलेटला व्यवहारात कसे तैनात केले जाते. रिअल-टाइम प्लॅनरने लूपमध्ये अंमलबजावणी करणार्‍यांच्या बाजूने काम केले पाहिजे की ज्ञात टास्क प्रकारांसाठी अगोदर जागतिक योजना तयार करण्यासाठी ऑफलाइन वापरणे चांगले आहे का? प्रवेश वेळ, किंमत आणि ऑपरेशनल जटिलतेसाठी प्रत्येक दृष्टिकोनाचे परिणाम असतात. व्हेंचरबीटने हा प्रश्न लेखकांना विचारला आहे आणि उदयास येणा any ्या कोणत्याही कल्पनांचा अहवाल देईल.

एंटरप्राइझ संघांसाठी सामरिक व्यापार

मध्यम ते मोठ्या संस्थांमधील तांत्रिक नेत्यांसाठी, ईगलेट एलएलएम एजंट्सची विश्वसनीयता आणि कार्यक्षमता सुधारण्यासाठी संकल्पनेचा एक आकर्षक पुरावा दर्शवितो. परंतु सामान्य साधने किंवा अंमलबजावणीच्या मार्गदर्शक तत्त्वांशिवाय, फ्रेमवर्क अद्याप बिल्ड-विरुद्ध-वेट निर्णय सादर करतो. कंपनीने घरातील प्रशिक्षण प्रक्रियेचे पुनरुत्पादन किंवा अंदाजे करण्याच्या खर्चाच्या विरूद्ध कार्यप्रदर्शन आणि कार्यक्षमतेत संभाव्य नफ्याचे वजन करणे आवश्यक आहे.

एंटरप्राइझ सेटिंग्जमध्ये संभाव्य वापर प्रकरणे

प्रभावी एआय सिस्टम विकसित करणार्‍या संस्थांसाठी – विशेषत: अशा वातावरणात ज्यांना टायर्ड नियोजन आवश्यक आहे, जसे की आयटी ऑटोमेशन, ग्राहक समर्थन किंवा ऑनलाइन संवाद – ईगलेटला प्रशिक्षण न देता नियोजन कसे समाविष्ट करावे यासाठी एक मॉडेल ऑफर केले जाते. त्याच्या कार्यक्षम प्रशिक्षण पध्दतीसह, खुल्या आणि बंद स्त्रोत मॉडेल चालविण्याची त्याची क्षमता कमीतकमी ओव्हरहेडसह एजंटची कामगिरी सुधारण्यासाठी प्रयत्न करणार्‍या संघांसाठी एक आकर्षक प्रारंभिक बिंदू बनवू शकते.

Source link