अलीबाबाच्या टोंगी लॅबमधील संशोधकांनी स्वयं-विकसित एजंट्ससाठी एक नवीन फ्रेमवर्क विकसित केले आहे जे त्यांच्या स्वतःच्या अनुप्रयोग वातावरणाचा शोध घेऊन त्यांचा स्वतःचा प्रशिक्षण डेटा तयार करतात. फ्रेमवर्क एजंट इव्हॉल्व्हरस्वयं-शिक्षणासाठी मोठ्या भाषेच्या मॉडेल्सच्या संज्ञानात्मक आणि तर्क क्षमतांचा वापर करते, उच्च खर्चाचे निराकरण करते आणि कार्य-विशिष्ट डेटासेट गोळा करण्यासाठी सामान्यत: आवश्यक मॅन्युअल प्रयत्न करतात.

प्रयोग दर्शविते की पारंपारिक मजबुतीकरण शिक्षण-आधारित फ्रेमवर्कच्या तुलनेत, एजंटइव्हॉल्व्हर त्याच्या वातावरणाचा शोध घेण्यात अधिक कार्यक्षम आहे, डेटाचा अधिक चांगला वापर करते आणि अनुप्रयोग वातावरणाशी जलद जुळवून घेते. एंटरप्राइझसाठी, हे महत्त्वाचे आहे कारण ते सानुकूल ऍप्लिकेशन्सवरील प्रशिक्षण एजंट्सचा अडथळा कमी करते, शक्तिशाली, वैयक्तिकृत AI सहाय्यक संस्थांच्या विस्तृत श्रेणीसाठी अधिक प्रवेशयोग्य बनवते.

एआय एजंटना प्रशिक्षण देण्याची उच्च किंमत

शिक्षण वाढवा LLM ला एजंट म्हणून काम करण्यासाठी प्रशिक्षण देण्यासाठी हे एक प्रमुख मॉडेल बनले आहे जे डिजिटल वातावरणाशी संवाद साधू शकतात आणि फीडबॅकमधून शिकू शकतात. तथापि, आरएल डेव्हलपमेंट एजंटना मूलभूत आव्हानांचा सामना करावा लागतो. प्रथम, आवश्यक प्रशिक्षण डेटासेट संकलित करणे बहुधा महाग असते आणि कार्य उदाहरणे तयार करण्यासाठी लक्षणीय शारीरिक श्रम आवश्यक असतात, विशेषत: नवीन किंवा मालकीच्या सॉफ्टवेअर वातावरणात जेथे कोणतेही तयार डेटासेट उपलब्ध नाहीत.

दुसरे, एमबीएमध्ये सामान्यतः वापरल्या जाणाऱ्या सखोल शिक्षणाच्या तंत्रांसाठी मॉडेलला प्रभावीपणे शिकण्यासाठी मोठ्या संख्येने चाचणी-आणि-त्रुटी प्रयत्नांमधून चालवण्याची आवश्यकता असते. ही प्रक्रिया संगणकीयदृष्ट्या महाग आणि अकार्यक्षम आहे. परिणामी, सक्षम LLM एजंटना RL द्वारे प्रशिक्षण देणे कष्टकरी आणि महागडे राहते, जे समर्पित एंटरप्राइझ सेटिंग्जमध्ये त्यांची तैनाती मर्यादित करते.

AgentEvolver कसे कार्य करते

AgentEvolver मागची मुख्य कल्पना म्हणजे मॉडेल्सना त्यांच्या शिकण्याच्या प्रक्रियेत अधिक स्वायत्तता देणे. संशोधकांनी “पर्यावरणीय परस्परसंवादाद्वारे क्षमतेचा स्वतंत्र आणि कार्यक्षम विकास साधण्यासाठी” डिझाइन केलेली “स्वयं-विकसित एजंट प्रणाली” म्हणून वर्णन केले आहे. हे स्वयं-प्रशिक्षण लूप तयार करण्यासाठी LLM ची तार्किक शक्ती वापरते, जे एजंटला पूर्व-परिभाषित कार्ये किंवा बक्षीस कार्ये न करता त्याच्या लक्ष्य वातावरणाशी थेट संवाद साधून सतत सुधारण्यास अनुमती देते.

“आम्ही एक एजंट प्रणालीची कल्पना करतो ज्यामध्ये LLM शोध, कार्य निर्मिती आणि कार्यप्रदर्शन ऑप्टिमायझेशन प्रभावीपणे मार्गदर्शन करते,” संशोधकांनी अभ्यासात लिहिले. त्यांचा पेपर.

स्वयं-उत्क्रांतीची प्रक्रिया तीन मूलभूत यंत्रणांवर अवलंबून असते जे एकत्र काम करतात.

पहिला आहे आत्मप्रश्नएजंट त्याच्या कार्यांच्या मर्यादा शोधण्यासाठी आणि उपयुक्त अवस्था ओळखण्यासाठी त्याचे वातावरण शोधतो. नवीन वापरकर्त्याने काय शक्य आहे हे पाहण्यासाठी ॲपवर क्लिक केल्यासारखे आहे. या अन्वेषणाच्या आधारे, एजंट वापरकर्त्याच्या सामान्य प्राधान्यांशी जुळणारी स्वतःची विविध कार्ये तयार करतो. हे हाताने तयार केलेल्या डेटासेटची गरज कमी करते आणि एजंट आणि त्याच्या कार्यांना सह-उत्क्रांत होण्यास अनुमती देते, अधिक जटिल आव्हानांना सामोरे जाण्यास उत्तरोत्तर सक्षम करते.

व्हेंचरबीटशी बोललेल्या अलीबाबाचे संशोधक आणि पेपरचे सह-लेखक युनपेंग झाई यांच्या मते, स्वयं-प्रश्न यंत्रणा प्रभावीपणे मॉडेलला “डेटा ग्राहकाकडून डेटा उत्पादकाकडे” बदलते, ज्यामुळे मालकी वातावरणात एजंट तैनात करण्यासाठी लागणारा वेळ आणि खर्च लक्षणीयरीत्या कमी होतो.

दुसरी यंत्रणा आहे स्वत: नेव्हिगेशनहे मागील अनुभवांमधून पुनर्वापर आणि सामान्यीकरणाद्वारे अन्वेषणाची कार्यक्षमता सुधारते. AgentEvolver यशस्वी आणि अयशस्वी प्रयत्नांमधून अंतर्दृष्टी काढते आणि भविष्यातील कृतींचे मार्गदर्शन करण्यासाठी त्यांचा वापर करते. उदाहरणार्थ, जर एजंटने एपीआय फंक्शन वापरण्याचा प्रयत्न केला जे ऍप्लिकेशनमध्ये अस्तित्वात नाही, तर ते हे एक प्रयोग म्हणून रेकॉर्ड करते आणि भविष्यात ते वापरण्याचा प्रयत्न करण्यापूर्वी फंक्शन्स अस्तित्वात आहेत याची पडताळणी कशी करायची ते शिकतो.

तिसरी यंत्रणा स्व-विशेषताअधिक तपशीलवार अभिप्राय देऊन शिकण्याची कार्यक्षमता वाढवते. केवळ अंतिम यश किंवा अयशस्वी सिग्नल (RL मधील एक सामान्य प्रथा ज्यामुळे विरळ बक्षिसे मिळू शकतात) ऐवजी, ही यंत्रणा LLM वापरून प्रत्येक वैयक्तिक कृतीच्या योगदानाचे मूल्यमापन करण्यासाठी एकाधिक-चरण कार्य करते. हे पूर्वलक्षी रीतीने ठरवते की प्रत्येक पायरीने अंतिम परिणामात सकारात्मक किंवा नकारात्मक योगदान दिले, एजंटला अचूक अभिप्राय प्रदान केला ज्यामुळे शिक्षणाला गती मिळते.

हे नियमन केलेल्या उद्योगांसाठी गंभीर आहे जेथे एजंट समस्या कशी सोडवतो हे परिणामाइतकेच महत्त्वाचे आहे. “फक्त अंतिम उत्तरासाठी विद्यार्थ्याला बक्षीस देण्याऐवजी, आम्ही त्यांच्या विचारांची प्रत्येक पायरी किती स्पष्ट आणि योग्य आहे याचे देखील मूल्यांकन करतो,” चाई यांनी स्पष्ट केले. हे पारदर्शकता सुधारते आणि एजंटला समस्या सोडवण्याच्या अधिक मजबूत आणि ऑडिटेबल पद्धतींचा अवलंब करण्यास प्रोत्साहित करते.

“प्रशिक्षण उपक्रम मानवी-डिझाइन केलेल्या पाइपलाइनमधून LLM-मार्गदर्शित स्व-सुधारणेकडे हलवून, AgentEvolver एक नवीन प्रतिमान तयार करते जे स्केलेबल, किफायतशीर आणि बुद्धिमान प्रणालींमध्ये सतत सुधारणा करण्याचा मार्ग मोकळा करते,” संशोधक म्हणतात.

कार्यसंघाने एक व्यावहारिक आणि सर्वसमावेशक प्रशिक्षण फ्रेमवर्क देखील विकसित केले आहे जे या तीन यंत्रणांना एकत्रित करते. या फाउंडेशनचा एक महत्त्वाचा भाग आहे संदर्भ व्यवस्थापकएजंटची मेमरी आणि परस्परसंवाद इतिहास नियंत्रित करणारा घटक. सध्याची मानके मर्यादित साधनांची चाचणी घेत असताना, वास्तविक एंटरप्राइझ वातावरणात हजारो API समाविष्ट होऊ शकतात.

चाय कबूल करते की हे क्षेत्रासाठी एक मूलभूत आव्हान आहे, परंतु एजंटइव्हॉल्व्हर विस्तारित करण्यासाठी डिझाइन केलेले असल्याचे नमूद करते. “खूप मोठ्या कार्यक्षेत्रांमध्ये पुनर्प्राप्ती नेहमीच संगणकीय आव्हाने सादर करेल, परंतु एजंटइव्हॉल्व्हर आर्किटेक्चर एंटरप्राइझ सेटिंग्जमध्ये स्केलेबल टूल्ससाठी तर्क करण्यासाठी एक स्पष्ट मार्ग प्रदान करते,” तो म्हणाला.

एजंटना प्रशिक्षित करण्याचा अधिक कार्यक्षम मार्ग

त्यांच्या फ्रेमवर्कची प्रभावीता मोजण्यासाठी, संशोधकांनी त्याची चाचणी केली अनुप्रयोगांचे जग आणि PVCL v3जे दोन मानके आहेत ज्यासाठी एजंटना बाह्य साधनांचा वापर करून लांब, बहु-चरण कार्ये करणे आवश्यक आहे. त्यांनी अलीबाबाचे मॉडेल वापरले Qwen2.5 कुटुंब (पॅरामीटर्स 7B आणि 14B) आणि त्यांच्या कार्यक्षमतेची तुलना GRPO वापरून प्रशिक्षित बेसलाइन मॉडेलशी केली, हे तर्कसंगत मॉडेल विकसित करण्यासाठी वापरले जाणारे लोकप्रिय RL तंत्र जसे की डीप सेक-आर 1.

परिणामांनी दर्शविले की एजंटइव्हॉल्व्हरमधील तीन यंत्रणा एकत्रित केल्याने लक्षणीय कामगिरी वाढली. फॉर्म 7B साठी, सरासरी स्कोअर 29.4% ने सुधारला आहे आणि फॉर्म 14B साठी, तो बेसलाइनपेक्षा 27.8% ने वाढला आहे. फ्रेमवर्कने दोन्ही मानकांमधील मॉडेल्सची तर्कशक्ती आणि कार्य अंमलबजावणी क्षमता सातत्याने वर्धित केली आहे. सर्वात लक्षणीय सुधारणा स्वयं-प्रश्न मॉड्यूलमधून आली आहे, जी स्वतंत्रपणे विविध प्रशिक्षण कार्ये तयार करते आणि डेटाच्या कमतरतेच्या समस्येचे थेट निराकरण करते.

प्रयोगांनी हे देखील दर्शविले आहे की एजंटइव्हॉल्व्हर मोठ्या प्रमाणात उच्च-गुणवत्तेचा प्रशिक्षण डेटा कार्यक्षमतेने गोळा करू शकतो. स्वयं-प्रश्न मॉड्यूलद्वारे व्युत्पन्न केलेली कार्ये अगदी कमी डेटासह देखील चांगली प्रशिक्षण कार्यक्षमता प्राप्त करण्यासाठी पुरेशी वैविध्यपूर्ण असल्याचे सिद्ध झाले.

संस्थांसाठी, हे मॅन्युअल डेटा भाष्याची आवश्यकता कमी करताना सानुकूल अनुप्रयोग आणि अंतर्गत कार्यप्रवाहांसाठी एजंट तयार करण्याचा मार्ग प्रदान करते. उच्च-स्तरीय उद्दिष्टे प्रदान करून आणि एजंटला स्वतःचे प्रशिक्षण कौशल्य निर्माण करण्याची परवानगी देऊन, संस्था सानुकूल AI सहाय्यक अधिक सोप्या आणि किफायतशीरपणे विकसित करू शकतात.

“अल्गोरिदमिक डिझाइन आणि अभियांत्रिकी व्यावहारिकतेचे हे संयोजन एजंटइव्हॉल्व्हरला संशोधन वाहन आणि अनुकूली, टूल-वर्धित एजंट तयार करण्यासाठी पुन्हा वापरता येण्याजोगे पाया म्हणून स्थान देते,” संशोधकांनी निष्कर्ष काढला.

भविष्याकडे पाहता, अंतिम ध्येय खूप मोठे आहे. “कोणत्याही सॉफ्टवेअर वातावरणात जाऊन रात्रभर प्रभुत्व मिळवू शकणारे खरोखरच अद्वितीय मॉडेल हे एजंटिक AI ची होली ग्रेल आहे,” झाई म्हणाले. “आम्ही एजंटइव्हॉल्व्हरला या दिशेने आवश्यक पाऊल म्हणून पाहतो.” या भविष्यासाठी अद्याप मॉडेल अनुमान आणि पायाभूत सुविधांमध्ये प्रगतीची आवश्यकता असताना, स्वयं-विकसित दृष्टिकोन मार्ग प्रशस्त करत आहेत.

Source link