उद्योगातील अग्रगण्य कृत्रिम बुद्धिमत्ता कव्हर करण्यासाठी नवीनतम अद्यतने आणि विशेष सामग्री मिळविण्यासाठी दररोज आणि साप्ताहिक वृत्तपत्रांमध्ये सामील व्हा. अधिक जाणून घ्या
हे २०२25 मध्ये असावे, तज्ञांच्या बर्याच खात्यांद्वारे, सामान्य कृत्रिम बुद्धिमत्ता एजंट्स-एआय अनुप्रयोग अग्रगण्य भाषिक मॉडेल्स आणि ओपनई, मानववंश, Google आणि दीपसीक यांनी प्रदान केलेल्या प्रजातीसारख्या मोठ्या फायद्यांद्वारे (एलएलएम) समर्थित कार्यासाठी अनुप्रयोग.
परंतु आतापर्यंत, बहुतेक कृत्रिम बुद्धिमत्ता एजंट अजूनही कंपन्यांसाठी जंतुनाशकांच्या प्रकारात प्रायोगिक स्पेक्ट्रम म्हणून अडकले आहेत, असे सोशल नेटवर्क एक्सवरील नुकत्याच केलेल्या सर्वेक्षणानुसार.
रस्ता सहाय्य असू शकतेः नॉर्थ वेस्टिन युनिव्हर्सिटी, मायक्रोसॉफ्ट, स्टॅनफोर्ड आणि वॉशिंग्टन युनिव्हर्सिटीची एक सहकारी टीम झीहान वांग नावाच्या माजी मुत्सद्दी संशोधकासह, जे सध्या नॉर्थवेस्टर्न येथे संगणक विज्ञानात पीएचडी पूर्ण करीत आहेत- एआय ग्राहकांची प्रशिक्षण आणि मूल्यांकन अधिक विश्वासार्ह आणि कमी विनामूल्य आहे.
गणिताचे समाधान किंवा कोड निर्मितीसारख्या निश्चित कार्यांविरूद्ध, रेगेन बहु -टर्न इंटरएक्टिव्ह सेटिंग्जवर लक्ष केंद्रित करते जिथे एजंट्सने अनिश्चिततेच्या तोंडावर परिस्थितीशी जुळवून घेणे, लक्षात ठेवणे आणि मन करणे आवश्यक आहे.
हे स्टारपो (पॉलिटिक्स इम्प्रूव्हमेंट-इंटरेक्ट्युअल अॅक्ट्स) नावाच्या समर्पित आरएल फ्रेमवर तयार केले गेले होते, सिस्टम लक्षात ठेवण्याऐवजी एलएलएम अनुभवाद्वारे कसे शिकू शकते हे शोधून काढते. संपूर्ण निर्णयावर लक्ष केंद्रित केले आहे -फक्त एक चरण प्रतिसाद नाही.
स्टारपो दोन गुंतागुंतीच्या टप्प्यात कार्य करते: डीपोर्टेशन स्टेज जिथे एलएलएम विचार करून मार्गदर्शन केलेल्या संपूर्ण प्रतिक्रिया मालिका तयार करते आणि नैसर्गिक संचयी बक्षिसे वापरुन मॉडेल सुधारित केले जाते. ही रचना मानक धोरण सुधारण्याच्या पद्धतींच्या तुलनेत अधिक स्थिर आणि व्याख्यात्मक शैक्षणिक चर्चासत्रास समर्थन देते.
लेखकांनी क्वेन 1.5 आणि क्वेन 2.5 यासह अलिबाबा क्वान मॉडेल्सचा वापर करून फ्रेम लागू केली आणि चाचणी केली. हे मॉडेल सर्व प्रयोगांचे मूलभूत एलएलएम होते आणि सूचनांचे अनुसरण करण्यासाठी त्यांच्या खुल्या वजन आणि मजबूत क्षमतांसाठी निवडले गेले. या निर्णयामुळे पुनरुत्पादन आणि प्रतिकात्मक कार्यांद्वारे निश्चित केलेल्या मूलभूत तुलना सक्षम केल्या.
त्यांनी ते कसे केले आणि त्यांना काय सापडले ते येथे आहे:
प्रतिध्वनी सापळा: शिकण्याच्या बोनसला मजबुती कशी द्यावी हे एलएलएम विचारसरणीकडे नेते
वांगने मोठ्या प्रमाणात सामान्य एक्स थीमवरील मूलभूत आव्हानांचा सारांश दिला: आपले आरएल प्रशिक्षण नेहमीच कोसळले जाते?
टीमच्या मते, एलएलएम एजंट्स सुरुवातीला प्रतीकात्मक प्रतिसाद आणि चांगले तयार करतात. परंतु वेळेच्या उत्तीर्णतेसह, आरएल शॉर्टकट्सला बक्षीस देईल, ज्यामुळे सामान्य कार्यक्षमतेपासून दूर राहणा community ्या वारंवार वर्तनांना कारणीभूत ठरते – एक नमुना ज्याला ते “इको ट्रॅप” म्हणतात.
हा उतार काउंटर -फीडिंग रिंग्जद्वारे चालविला जातो, कारण काही वाक्ये किंवा रणनीती लवकर उच्च बोनस मिळवितात आणि अत्यधिक वापर आणि दमलेल्या अन्वेषणास प्रोत्साहित करतात.
वांगने नमूद केले की लक्षणे मोजण्यायोग्य आहेत: बक्षिसे, ग्रेडियंट नखे आणि विचारांचे परिणाम अदृश्य होतात.
रागन चाचणी वातावरण संस्थेच्या पातळीवर नाही
नियंत्रित वातावरणात या वर्तनांचा अभ्यास करण्यासाठी, रेगेन तीन प्रतीकात्मक वातावरणातील घटकांचे मूल्यांकन करते:
- चोर: यादृच्छिकतेचे एक कार्य जे जोखीम पुनरुत्पादनाच्या प्रतीकात्मक विचारांची चाचणी करते.
- सुकोबानमल्टी -टर्निंग कोडे, ज्यात अपरिवर्तनीय निर्णय समाविष्ट आहेत.
- गोठलेले: स्टॉक्सिक मिशन, एकाधिक वळणांना ज्यासाठी अनुकूलन नियोजन आवश्यक आहे.
प्रत्येक वातावरण वास्तविक जगातील तरुणांना कमी करण्यासाठी आणि प्रशिक्षण दरम्यान विकसित केलेल्या निर्णयावर लक्ष केंद्रित करण्यासाठी डिझाइन केलेले आहे.
चोरांच्या वातावरणामध्ये, उदाहरणार्थ, एजंटांना माहिती दिली जाते की ड्रॅगन आणि फिनिक्सचे हात वेगवेगळ्या बक्षिसे वितरणाचे प्रतिनिधित्व करतात.
संभाव्यतेबद्दल थेट माहिती देण्याऐवजी, त्यांनी प्रतिकात्मक विचार केला पाहिजे – उदा. आणि ड्रॅगनचे “पॉवर” आणि फेनिक्स “” आशा “म्हणून स्पष्टीकरण – निकालांचा अंदाज लावण्यासाठी. या प्रकारची तयारी स्पष्टीकरणात्मक अॅनालॉग विचार व्युत्पन्न करण्यासाठी मॉडेल दाबते.
स्टारपो-एस सह शिक्षणास मजबुतीकरण करा
प्रशिक्षण कोसळण्याकडे लक्ष देण्यासाठी, संशोधकांनी मूळ फ्रेमची स्थिर आवृत्ती स्टारपो-एस सादर केली. स्टारपो-एसमध्ये तीन मुख्य हस्तक्षेप समाविष्ट आहेत:
- अनिश्चिततेवर आधारित घट कमी होते: एजंट निकालांमध्ये अनिश्चितता दर्शवित असलेल्या प्रस्तावाला प्राधान्य देणे.
- केएल पेनल्टी काढणेमॉडेलला त्याच्या मूळ धोरणापासून मुक्तपणे विचलित करण्याची आणि नवीन वर्तन एक्सप्लोर करण्यास अनुमती द्या.
- पीपीओ स्क्रॅप्स असममित आहेत: शिक्षण वाढविण्यासाठी कमी -बोनस पथांपेक्षा उच्च -उच्च -पथ.
हे बदल प्रशिक्षण कोसळण्यास विलंब किंवा काढून टाकत आहेत आणि तिन्ही कामांमध्ये कामगिरी सुधारत आहेत. वांग म्हणाले: “स्टारपो-एस … तिन्ही कामांमध्ये कार्य करते. यामुळे कोसळणे कमी होते. चांगले बक्षीस.”
एआय एआय मॉडेल काय चांगले करते?
आरएल प्रशिक्षणाचे यश केवळ आर्किटेक्चरवरच नाही तर एजंट्सच्या स्वत: च्या परिणामी डेटाच्या गुणवत्तेवर आहे. संघ तीन परिमाण निवडतो ज्याचा प्रशिक्षणावर मोठ्या प्रमाणात परिणाम होतो:
- कार्य विविधताप्रारंभिक परिस्थितीच्या विस्तृत श्रेणीमध्ये मॉडेल उघडकीस आणल्यास सामान्यीकरण सुधारते.
- प्रतिक्रियासर्वात अर्थपूर्ण नियोजन प्रदान करणार्या प्रत्येक भूमिकेसाठी एकाधिक प्रक्रियेस अनुमती द्या.
- ताजेपणासध्याच्या मॉडेल पॉलिसीच्या अनुषंगाने प्रशिक्षण डेटा राखणे जुन्या शिक्षणाचे सिग्नल टाळते.
एकत्रितपणे, हे घटक प्रशिक्षण प्रक्रिया अधिक स्थिर आणि प्रभावी बनवतात.
गीथबवर प्रकाशित केलेल्या संशोधकांनी केवळ प्रक्रियेच नव्हे तर विचार करण्याची प्रक्रिया चरण-दर-चरण आहे.
उदाहरणार्थ, गणिताची समस्या सोडवताना, एजंट प्रथम व्हेरिएबलला वेगळा करण्यासाठी “विचार” करू शकतो, नंतर “x = 5” सारखा उत्तर पाठवू शकतो. या दरम्यानचे कल्पना दृश्यमान आहेत आणि ट्रॅक केले जाऊ शकतात, एजंट निर्णय कसे पोहोचतात याची पारदर्शकता जोडते.
जेव्हा तर्कशास्त्र संपत आहे
जरी फ्रँक विचारसरणीने डाकू सारख्या सोप्या आणि अद्वितीय कार्यांमधील कामगिरी सुधारली असली तरी मल्टीमीड ट्रेनिंग दरम्यान ते विघटित होते. जरी संरचित दावे आणि चिन्हे वापरली जातात, परंतु विचारांचे परिणाम बर्याचदा संकुचित होतात किंवा अदृश्य होतात जोपर्यंत त्यांना थेट बक्षीस दिले जात नाही.
हे सहसा बक्षिसे कशी डिझाइन करावी यावर निर्बंध दर्शविते: कार्य पूर्ण करण्यावर लक्ष केंद्रित करा त्यामागील प्रक्रियेच्या गुणवत्तेकडे दुर्लक्ष करू शकते. संघाने संघटित विचारांना अधिक चांगल्या प्रकारे प्रोत्साहित करण्यासाठी समन्वयाच्या आधारे पेनल्टीचा प्रयत्न केला आहे, परंतु बोनसच्या पुढील निर्मितीची आवश्यकता असल्याचे कबूल केले आहे.
Https://github.com/ragen-ai/ragen वर मुक्त स्त्रोत प्रकल्प म्हणून रेगेन आता स्टारपो आणि स्टारपो-एस व्यवसायासह उपलब्ध आहे. तथापि, हा अहवाल लिहिण्याच्या वेळी गीथब वेअरहाऊसमध्ये स्पष्ट परवाना सूचीबद्ध नाही, ज्यामुळे इतरांद्वारे वापर किंवा पुनर्वितरण कमी होऊ शकेल.
कृत्रिम बुद्धिमत्ता एजंट विकसित करण्यास इच्छुक असलेल्यांसाठी ही प्रणाली एक मौल्यवान आधार प्रदान करते जे पूर्ण कार्ये – विचार करा, योजना आणि विकसित करतात.
एआय स्वायत्ततेकडे जात असताना, रॅगन सारख्या प्रकल्पांना केवळ डेटामधूनच शिकत नाही तर त्यांच्या क्रियांच्या परिणामाबद्दल प्रशिक्षण देण्यासाठी आवश्यक असलेल्या गोष्टींवर प्रकाश टाकण्यास मदत होते.
वास्तविक जगाचा अवलंब करण्यासाठी विशिष्ट प्रश्न
रागेन पेपर तपशीलवार तांत्रिक रस्ता नकाशा देत असताना, संस्थांच्या सेटिंग्जमध्ये या पद्धती लागू करण्यास उत्सुक असणा those ्यांसाठी बरेच व्यावहारिक प्रश्न आहेत. उदाहरणार्थ, प्रतिकात्मक कार्यांपासून किती रेगेन दृष्टीकोन दूर आहे? बिल किंवा ग्राहक समर्थनावर प्रक्रिया करणे यासारख्या वर्कफ्लोमध्ये या प्रणालीचा वापर करण्यासाठी कंपन्यांना पूर्णपणे नवीन आणि फायद्याचे वातावरण डिझाइन करण्याची आवश्यकता आहे?
आणखी एक गंभीर फील्ड म्हणजे विस्तृत करण्याची क्षमता. स्टारपो-एस द्वारे प्रदान केलेल्या सुधारणांसह, पेपर कबूल करतो की प्रशिक्षण अद्याप लांब क्षितिजावर कोसळत आहे. यामुळे हा प्रश्न उपस्थित होतो: सतत खुल्या किंवा विकसनशील कार्यांच्या अनुक्रमांबद्दल विचार करण्याचा एक सैद्धांतिक किंवा व्यावहारिक मार्ग आहे?
हा अहवाल लिहिण्याच्या वेळी, रॅगन गीथबच्या गोदामात किंवा कागदपत्रांमध्ये कोणताही स्पष्ट परवाना सूचीबद्ध केलेला नाही, ज्यामुळे वापराच्या अधिकारांबद्दल खुले प्रश्न आहेत.
या आणि इतर प्रश्नांचे अन्वेषण करण्यासाठी-तांत्रिक निर्णय निर्मात्यांनी राजेन -१ च्या सह-लेखक वांग यांच्याशी अधिक अंतर्दृष्टीशी संपर्क साधला. हा अहवाल लिहिण्याच्या वेळी, प्रतिसाद निलंबित केला जातो. जर कोणत्याही टिप्पण्या आल्या तर त्यास या लेखाच्या पाठपुराव्यात समाविष्ट केले जाईल किंवा अद्यतन म्हणून विलीन केले जाईल.
रागेन केवळ तांत्रिक योगदान म्हणूनच नव्हे तर सर्वात स्वतंत्र कृत्रिम बुद्धिमत्ता घटक आणि विचार करण्याची क्षमता म्हणून वैचारिक पाऊल म्हणून उभे आहे. ते एआय एंटरप्राइझ स्टेपलचा भाग बनले की नाही, परंतु एजंटच्या शिक्षणाच्या गतिशीलतेतील त्याचे दृष्टिकोन आधीच एलएलएम प्रशिक्षण मर्यादेची व्याख्या करण्यास मदत करते.
Source link