Nvidia आणि Hong Kong विद्यापीठातील संशोधकांनी ऑर्केस्ट्रेटर, 8-बिलियन पॅरामीटर मॉडेल जारी केले आहे जे जटिल समस्यांचे निराकरण करण्यासाठी भिन्न साधने आणि मोठ्या भाषा मॉडेल्स (LLMs) चे समन्वय करते. त्यांच्या प्रयोगांमध्ये, ऑर्केस्ट्रेटरने दिलेल्या क्वेरीसाठी कोणती साधने वापरायची याविषयी वापरकर्त्याच्या प्राधान्यांशी सुसंगत असताना, टूल वापराच्या निकषांमध्ये मोठ्या मॉडेलपेक्षा कमी खर्चात उच्च अचूकता प्राप्त केली.

मॉडेल वापरून प्रशिक्षण देण्यात आले वाद्यवृंद वाद्य,बुद्धिमान समन्वयक म्हणून काम करण्यासाठी लहान मॉडेल्सना प्रशिक्षण देण्यासाठी एक नवीन मजबुतीकरण शिक्षण (RL) फ्रेमवर्क. हा दृष्टिकोन लहान या कल्पनेवर आधारित आहे "समन्वयक" एकल, मोनोलिथिक एआय प्रणालीपेक्षा विशेष मॉडेल्स आणि टूल्सच्या विविध टीमचे व्यवस्थापन करणे अधिक प्रभावी आणि कार्यक्षम असू शकते.

परिणाम सूचित करतात की हा एकत्रित दृष्टिकोन एंटरप्राइझमध्ये अधिक व्यावहारिक आणि स्केलेबल एआय अनुमान प्रणालीसाठी मार्ग मोकळा करू शकतो.

सध्याचे LLM साधन वापरण्याच्या मर्यादा

एलएलएम शिष्यवृत्ती बाह्य साधनांमध्ये प्रवेश त्यांच्या प्रशिक्षण डेटाच्या पलीकडे आणि प्रॉक्सी कार्यांमध्ये त्यांची क्षमता वाढवण्याचा हा एक आशादायक मार्ग आहे. सर्च इंजिन आणि कोड ट्रान्सलेटर यांसारख्या संसाधनांचा फायदा घेऊन, एआय एजंट त्यांची अचूकता सुधारू शकतात आणि ॲप्लिकेशनमध्ये कार्य करू शकतात.

तथापि, मध्ये सोबतचा कागदसंशोधकांचा असा युक्तिवाद आहे की साधन-वापरणारे एजंट तयार करण्याचा सध्याचा दृष्टिकोन या मॉडेलच्या पूर्ण क्षमतेचा फायदा घेत नाही. वेब शोध किंवा कॅल्क्युलेटर सारख्या मूलभूत साधनांच्या संचासह बऱ्याच प्रणाली एक शक्तिशाली फॉर्म प्रदान करतात.

त्यांचा असा युक्तिवाद आहे की जेव्हा मानव विचार करतात, तेव्हा ते “डोमेन तज्ञांपासून ते अत्याधुनिक प्रक्रिया आणि सॉफ्टवेअर प्रणालींपर्यंत मानवांपेक्षा अधिक बुद्धिमत्तेसह संसाधने रेखाटून नियमितपणे स्वतःचा विस्तार करतात.” त्यानुसार, LLM धारकांना विविध क्षमतांमधील साधनांच्या विस्तृत श्रेणीशी संवाद साधता आला पाहिजे.

साधन स्वरूप टेम्पलेट

पेपर एका मॉडेल सिस्टीममधून हलक्या वजनाने चालविलेल्या संमिश्र प्रणालीमध्ये बदलण्याचा प्रस्ताव देतो "समन्वयक" मॉडेल संयोजकाचे कार्य म्हणजे एखाद्या जटिल कार्याचे विश्लेषण करणे, ते खंडित करणे आणि निराकरणासाठी योग्य क्रमाने योग्य साधने वापरणे.

या टूलकिटमध्ये केवळ वेब शोध आणि कोड ट्रान्सलेटर यांसारख्या मानक उपयुक्तता समाविष्ट नाहीत, तर विविध क्षमतांसह LLM देखील समाविष्ट आहेत. "स्मार्ट साधने." उदाहरणार्थ, एखादा नियंत्रक गणित-केंद्रित मॉड्यूलला एक परिमाणात्मक प्रश्न किंवा कोड जनरेशन मॉड्यूलला प्रोग्रामिंग आव्हान देऊ शकतो. संपूर्ण संज्ञानात्मक भार एका मोठ्या, सामान्य मॉडेलवर ठेवण्याऐवजी, समन्वयक संकुचित उपसमस्या विशेष बुद्धिमत्ता साधनांकडे सोपवतो.

या संकल्पनेवर आधारित, संशोधकांनी ToolOrchestra विकसित केली, एक पद्धत जी ऑर्केस्ट्रेटर म्हणून काम करण्यासाठी लहान भाषेच्या मॉडेलला प्रशिक्षित करण्यासाठी RL वापरते. मॉडेल इतर मॉडेल्स आणि टूल्स कधी आणि कसे आणायचे आणि त्यांचे आउटपुट बहु-वळणाच्या विचारात कसे समाकलित करायचे हे मॉडेल शिकते. साधने साध्या JSON फॉरमॅटमध्ये परिभाषित केली जातात, त्यांचे नाव, वर्णन आणि पॅरामीटर्स निर्दिष्ट करतात.

आरएल प्रशिक्षण प्रक्रियेला बक्षीस प्रणालीद्वारे मार्गदर्शन केले जाते जी एक किफायतशीर आणि नियंत्रण करण्यायोग्य एजंट तयार करते. रिवॉर्डमध्ये तीन उद्दिष्टे संतुलित आहेत: अंतिम उत्तराची शुद्धता, खर्च आणि विलंबामधील कार्यक्षमता आणि वापरकर्ता प्राधान्यांसह संरेखन. उदाहरणार्थ, सिस्टमला अत्यधिक संगणन वापरासाठी दंड आकारला जातो आणि वापरकर्त्याने प्राधान्य म्हणून ओळखलेली साधने निवडल्याबद्दल पुरस्कृत केले जाते, जसे की गोपनीयतेच्या कारणांसाठी मालकीच्या API पेक्षा मुक्त स्त्रोत मॉडेलला प्राधान्य देणे. या प्रशिक्षणाला समर्थन देण्यासाठी, संघाने एक स्वयंचलित डेटा पाइपलाइन देखील विकसित केली ज्याने 10 भिन्न डोमेनवर हजारो सत्यापित प्रशिक्षण उदाहरणे व्युत्पन्न केली.

मोठ्या परिणामांसह लहान मॉडेल

टूलऑर्केस्ट्रा वापरून, संशोधकांनी ऑर्केस्ट्रेटरला प्रशिक्षित केले, ज्यावर आधारित 8 अब्ज पॅरामीटर मॉडेल… क्विन 3-8 ब. त्यांनी तीन कठीण निकषांवर त्याच्या कामगिरीचे मूल्यांकन केले: मानवतेची शेवटची परीक्षा (करू), फ्रेम्स आणि Tau2-आसन. त्याची तुलना अनेक बेसलाइन्सशी केली गेली, ज्यात मोठ्या, ऑफ-द-शेल्फ LLM सह आणि साधनांशिवाय होते.

परिणामांनी दर्शविले की शक्तिशाली मॉडेल देखील साधनांशिवाय संघर्ष करतात, जटिल विचारांची त्यांची आवश्यकता अधोरेखित करतात. साधने जोडल्याने मोठ्या मॉडेल्सच्या कार्यप्रदर्शनात सुधारणा झाली असली तरी, त्याची किंमत आणि लेटन्सीमध्ये तीक्ष्ण वाढ होते.

याउलट, 8B ऑर्केस्ट्रेटरने प्रभावी परिणाम दिले. HLE मध्ये, डॉक्टरेट-स्तरीय प्रश्नांसाठी एक मानक, ऑर्केस्ट्रेटर संगणकीय खर्चाच्या एका अंशाने मागील पद्धतींना लक्षणीयरीत्या मागे टाकतो. Tau2-Bench फंक्शन कॉल चाचणीमध्ये, त्याने विविध साधने प्रभावीपणे शेड्यूल केली, GPT-5 सारख्या मोठ्या फॉर्मला फक्त 40% पायऱ्यांमध्ये कॉल केले आणि बाकीच्यांसाठी स्वस्त पर्याय वापरून, तरीही प्रत्येक पायरीवर मोठा फॉर्म वापरणाऱ्या एजंटला मात दिली.

संशोधकांनी असे निरीक्षण केले की आरएलमध्ये प्रशिक्षित झालेल्या एका समन्वयकाने आपली रणनीती नवीन आव्हानांशी जुळवून घेतली. "सामान्य विचार क्षमता उच्च पदवी." एंटरप्राइझ ऍप्लिकेशन्ससाठी महत्त्वपूर्णपणे, ऑर्केस्ट्रेटरने मॉडेल्स आणि किंमती संरचनांचे चांगले सामान्यीकरण केले जे तुम्ही प्रशिक्षणादरम्यान पाहिले नसतील. ही लवचिकता सार्वजनिक, खाजगी आणि सानुकूल AI मॉडेल्स आणि साधनांच्या मिश्रणावर अवलंबून असलेल्या कंपन्यांसाठी फ्रेमवर्क योग्य बनवते. त्याची कमी किंमत, उच्च गती आणि सानुकूलता हे अत्याधुनिक, स्केलेबल एआय एजंट्स तयार करण्यासाठी एक व्यावहारिक दृष्टीकोन बनवते.

कंपन्या अधिक प्रगत AI एजंट्स तैनात करण्याचा विचार करत असताना, हा समन्वय दृष्टीकोन अशा प्रणालींकडे एक मार्ग प्रदान करतो ज्या केवळ स्मार्टच नाहीत तर अधिक किफायतशीर आणि नियंत्रण करण्यायोग्य आहेत. (द नमुनेदार वजने सध्या उपलब्ध आहेत एक गैर-व्यावसायिक परवाना अंतर्गत, पण Nvidia देखील जारी केले आहे प्रशिक्षण कोड अनुज्ञेय Apache 2.0 लायसन्स अंतर्गत.)

पेपरच्या निष्कर्षाप्रमाणे, भविष्य या संकल्पनेच्या अधिक प्रगत आवृत्त्यांमध्ये असू शकते: “भविष्याकडे पाहताना, आम्ही बुद्धिमत्तेच्या वरच्या मर्यादा[आणि]वाढत्या जटिल एजंट कार्यांचे निराकरण करण्यात कार्यक्षमता वाढविण्यासाठी अधिक अत्याधुनिक वारंवार वाद्यवृंद प्रणालीची कल्पना करतो.”

Source link