मध्ये अ नवीन पेपर लार्ज लँग्वेज मॉडेल (LLM) एजंट्समध्ये साधन वापराचा अभ्यास करणे, Google आणि कॅलिफोर्निया विद्यापीठ, सांता बार्बरा येथील संशोधकांनी एक फ्रेमवर्क विकसित केले आहे जे एजंटना अधिक कार्यक्षम साधन वापरण्यास आणि बजेटची गणना करण्यास सक्षम करते. संशोधक दोन नवीन तंत्रे सादर करतात: साधे "बजेट ट्रॅकर" अधिक व्यापक फ्रेमवर्क म्हणतात "चाचणीची वेळ मोजा आणि बजेटची जाणीव ठेवा." ही तंत्रे एजंटना त्यांच्या उर्वरित हेरिस्टिक्स आणि साधन वापर भत्त्यांची स्पष्टपणे जाणीव करून देतात.
वास्तविक जगात ऑपरेट करण्यासाठी एआय एजंट टूल कॉलवर अवलंबून असल्याने, चाचणी वेळ मोजणे स्मार्ट मॉडेल्सबद्दल कमी झाले आहे आणि खर्च आणि विलंब नियंत्रित करण्याशी संबंधित आहे.
एंटरप्राइझ लीडर्स आणि डेव्हलपर्ससाठी, बजेट-सचेत स्केलिंग तंत्र अनपेक्षित खर्चाचा सामना न करता किंवा गणना खर्चावरील परतावा कमी न करता प्रभावी AI एजंट तैनात करण्यासाठी एक व्यावहारिक मार्ग प्रदान करतात.
मोजमाप साधन वापरण्याचे आव्हान
पारंपारिक चाचणी वेळ मोजणे नमुने सोडण्यावर लक्ष केंद्रित करते "तो विचार करतो" दीर्घ कालावधीसाठी. तथापि, वेब ब्राउझिंगसारख्या प्रॉक्सी कार्यांसाठी, टूल इनव्होकेशन्सची संख्या थेट अन्वेषणाची खोली आणि रुंदी निर्धारित करते.
हे कंपन्यांसाठी महत्त्वपूर्ण ऑपरेटिंग खर्च सादर करते. "टूल कॉल, जसे की वेब पृष्ठे ब्राउझ करणे, अधिक टोकन वापरतात, संदर्भ लांबी वाढवतात आणि अतिरिक्त प्रतिसाद वेळ देतात." झिफेंग वांग आणि टेंगक्सियाओ लिऊ, पेपरचे सह-लेखक यांनी व्हेंचरबीटला सांगितले. "टूल स्वतःला अतिरिक्त API ओव्हरहेड सादर करते."
संशोधकांना असे आढळून आले आहे की एजंटांना अधिक चाचणी वेळेची संसाधने देणे अधिक चांगल्या कामगिरीची हमी देत नाही. "सखोल संशोधन मोहिमेमध्ये, एजंटला बजेटची जाणीव नसल्यास, तो किंवा ती अनेकदा आंधळेपणाने अपयशी ठरतील." वांग आणि लिऊ यांनी स्पष्ट केले. "त्याला काहीशी संबंधित लीड सापडते, नंतर तो शोधण्यात 10 किंवा 20 टूल कॉल घालवतो, फक्त हे लक्षात येण्यासाठी की संपूर्ण मार्ग मृत झाला होता."
बजेट ट्रॅकरसह संसाधने ऑप्टिमाइझ करा
साधन वापराचे अंदाजपत्रक कसे सुधारावे याचे मूल्यमापन करण्यासाठी, संशोधकांनी प्रथम एक हलका दृष्टिकोन वापरला "बजेट ट्रॅकर." हे मॉड्यूल प्लग-इन म्हणून कार्य करते जे एजंटला संसाधन उपलब्धतेचे सतत सिग्नल प्रदान करते, बजेट लक्षात ठेवून साधन वापरण्याची परवानगी देते.
असे संघाने गृहीत धरले "स्पष्ट बजेट सिग्नल प्रदान केल्याने मॉडेलला संसाधनांची मर्यादा समजून घेण्यास आणि अतिरिक्त प्रशिक्षणाची आवश्यकता न घेता त्याचे धोरण स्वीकारण्यास सक्षम करते."
बजेट ट्रॅकर केवळ रीअल-टाइम स्तरावर कार्य करते, जे अंमलबजावणी करणे सोपे करते. (लेखात बजेट ट्रॅकर ॲपमध्ये वापरल्या जाणाऱ्या प्रॉम्प्ट्सची संपूर्ण माहिती दिली आहे, ज्यामुळे त्यांची अंमलबजावणी करणे सोपे होते.)
Google च्या अंमलबजावणीमध्ये, ट्रॅकर बजेट सिस्टमचे वर्णन करणारी संक्षिप्त धोरण मार्गदर्शक तत्त्वे आणि साधने वापरण्यासाठी संबंधित शिफारसी प्रदान करतो. प्रतिसाद प्रक्रियेच्या प्रत्येक टप्प्यावर, बजेट ट्रॅकर एजंटला त्याच्या संसाधनाच्या वापराची आणि उर्वरित बजेटची स्पष्टपणे जाणीव करून देतो, ज्यामुळे तो अद्ययावत संसाधन स्थितीशी पुढील विचार करण्याच्या चरणांशी जुळवून घेण्यास सक्षम करतो.
हे तपासण्यासाठी, संशोधकांनी दोन मॉडेल्सचा प्रयत्न केला: अनुक्रमिक स्केलिंग, जिथे मॉडेल पुनरावृत्तीने त्याचे आउटपुट सुधारते आणि समांतर स्केलिंग, जिथे एकाधिक स्वतंत्र धावा केल्या जातात आणि एकत्र केले जातात. त्यांनी ReAct-शैलीच्या लूपनंतर शोध आणि ब्राउझिंग साधनांनी सुसज्ज असलेल्या शोध एजंट्सवर प्रयोग केले. ReAct (कारण + कायदा) ही एक लोकप्रिय पद्धत आहे जिथे मॉडेल अंतर्गत तर्क आणि बाह्य क्रियांमध्ये बदलते. खर्च आणि किमतीच्या कामगिरीच्या मोजमापाच्या वास्तविक ट्रेंडचा मागोवा घेण्यासाठी, त्यांनी एक एकीकृत खर्च मेट्रिक विकसित केले जे संयुक्तपणे अंतर्गत टोकन वापर खर्च आणि बाह्य साधन परस्परसंवाद विचारात घेते.
त्यांनी तीन गुणवत्ता आश्वासन डेटासेटवर बजेट ट्रॅकरची चाचणी केली जे माहिती शोधतात आणि ब्राउझकॉम्प आणि एचएलई-सर्च यासह बाह्य शोध आवश्यक आहेत, जसे की मॉडेल वापरून मिथुन २.५ प्रोमिथुन 2.5 फ्लॅश, आणि क्लॉड सॉनेट 4. प्रयोग दर्शविते की हे साधे प्लगइन विविध बजेट मर्यादांमध्ये कार्यप्रदर्शन सुधारते.
"बजेट ट्रॅकर जोडल्याने 40.4% कमी शोध कॉलसह, 19.9% कमी ब्राउझिंग कॉलसह तुलनात्मक अचूकता मिळते आणि एकूण खर्च… 31.3% ने कमी होतो," लेखकांनी व्हेंचरबीटला सांगितले. सरतेशेवटी, बजेट ट्रॅकरने बजेट वाढल्याने स्केल करणे सुरू ठेवले, तर नियमित ReAct एका विशिष्ट मर्यादेनंतर स्थिर झाले.
BATS: बजेट-संवेदनशील मापनासाठी एक व्यापक फ्रेमवर्क
टूल आणि रिसोर्स युटिलायझेशनचे ऑप्टिमायझेशन आणखी सुधारण्यासाठी, संशोधकांनी बजेट-अवेअर टेस्ट टाइम (BATS) सादर केला, कोणत्याही दिलेल्या बजेट अंतर्गत एजंटची कार्यक्षमता वाढवण्यासाठी डिझाइन केलेली फ्रेमवर्क. BATS उर्वरित संसाधनांचे सतत सिग्नल राखते आणि ही माहिती एजंटच्या वर्तनाला गतीशीलपणे अनुकूल करण्यासाठी वापरते कारण ते त्याचा प्रतिसाद तयार करते.
एजंट क्रिया समन्वयित करण्यासाठी BATS एकाधिक मॉड्यूल वापरते. नियोजन मॉड्यूल वर्तमान बजेटमध्ये बसण्यासाठी चरण-दर-चरण प्रयत्न समायोजित करते, तर सत्यापन मॉड्यूल तसे करायचे की नाही हे ठरवते "तू सखोल आहेस" आशादायक प्रगतीमध्ये किंवा "अक्ष" संसाधनांच्या उपलब्धतेवर आधारित पर्यायी मार्गांसाठी.
माहिती शोध प्रश्न आणि रिकॉलिंग टूल्सचे बजेट पाहता, BATS नियोजन मॉड्यूलचा वापर करून एक संघटित कार्य योजना तयार करते आणि कोणती साधने कॉल केली जातील हे निर्धारित करते. जेव्हा साधने कॉल केली जातात, तेव्हा त्यांचे प्रतिसाद नवीन संकेतांसह संदर्भ देण्यासाठी तर्क क्रमात जोडले जातात. जेव्हा एजंट उमेदवाराला उत्तर सुचवतो, तेव्हा पडताळणी मॉड्यूल त्याची पडताळणी करते आणि सध्याचा क्रम सुरू ठेवायचा की उर्वरित बजेटसह नवीन प्रयत्न सुरू करायचा हे ठरवते.
अर्थसंकल्पित संसाधने संपल्यावर पुनरावृत्तीची प्रक्रिया संपते, ज्या वेळी LLM-जज-जज सर्व सत्यापित उत्तरांमधून सर्वोत्तम उत्तर निवडतो. संपूर्ण अंमलबजावणी कालावधीत, बजेट ट्रॅकर प्रत्येक पुनरावृत्तीमध्ये संसाधनांचा वापर आणि उर्वरित बजेट दोन्ही सतत अद्यतनित करतो.
संशोधकांनी BrowseComp, BrowseComp-ZH, आणि HLE-Search बेंचमार्क वर मानक ReAct आणि अनेक प्रशिक्षण-आधारित एजंट्ससह बेसलाइन्सवर BATS ची चाचणी केली. त्यांचे प्रयोग असे दर्शवतात की BATS कमी टूल कॉल वापरत असताना आणि स्पर्धात्मक पध्दतींपेक्षा कमी एकूण खर्च करून उच्च कार्यक्षमता प्राप्त करते. Gemini 2.5 Pro चा कणा म्हणून वापर करून, BATS ने ब्राउजकॉम्पमध्ये 24.6% अचूकता प्राप्त केली आहे, त्या तुलनेत मानक ReAct मध्ये 12.6% आणि HLE-Search मध्ये 27.0% ReAct मधील 20.5% च्या तुलनेत.
BATS केवळ बजेटच्या मर्यादेत कार्यक्षमतेत सुधारणा करत नाही, तर खर्च आणि कार्यप्रदर्शन यांच्यात चांगले व्यापार-ऑफ देखील करते. उदाहरणार्थ, BrowseComp डेटासेटवर, BATS ने समान परिणाम प्राप्त करण्यासाठी 50 सेंट पेक्षा जास्त आवश्यक असलेल्या समांतर बेसलाइनच्या तुलनेत सुमारे 23 सेंटच्या खर्चाने उच्च अचूकता प्राप्त केली.
लेखकांच्या मते, ही कार्यक्षमता पूर्वीचे महागडे वर्कफ्लो व्यवहार्य बनवते. "हे दीर्घकालीन, डेटा-केंद्रित एंटरप्राइझ ऍप्लिकेशन्सची श्रेणी उघडते… जसे की जटिल कोड बेस मेंटेनन्स, योग्य परिश्रम तपास, स्पर्धात्मक लँडस्केप संशोधन, अनुपालन ऑडिट, बहु-चरण दस्तऐवज विश्लेषण," ते म्हणाले.
संस्था त्यांची स्वतःची संसाधने व्यवस्थापित करणारे एजंट तैनात करू पाहतात, अचूकता आणि खर्चाचा समतोल साधण्याची क्षमता ही एक महत्त्वपूर्ण डिझाइन आवश्यकता बनते.
"आम्हाला विश्वास आहे की तर्कशास्त्र आणि अर्थशास्त्र यांच्यातील संबंध अविभाज्य बनतील," वांग आणि लिऊ म्हणाले. "भविष्यात, (मॉडेल) मूल्य विचारात घेणे आवश्यक आहे."
















