मोठ्या भाषेचे मॉडेल अधिक सक्षम होत असताना, वापरकर्ते संज्ञानात्मक कार्ये सोपवतात कारण मॉडेल त्यांच्यासाठी कागदपत्रांवर प्रक्रिया करतात आणि अंतिम परिणाम देतात. परंतु एखाद्या मॉडेलला आपल्या दस्तऐवजांच्या सामग्रीवर विश्वासू राहण्यासाठी आपण किती विश्वास ठेवू शकता जेव्हा त्याला अनेक फेऱ्यांमध्ये पुनरावृत्ती करावी लागते?
मायक्रोसॉफ्टच्या संशोधकांनी केलेल्या एका नवीन अभ्यासात असे दिसून आले आहे की मोठ्या भाषेतील मॉडेल्स त्रुटी सादर करून ते काम करत असलेल्या दस्तऐवजांना मूकपणे भ्रष्ट करतात. संशोधकांनी एक बेंचमार्क विकसित केला आहे जो 52 व्यावसायिक उद्योगांमध्ये स्वतंत्र, बहु-चरण वर्कफ्लोचे अनुकरण करतो, एक पद्धत वापरून जी वेळोवेळी सामग्री किती कमी होते हे स्वयंचलितपणे मोजते.
त्यांचे निष्कर्ष दर्शवतात की उच्च-स्तरीय पॅरामेट्रिक मॉडेल देखील या वर्कफ्लोच्या शेवटी दस्तऐवज सामग्रीच्या सरासरी 25% भ्रष्ट करतात. वास्तववादी विखुरलेल्या प्रॉक्सी किंवा दस्तऐवजीकरणासह मॉडेल प्रदान केल्याने त्यांचे कार्यप्रदर्शन खराब होते.
हे एक चेतावणी म्हणून कार्य करते की जरी संज्ञानात्मक कार्य स्वयंचलित करण्यासाठी दबाव वाढत असला तरी, वर्तमान भाषा मॉडेल या कार्यांसाठी पूर्णपणे विश्वासार्ह नाहीत.
नियुक्त कार्य यंत्रणा
मायक्रोसॉफ्टचा अभ्यास “प्रस्तुत कार्य” वर लक्ष केंद्रित करतो, एक उदयोन्मुख मॉडेल जेथे वापरकर्ते LLM ला त्यांच्या वतीने दस्तऐवजांचे विश्लेषण आणि संपादन करून संज्ञानात्मक कार्ये पूर्ण करण्याची परवानगी देतात.
या मॉडेलचे एक प्रमुख उदाहरण म्हणजे बायोप्रोग्रामिंग, जिथे वापरकर्ता सॉफ्टवेअर डेव्हलपमेंट आणि कोड एडिटिंग कृत्रिम बुद्धिमत्तेकडे सोपवतो. परंतु नियुक्त वर्कफ्लो प्रोग्रामिंगच्या पलीकडे इतर क्षेत्रांमध्ये विस्तारित आहे. अकाउंटिंगमध्ये, उदाहरणार्थ, एक वापरकर्ता दाट लेजर देऊ शकतो आणि विशिष्ट खर्च श्रेणींद्वारे आयोजित केलेल्या स्वतंत्र फाइल्समध्ये दस्तऐवज विभाजित करण्यासाठी मॉडेलला निर्देशित करू शकतो.
एआयने केलेल्या प्रत्येक बदलाचे मॅन्युअली पुनरावलोकन करण्यासाठी वापरकर्त्यांकडे वेळ किंवा विशेष कौशल्य नसल्यामुळे, अधिकृतता अनेकदा विश्वासावर अवलंबून असते. कागदपत्रांमध्ये अनिर्दिष्ट त्रुटी, अनधिकृत हटवणे किंवा भ्रम न आणता मॉडेलने विश्वासूपणे कार्ये पूर्ण करण्याची अपेक्षा वापरकर्ते करतात.
विस्तारित, पुनरावृत्ती केलेल्या नियुक्त वर्कफ्लोमध्ये एआय सिस्टमवर किती प्रमाणात विश्वास ठेवला जाऊ शकतो हे मोजण्यासाठी, संशोधकांनी DELEGATE-52 बेंचमार्क विकसित केला. मानकामध्ये आर्थिक लेखा, सॉफ्टवेअर अभियांत्रिकी, क्रिस्टलोग्राफी आणि संगीत नोटेशनसह 52 विविध व्यावसायिक क्षेत्रे समाविष्ट असलेल्या 310 कार्य वातावरणांचा समावेश आहे.
प्रत्येक कामाचे वातावरण 2,000 ते 5,000 टोकन पर्यंतच्या वास्तविक-जगातील कच्च्या मजकूर दस्तऐवजांवर आधारित आहे. कच्च्या दस्तऐवजाव्यतिरिक्त, वातावरणात पाच ते दहा जटिल आणि क्षुल्लक संपादन कार्ये समाविष्ट आहेत.
क्लिष्ट, बहु-चरण संपादन प्रक्रियेचे वर्गीकरण करण्यासाठी सामान्यत: महागड्या मानवी पुनरावलोकनाची आवश्यकता असते. डेलीगेट-52 “मागे-पुढे” सिम्युलेशन पद्धत वापरून याच्या पलीकडे जाते जी मानवी-भाष्य संदर्भ समाधानांची आवश्यकता न घेता उत्तरांचे मूल्यांकन करते. हा दृष्टिकोन मशीन भाषांतर मूल्यमापनात वापरल्या जाणाऱ्या बॅक ट्रान्सलेशन तंत्राने प्रेरित आहे, जेथे एआय मॉडेलला दस्तऐवजाचे एका भाषेतून दुसऱ्या भाषेत भाषांतर करण्यास सांगितले जाते आणि ते मूळचे किती चांगले पुनरुत्पादन करते हे पाहण्यासाठी.
त्यानुसार, DELEGATE-52 मधील प्रत्येक संपादन कार्य पूर्णतः उलट करता येण्याजोगे डिझाइन केले आहे, फॉरवर्ड इंस्ट्रक्शन त्याच्या अचूक व्युत्क्रमाशी जोडलेले आहे. उदाहरणार्थ, खर्चाच्या श्रेणीनुसार खातेवहीला स्वतंत्र फायलींमध्ये विभाजित करण्याच्या सूचना सर्व श्रेणीच्या फायली परत एकाच लेजरमध्ये एकत्रित करण्याच्या सूचनेसह जोडल्या जातात.
व्हेंचरबीटला दिलेल्या टिप्पण्यांमध्ये, मायक्रोसॉफ्ट रिसर्चचे वरिष्ठ संशोधक आणि पेपरचे सह-लेखक फिलिप लाबन यांनी स्पष्ट केले की एआय हिट होऊ शकते की नाही हे पाहण्यासाठी ही केवळ चाचणी नाही. "माघार घेणे" कारण मानवी कामगारांना तत्काळ सक्ती करता येत नाही "तो विसरतो" हे त्यांनी नुकतेच हाती घेतलेले कार्य आहे आणि हे मागचे-पुढचे मूल्यमापन AI साठी अनन्यपणे अनुकूल आहे. नवीन संभाषण सत्र सुरू करून, संशोधक मॉडेलला पूर्णपणे स्वतंत्रपणे उलट कार्य करण्याचा प्रयत्न करण्यास भाग पाडतात.
त्यांच्या प्रयोगांमधील मॉडेल्सना “कार्य एक पाऊल पुढे आहे की मागे आहे हे माहित नाही किंवा त्यांना प्रयोगाच्या एकूण रचनेबद्दल माहिती नाही;”" लबानने स्पष्ट केले. "ते प्रत्येक टप्प्यावर प्रत्येक कार्य शक्य तितक्या अचूकपणे पार पाडण्याचा प्रयत्न करतात."
सलग 20 परस्परसंवाद पसरलेल्या दीर्घ-क्षितिजाच्या कार्यप्रवाहाचे अनुकरण करण्यासाठी ही कार्ये सतत रिलेमध्ये एकत्र जोडलेली असतात. वातावरण अधिक वास्तववादी बनवण्यासाठी, बेंचमार्क प्रत्येक मिशनच्या कोर्समध्ये डिस्ट्रॅक्टर फाइल्स सादर करतो. यामध्ये 8,000 ते 12,000 दस्तऐवजांचे चिन्ह आहेत जे विषयाशी संबंधित आहेत परंतु पूर्णपणे असंबंधित आहेत. डिस्ट्रक्शन टूल्स एआय फोकस राखण्यात सक्षम आहे की नाही किंवा ते विचलित झाले आहे आणि चुकीचा डेटा खेचत आहे की नाही हे मोजते.
एकापाठोपाठ पॅरामेट्रिक मॉडेल्सची चाचणी करणे
वेगवेगळे आर्किटेक्चर आणि मेट्रिक्स नेमून दिलेले काम कसे हाताळतात हे समजून घेण्यासाठी, संशोधकांनी OpenAI, Anthropic, Google, Mistral, xAI आणि Moonshot मधील 19 भिन्न भाषा मॉडेल्सची चाचणी केली. मुख्य प्रयोगाने या मॉडेल्सना सलग 20 संपादन प्रतिक्रियांच्या सिम्युलेशनच्या अधीन केले.
सर्व मॉडेल्समध्ये, सिम्युलेशनच्या शेवटी दस्तऐवजांची सरासरी 50% घट झाली. प्रयोगातील सर्वोत्कृष्ट पॅरामेट्रिक मॉडेल्स, जसे की जेमिनी 3.1 प्रो, क्लॉड 4.6 ओपस, आणि GPT 5.4, यांनी सरासरी 25% दस्तऐवज सामग्री दूषित केली आहे.
52 व्यावसायिक डोमेनपैकी, पायथन हे एकमेव डोमेन होते जेथे बहुतेक मॉडेल्सने 98% किंवा त्याहून अधिक गुणांसह तयारी स्थिती प्राप्त केली. मॉडेल्स प्रोग्रामिंग कार्यांमध्ये उत्कृष्ट असतात परंतु नैसर्गिक भाषा आणि काल्पनिक, नफा विधाने किंवा पाककृती यासारख्या विशिष्ट डोमेनमध्ये गंभीर अडचणी येतात. सर्वोत्कृष्ट मॉडेल, जेमिनी 3.1 प्रो, 52 पैकी केवळ 11 क्षेत्रांमध्ये कार्यान्वित केलेल्या कामासाठी तयार मानले गेले.
विशेष म्हणजे, मॉडेल्समध्ये लहान त्रुटी हळूहळू जमा झाल्यामुळे हजारो तुकड्यांमुळे भ्रष्टाचार मृत्यू झाला नाही. त्याऐवजी, एकूण अधोगतीपैकी सुमारे 80% तुरळक परंतु मोठ्या गंभीर अपयशांमुळे होते, जे एकल परस्परसंवाद आहेत जेथे मॉडेल अचानक दस्तऐवज सामग्रीच्या किमान 10% कमी होते. पॅरामेट्रिक मॉडेल अपरिहार्यपणे लहान त्रुटी अधिक चांगल्या प्रकारे टाळत नाहीत. ते या आपत्तीजनक अपयशांना नंतरच्या फेऱ्यांसाठी पुढे ढकलतात.
आणखी एक महत्त्वाचे निरीक्षण असे आहे की जेव्हा कमकुवत मॉडेल्स अयशस्वी होतात, तेव्हा त्यांची अधोगती प्रामुख्याने सामग्री हटविण्यामुळे उद्भवते. तथापि, जेव्हा सीमा मॉडेल अयशस्वी होतात, तेव्हा ते विद्यमान सामग्री प्रभावीपणे विकृत करतात. मजकूर अजूनही आहे, परंतु तो विकृत किंवा थोडासा विकृत झाला आहे, ज्यामुळे मानवी नियंत्रकास त्रुटी शोधणे कठीण होते.
विशेष म्हणजे, कॉमन कोड एक्झिक्यूशन टूल्स आणि फाईल रीड/राईट ऍक्सेससह मॉडेल्स युटिलिटिज दिल्याने त्यांचे कार्यप्रदर्शन कमी झाले, त्यामुळे सरासरी 6% नी ऱ्हास वाढला. लबान यांनी स्पष्ट केले की डोमेन-विशिष्ट साधनांऐवजी जेनेरिक साधनांवर अवलंबून राहण्यात अपयश येते.
"मॉडेल्समध्ये त्वरीत कार्यक्षम प्रोग्राम लिहिण्याची क्षमता नसते जे विविध डोमेनवर त्रुटींशिवाय फायली हाताळू शकतात." त्यांनी लक्ष वेधले. "जेव्हा ते प्रोग्रामॅटिकरित्या काही करू शकत नाहीत, तेव्हा ते संपूर्ण फायली वाचण्याचा आणि पुन्हा लिहिण्याचा अवलंब करतात, जे कमी कार्यक्षम आणि अधिक त्रुटी-प्रवण असते." विकासकांसाठी उपाय म्हणजे एजंट्सना ट्रॅकवर ठेवण्यासाठी स्कोप-विशिष्ट साधने (जसे की .ledger फाइल्समध्ये नोंदी मोजण्यासाठी किंवा हलविण्यासाठी विशिष्ट कार्ये) तयार करणे.
दस्तऐवजांचा आकार वाढल्याने किंवा कार्यक्षेत्रात अधिक लक्ष विचलित करणाऱ्या फायली जोडल्या गेल्याने बिघाड देखील वाढतो. RAG निर्मितीमध्ये मोठ्या प्रमाणावर गुंतवणूक करणाऱ्या एंटरप्राइझ संघांसाठी, हे विचलित करणारे दस्तऐवज गोंधळलेल्या संदर्भाच्या चक्रवाढ खर्चाबद्दल थेट चेतावणी म्हणून काम करतात. गोंगाटयुक्त संदर्भ विंडो केवळ दोन परस्परसंवादानंतर किमान 1% कार्यप्रदर्शन घसरण्यास कारणीभूत ठरू शकते, परंतु या ऱ्हासाचा परिणाम दीर्घ सिम्युलेशनमध्ये 2-8% मोठ्या प्रमाणात घसरतो.
"रिकव्हरी कम्युनिटीसाठी: RAG पाइपलाइन्सचे केवळ सिंगल-सायकल रिकव्हरी निकषच नव्हे तर मल्टी-स्टेप वर्कफ्लोमध्ये मूल्यांकन केले जावे." लबान म्हणाला. "एकल-सायकल मोजमाप चुकीच्या पुनर्प्राप्तीमुळे होणारे नुकसान पद्धतशीरपणे कमी करते."
स्वतंत्र संस्थेसाठी वास्तविकता तपासणी
DELEGATE-52 निष्कर्ष पूर्णपणे स्वायत्त एआय एजंट्सच्या सभोवतालच्या वर्तमान हायपला एक गंभीर वास्तविकता तपासणी प्रदान करतात.
मानकांच्या डिझाइनमध्ये व्यावहारिक मर्यादा देखील आहे: कारण अचानक आपत्तीजनक अपयश येण्यापूर्वी मॉडेल अनेक चरणांसाठी स्वच्छ रेकॉर्ड राखण्यास सक्षम असतात, अतिरिक्त मानवी पुनरावलोकन आवश्यक आहे – एक अंतिम तपासणी नाही. Laban जटिल, दीर्घकालीन एजंट्सऐवजी लहान, पारदर्शक कार्यांभोवती AI अनुप्रयोग तयार करण्याची शिफारस करतो. हे लेखकाने प्रिस्क्रिप्शन न देता गर्भित कृती जपते.
ज्या संस्थांना आज स्वायत्त एजंट सुरक्षितपणे तैनात करायचे आहेत त्यांच्यासाठी, DELEGATE-52 पद्धत अंतर्गत डेटा पाइपलाइनच्या चाचणीसाठी एक व्यावहारिक ब्लूप्रिंट प्रदान करते. लाबन यांनी स्पष्ट केले "… या फ्रेमवर्कचा अवलंब करू इच्छिणाऱ्या एंटरप्राइझ कार्यसंघाला तीन घटक तयार करणे आवश्यक आहे: (a) कार्यप्रवाह दर्शविणारे उलट करण्यायोग्य संपादन कार्यांचा संच, (b) एक पार्सर जो त्यांच्या डोमेन दस्तऐवजांना संरचित प्रतिनिधित्वामध्ये रूपांतरित करतो आणि (c) एक समानता कार्य जे दोन विश्लेषित प्रतिनिधित्वांची तुलना करते." संघांना सुरवातीपासून विश्लेषक तयार करण्याची देखील आवश्यकता नाही. मायक्रोसॉफ्ट रिसर्च टीमने चाचणी केलेल्या 52 पैकी 30 डोमेनसाठी विद्यमान विश्लेषण लायब्ररींचा यशस्वीपणे पुनर्वापर केला.
सुधार दराबाबत लबान आशावादी आहे. "प्रगती वास्तविक आणि जलद आहे. एकट्या GPT कुटुंबाकडे पाहता, 18 महिन्यांत मॉडेल स्कोअर 20% पेक्षा कमी ते 70% पर्यंत असतात." लबान म्हणाला. "हे मार्गक्रमण चालू राहिल्यास, मॉडेल लवकरच डेलीगेट-५२ वर संतृप्त स्कोअर प्राप्त करण्यास सक्षम होतील."
तथापि, लाबनने सावध केले की मोठ्या एंटरप्राइझ वातावरणाच्या तुलनेत DELEGATE-52 हेतुपुरस्सर लहान आहे. जरी मूलभूत मॉडेल्स अपरिहार्यपणे या मानकावर प्रभुत्व मिळवतात, एंटरप्राइझ डेटाचे अंतहीन प्रवाह आणि अद्वितीय कार्यप्रवाह म्हणजे संस्थांना त्यांच्या स्वायत्त एजंट्सची विश्वासार्हता राखण्यासाठी नेहमीच सानुकूल, डोमेन-विशिष्ट साधनांमध्ये गुंतवणूक करावी लागेल.
















