कोड मायग्रेशन एजंट चालू होते आणि मार्ग हिरव्या रंगात दिसतो. पण बरेच तुकडे कधीच जमले नाहीत आणि ते पकडायला दिवस लागले. हे मॉडेलचे अपयश नाही. हा एजंट आहे जो निर्णय घेतो की काहीतरी प्रत्यक्षात घडण्यापूर्वीच केले जाते.
बऱ्याच कंपन्या आता त्यांचे उत्पादन एआय एजंट पाईपलाईन मॉडेल्सच्या क्षमतेमुळे नाही तर एजंटच्या मागे असलेल्या मॉडेलने थांबवण्याचा निर्णय घेतल्याने अयशस्वी होताना दिसत आहेत. टास्कमधून लवकर बाहेर पडण्यापासून रोखण्यासाठी अनेक पद्धती आता LangChain, Google आणि OpenAI कडून उपलब्ध आहेत, जरी ते सहसा स्वतंत्र मूल्यमापन प्रणालीवर अवलंबून असतात. नवीनतम पद्धत Anthropic: /goals on Claude Code मधून येते, जी औपचारिकपणे कार्य अंमलबजावणी आणि मूल्यमापन वेगळे करते.
क्रिप्टोग्राफिक एजंट लूपमध्ये कार्य करतात: ते फाइल्स वाचतात, कमांड कार्यान्वित करतात, कोड संपादित करतात आणि नंतर कार्य पूर्ण झाले आहे की नाही ते तपासतात.
क्लॉड कोड/गोल्स मूलत: त्या लूपमध्ये दुसरा स्तर जोडतो. वापरकर्त्याने ध्येय सेट केल्यानंतर, क्लाउड एकापाठोपाठ एक शिफ्ट सुरू ठेवेल, परंतु प्रत्येक पायरीनंतर एक निवासी मॉडेल पुनरावलोकन करण्यासाठी आणि ध्येय साध्य झाले आहे की नाही हे निर्धारित करण्यासाठी येतो.
दोन मॉडेल विभाजित
तिन्ही विक्रेत्यांकडून ऑर्केस्ट्रेशन प्लॅटफॉर्मने समान अडथळा ओळखला. पण या बाबी हाताळण्याची त्यांची पद्धत वेगळी आहे. OpenAI लूप सोडते आणि मॉडेलला ते केव्हा पूर्ण होईल हे ठरवू देते, परंतु वापरकर्त्यांना त्यांच्या स्वतःच्या रेटर्सला टॅग करण्याची परवानगी देते. LangGraph आणि Google च्या एजंट डेव्हलपमेंट किटसाठी, स्वतंत्र मूल्यमापन शक्य आहे, परंतु विकासकांना गंभीर नोड ओळखणे, टर्मिनेशन लॉजिक लिहिणे आणि मॉनिटरिंग क्षमता कॉन्फिगर करणे आवश्यक आहे.
क्लॉड कोड /गोल्स स्वतंत्र मूल्यांकनकर्त्यासाठी डीफॉल्ट सेट करते, वापरकर्त्याला ते जास्त काळ चालवायचे आहे की कमी. मूलत:, विकासक प्रॉम्प्टद्वारे लक्ष्य पूर्ण करण्याची अट सेट करतो. उदाहरणार्थ, /auth चाचणीमध्ये /गोल सर्व चाचण्या पास करा आणि लिंट स्टेप स्वच्छ आहे. क्लॉड कोड नंतर चालवला जातो, आणि प्रत्येक वेळी एजंट आपले काम पूर्ण करण्याचा प्रयत्न करतो, मूल्यमापन मॉडेल, जे डीफॉल्टनुसार हायकू आहे, कंडिशन लूप तपासेल. अट पूर्ण न केल्यास, एजंट काम करत राहतो. जर अट पूर्ण झाली, तर ती पूर्ण झालेली अट एजंटच्या संभाषणाच्या मुख्य भागामध्ये रेकॉर्ड करते आणि लक्ष्य साफ करते. मूल्यमापनकर्त्याद्वारे फक्त दोनच निर्णय घेतले जातात, म्हणूनच लहान हायकू मॉडेल इतके चांगले कार्य करते, मग ते अंमलात आले किंवा नाही.
क्लॉड कोड हे कार्य प्रत्यक्षात पूर्ण झाल्याचे सुनिश्चित करणाऱ्या मूल्यांकनकर्त्या मॉडेलपासून कार्य पूर्ण करण्याचा प्रयत्न करणारे मॉडेल वेगळे करून हे शक्य करते. हे एजंटला त्याने आधीच काय पूर्ण केले आहे आणि अजून काय करायचे आहे हे गोंधळात टाकण्यापासून प्रतिबंधित करते. या पद्धतीचा वापर करून, अँथ्रोपिक नोंदवतात की तृतीय-पक्ष मॉनिटरिंग प्लॅटफॉर्मची आवश्यकता नाही — जरी संस्था क्लॉड कोडच्या बाजूने एक वापरणे सुरू ठेवण्यास मोकळे आहेत — सानुकूल नोंदणीची आवश्यकता नाही आणि पोस्टमार्टम पुनर्रचनावर कमी अवलंबून आहे.
Google ADK सारखे प्रतिस्पर्धी समान मूल्यमापन नमुन्यांचे समर्थन करतात. Google ADK LoopAgent प्रकाशित करते, परंतु विकसकांना हे तर्क तयार करावे लागेल.
एन्थ्रोपिकने त्याच्या दस्तऐवजांमध्ये म्हटले आहे की सर्वात यशस्वी परिस्थिती सामान्यतः आहेतः
-
एक मोजता येण्याजोगी अंतिम स्थिती: चाचणी निकाल, बिल्ड एक्झिट कोड, फाइल्सची संख्या, रिकामी रांग
-
विशिष्ट तपासणी: क्लॉडने हे कसे सिद्ध करावे, जसे की “npm चाचणी आउटपुट 0” किंवा “गिट स्थिती स्वच्छ आहे”.
-
महत्त्वाचे निर्बंध: तेथे जाताना बदलू नयेत असे काहीही, जसे की “इतर कोणतीही चाचणी फाइल सुधारित केलेली नाही”
लूप मध्ये विश्वसनीयता
ज्या संस्था आधीच विस्तीर्ण टूलसेट व्यवस्थापित करतात त्यांच्यासाठी, अपील हे मूळ निवासी आहे जे देखरेखीसाठी दुसरी प्रणाली जोडत नाही.
विशेषत: औपचारिक, दीर्घकालीन, स्वयं-शिक्षण एजंट्सची शक्यता वास्तविकता बनल्यामुळे, एजंट स्पेसमधील हा व्यापक ट्रेंडचा भाग आहे. मूल्यमापन मॉडेल, पडताळणी प्रणाली आणि इतर स्वतंत्र लवाद प्रणाली अनुमान प्रणालींमध्ये आणि काही प्रकरणांमध्ये, डेव्हिन किंवा SWE-एजंट सारख्या कोडिंग एजंटमध्ये दिसू लागल्या आहेत.
स्प्रिंकलरमधील सोल्यूशन्सचे संचालक सीन ब्राउनेल यांनी व्हेंचरबीटला ईमेलमध्ये सांगितले की या प्रकारच्या लूपमध्ये स्वारस्य आहे, जिथे कार्य आणि निर्णय वेगळे आहेत, परंतु त्यांना वाटते की अँथ्रोपिकच्या दृष्टिकोनामध्ये काहीही वेगळे नाही.
"होय, लूप कार्य करते. कन्स्ट्रक्टर आणि जजचे विभक्त करणे ही एक चांगली रचना आहे कारण, मूलभूतपणे, आपण मॉडेलवर त्याच्या गृहपाठाचा न्याय करण्यासाठी विश्वास ठेवू शकत नाही. काम करणाऱ्या मॉडेलने ते केले की नाही याचा सर्वात वाईट न्यायाधीश असतो." ब्राउनेल म्हणाले. "तथापि, अँथ्रोपिक बाजारात प्रथम नाही. येथे सर्वात मनोरंजक कथा अशी आहे की जगातील दोन सर्वात मोठ्या AI लॅबने काही दिवसांच्या अंतराने समान ऑर्डर जारी केली, परंतु प्रत्येकाने “ऑर्डर पूर्ण” घोषित करण्याचा अधिकार कोणाला आहे याबद्दल खूप भिन्न निष्कर्ष काढले."
लूप अधिक चांगले कार्य करते, ब्राउनेल म्हणाले "स्थलांतरण, तुटलेली चाचणी संच दुरुस्त करणे, अनुशेष साफ करणे यासारख्या पडताळणीयोग्य अंतिम स्थितीसह अत्यावश्यक कामासाठी," परंतु अधिक अचूक कार्यांसाठी किंवा ज्यांना डिझाइन निर्णयाची आवश्यकता असते, हा निर्णय मानवाने घेणे अधिक महत्त्वाचे आहे.
एजंट लूप स्तरावर मूल्यांकनकर्ता/कार्य विभाजन आणणे हे दर्शविते की अँथ्रोपिक सारख्या कंपन्या एजंट आणि समन्वय अधिक ऑडिट करण्यायोग्य आणि निरीक्षण करण्यायोग्य प्रणालीकडे ढकलत आहेत.
















