2026 हे वर्ष असेल यावर उद्योगांचे एकमत आहे "ऍम्नेस्टी इंटरनॅशनल एजंट." आम्ही वेगाने चॅटबॉट्सकडे जात आहोत जे फक्त मजकूर सारांशित करतात. आम्ही स्वतंत्र एजंट्सच्या युगात प्रवेश करत आहोत जे कार्ये पार पाडतात. आम्ही त्यांच्याकडून फ्लाइट बुक करणे, सिस्टम आउटेजचे निदान करणे, क्लाउड इन्फ्रास्ट्रक्चर व्यवस्थापित करणे आणि रिअल टाइममध्ये मीडिया प्रवाह सानुकूलित करणे अपेक्षित आहे.

ऑलिम्पिक आणि सुपर बाउल सारख्या मोठ्या जागतिक कार्यक्रमांदरम्यान 30 दशलक्ष समवर्ती वापरकर्त्यांना सेवा देणाऱ्या प्लॅटफॉर्मवर देखरेख करणारे एक तंत्रज्ञान कार्यकारी म्हणून, मी प्रचारामागील अनोखे वास्तव पाहिले आहे: प्रॉक्सी अविश्वसनीयपणे नाजूक आहेत.

सीईओ आणि कुलगुरूंना मॉडेल मानकांचे वेड आहे. ते Llama 3 vs GPT-4 वर चर्चा करत आहेत. ते कॉन्टेक्स्ट विंडोचा आकार वाढवण्यावर लक्ष केंद्रित करतात. मात्र, ते अपयशाच्या खऱ्या मुद्द्याकडे दुर्लक्ष करतात. स्वायत्त एजंट उत्पादनात अयशस्वी होण्याचे मुख्य कारण बहुतेकदा डेटा स्वच्छतेच्या समस्यांमुळे असते.

च्या मागील युगात "लूप मध्ये मानव" विश्लेषण, डेटा गुणवत्ता एक व्यवस्थापित त्रासदायक होते. तुमच्या ETL पाइपलाइनमध्ये समस्या आल्यास, डॅशबोर्ड चुकीचा महसूल क्रमांक दाखवू शकतो. एक मानवी विश्लेषक दोष शोधतो, तो ध्वजांकित करतो आणि त्याचे निराकरण करतो. स्फोट त्रिज्या समाविष्ट आहे.

स्वतंत्र एजंटांच्या नव्या जगात हे सुरक्षा जाळे नाहीसे झाले आहे.

आज डेटा पाइपलाइन वाहून गेल्यास, एजंट फक्त चुकीच्या क्रमांकाची तक्रार करणार नाही. चूक लागते एक कृती. हे चुकीचे सर्व्हर प्रकार प्रदान करते. हे ॲनिम पाहणाऱ्या वापरकर्त्याला हॉरर चित्रपटाची शिफारस करते. तो भ्रष्ट वेक्टर एम्बेडिंगच्या आधारे ग्राहक सेवा उत्तराचा भ्रमनिरास करतो.

एनएफएल किंवा ऑलिम्पिकच्या स्तरावर एआय चालविण्यासाठी, मला लक्षात आले की मानक डेटा साफ करणे पुरेसे नाही. आम्ही फक्त करू शकत नाही "एक स्क्रीन" डेटा. त्यासाठी आपण कायदा केला पाहिजे.

या विशिष्ट समस्येचे निराकरण “डेटा गुणवत्ता – सिद्धांत” फ्रेमवर्कच्या स्वरूपात असू शकते. हे एक “डेटा संविधान” आहे. एआय मॉडेलला एका बाइट डेटाला स्पर्श करण्याची परवानगी देण्यापूर्वी ते हजारो स्वयंचलित नियमांची अंमलबजावणी करते. जरी मी हे विशेषतः NBCUniversal च्या ब्रॉडकास्ट आर्किटेक्चरवर लागू केले असले तरी, AI एजंट चालवू पाहणाऱ्या कोणत्याही संस्थेसाठी पद्धत सार्वत्रिक आहे.

येथे का आहे "संरक्षण डेटा अभियांत्रिकी" आणि विश्वासाचे तत्वज्ञान एजंटच्या युगात टिकून राहण्याचे ते एकमेव मार्ग आहेत.

वेक्टर डेटाबेस ट्रॅप

AI एजंट्सची मूलभूत समस्या ही आहे की तुम्ही त्यांना दिलेल्या संदर्भावर त्यांचा अस्पष्ट विश्वास असतो. तुम्ही RAG वापरत असल्यास, तुमचा वेक्टर डेटाबेस एजंटची दीर्घकालीन मेमरी आहे.

मानक डेटा गुणवत्तेच्या समस्या वेक्टर डेटाबेससाठी विनाशकारी आहेत. पारंपारिक SQL डेटाबेसमध्ये, शून्य मूल्य हे फक्त रिक्त मूल्य असते. वेक्टर डेटाबेसमध्ये, शून्य मूल्य किंवा स्कीमा जुळत नसल्यामुळे संपूर्ण एम्बेडिंगचा अर्थपूर्ण अर्थ विकृत होऊ शकतो.

मेटाडेटा वाहून जातो अशा परिस्थितीचा विचार करा. समजा तुमची पाइपलाइन व्हिडिओ मेटाडेटा अंतर्भूत करते, परंतु शर्यतीची स्थिती उद्भवते "प्रकार" स्किड मार्क. मेटाडेटा व्हिडिओ म्हणून चिन्हांकित करू शकतो "थेट खेळ," पण समावेशन अ "बातम्या क्लिप." जेव्हा एजंट डेटाबेससाठी प्रश्न विचारतो "लँडिंग हायलाइट्स," हे बातमी क्लिप पुनर्प्राप्त करते कारण वेक्टर समानता शोध दूषित सिग्नलवर चालतो. त्यानंतर एजंट लाखो वापरकर्त्यांना ही क्लिप सर्व्ह करतो.

स्केलवर, आपण ते शोधण्यासाठी बॅक-एंड मॉनिटरिंगवर अवलंबून राहू शकत नाही. विसंगतीचा अलार्म बंद होईपर्यंत, एजंटने आधीच हजारो वाईट निर्णय घेतले आहेत. गुणवत्ता नियंत्रणे निरपेक्ष झाली पाहिजेत "सोडा" पाइपलाइन पासून.

द "शिकवण" फ्रेमवर्क: जगण्याची 3 तत्त्वे

शिकवण चौकटीने द्वारपाल म्हणून काम करणे अपेक्षित आहे. हे एक उच्च-गुणवत्तेचे मल्टी-टेनंट आर्किटेक्चर आहे जे अंतर्ग्रहण स्त्रोत आणि AI मॉडेल्समध्ये बसते.

त्यांची स्वतःची उत्पादने तयार करू पाहणाऱ्या तंत्रज्ञान नेत्यांसाठी "संविधान," मी शिफारस केलेली तीन नॉन-निगोशिएबल तत्त्वे येथे आहेत.

1. नाही "विलग्नवास" शैली अनिवार्य आहे: बर्याच आधुनिक डेटा संस्थांमध्ये, अभियंत्यांना प्राधान्य दिले जाते "Elt" जवळ येत आहे. ते कच्चा डेटा तलावात टाकतात आणि नंतर स्वच्छ करतात. एआय एजंटसाठी, हे अस्वीकार्य आहे. तुम्ही ग्राहकाला प्रदूषित तलावातून पिण्यास परवानगी देऊ शकत नाही.

शिकवण पद्धत कठोर लादते "मृत संदेश रांग." जर डेटा पॅकेटने कराराचे उल्लंघन केले तर ते ताबडतोब अलग केले जाईल. ते कधीही वेक्टर डेटाबेसमध्ये प्रवेश करत नाही. एजंट म्हंटले तर जास्त बरे "मला माहीत नाही" खराब डेटामुळे आत्मविश्वासाने खोटे बोलण्याऐवजी डेटाच्या कमतरतेमुळे. हे "सर्किट ब्रेकर" उच्च-स्तरीय भ्रम टाळण्यासाठी नमुना आवश्यक आहे.

2. योजना कायदा आहे: वर्षानुवर्षे, उद्योगाकडे वाटचाल सुरू आहे "योजनेशिवाय" त्वरीत हालचाल करण्याची लवचिकता. आम्ही कोर AI पाइपलाइनसाठी हा कल उलट केला पाहिजे. आम्ही कठोर टायपिंग आणि संदर्भ अखंडतेची अंमलबजावणी केली पाहिजे.

माझ्या अनुभवानुसार, मजबूत प्रणालीसाठी स्केल आवश्यक आहे. मी पर्यवेक्षित केलेली अंमलबजावणी सध्या प्रभावी आहे 1000 हून अधिक सक्रिय तळ रिअल टाइममध्ये प्रवाहांवर कार्य करते. हे फक्त शून्य मूल्यांसाठी तपासत नाही. ते व्यावसायिक तर्काची सुसंगतता तपासतात.

  • उदाहरण: करा "user_segment" इव्हेंट प्रवाहात वैशिष्ट्य स्टोअरमधील सक्रिय लेबलशी जुळते? नसेल तर त्याला ब्लॉक करा.

  • उदाहरण: रिअल-टाइम निष्कर्षासाठी टाइमस्टॅम्प स्वीकार्य विलंब कालावधीत आहे का? नसेल तर टाका.

3. वेक्टर सुसंगतता तपासा एसएमईसाठी ही नवीन सीमा आहे. व्हेक्टर डेटाबेसमध्ये संग्रहित मजकूराचे तुकडे प्रत्यक्षात त्यांच्या संबंधित एम्बेडिंग व्हेक्टरशी जुळतात याची खात्री करण्यासाठी आम्ही स्वयंचलित तपासणी लागू केली पाहिजे. "शांत" समावेशन मॉडेल API अयशस्वी होण्यामुळे तुम्हाला अनेकदा वेक्टर मिळतात जे कोणत्याही गोष्टीकडे निर्देश करत नाहीत. यामुळे एजंट शुद्ध आवाज वसूल करतात.

द कल्चर वॉर: इंजिनिअर्स विरुद्ध गव्हर्नन्स

सारखे फ्रेमवर्क लागू करा शिकवण हे केवळ तांत्रिक आव्हान नाही. तो सांस्कृतिक मुद्दा आहे.

अभियंते सामान्यतः हँडरेल्सचा तिरस्कार करतात. ते कठोर ब्लूप्रिंट्स आणि डेटा करारांना नोकरशाहीचे अडथळे म्हणून पाहतात जे तैनातीची गती कमी करतात. डेटा संविधान सादर करताना, नेत्यांना अनेकदा विरोधाचा सामना करावा लागतो. संघांना असे वाटते की ते परत येत आहेत "धबधबा" कठोर डेटाबेस व्यवस्थापनाचे युग.

यशस्वी होण्यासाठी, तुम्हाला प्रोत्साहनाची रचना बदलणे आवश्यक आहे. आम्ही ते सिद्ध केले आहे शिकवण तो खरं तर वेगात होता. इनपुट डेटाची शुद्धता सुनिश्चित करून, आम्ही डेटा शास्त्रज्ञांनी ठराविक मतिभ्रम त्रुटी डीबग करण्यासाठी घालवलेले आठवडे काढून टाकतो. आम्ही डेटा व्यवस्थापनाचे कंप्लायंस टास्कमधून मिशनमध्ये रूपांतर केले आहे "सेवेची गुणवत्ता" हमी.

डेटा निर्णय घेणाऱ्यांसाठी धडा

तुम्ही 2026 साठी AI धोरण तयार करत असल्यास, अधिक GPU खरेदी करणे थांबवा. या आठवड्यात लीडरबोर्डवर कोणते मॉडेल थोडे जास्त असेल याची चिंता करणे थांबवा.

तुमच्या डेटा कॉन्ट्रॅक्टचे ऑडिट करणे सुरू करा.

एआय एजंट जितका स्वतंत्र असतो तितकाच त्याचा डेटा विश्वसनीय असतो. कठोर स्वयंचलित डेटा संविधानाशिवाय उदा शिकवण फ्रेमवर्क, तुमचे एजंट शेवटी बदमाश होतील. SRE च्या जगात, एक बदमाश एजंट तुटलेल्या डॅशबोर्डपेक्षा खूपच वाईट आहे. हा विश्वास, महसूल आणि ग्राहक अनुभवाचा मूक हत्यारा आहे.

मनोज येरासानी हे वरिष्ठ तंत्रज्ञान अधिकारी आहेत.

Source link