आधुनिक एआय वर्कफ्लोसाठी RAG नेहमी पुरेसा वेगवान किंवा पुरेसा स्मार्ट नसतो. संघ अल्पायुषी चॅटबॉट्सपासून दीर्घायुषी एजंट्सकडे जात असताना उत्पादन प्रणालींमध्ये तयार केलेल्या साधनांचा भार असलेल्या या मर्यादांवर मात करणे अधिक कठीण होते.
प्रतिसादात, संघ वैकल्पिक मेमरी आर्किटेक्चरसह प्रयोग करत आहेत — ज्याला कधीकधी संदर्भ मेमरी किंवा प्रॉक्सी मेमरी म्हणतात — जी डायनॅमिक पुनर्प्राप्तीपेक्षा चिकाटी आणि स्थिरतेला प्राधान्य देतात.
या दृष्टिकोनातील सर्वात अलीकडील अनुप्रयोगांपैकी एक आहे "मॉनिटर मेमरी," हे Mastra द्वारे विकसित केलेले एक मुक्त स्त्रोत तंत्रज्ञान आहे, ज्याची स्थापना अभियंत्यांनी केली होती ज्यांनी पूर्वी गॅट्सबी फ्रेमवर्क Netlify ला तयार केले आणि विकले.
RAG सिस्टीमच्या विपरीत जी डायनॅमिकरित्या संदर्भ पुनर्प्राप्त करतात, पाळत ठेवणे मेमरी दोन पार्श्वभूमी एजंट्स (निरीक्षक आणि परावर्तक) वापरते संभाषण इतिहासाला तारांकित पाळत ठेवणे रेकॉर्डमध्ये संकुचित करण्यासाठी. संकुचित नोट्स संदर्भामध्ये राहतात, पूर्णपणे पुनर्प्राप्ती प्रतिबंधित करते. मजकूर सामग्रीसाठी, सिस्टम 3-6x कम्प्रेशन प्राप्त करते. टूल-हेवी एजंट वर्कलोडसाठी जे मोठे आउटपुट तयार करतात, कॉम्प्रेशन रेशो 5-40x पर्यंत पोहोचतात.
ट्रेड-ऑफ असा आहे की एजंटने आधीपासून जे पाहिले आहे आणि ठरवले आहे ते निरीक्षण स्मृती प्राधान्य देते, ज्यामुळे ते मुक्त ज्ञान शोध किंवा अनुपालन-युक्त रिकॉल वापर प्रकरणांसाठी कमी योग्य बनते.
प्रणालीने GPT-5-mini वापरून LongMemEval वर 94.87% गुण मिळवले, पूर्णपणे स्थिर आणि कॅशे करण्यायोग्य संदर्भ विंडो राखली. मानक GPT-4o मॉडेलमध्ये, मॉनिटरच्या मेमरीने 84.23% गुण मिळवले आहेत, त्या तुलनेत Mastra च्या RAG अंमलबजावणी 80.05% आहे.
"यात सोपे आणि अधिक सामर्थ्यवान असण्याचा अद्भुत गुणधर्म आहे आणि ते बेंचमार्कमध्ये चांगले परिणाम प्राप्त करते," मास्त्राचे सह-संस्थापक आणि सीईओ सॅम भागवत यांनी व्हेंचरबीटला सांगितले.
हे कसे कार्य करते: दोन क्लायंट नोट्समध्ये तारीख संकुचित करतात
पारंपारिक मेमरी सिस्टमपेक्षा आर्किटेक्चर सोपे आहे परंतु चांगले परिणाम देते.
मॉनिटर मेमरी संदर्भ विंडोला दोन ब्लॉक्समध्ये विभाजित करते. पहिल्यामध्ये नोट्स आहेत – संकुचित, मागील संभाषणांमधून काढलेल्या दिनांक नोट्स. दुसऱ्यामध्ये सध्याच्या सत्रातील रॉ मेसेजचा लॉग आहे.
दोन बॅक-एंड एजंट कॉम्प्रेशन प्रक्रिया व्यवस्थापित करतात. जेव्हा अप्राप्य संदेश 30,000 टोकन्स (कॉन्फिगर करण्यायोग्य) पोहोचतात, तेव्हा निरीक्षक एजंट त्यांना नवीन नोट्समध्ये संकुचित करतो आणि त्यांना पहिल्या ब्लॉकमध्ये जोडतो. मूळ संदेश टाकले जातात. जेव्हा निरीक्षणे 40,000 वर्णांपर्यंत पोहोचतात (कॉन्फिगर करण्यायोग्य देखील), रिफ्लेक्टर एजंट निरीक्षण लॉगची पुनर्रचना करतो आणि संकुचित करतो, संबंधित आयटम एकत्र करतो आणि अधिलिखित माहिती काढून टाकतो.
"कालांतराने तुम्ही हे मेसेज संकुचित करण्याचा मार्ग म्हणजे तुम्हाला प्रत्यक्षात फक्त एक प्रकारचे संदेश प्राप्त होतात आणि मग तुमच्याकडे एजंट असतो जो तुम्हाला म्हणतो, “ठीक आहे, मग या संदेशांच्या संचामधून लक्षात ठेवण्यासारख्या महत्त्वाच्या गोष्टी कोणत्या आहेत?”" भागवत म्हणाले. "तुम्ही ते संकुचित करा आणि मग तुम्हाला आणखी 30,000 टोकन्स मिळतील आणि तुम्ही ते कॉम्प्रेस करा."
स्वरूपन मजकूर वस्तूंवर आधारित आहे आणि ते संरचित नाही. कोणतेही वेक्टर डेटाबेस किंवा आलेख डेटाबेस आवश्यक नाहीत.
स्थिर संदर्भ विंडो टोकन खर्च 10x पर्यंत कमी करतात
मॉनिटर मेमरीचे अर्थशास्त्र जलद कॅशिंगमधून येते. एन्थ्रोपिक, ओपनएआय आणि इतर प्रदाते टोकन खर्चात 4-10x कॅशे केलेल्या दाव्यांच्या तुलनेत 4-10x कमी करत आहेत. बऱ्याच मेमरी सिस्टम्स याचा फायदा घेऊ शकत नाहीत कारण ते कॅशे अवैध करून डायनॅमिकली पुनर्प्राप्त केलेला संदर्भ समाविष्ट करून प्रत्येक चक्र वेक्टर बदलतात. उत्पादन संघांसाठी, ही अस्थिरता थेट अप्रत्याशित खर्च वक्र आणि कठीण-टू-बजेट एजंट वर्कलोडमध्ये अनुवादित करते.
निरीक्षण स्मृती संदर्भ स्थिरता राखते. रिफ्लेक्शन ट्रिगर होईपर्यंत निरीक्षण ब्लॉक जोडला जातो, याचा अर्थ सिस्टम प्रॉम्प्ट आणि विद्यमान निरीक्षणे एक सुसंगत उपसर्ग तयार करतात ज्याला अनेक वळणांवर कॅश केले जाऊ शकते. संदेश 30,000 टोकन मर्यादेपर्यंत पोहोचेपर्यंत प्रारंभिक लॉग ब्लॉकमध्ये जोडले जाणे सुरू ठेवतात. त्यापूर्वीचे प्रत्येक चक्र पूर्ण कॅशेचे परिणाम आहे.
जेव्हा एखादी नोट प्ले केली जाते, तेव्हा विद्यमान निरीक्षण ब्लॉकमध्ये जोडलेल्या नवीन नोट्सद्वारे संदेश बदलले जातात. मॉनिटरिंग उपसर्ग स्थिर राहतो, त्यामुळे सिस्टमला अजूनही आंशिक कॅशे हिट मिळतो. केवळ प्रतिबिंब दरम्यान (जे क्वचितच ट्रिगर केले जाते) संपूर्ण कॅशे अवैध आहे.
Mastra चा LongMemEval बेंचमार्क चालविण्यासाठी सरासरी संदर्भ विंडोचा आकार सुमारे 30,000 वर्णांचा होता, जो संपूर्ण संभाषण इतिहासासाठी आवश्यक असलेल्यापेक्षा खूपच लहान होता.
हे पारंपारिक कॉम्प्रेशनपेक्षा वेगळे का आहे?
बहुतेक एन्कोडिंग प्रॉक्सी दीर्घ संदर्भ व्यवस्थापित करण्यासाठी कॉम्प्रेशन वापरतात. कॉम्प्रेशनमुळे कॉन्टेक्स्ट विंडो पूर्णपणे भरू शकते आणि नंतर संपूर्ण रेकॉर्डची मर्यादा ओलांडत असताना सारांशात संकुचित करते. एजंट चालू राहतो, विंडो पुन्हा भरते आणि प्रक्रिया पुन्हा होते.
कॉम्प्रेशन दस्तऐवजीकरण-शैली सारांश तयार करते. हे जे घडले त्याचे सार कॅप्चर करते परंतु विशिष्ट घटना, निर्णय आणि तपशील चुकवते. कॉम्प्रेशन मोठ्या बॅचमध्ये होते, ज्यामुळे प्रत्येक पास संगणकीयदृष्ट्या महाग होतो. हे मानवी वाचनीयतेसाठी सोपे करते, परंतु एजंट्सना वेळोवेळी सातत्याने कार्य करणे आवश्यक असलेले विशिष्ट निर्णय आणि साधन परस्परसंवाद सोडले जातात.
दुसरीकडे, निरीक्षक अधिक वारंवार कार्य करतो आणि लहान भागांवर प्रक्रिया करतो. संभाषणाचा सारांश देण्याऐवजी, ते इव्हेंट-आधारित निर्णय लॉग तयार करते—विशेषत: काय घडले याबद्दल प्राधान्यकृत ऐतिहासिक नोट्सची एक संघटित सूची. प्रत्येक मॉनिटरिंग सायकल कमी संदर्भावर प्रक्रिया करते आणि अधिक कार्यक्षमतेने संकुचित करते.
रेकॉर्ड कधीही बुडबुड्यात सारांशित होत नाही. विचार करत असतानाही, रिफ्लेक्टर कनेक्शन शोधण्यासाठी आणि अनावश्यक डेटा ड्रॉप करण्यासाठी नोट्सची पुनर्रचना करतो आणि कंडेन्स करतो. पण घटना-चालित रचना राहते. परिणाम कागदपत्रांच्या नव्हे तर निर्णय आणि कृतींच्या नोंदीसारखा दिसतो.
एंटरप्राइझ वापर प्रकरणे: दीर्घकाळ चालणारी एजंट संभाषणे
Mastra चे ग्राहक अनेक श्रेणींमध्ये आहेत. काहीजण सॅनिटी किंवा कंटेंटफुल सारख्या CMS प्लॅटफॉर्मसाठी ॲप-मधील चॅटबॉट्स तयार करतात. इतर AI SRE सिस्टीम तयार करत आहेत जे अभियांत्रिकी संघांना अलर्ट ट्रायज करण्यात मदत करतात. दस्तऐवज प्रक्रिया एजंट पारंपारिक व्यवसायांसाठी कागदपत्रे हाताळतात जे ऑटोमेशनकडे जात आहेत.
या वापराच्या प्रकरणांमध्ये काय साम्य आहे ते म्हणजे दीर्घकालीन संभाषणांची आवश्यकता आहे जी आठवडे किंवा महिने संदर्भ राखतात. CMS मध्ये एम्बेड केलेल्या एजंटने हे लक्षात ठेवणे आवश्यक आहे की तीन आठवड्यांपूर्वी वापरकर्त्याने विशिष्ट अहवाल स्वरूपनाची विनंती केली होती. SRE एजंटने कोणत्या सूचनांची तपासणी केली आहे आणि कोणते निर्णय घेतले आहेत याचा मागोवा ठेवणे आवश्यक आहे.
"2025 आणि 2026 साठी मोठ्या उद्दिष्टांपैकी एक म्हणजे त्यांच्या वेब ऍप्लिकेशनमध्ये एजंट तयार करणे," भागवत यांनी B2B SaaS कंपन्यांबाबत सांगितले. "या एजंटला हे लक्षात ठेवता आले पाहिजे की तुम्ही मला या गोष्टीबद्दल तीन आठवड्यांपूर्वी विचारले होते किंवा तुम्हाला या प्रकारच्या सामग्री प्रकारावर अहवाल हवा आहे किंवा या मेट्रिकद्वारे खंडित केलेली दृश्ये हवी आहेत."
या परिस्थितींमध्ये, मेमरी फक्त एक ऑप्टिमायझेशन राहते आणि उत्पादनाची आवश्यकता बनते – आणि एजंट मागील निर्णय किंवा प्राधान्ये विसरतात तेव्हा वापरकर्त्यांना लगेच लक्षात येते.
लक्षात ठेवा मेमरी अनेक महिन्यांचा संभाषण इतिहास ताजा आणि प्रवेशयोग्य ठेवते. एजंट पूर्ण संदर्भ लक्षात ठेवून प्रतिसाद देऊ शकतो, वापरकर्त्याने मागील प्राधान्ये किंवा निर्णय पुन्हा स्पष्ट करण्याची आवश्यकता न ठेवता.
प्रणाली Mastra 1.0 चा भाग म्हणून पाठवली गेली आणि आता उपलब्ध आहे. टीमने या आठवड्यात LangChain, Vercel चे AI SDK आणि इतर फ्रेमवर्कसाठी प्लगइन जारी केले, ज्यामुळे विकासकांना Mastra इकोसिस्टमच्या बाहेर मॉनिटर मेमरी वापरता येते.
उत्पादन एआय सिस्टमसाठी याचा अर्थ काय आहे
मॉनिटर मेमरी वेक्टर डेटाबेस आणि आरएजी पाइपलाइनपेक्षा भिन्न आर्किटेक्चरल दृष्टीकोन प्रदान करते जे सध्याच्या ऍप्लिकेशन्सवर प्रभुत्व मिळवते. सोपे आर्किटेक्चर (मजकूर-आधारित, कोणतेही विशेष डेटाबेस नाही) डीबग करणे आणि देखभाल करणे सोपे करते. स्थिर संदर्भ विंडो मजबूत कॅशिंग सक्षम करते ज्यामुळे खर्च कमी होतो. बेंचमार्क कामगिरी सूचित करते की हा दृष्टिकोन मोठ्या प्रमाणात कार्य करू शकतो.
मेमरी पद्धतींचे मूल्यांकन करणाऱ्या एंटरप्राइझ संघांसाठी, महत्त्वाचे प्रश्न आहेत:
-
तुमच्या एजंटांना सत्रांमध्ये किती संदर्भ राखण्याची गरज आहे?
-
संपूर्ण शोध विरुद्ध गहाळ डेटासह तणावासाठी तुमची सहनशीलता किती आहे?
-
तुम्हाला RAG द्वारे प्रदान केलेल्या डायनॅमिक पुनर्प्राप्तीची आवश्यकता आहे किंवा एक स्थिर संदर्भ अधिक चांगले कार्य करेल?
-
तुमचे ग्राहक साधनांनी ओव्हरलोड झाले आहेत, मोठ्या प्रमाणात आउटपुट तयार करतात ज्यांना संकुचित करणे आवश्यक आहे?
मॉनिटर मेमरी तुमच्या वापराच्या बाबतीत बसते की नाही हे उत्तरे ठरवतात. बागवत हे उपकरण वापरणे, वर्कफ्लो ऑर्केस्ट्रेशन, निरीक्षणक्षमता आणि रेलिंगसह उच्च-कार्यक्षमता एजंट्ससाठी आवश्यक असलेल्या सर्वात महत्त्वाच्या प्राथमिक घटकांपैकी एक आहे. उत्पादनांमध्ये एम्बेड केलेल्या एंटरप्राइझ एजंटसाठी, सत्रांमधील संदर्भ विसरणे अस्वीकार्य आहे. वापरकर्ते अपेक्षा करतात की एजंट त्यांची प्राधान्ये, मागील निर्णय आणि चालू असलेले काम लक्षात ठेवतील.
"एजंटसाठी संघ तयार करणे सर्वात कठीण गोष्ट म्हणजे उत्पादन, ज्याला वेळ लागू शकतो." भागवत म्हणाले. "मेमरी हा यातील एक खरोखर महत्त्वाचा भाग आहे, कारण कोणत्याही प्रकारचे प्रॉक्सी साधन वापरणे आणि त्याला काहीतरी सांगणे आणि नंतर त्याबद्दल विसरून जाणे खूप त्रासदायक आहे."
एजंट प्रयोगांपासून एम्बेडेड रेकॉर्डिंग सिस्टमकडे जाताना, टीम मेमरी कशी डिझाइन करते ते त्यांनी निवडलेल्या मॉडेलइतकेच महत्त्वाचे असू शकते.















