त्यांच्या सर्व महासत्तांसाठी, आजचे AI मॉडेल आश्चर्यकारकपणे मानवी दोषाने ग्रस्त आहेत: ते विसरतात. एआय सहाय्यकाला एक विस्तीर्ण संभाषण, एक बहु-चरण युक्तिवाद कार्य किंवा काही दिवसांचा प्रकल्प द्या आणि शेवटी तो धागा गमावेल. अभियंते या घटनेला “कॉन्टेक्स्ट रॉट” म्हणून संबोधतात आणि वास्तविक जगात विश्वासार्हपणे काम करू शकणारे एआय एजंट्स तयार करण्यात शांतपणे सर्वात महत्त्वपूर्ण अडथळे बनले आहेत.
चीन आणि हाँगकाँगच्या एका संशोधन पथकाने असा विश्वास ठेवला आहे की त्यांनी संदर्भ रॉटवर उपाय शोधला आहे. त्यांचे नवीन पेपर सादर करा जनरल एजंट मेमरी (GAM)मॉडेलला जबरदस्त न करता दीर्घ-श्रेणीची माहिती जतन करण्यासाठी डिझाइन केलेली प्रणाली. मूळ आधार सोपा आहे: स्मृती दोन विशेष भूमिकांमध्ये विभाजित करा, एक जी सर्वकाही कॅप्चर करते आणि दुसरी जी योग्य क्षणी अचूक गोष्टी पुनर्प्राप्त करते.
सुरुवातीचे परिणाम उत्साहवर्धक आहेत आणि वेळ यापेक्षा चांगली असू शकत नाही. उद्योग स्पॉट इंजिनीअरिंगच्या पलीकडे जाताना आणि संदर्भ अभियांत्रिकीच्या व्यापक शिस्त स्वीकारत असताना, GAM अगदी योग्य विक्षेपण बिंदूवर दिसून येतो.
जेव्हा मोठ्या संदर्भ विंडो अपुरी राहतात
प्रत्येक मोठ्या भाषेच्या मॉडेलच्या (LLM) केंद्रस्थानी एक कठोर मर्यादा आहे: एक निश्चित “कार्यरत मेमरी”, ज्याला सामान्यतः संदर्भ विंडो म्हणून संबोधले जाते. एकदा संभाषण खूप लांब झाले की, जुनी माहिती शांतपणे कापली जाते, सारांशित केली जाते किंवा हटविली जाते. ही मर्यादा AI संशोधकांनी फार पूर्वीपासून ओळखली आहे आणि 2023 च्या सुरुवातीपासून, डेव्हलपर कॉन्टेक्स्ट विंडोचा विस्तार करण्यासाठी काम करत आहेत, एक मॉडेल एकाच पासमध्ये हाताळू शकणाऱ्या माहितीचे प्रमाण वेगाने वाढवत आहेत.
Mistral’s Mixtral 8x7B 32,000 वर्णांच्या खिडकीसह, अंदाजे 24 ते 25 शब्द, किंवा इंग्रजीमध्ये सुमारे 128 अक्षरांसह पदार्पण केले; मुळात एकल वाक्यासारखा थोडासा मजकूर. यानंतर MosaicML च्या MPT-7B-StoryWriter-65k+ ने ही क्षमता दुप्पट केली; त्यानंतर Google चे जेमिनी 1.5 प्रो आणि अँथ्रोपिकचे क्लॉड 3 आले, ज्यांनी 128K आणि 200K विंडो ऑफर केल्या, दोन्ही अभूतपूर्व 1 दशलक्ष आयकॉन्सपर्यंत विस्तारण्यायोग्य आहेत. मायक्रोसॉफ्ट देखील या पुशमध्ये सामील झाले आहे, मागील Phi मॉडेल्सच्या 2K-टोकन मर्यादेवरून Phi-3 साठी 128K संदर्भ विंडोवर उडी मारली आहे.
कॉन्टेक्स्ट विंडो वाढवणे हे स्पष्ट समाधान वाटू शकते, परंतु तसे नाही. शेकडो पृष्ठे मजकूर ठेवण्यासाठी पुरेशी 100,000 अक्षरे असलेल्या विस्तीर्ण खिडक्या असलेल्या मॉडेल्सनाही, दीर्घ संभाषणाच्या सुरूवातीस दफन केलेले तपशील लक्षात ठेवण्यास त्रास होतो. स्केलिंग संदर्भ त्याच्या स्वतःच्या समस्यांसह येतो. प्रॉम्प्ट्स जसजसे मोठे होत जातात, तसतसे मॉडेल्स माहिती शोधण्यात आणि त्याचा अर्थ लावण्यात कमी विश्वासार्ह बनतात, कारण दूरच्या चिन्हांकडे लक्ष कमी होते आणि अचूकता हळूहळू कमी होते.
दीर्घ इनपुट सिग्नल-टू-आवाज गुणोत्तर देखील कमी करतात, कारण प्रत्येक संभाव्य तपशीलाचा समावेश केल्याने प्रतिसाद फोकस्ड प्रॉम्प्ट वापरण्यापेक्षा वाईट होऊ शकतात. लांब प्रॉम्प्ट देखील फॉर्म कमी करतात; अधिक इनपुट प्रतीकांमुळे आउटपुट चिन्हांसाठी लक्षणीय उच्च विलंब होतो, कार्यप्रदर्शनास त्रास होण्यापूर्वी वापरल्या जाऊ शकणाऱ्या संदर्भाच्या प्रमाणात एक व्यावहारिक मर्यादा निर्माण करते.
आठवणी अनमोल असतात
बऱ्याच संस्थांसाठी, मोठ्या संदर्भ खिडक्या स्पष्ट नकारात्मक बाजूसह येतात – त्या महाग असतात. API द्वारे प्रचंड दावे सबमिट करणे कधीही स्वस्त नसते, आणि किमती थेट इनपुट कोडच्या सहाय्याने मोजल्या जात असल्याने, एक फुगलेली विनंती देखील खर्च वाढवू शकते. जलद कॅशिंग मदत करते, परंतु अनावश्यक संदर्भासह फॉर्म नियमितपणे ओव्हरलोड करण्याची सवय पूर्ण करण्यासाठी ते पुरेसे नाही. आणि या समस्येच्या केंद्रस्थानी असलेला तणाव आहे: AI अधिक शक्तिशाली बनवण्यासाठी मेमरी आवश्यक आहे.
संदर्भ विंडो शेकडो हजारो किंवा लाखो चिन्हांपर्यंत विस्तारित असल्याने, आर्थिक खर्च झपाट्याने वाढतात. स्केलिंग संदर्भ हे दोन्ही तांत्रिक आणि आर्थिक आव्हान आहे आणि वाढत्या रुंद खिडक्यांवर अवलंबून राहणे हे दीर्घकालीन स्मरणशक्तीसाठी त्वरीत एक टिकाऊ धोरण बनत आहे.
सारांश आणि संवर्धित पुनर्प्राप्ती जनरेशन (RAG) सारखे निराकरण देखील रामबाण उपाय नाहीत. सारांश अपरिहार्यपणे सूक्ष्म परंतु महत्त्वाचे तपशील काढून टाकतात आणि पारंपारिक RAG, स्थिर दस्तऐवजांमध्ये शक्तिशाली असताना, जेव्हा माहिती अनेक सत्रांमध्ये पसरते किंवा कालांतराने विकसित होते तेव्हा खंडित होते. एजंटिक आरएजी आणि आरएजी 2.0 (जे पुनर्प्राप्ती प्रक्रियेस मार्गदर्शन करण्याचे अधिक चांगले कार्य करतात) सारख्या नवीन प्रकारांमध्ये देखील मेमरी स्वतःला मूळ समस्या मानण्याऐवजी, पुनर्प्राप्ती हा एक उपाय म्हणून हाताळण्यात समान मूलभूत त्रुटी आहे.
संकलकांनी अनेक दशकांपासून ही समस्या सोडवली आहे
जर स्मृती ही खरी अडचण असेल आणि पुनर्प्राप्ती ती दूर करू शकत नसेल, तर अंतराला वेगळ्या प्रकारचे समाधान आवश्यक आहे. GAM च्या मागे ही बाजी आहे. पुनर्प्राप्ती ही मेमरी आहे असे भासवण्याऐवजी, GAM संपूर्ण, दोषरहित इतिहास आणि स्तर बुद्धिमान, मागणीनुसार रिकॉल ठेवते, संभाषणे विकसित आणि विकसित होत असताना देखील ग्राहकाला आवश्यक असलेल्या अचूक तपशीलांचे पुनरुत्थान करते. GAM समजून घेण्याचा एक उपयुक्त मार्ग म्हणजे सॉफ्टवेअर अभियांत्रिकीच्या परिचित कल्पना: जस्ट-इन-टाइम (JIT) असेंब्ली. अत्यंत संकुचित, निर्जीव मेमरी प्री-कॉम्प्युट करण्याऐवजी, GAM तंत्रज्ञान सिग्नलचा एक छोटा संच, तसेच कच्च्या इतिहासाचा संपूर्ण अस्पर्श संग्रहण संग्रहित करून गोष्टी हलक्या आणि संक्षिप्त ठेवते. मग, विनंती आल्यावर, ती पटकन सानुकूल संदर्भ “एकत्रित करते”.
हा JIT दृष्टीकोन GAM च्या ड्युअल आर्किटेक्चरमध्ये तयार करण्यात आला आहे, ज्यामुळे AI ला जास्त संभाषणांमध्ये संदर्भ घेऊन जाऊ शकते किंवा काय महत्त्वाचे आहे याबद्दल फार लवकर अंदाज न लावता. परिणाम म्हणजे योग्य माहिती, अगदी योग्य क्षणी वितरित.
आत GAM: दोन-एजंट प्रणाली मेमरीसाठी डिझाइन केलेली आहे जी टिकते
जीएएम लक्षात ठेवण्याच्या प्रक्रियेला लक्षात ठेवण्याच्या प्रक्रियेपासून वेगळे करण्याच्या साध्या कल्पनेभोवती फिरते, ज्याचे दोन घटक आहेत: “स्मरणकर्ता” आणि “संशोधक.”
हाफिज: कोणतीही भर न घालता पूर्ण स्मरण
कीपर प्रत्येक एक्सचेंज संपूर्णपणे कॅप्चर करतो, शांतपणे प्रत्येक परस्परसंवादाला एका संक्षिप्त मेमोमध्ये रूपांतरित करतो आणि संपूर्ण, टेक्सचर सत्र शोधण्यायोग्य पृष्ठ स्टोअरमध्ये ठेवतो. खूप जोरात ढकलत नाही किंवा काय महत्त्वाचे आहे याचा अंदाज लावत नाही. त्याऐवजी, ते संरचित पृष्ठांमध्ये परस्परसंवाद आयोजित करते, कार्यक्षम पुनर्प्राप्तीसाठी मेटाडेटा जोडते आणि द्रुत स्कॅनिंगसाठी हलके पर्यायी सारांश तयार करते. सर्वात महत्त्वाचे म्हणजे, प्रत्येक तपशील जतन केला जातो आणि काहीही फेकले जात नाही.
इंट: एक खोल पुनर्प्राप्ती इंजिन
जेव्हा एजंटला कार्य करण्याची आवश्यकता असते, तेव्हा शोधकर्ता शोध धोरणाची आखणी करतो, BM25 सारख्या कीवर्ड पद्धतींसह समावेशन एकत्र करतो, पृष्ठ IDs द्वारे ड्रिल करतो आणि तुकडे एकत्र बांधतो. हे संपूर्ण पृष्ठ स्टोअरमध्ये बहु-स्तरीय शोध करते, वेक्टर पुनर्प्राप्ती, कीवर्ड जुळणी आणि थेट शोध यांचे मिश्रण करते. हे परिणामांचे मूल्यमापन करते, अंतर ओळखते आणि विश्वासार्ह उत्तर देण्यासाठी पुरेसा पुरावा मिळेपर्यंत संशोधन चालू ठेवते, जसे एखाद्या मानवी विश्लेषकाने जुन्या नोट्स आणि प्राथमिक कागदपत्रांचे पुनरावलोकन केले. ते कार्याचा स्वच्छ, विशिष्ट सारांश तयार करेपर्यंत ते पुनरावृत्ती करते, संशोधन करते, एकत्रित करते आणि प्रतिबिंबित करते.
GAM ची शक्ती JIT मेमरी पाइपलाइनमधून येते, जी नाजूक, पूर्व-गणना केलेल्या सारांशांवर अवलंबून न राहता मागणीनुसार समृद्ध कार्य-विशिष्ट संदर्भ गोळा करते. त्याची मुख्य नवकल्पना साधी पण शक्तिशाली आहे, कारण ती सर्व माहिती अबाधित ठेवते आणि प्रत्येक तपशील पुनर्प्राप्त करण्यायोग्य बनवते.
निर्मूलन अभ्यास या दृष्टिकोनाचे समर्थन करतात: पारंपारिक मेमरी स्वतःच अपयशी ठरते आणि निष्पाप पुनर्प्राप्ती पुरेसे नसते. हे सक्रिय, निरर्थक शोध इंजिनसह संपूर्ण संग्रहणाचे जोडणी आहे जे GAM ला इतर सिस्टम मागे सोडलेले तपशील प्रदर्शित करण्यास सक्षम करते.
आरएजी मॉडेल्स आणि दीर्घ संदर्भ मॉडेल्सपेक्षा उत्कृष्ट कामगिरी
GAM ची चाचणी करण्यासाठी, संशोधकांनी ते मानक RAG पाइपलाइन आणि GPT-4o-mini आणि Qwen2.5-14B सारख्या विस्तारित संदर्भ विंडोसह मॉडेल्सच्या विरोधात उभे केले. त्यांनी चार प्रमुख दीर्घ-संदर्भ आणि मेमरी-केंद्रित बेंचमार्क वापरून GAM चे मूल्यांकन केले, प्रत्येकाने सिस्टमच्या क्षमतेच्या भिन्न पैलूची चाचणी घेण्यासाठी निवडले:
-
लोकोमो हे सिंगल-हॉप, मल्टी-हॉप, टेम्पोरल रिजनिंग आणि ओपन-फील्ड टास्कसह दीर्घ, बहु-सत्र संभाषणांमध्ये माहिती राखून ठेवण्याची आणि पुनर्प्राप्त करण्याची एजंटची क्षमता मोजते.
-
हॉटपोटकाWikipedia वरून बनवलेले बहु-हॉप QA मानक, MemAgent ची मेमरी स्ट्रेस चाचणी आवृत्ती वापरून रुपांतरित केले गेले आहे, जे 56K, 224K, आणि 448K टोकन्सचे संदर्भ तयार करण्यासाठी संबंधित दस्तऐवज विचलित करणाऱ्यांसोबत मिसळते – GAM किती गोंगाट करणारे, पसरलेले इनपुट हाताळते हे तपासण्यासाठी आदर्श.
-
राज्यपाल हे दीर्घ-क्षितिज तर्काची अधिक चौकशी करण्यासाठी 128K टोकनच्या संदर्भात पुनर्प्राप्ती अचूकता, मल्टी-हॉप स्टेट ट्रॅकिंग, दीर्घ अनुक्रमांवर एकत्रीकरण आणि QA कामगिरीचे मूल्यांकन करते.
-
कथा QA हे एक मानक आहे जिथे प्रत्येक प्रश्नाचे उत्तर पुस्तक किंवा चित्रपटाच्या स्क्रिप्टचा पूर्ण मजकूर वापरून दिले पाहिजे; संशोधकांनी 87,000 टोकन्सच्या सरासरी संदर्भ आकारासह 300 उदाहरणे तयार केली.
एकत्रितपणे, या डेटासेट आणि बेंचमार्कने टीमला तपशीलवार ऐतिहासिक माहिती जतन करण्याच्या GAM च्या क्षमतेचे आणि जटिल तर्क कार्यांना समर्थन देण्यासाठी त्याच्या प्रभावीतेचे मूल्यांकन करण्याची परवानगी दिली.
GAM सर्व मानकांमध्ये प्रगत झाले आहे. त्याचा सर्वात मोठा विजय RULER प्रकल्प होता, जो लांब पल्ल्याच्या केस ट्रॅकिंगचे मोजमाप करतो. सर्वात लक्षणीय:
-
GAM अचूकता 90% पेक्षा जास्त आहे.
-
सारांशांमध्ये मुख्य तपशील गहाळ झाल्यामुळे RAG संकुचित झाला.
-
तांत्रिकदृष्ट्या अस्तित्वात असतानाही दीर्घ संदर्भ मॉडेल जुनी माहिती प्रभावीपणे “दूर होत” असतात.
स्पष्टपणे, मोठ्या संदर्भ विंडो हे उत्तर नाही. GAM कार्य करते कारण ते टोकन ठेवण्याऐवजी अचूकपणे टोकन रिडीम करते.
GAM आणि संदर्भ अभियांत्रिकी हे स्पर्धात्मक दृष्टिकोन आहेत
एआय एजंट अयशस्वी होण्याचे खरे कारण, मॉडेल मर्यादा नसून खराब रचना केलेले संदर्भ. कोणतीही गोष्ट कायमस्वरूपी गमावली जाणार नाही याची खात्री करून GAM या समस्येचे निराकरण करते आणि अंतिम टप्प्यातही योग्य माहिती नेहमी पुनर्प्राप्त केली जाऊ शकते. या तंत्रज्ञानाचा उदय AI मधील संदर्भ अभियांत्रिकीकडे व्यापक वर्तमान बदल, किंवा AI मॉडेल पाहत असलेल्या प्रत्येक गोष्टीला आकार देण्याचा सराव – त्याच्या सूचना, इतिहास, पुनर्प्राप्त केलेले दस्तऐवज, साधने, प्राधान्ये आणि आउटपुट स्वरूप यांच्याशी जुळते.
संदर्भ अभियांत्रिकीने तात्काळ अभियांत्रिकीचे महत्त्व पटकन मागे टाकले आहे, जरी इतर संशोधन गट वेगवेगळ्या कोनातून मेमरी समस्येकडे जात आहेत. मानववंशशास्त्र संदर्भातील समन्वित आणि विकसित होत असलेल्या अवस्थांचा शोध घेते. प्रतिमा म्हणून मेमरी स्टोरेजसह DeepSeek प्रयोग. चिनी संशोधकांच्या दुसऱ्या गटाने आजीवन अनुकूली स्मरणशक्तीवर आधारित “सिमेंटिक ऑपरेटिंग सिस्टम” प्रस्तावित केले आहेत.
तथापि, GAM चे तत्वज्ञान वेगळे आहे: नुकसान टाळा आणि हुशारीने पुनर्प्राप्त करा. नंतर काय महत्त्वाचे असेल याचा अंदाज घेण्याऐवजी, ते सर्वकाही ठेवते आणि रनटाइमवर संबंधित भाग शोधण्यासाठी सानुकूल शोध इंजिन वापरते. बहु-दिवसीय प्रकल्प, चालू कार्यप्रवाह किंवा दीर्घकालीन संबंध हाताळणाऱ्या एजंटसाठी, ही विश्वासार्हता आवश्यक असू शकते.
दीर्घकालीन GAM का महत्त्वाचे आहे
ज्याप्रमाणे अधिक संगणन जोडल्याने आपोआप चांगले अल्गोरिदम तयार होत नाही, त्याचप्रमाणे केवळ संदर्भ विंडोचा विस्तार केल्याने AI च्या दीर्घकालीन मेमरी समस्या सुटणार नाहीत. वास्तविक प्रगतीसाठी कायद्याचा पुनर्विचार करणे आवश्यक आहे आणि ग्रेटर आचेह चळवळीने हा दृष्टिकोन स्वीकारला आहे. नेहमी-मोठे मॉडेल्स, प्रचंड संदर्भीय विंडो, किंवा सतत दावे सुधारण्यावर अवलंबून राहण्याऐवजी, ते स्मरणशक्तीला एक अभियांत्रिकी आव्हान मानते, ब्रूट फोर्सऐवजी स्ट्रक्चरचा फायदा घेते.
एआय एजंट्स बुद्धिमान प्रात्यक्षिकांपासून मिशन-गंभीर साधनांकडे वळतात, दीर्घ इतिहास लक्षात ठेवण्याची त्यांची क्षमता विश्वासार्ह बुद्धिमान प्रणाली विकसित करण्यासाठी महत्त्वपूर्ण बनते. संस्थांना एआय एजंट्सची आवश्यकता असते जे विकसित होत असलेल्या कार्यांचा मागोवा ठेवू शकतात, सातत्य राखू शकतात आणि मागील परस्परसंवाद अचूक आणि अचूकपणे लक्षात ठेवू शकतात. GAM त्या भविष्यासाठी एक व्यावहारिक मार्ग ऑफर करते, AI मधील पुढील प्रमुख सीमा काय असू शकते हे सुचवते: मोठे मॉडेल नाही, परंतु स्मार्ट मेमरी सिस्टम आणि संदर्भ आर्किटेक्चर ज्यामुळे ते शक्य होते.
















