कोणत्याही डेटा पुनर्प्राप्ती प्रक्रियेतील मुख्य घटक म्हणजे पुनर्प्राप्ती म्हणून ओळखल्या जाणाऱ्या घटकाचा वापर. त्याचे कार्य विशिष्ट क्वेरीसाठी संबंधित सामग्री पुनर्प्राप्त करणे आहे.
AI च्या युगात, पुनर्प्राप्ती RAG पाइपलाइनचा भाग म्हणून वापरल्या गेल्या आहेत. दृष्टीकोन सरळ आहे: संबंधित कागदपत्रे पुनर्प्राप्त करा, त्यांना LLM मध्ये फीड करा आणि त्या संदर्भावर आधारित मॉडेलला उत्तर तयार करू द्या.
पुनर्प्राप्ती ही समस्या सोडवल्यासारखे वाटू शकते, परंतु प्रत्यक्षात ते आधुनिक एजंट एआय वर्कफ्लोसाठी सोडवले जात नाही.
मध्ये संशोधन Databricks या आठवड्यात लाइव्ह झाला, Instructed Retriever सादर करत आहे, एक नवीन आर्किटेक्चर ज्याचा कंपनीचा दावा आहे की जटिल, सूचना-जड प्रश्न-उत्तर कार्यांवर पारंपारिक RAG पेक्षा 70% पर्यंत सुधारणा प्रदान करते. सिस्टीम मेटाडेटा कसा समजते आणि वापरते यात फरक आहे.
"मोठ्या भाषा मॉडेल्सच्या युगापूर्वी डिझाइन केलेल्या अनेक पुनर्प्राप्ती प्रणाली प्रत्यक्षात एजंट नव्हे तर मानव वापरण्यासाठी डिझाइन केल्या होत्या." डेटाब्रिक्सचे संशोधन संचालक मायकेल बेंडरस्की यांनी व्हेंचरबीटला सांगितले. "आम्हाला जे आढळले आहे ते असे आहे की अनेक प्रकरणांमध्ये एजंटकडून येणाऱ्या त्रुटी एजंटच्या डेटाशी तर्क करण्यास असमर्थतेमुळे नसतात. याचे कारण असे की प्रॉक्सी प्रथम स्थानावर योग्य डेटा पुनर्प्राप्त करण्यात अक्षम आहे."
पारंपारिक आरएजी रिट्रीव्हर्समधून काय गहाळ आहे
पारंपारिक आरएजी बेंडरस्की ज्याला म्हणतात त्याशी कसे व्यवहार करते यावरून मूलभूत समस्या उद्भवते "सिस्टम-स्तरीय वैशिष्ट्ये." यामध्ये संपूर्ण संदर्भ वापरकर्ता सूचना, मेटाडेटा स्कीमा आणि यशस्वी पुनर्प्राप्ती प्रक्रिया कशी असावी हे परिभाषित करणारी उदाहरणे समाविष्ट आहेत.
ठराविक RAG पाइपलाइनमध्ये, वापरकर्त्याची क्वेरी एम्बेडिंगमध्ये रूपांतरित केली जाते, तत्सम दस्तऐवज वेक्टर डेटाबेसमधून पुनर्प्राप्त केले जातात आणि हे परिणाम पिढीसाठी भाषेच्या मॉडेलमध्ये दिले जातात. प्रणालीमध्ये मूलभूत फिल्टरिंग समाविष्ट असू शकते, परंतु ते मूलत: प्रत्येक क्वेरीला वेगळ्या मजकूर-मॅचिंग व्यायाम म्हणून हाताळते.
हा दृष्टिकोन वास्तविक एंटरप्राइझ डेटासह खंडित होतो. एंटरप्राइझ दस्तऐवजांमध्ये टाइमस्टॅम्प, लेखक माहिती, उत्पादन रेटिंग, दस्तऐवज प्रकार आणि डोमेन-विशिष्ट विशेषता यासारख्या समृद्ध मेटाडेटा समाविष्ट असतात. जेव्हा वापरकर्ता एखादा प्रश्न विचारतो ज्यासाठी या मेटाडेटा फील्डबद्दल विचार करणे आवश्यक आहे, तेव्हा पारंपारिक RAG संघर्ष करते.
या उदाहरणाचा विचार करा: "मला गेल्या सहा महिन्यांतील पंचतारांकित उत्पादनांची पुनरावलोकने दाखवा, परंतु ब्रँड X मधील काहीही वगळा." पारंपारिक RAG योग्य डेटाबेस फिल्टर्स आणि संरचित क्वेरींमध्ये नैसर्गिक भाषेच्या मर्यादांचे विश्वसनीयरित्या भाषांतर करू शकत नाही.
"तुम्ही फक्त पारंपारिक RAG प्रणाली वापरत असल्यास, मेटाडेटामध्ये समाविष्ट केलेल्या डेटाबद्दल या सर्व भिन्न सिग्नलचा लाभ घेण्याचा कोणताही मार्ग नाही." बेंडर्स्की म्हणाले. "पुनर्प्राप्तीचे योग्य काम करण्यासाठी ते स्वतः एजंटला दिले जाणे आवश्यक आहे."
संस्था साध्या दस्तऐवज शोधण्यापासून प्रॉक्सी वर्कफ्लोकडे जात असल्याने समस्या अधिक तीव्र होते. शोध प्रणालीचा वापर करणारा माणूस क्वेरी सुधारू शकतो आणि सुरुवातीचे परिणाम चुकीचे झाल्यास व्यक्तिचलितपणे फिल्टर लागू करू शकतो. स्वायत्तपणे कार्यरत AI एजंटला जटिल, बहुआयामी सूचना समजून घेण्यासाठी आणि अंमलात आणण्यासाठी समान पुनर्प्राप्ती प्रणालीची आवश्यकता असते.
राउटर पुनर्प्राप्ती कसे कार्य करते
डेटाब्रिक्स दृष्टीकोन मूलत: पुनर्प्राप्ती मार्गाची पुनर्रचना करतो. प्रणाली प्रत्येक पुनर्प्राप्ती आणि पिढीच्या टप्प्यात संपूर्ण सिस्टम तपशील प्रकाशित करते. या तपशीलामध्ये वापरकर्ता सूचना, लेबल केलेली उदाहरणे आणि अनुक्रमणिका चार्ट समाविष्ट आहेत.
आर्किटेक्चर तीन मुख्य क्षमता जोडते:
प्रश्न विश्लेषण: प्रणाली अनेक कीवर्ड शोध आणि फिल्टरिंग सूचना असलेल्या शोध योजनेमध्ये जटिल, बहु-भाग विनंत्या मोडून टाकते. साठी विनंती "हलके मॉडेल वगळता नवीन FooBrand उत्पादने" हे योग्य मेटाडेटा फिल्टर वापरून संरचित क्वेरींमध्ये विभागलेले आहे. पारंपारिक प्रणाली एकल शब्दार्थ शोध करण्याचा प्रयत्न करतील.
मेटाडेटा तर्क: नैसर्गिक भाषेतील सूचना डेटाबेस फिल्टरमध्ये अनुवादित केल्या जातात. "गेल्या वर्षीपासून" इतिहासाचा उमेदवार बनतो, "पंचतारांकित पुनरावलोकने" हे वर्गीकरण फिल्टर बनते. सिस्टमला उपलब्ध मेटाडेटा आणि तो वापरकर्त्याच्या हेतूशी कसा जुळतो हे समजते.
प्रासंगिक महत्त्व: कीवर्डची कमकुवत जुळणी असतानाही, इराद्याशी जुळणारे दस्तऐवज बूस्ट करण्यासाठी पुनर्रँकिंग टप्पा वापरकर्ता सूचनांचा संपूर्ण संदर्भ वापरतो. प्रणाली केवळ मजकुराच्या समानतेच्या ऐवजी विनिर्देशांवर आधारित नवीनता किंवा विशिष्ट प्रकारच्या दस्तऐवजांना प्राधान्य देऊ शकते.
"प्रश्नांची रचना कशी केली जाते यात जादू आहे," बेंडर्स्की म्हणाले. "आम्ही हे साधन ग्राहकाप्रमाणे वापरण्याचा प्रयत्न करत आहोत, माणसाप्रमाणे नाही. यात एपीआयची सर्व गुंतागुंत आहे आणि ती शक्य तितक्या चांगल्या क्षमतेसाठी वापरते."
संदर्भित मेमरी विरुद्ध पुनर्प्राप्ती रचना
2025 च्या उत्तरार्धात, उद्योगात RAG पासून दूर प्रॉक्सी AI मेमरीकडे बदल झाला आहे, ज्याला कधीकधी संदर्भ मेमरी म्हणून संबोधले जाते. यासह दृष्टीकोन खूप उशीर झाला आणि A-MEM हे आरएजी-मुक्त भविष्याचे वचन देत उदयास आले.
बेंडर्स्कीचा असा युक्तिवाद आहे की संदर्भित मेमरी आणि अत्याधुनिक पुनर्प्राप्ती भिन्न हेतू पूर्ण करतात. एंटरप्राइझ एआय सिस्टमसाठी दोन्ही आवश्यक आहेत.
"तुमच्या संस्थेतील प्रत्येक गोष्ट तुम्ही तुमच्या संदर्भातील मेमरीमध्ये ठेवू शकता असा कोणताही मार्ग नाही;" बेंडर्स्की यांनी नमूद केले. "तुम्हाला दोन्हीची गरज आहे. तुम्हाला तपशील प्रदान करण्यासाठी आणि स्कीमा प्रदान करण्यासाठी संदर्भित मेमरीची आवश्यकता आहे, परंतु तुम्हाला डेटामध्ये प्रवेश करणे आवश्यक आहे, जे एकाधिक सारण्या आणि दस्तऐवजांमध्ये वितरित केले जाऊ शकते."
एका सत्रात टास्क स्पेसिफिकेशन्स, वापरकर्ता प्राधान्ये आणि मेटाडेटा स्कीमा जतन करण्यात संदर्भित मेमरी उत्कृष्ट आहे. ते राखते "खेळाचे नियम" सहज उपलब्ध. परंतु वास्तविक एंटरप्राइझ डेटा सेट या संदर्भ विंडोच्या बाहेर अस्तित्वात आहे. बऱ्याच संस्थांमध्ये डेटा व्हॉल्यूम असतो जो आकारात अगदी उदार संदर्भ विंडोंपेक्षा जास्त असतो.
विस्तृत डेटा सेटमध्ये प्रवेश करण्यासाठी पुनर्प्राप्ती वापरताना निर्देशित पुनर्प्राप्ती सिस्टम-स्तरीय वैशिष्ट्यांसाठी संदर्भित मेमरीचा फायदा घेते. संदर्भातील तपशील हे स्पष्ट करतात की पुनर्प्राप्ती कशाप्रकारे क्वेरी तयार करतो आणि परिणामांचा अर्थ लावतो. पुनर्प्राप्ती प्रणाली नंतर कोट्यवधी संभाव्य उमेदवारांकडून विशिष्ट कागदपत्रे खेचते.
ही श्रम विभागणी व्यावहारिक उपयोजनासाठी महत्त्वाची आहे. संदर्भातील लाखो दस्तऐवज लोड करणे व्यवहार्य किंवा कार्यक्षम नाही. एखाद्या संस्थेमध्ये विषम प्रणाली हाताळताना एकटा मेटाडेटा महत्त्वपूर्ण असू शकतो. Instructed Retriever मेटाडेटा हे सर्व संदर्भामध्ये न बसवता त्वरित वापरण्यायोग्य बनवून ही समस्या सोडवते.
उपलब्धता आणि व्यावहारिक विचार
मार्गदर्शित पुनर्प्राप्तीचा भाग म्हणून आता उपलब्ध आहे डेटाब्रिक्स प्रॉक्सी विटा; हे नॉलेज असिस्टंट उत्पादनामध्ये एकत्रित केले आहे. नॉलेज असिस्टंटचा वापर करणाऱ्या संस्था त्यांच्या दस्तऐवजांमधील प्रश्नांची उत्तरे देण्यासाठी स्वयंचलितपणे सिस्टम तयार करण्यासाठी सानुकूल RAG पाइपलाइन तयार केल्याशिवाय Instructed Retriever आर्किटेक्चरचा फायदा घेतात.
प्रणाली मुक्त स्त्रोत म्हणून उपलब्ध नाही, जरी बेंडरस्कीने नोंदवले की डेटाब्रिक्स व्यापक उपलब्धतेचा विचार करत आहे. सध्या, कंपनीची रणनीती ही आहे की त्याच्या एंटरप्राइझ उत्पादनांची अंमलबजावणी मालकी कायम ठेवत संशोधन समुदायाला StaRK-Instruct सारखी मानके जारी करणे.
हे तंत्रज्ञान जटिल, उच्च संरचित डेटा असलेल्या संस्थांसाठी विशिष्ट वचन दर्शवते ज्यामध्ये समृद्ध मेटाडेटा समाविष्ट आहे. बेंडर्स्कीने वित्त, ई-कॉमर्स आणि आरोग्यसेवा यांमधील वापर प्रकरणे उद्धृत केली. मूलत:, दस्तऐवजांमध्ये कच्च्या मजकुराच्या पलीकडे अर्थपूर्ण गुणधर्म असलेल्या कोणत्याही फील्डचा फायदा होऊ शकतो.
"आम्ही काही प्रकरणांमध्ये जे पाहिले आहे ते अशा गोष्टी उघडणे आहे ज्याशिवाय क्लायंट जगू शकत नाही," बेंडर्स्की म्हणाले.
त्यांनी स्पष्ट केले की Instructed Retriever शिवाय, वापरकर्त्यांना योग्य रचना आणि सारण्यांमध्ये सामग्री ठेवण्यासाठी अधिक डेटा व्यवस्थापन कार्ये करावी लागतात जेणेकरून LLM योग्यरित्या योग्य माहिती पुनर्प्राप्त करू शकेल.
“येथे तुम्ही फक्त योग्य मेटाडेटासह एक अनुक्रमणिका तयार करू शकता, तुमच्या पुनर्प्राप्तीला त्याकडे निर्देशित करू शकता आणि ते बॉक्सच्या बाहेर कार्य करेल,” तो म्हणाला.
एंटरप्राइझ एआय धोरणासाठी याचा अर्थ काय आहे
आज RAG-आधारित सिस्टीम बनवणाऱ्या संस्थांसाठी, संशोधनाने एक गंभीर प्रश्न उभा केला आहे: तुमची लूपबॅक पाइपलाइन प्रत्यक्षात सूचनांचे पालन करण्यास आणि तुमच्या वापराच्या बाबतीत आवश्यक असलेला मेटाडेटा काढण्यास सक्षम आहे का?
Databricks द्वारे दर्शविलेली 70% सुधारणा वाढीव सुधारणेद्वारे साध्य केली जाऊ शकत नाही. पुनर्प्राप्ती आणि जनरेशन प्रक्रियेद्वारे सिस्टम तपशील कसे प्रवाहित होतात यामधील आर्किटेक्चरल फरक दर्शविते. तपशीलवार मेटाडेटासह त्यांचा डेटा काळजीपूर्वक संरचित करण्यात गुंतवणूक केलेल्या संस्थांना असे आढळू शकते की पारंपारिक RAG त्या संरचनेचे बरेच मूल्य टेबलवर ठेवते.
विविध डेटा स्रोतांमधील जटिल, बहुपक्षीय सूचनांचे विश्वसनीयपणे पालन करू शकणाऱ्या AI प्रणालीची अंमलबजावणी करू पाहणाऱ्या संस्थांसाठी, संशोधन असे सूचित करते की पुनर्प्राप्ती आर्किटेक्चर ही महत्त्वपूर्ण भिन्नता असू शकते.
जे अजूनही उत्पादनासाठी मूलभूत RAG वर अवलंबून असतात त्यांनी समृद्ध मेटाडेटा समाविष्ट असलेल्या प्रकरणांचा मूलभूतपणे मूल्यांकन केला पाहिजे की त्यांचा सध्याचा दृष्टीकोन त्यांच्या आवश्यकता पूर्ण करू शकतो का. Databricks द्वारे दर्शविलेले कार्यप्रदर्शन अंतर सूचित करते की अधिक अत्याधुनिक पुनर्प्राप्ती आर्किटेक्चर आता जटिल डेटा मालमत्ता असलेल्या संस्थांसाठी टेबल स्टेक आहे.
















