बहुतेक एंटरप्राइझ RAG पाइपलाइन एकाच शोध वर्तनासाठी ऑप्टिमाइझ केल्या जातात. ते शांतपणे इतरांना अपयशी ठरतात. क्रॉस-दस्तऐवज अहवाल एकत्रित करण्यासाठी प्रशिक्षित मॉडेल निर्बंध-आधारित संस्था खराबपणे शोधते. साध्या शोध कार्यांसाठी उत्तम ट्यून केलेले मॉडेल जेव्हा बहु-चरण तर्क अंतर्गत अभिप्रायावर आधारित असते तेव्हा खंडित होते. जेव्हा काहीतरी खंडित होते तेव्हा बहुतेक संघ शोधतात.

Databricks KARL सह या समस्येचे निराकरण करण्यासाठी निघाले, जे नॉलेज एजंट्स द्वारे रीइन्फोर्समेंट लर्निंगचे संक्षिप्त रूप आहे. कंपनीने नवीन मजबुतीकरण लर्निंग अल्गोरिदम वापरून एकाच वेळी सहा वेगळ्या कॉर्पोरेट शोध वर्तनांमध्ये एजंटला प्रशिक्षण दिले. परिणाम, कंपनीचा दावा आहे, एक मॉडेल आहे जे क्लॉड ओपस 4.6 ला उद्देश-निर्मित बेंचमार्कवर 33% कमी प्रति क्वेरी आणि 47% कमी प्रतिसाद वेळेसह जुळते, जे मानवी लेबलिंगची गरज न ठेवता स्वतः एजंटद्वारे तयार केलेल्या सिंथेटिक डेटावर पूर्णपणे प्रशिक्षित आहे. ही तुलना KARLBench वर आधारित आहे, जी Databricks ने संस्थेच्या शोध वर्तनाचे मूल्यांकन करण्यासाठी तयार केली आहे.

"गेल्या वर्षभरात आम्ही समुदायामध्ये पाहिलेले बरेच मोठे मजबुतीकरण शिकण्याचे विजय हे पडताळणी करण्यायोग्य कार्यांवर आहेत जेथे योग्य उत्तर आणि चुकीचे उत्तर आहे," Databricks चे मुख्य AI शास्त्रज्ञ जोनाथन फ्रँकेल यांनी VentureBeat ला एका खास मुलाखतीत सांगितले. "आम्ही KARL साठी ज्या कार्यांवर काम करतो, जे बहुतेक संस्थांसाठी सामान्य आहेत, त्याच प्रकारे काटेकोरपणे सत्यापित केले जाऊ शकत नाहीत."

या कार्यांमध्ये उत्पादन व्यवस्थापक मीटिंग नोट्सद्वारे बुद्धिमत्ता गोळा करणे, खंडित ग्राहक रेकॉर्डमधून स्पर्धात्मक डील परिणामांची पुनर्रचना करणे, कोणत्याही एका दस्तऐवजात संपूर्ण उत्तर नसलेल्या खाते इतिहासाच्या प्रश्नांची उत्तरे देणे आणि असंरचित अंतर्गत डेटामधून युद्ध कार्ड तयार करणे समाविष्ट आहे. यापैकी कोणाचेही एकच अचूक उत्तर नाही जे सिस्टम आपोआप सत्यापित करू शकते.

"कठोर योग्य आणि चुकीचे उत्तर नसलेल्या जगात मजबुतीकरण शिक्षण करणे आणि प्रक्रियेचे मार्गदर्शन कसे करावे हे जाणून घेणे आणि बक्षिसे हॅक होणार नाहीत याची खात्री करणे – हे खरोखरच क्षुल्लक आहे;" फ्रँकेल म्हणाले. "संज्ञानात्मक कार्यांमध्ये कंपन्या दररोज काय करतात याबद्दल फारच कमी पडताळता येईल."

RAG एंटरप्राइझमध्ये सामान्यीकरण सापळा

मानक RAG अस्पष्ट, बहु-चरण क्वेरींमध्ये विभागले गेले आहे जे खंडित केलेल्या अंतर्गत डेटावर अवलंबून असते जे कधीही क्वेरी करण्यासाठी डिझाइन केलेले नव्हते.

KARL चे मूल्यमापन करण्यासाठी, Databricks ने KARLBench बेंचमार्क तयार केला आहे ज्यामुळे सहा एंटरप्राइझ शोध वर्तनांमध्ये कामगिरी मोजली जाईल: प्रतिबंध-आधारित घटक शोध, अहवालांचे क्रॉस-दस्तऐवज संश्लेषण, सारणी संख्यात्मक तर्क वापरून लांब दस्तऐवजांचे ट्रॅव्हर्सल, सर्वसमावेशक घटक पुनर्प्राप्ती, तांत्रिक कारणास्तव कंपनीचे अंतर्गत तथ्य नसून दस्तऐवजीकरण. अंतिम कार्य PMBench आहे, जे Databricks च्या उत्पादन व्यवस्थापक मीटिंग नोट्समधून तयार केले गेले होते — आणि ते विखंडित, संदिग्ध आणि अशा प्रकारे अव्यवस्थित आहे की पॅरामेट्रिक मॉडेल खराबपणे हाताळतात.

कोणत्याही एका कार्याचे प्रशिक्षण आणि इतर कार्यांवर चाचणी घेतल्यास खराब परिणाम मिळतात. KARL पेपर दाखवते की बहु-कार्य-आधारित शिक्षण अशा प्रकारे सामान्यीकरण करते जे एकल-कार्य प्रशिक्षण करत नाही. टीमने KARL ला सहापैकी दोन टास्कसाठी सिंथेटिक डेटाचे प्रशिक्षण दिले आणि असे आढळले की त्यांनी याआधी कधीही न पाहिलेल्या चारही टास्कमध्ये चांगली कामगिरी केली.

वित्तीय सेवा क्लायंटसाठी स्पर्धात्मक लढाई कार्ड तयार करण्यासाठी, उदाहरणार्थ, एजंटला संबंधित खाती ओळखणे, नवीनता फिल्टर करणे, मागील स्पर्धात्मक सौद्यांची पुनर्रचना करणे आणि निष्कर्ष काढणे आवश्यक आहे – यापैकी काहीही डेटामध्ये कोठेही वर्गीकृत केलेले नाही.

फ्रँकल जे करतो त्याला KARL म्हणतो "जमिनीवर तर्क": पुनर्प्राप्त केलेल्या तथ्यांमध्ये प्रत्येक पायरीवर अँकरिंग करताना तर्कशक्तीची एक आव्हानात्मक साखळी चालवा. "तुम्ही याचा विचार RAG म्हणून करू शकता," तो म्हणाला, "पण RAG प्लस प्लस प्लस प्लस प्लस प्लस प्लस प्लस प्रमाणे, हे व्हेक्टर डेटाबेसला 200 कॉल पर्यंत आहे."

आरएल इंजिन: ओएपीएल महत्त्वाचे का आहे

KARL प्रशिक्षण OAPL द्वारे समर्थित आहे, ज्याचा अर्थ आहे इष्टतम लाभ आधारित पॉलिसी ऑप्टिमायझेशन विथ लेज्ड इन्फरन्स पॉलिसी. हा एक नवीन दृष्टीकोन आहे, जो कॉर्नेल, डेटाब्रिक्स आणि हार्वर्डच्या संशोधकांनी संयुक्तपणे विकसित केला आहे आणि जर्नलमध्ये प्रकाशित केला आहे. वेगळे पत्रक कार्लच्या आठवडा आधी.

मानक LLM मजबुतीकरण शिक्षण GRPO (ग्रुप रिलेटिव्ह पॉलिसी ऑप्टिमायझेशन) सारख्या पॉलिसी अल्गोरिदमचा वापर करते, जे असे गृहीत धरते की प्रशिक्षण डेटा तयार करणारे मॉडेल आणि अद्यतनित केले जाणारे मॉडेल समक्रमित आहेत. वितरित प्रशिक्षणात, ते असे कधीच करत नाहीत. पूर्वीच्या पध्दतींनी स्वारस्य नमुने करून, भिन्नता आणि अस्थिरता सादर करून यासाठी दुरुस्त केले आहे. ओएपीएल वितरीत प्रशिक्षणाच्या धोरणबाह्य स्वरूपाचा अवलंब करते, रीग्रेशन उद्दिष्टाचा वापर करून, जे धोरण 400 ग्रेडियंट पायऱ्यांपेक्षा जास्त मागे राहिल्याने स्थिर राहते, पूर्वीच्या दृष्टिकोनांपेक्षा 100 पट अधिक धोरणबाह्य. कोड निर्मिती प्रयोगांमध्ये, ते GRPO द्वारे प्रशिक्षित केलेल्या मॉडेलशी जवळपास तीन पट कमी प्रशिक्षण नमुने वापरून जुळले.

OAPL नमुन्याची कार्यक्षमता ही प्रशिक्षण बजेटला परवडणारी बनवते. प्रत्येक अपडेटसाठी नवीन पॉलिसी डेटाची विनंती करण्याऐवजी पूर्वी गोळा केलेल्या रोलआउट्सचा पुनर्वापर करणे म्हणजे पूर्ण KARL प्रशिक्षण काही हजार GPU तासांच्या आतच राहिले. संशोधन प्रकल्प आणि एंटरप्राइझ कार्यसंघ वास्तविक जीवनात प्रयत्न करू शकेल अशा गोष्टींमधला हा फरक आहे.

एजंट, मेमरी आणि संदर्भ स्टॅक

अलिकडच्या काही महिन्यांत इंडस्ट्रीमध्ये संदर्भित मेमरी, कधीकधी प्रॉक्सी मेमरी म्हणून संदर्भित असलेल्या RAG ला कसे पुनर्स्थित करावे याबद्दल बरीच चर्चा झाली आहे.

फ्रँकलसाठी, हा एकतर/किंवा वादविवादाचा विषय नाही, तर तो बहुस्तरीय संच म्हणून पाहतो. बेसमध्ये लाखो नोंदी असलेला वेक्टर डेटाबेस आहे, जो संदर्भासाठी खूप मोठा आहे. LLM संदर्भ विंडो शीर्षस्थानी स्थित आहे. दरम्यान, एजंटने आधीच किती शिकले आहे आणि पुढे जाऊ शकते हे निर्धारित करणारे कॉम्प्रेशन आणि कॅशिंग स्तर आहेत.

KARL साठी, हे अमूर्त नाही. काही KARLBench 200 कार्यांना वेक्टर डेटाबेसच्या अनुक्रमिक प्रश्नांची आवश्यकता असते, ज्यात एजंट शोध परिष्कृत करतात, तपशील तपासतात आणि उत्तर देण्याआधी दस्तऐवज क्रॉस-रेफरन्सिंग करतात, संदर्भ विंडो अनेक वेळा थकवतात. वेगळ्या सारांश मॉडेलचे प्रशिक्षण देण्याऐवजी, टीमने KARL ला RL द्वारे एंड-टू-एंड कॉम्प्रेशन शिकू दिले: जेव्हा संदर्भ खूप मोठा होतो, तेव्हा एजंट ते संकुचित करतो आणि पुढे चालू ठेवतो, टास्कच्या शेवटी एकच प्रशिक्षण संकेत असतो. हे प्राप्त केलेले कॉम्प्रेशन काढून टाकल्याने एका बेंचमार्कची अचूकता 57% वरून 39% पर्यंत कमी झाली.

"आम्ही मॉडेलला त्याचा संदर्भ कसा संकुचित करायचा ते शिकू देतो," फ्रँकेल म्हणाले. "हे खूप चांगले काम केले."

जिथे KARL कमी पडते

फ्रँकल अपयशी पद्धतींबद्दल स्पष्ट होते. KARL ला उच्च संदिग्धता असलेल्या प्रश्नांची अधिक अडचण आहे, जिथे अनेक योग्य उत्तरे आहेत आणि प्रश्न खरोखर खुला आहे की उत्तर देणे कठीण आहे हे मॉडेल निर्धारित करू शकत नाही. हा निर्णय कॉल एक न सुटलेला मुद्दा राहिला आहे.

फ्रँकलने काही चौकशींचा अकाली परित्याग म्हणून वर्णन केलेले मॉडेल देखील प्रदर्शित करते, म्हणजे अंतिम उत्तर देण्यापूर्वी विराम देणे. त्याने हे अपयश म्हणून तयार करण्यापासून मागे हटले, हे निदर्शनास आणून दिले की सर्वात महागड्या क्वेरी सहसा अशा असतात जेथे मॉडेल तरीही चुकीचे ठरते. थांबणे हा अनेकदा योग्य निर्णय असतो.

KARL ला देखील वेक्टर शोधावर विशेष प्रशिक्षित आणि मूल्यांकन केले गेले आहे. SQL क्वेरी, फाइल शोध किंवा पायथन-आधारित गणना आवश्यक असलेली कार्ये अद्याप व्याप्तीमध्ये नाहीत. या क्षमता रोड मॅपवर पुढील आहेत, परंतु त्या सध्याच्या प्रणालीमध्ये नाहीत, फ्रँकेल म्हणाले.

एंटरप्राइझ डेटा संघांसाठी याचा अर्थ काय आहे

KARL त्यांच्या पुनर्प्राप्ती पायाभूत सुविधांचे मूल्यांकन करणाऱ्या संघांसाठी पुनर्विचार करण्यासारखे तीन निर्णय ऑफर करते.

प्रथम पाइपलाइन अभियांत्रिकी आहे. जर तुमचा RAG एजंट एका शोध वर्तनासाठी ऑप्टिमाइझ केला असेल, तर KARL परिणाम सूचित करतात की ते इतर शोध वर्तनांवर अपयशी ठरते. विविध पुनर्प्राप्ती वर्तनांमधील एकाधिक कार्य प्रशिक्षण सामान्यीकृत मॉडेल तयार करते. अरुंद पाइपलाइन असे करत नाहीत.

दुसरे म्हणजे येथे आरएल महत्त्वाचे का आहे – आणि ते केवळ प्रशिक्षण तपशील नाही. डेटाब्रिक्सने पर्यायी चाचणी केली: पर्यवेक्षित फाइन-ट्यूनिंगद्वारे विशेष मॉडेलमधून काढणे. या दृष्टिकोनाने वितरण कार्यप्रदर्शन सुधारले, परंतु मॉडेलने यापूर्वी न पाहिलेल्या कार्यांवर लहान नफा मिळवला. RL ने सामान्य शोध वर्तन विकसित केले जे हस्तांतरित केले गेले. विषम डेटा आणि अप्रत्याशित क्वेरी प्रकारांचा सामना करणाऱ्या एंटरप्राइझ संघांसाठी, हा फरक संपूर्ण गेम आहे. तिसरा म्हणजे RL कार्यक्षमतेचा प्रत्यक्ष व्यवहारात अर्थ होतो. एक मॉडेल जे अधिक चांगले शोधण्यासाठी प्रशिक्षित आहे, कमी चरणांमध्ये कार्ये पूर्ण करते, उत्तर देऊ शकत नसलेल्या प्रश्नांवर आधी थांबते, अयशस्वी प्रश्नांची पुनरावृत्ती करण्याऐवजी त्याच्या शोधात विविधता आणते आणि जागा संपण्याऐवजी त्याचा संदर्भ संकुचित करते. सर्व काही सामान्य-उद्देश फ्रंटियर API द्वारे रूट करण्याऐवजी उद्देशाने तयार केलेल्या शोध एजंटना प्रशिक्षण देण्याचा युक्तिवाद प्रामुख्याने खर्चाविषयी नाही. हे एक मॉडेल तयार करण्याबद्दल आहे ज्याला काम कसे करावे हे माहित आहे.

Source link