एंटरप्राइझ एआय ऍप्लिकेशन्स जे मोठ्या कागदपत्रे किंवा दीर्घकाळ चालणारी कार्ये हाताळतात त्यांना गंभीर मेमरी अडथळे येतात. संदर्भ जसजसा लांबत जातो, तसतसे KV कॅशे, जे क्षेत्र आहे जेथे मॉडेलची कार्यरत मेमरी साठवली जाते.

MIT मधील संशोधकांनी विकसित केलेले नवीन तंत्रज्ञान हे आव्हान जलद KV कॅशे कॉम्प्रेशन पद्धतीने हाताळते. अटेन्शन मॅचिंग नावाचे हे तंत्रज्ञान, गुणवत्तेत फारच कमी नुकसान करून संदर्भ ५०x पर्यंत संकुचित करते.

मेमरी कॉम्प्रेशनसाठी हे एकमेव तंत्र उपलब्ध नसले तरी, अटेंशन मॅचिंग हे कार्यान्वित करण्यासाठी झटपट आहे आणि माहिती जतन करण्याची मोठी क्षमता आहे.

केव्ही कॅशेमध्ये अडथळा

मोठ्या भाषेचे मॉडेल अनुक्रमे त्यांचे प्रतिसाद तयार करतात, एका वेळी एक चिन्ह. प्रत्येक अंदाजित शब्दासाठी संपूर्ण संभाषण इतिहासाची सुरवातीपासून पुनर्गणना टाळण्यासाठी, मॉडेलने प्रक्रिया केलेल्या प्रत्येक मागील टोकनचे गणितीय प्रतिनिधित्व संग्रहित केले जाते, ज्याला की-व्हॅल्यू जोड्या देखील म्हणतात. ही महत्त्वाची कार्यरत मेमरी KV कॅशे म्हणून ओळखली जाते.

KV कॅशे संभाषणाच्या लांबीसह स्केल करते कारण मॉडेलला दिलेल्या परस्परसंवादामध्ये मागील सर्व टोकनसाठी या की आणि मूल्ये ठेवण्यास भाग पाडले जाते. हे महाग हार्डवेअर संसाधने वापरते. "प्रॅक्टिसमध्ये, केव्ही कॅशे ही खूप लांबच्या संदर्भात मॉडेल सर्व्ह करण्यासाठी सर्वात मोठी अडचण आहे," पेपरचे सह-लेखक ॲडम झ्वेगर यांनी व्हेंचरबीटला सांगितले. "हे समवर्ती मर्यादित करते, लहान बॅचेस सक्ती करते आणि/किंवा अधिक शक्तिशाली डिस्चार्ज आवश्यक असते."

आधुनिक एंटरप्राइझ वापर प्रकरणांमध्ये, जसे की मोठ्या कायदेशीर करारांचे विश्लेषण करणे, बहु-सत्र ग्राहक संवाद राखणे किंवा स्टँडअलोन कोडिंग एजंट चालवणे, केव्ही कॅशे एकाच वापरकर्त्याच्या विनंतीसाठी अनेक गीगाबाइट मेमरीमध्ये फुगा घालू शकतो.

या मोठ्या अडथळ्याचे निराकरण करण्यासाठी, AI उद्योगाने अनेक धोरणे वापरून पाहिली आहेत, परंतु एंटरप्राइझ वातावरणात जेथे तीव्र दबाव आवश्यक आहे तेथे तैनात केल्यावर हे दृष्टिकोन कमी पडतात. तांत्रिक सुधारणांच्या श्रेणीमध्ये एकतर मॉडेलला कमी महत्त्वाची मानणारी टोकन काढून टाकून किंवा समान टोकन्स एकाच प्रतिनिधित्वामध्ये विलीन करून KV कॅशे सुधारणे समाविष्ट आहे. ही तंत्रे प्रकाश संकुचित करण्यासाठी कार्य करतात परंतु लेखकांच्या मते “उच्च कपात गुणोत्तरांवर त्वरीत खराब होतात.”

रिअल वर्ल्ड ॲप्लिकेशन्स अनेकदा सोप्या तंत्रांवर अवलंबून असतात, सर्वात सामान्य दृष्टीकोन म्हणजे मेमरी मर्यादा गाठल्यानंतर सर्वात जुना संदर्भ सोडणे. परंतु या दृष्टिकोनामुळे संदर्भ लांबत असताना मॉडेल कालबाह्य माहिती गमावते. दुसरा पर्याय म्हणजे संदर्भ सारांश, जिथे सिस्टम थांबते, जुन्या संदर्भाचा एक छोटा मजकूर सारांश लिहिते आणि मूळ मेमरी या सारांशाने बदलते. जरी हे एक उद्योग मानक असले तरी, सारांशीकरण महत्त्वपूर्ण टोल घेऊ शकते आणि अंतिम कार्यप्रदर्शनास गंभीरपणे हानी पोहोचवू शकते कारण ते संदर्भातील संबंधित माहिती काढून टाकू शकते.

अलीकडील संशोधनाने सिद्ध केले आहे की काडतुसे नावाच्या पद्धतीचा वापर करून ही मेमरी लक्षणीयरीत्या संकुचित करणे तांत्रिकदृष्ट्या शक्य आहे. तथापि, या दृष्टीकोनासाठी धीमे आणि संपूर्ण गणितीय ऑप्टिमायझेशनद्वारे सुप्त केव्ही कॅशे मॉडेलचे प्रशिक्षण आवश्यक आहे. या ग्रेडियंट-आधारित प्रशिक्षणाला महागड्या GPU वर फक्त एकच संदर्भ संकुचित करण्यासाठी अनेक तास लागू शकतात, ज्यामुळे ते रीअल-टाइम एंटरप्राइझ ऍप्लिकेशन्ससाठी पूर्णपणे लागू होऊ शकत नाही.

खर्चाशिवाय व्याज जुळणी कशी संकुचित करावी

अटेंशन मॅचिंग ग्रेडियंट-आधारित ऑप्टिमायझेशनपेक्षा वेगवान परिमाणाचा क्रम असताना उच्च-स्तरीय कॉम्प्रेशन गुणोत्तर आणि गुणवत्ता प्राप्त करते. हे हुशार गणिती युक्त्यांसह संथ प्रशिक्षण प्रक्रियेला बायपास करते.

संशोधकांच्या लक्षात आले की एआय त्याच्या मेमरीशी कसे संवाद साधते याची अचूक नक्कल करण्यासाठी, त्यांना मूळ की दाबण्याचे दोन गणितीय गुणधर्म आणि लहान जागेत व्हेक्टर व्हॅल्यू जतन करणे आवश्यक आहे. पहिले “लक्ष आउटपुट” आहे, जी AI जेव्हा त्याच्या मेमरीवर प्रश्न करते तेव्हा ती काढते. दुसरा “लक्ष मास” आहे, जे मॉडेलच्या कार्यरत मेमरीमधील इतर सर्व गोष्टींच्या तुलनेत टोकनचे गणितीय वजन म्हणून काम करते. जर संकुचित मेमरी या दोन गुणधर्मांशी जुळत असेल तर, नवीन, अप्रत्याशित वापरकर्ता प्रॉम्प्ट्स नंतर जोडल्या गेल्या तरीही ती मूळ मोठ्या मेमरीप्रमाणेच वागेल.

"अटेंशन मॅचिंग, काही बाबतीत, अव्यक्त संदर्भ कॉम्प्रेशन करण्यासाठी “योग्य” लक्ष्य आहे कारण ते कॉम्प्रेशन नंतर प्रत्येक लक्ष शिरोबिंदूचे वर्तन राखण्यासाठी थेट लक्ष्य करते." झ्वेगर म्हणाले. टोकन टाकणे आणि संबंधित निष्कर्ष कार्य करू शकतात, परंतु लक्षवेधक वर्तणूक स्पष्टपणे जुळल्याने चांगले परिणाम मिळतात.

मेमरी संकुचित करण्यापूर्वी, सिस्टम “संदर्भ क्वेरी” चा एक छोटा संच तयार करते जे विशिष्ट संदर्भ विचारात घेताना मॉडेल करत असलेल्या अंतर्गत शोधांच्या प्रकारांसाठी प्रॉक्सी म्हणून काम करते. जर संकुचित मेमरी या संदर्भ प्रश्नांची अचूक उत्तरे देऊ शकत असेल, तर ती नंतर वापरकर्त्याच्या वास्तविक प्रश्नांची उत्तरे देण्यात यशस्वी होण्याची दाट शक्यता आहे. लेखक या संदर्भ क्वेरी व्युत्पन्न करण्याचे विविध मार्ग सुचवतात, ज्यात दस्तऐवजात लपविलेले प्रॉम्प्ट जोडणे समाविष्ट आहे जे मॉडेलला मागील संदर्भाची पुनरावृत्ती करण्यास सांगते, ज्याला “रिकर्सिव्ह प्रीफिलिंग” तंत्र म्हणून ओळखले जाते. ते “स्व-अभ्यास” दृष्टीकोन देखील सुचवतात जेथे मॉडेलला दस्तऐवजातील काही द्रुत रचनात्मक कार्ये करण्यास सांगितले जाते, जसे की सर्व मुख्य तथ्ये संकलित करणे किंवा JSON स्वरूपात तारखा आणि संख्या आयोजित करणे.

या प्रश्नांना हाताशी धरून, सिस्टम संकुचित KV कॅशेमध्ये ठेवण्यासाठी की संच निवडते जसे की सर्वोच्च लक्ष देण्याच्या मुल्याच्या संकेतांवर आधारित. ते नंतर स्केलर बायस टर्मशी जुळणाऱ्या मूल्यांची गणना करण्यासाठी की आणि संदर्भ क्वेरी वापरते. हा पूर्वाग्रह सुनिश्चित करतो की संबंधित माहिती जतन केली गेली आहे, प्रत्येक राखून ठेवलेल्या कीला अनेक काढलेल्या कीच्या ब्लॉकचे प्रतिनिधित्व करण्यास अनुमती देते.

हे सूत्र संगणकीयदृष्ट्या हेवी ग्रेडियंट-आधारित ऑप्टिमायझेशन टाळून, सामान्य किमान चौरस आणि नॉन-नकारात्मक किमान चौरस यासारख्या साध्या बीजगणित तंत्रांचा वापर करून मूल्ये बसवण्याची परवानगी देते. लक्षणीय ऑप्टिमायझेशन आवश्यक असलेल्या कॉम्प्रेशन पद्धतींच्या तुलनेत हे अटेंशन मॅचिंग अत्यंत जलद करते. संशोधक सेगमेंटल कॉम्प्रेशन देखील लागू करतात, इनपुटच्या समीप भागांवर स्वतंत्रपणे प्रक्रिया करतात आणि दीर्घ संदर्भांमध्ये कार्यप्रदर्शन सुधारण्यासाठी त्यांना एकत्र करतात.

कामात आवड जुळेल

वास्तविक जगात ही पद्धत कशी कार्य करते हे समजून घेण्यासाठी, संशोधकांनी दोन वेगळ्या प्रकारच्या एंटरप्राइझ डेटासेटवर लोकप्रिय मुक्त स्रोत मॉडेल्स जसे की Llama 3.1 आणि Qwen-3 वापरून ताण चाचण्यांची मालिका आयोजित केली. पहिली गुणवत्ता होती, वाचन आकलनाचे मानक माप जे 5,000 ते 8,000 शब्दांचे दस्तऐवज वापरते. दुसरे आव्हान, जे संस्थांसाठी एक खरे आव्हान आहे, ते लाँगहेल्थ आहे, जे अनेक रूग्णांच्या जटिल वैद्यकीय नोंदी असलेल्या 60,000 कोडचा एक अतिशय घन डेटासेट आहे.

मुख्य परिणाम असा होता की अटेन्शन मॅचिंग अचूकता कमी न करता मॉडेलच्या केव्ही कॅशेला 50 पट संकुचित करण्यात सक्षम होते, तर दस्तऐवज प्रक्रियेत फक्त काही सेकंद लागले. पूर्वी, समान दर्जाची गुणवत्ता प्राप्त करण्यासाठी, काडतुसेना प्रत्येक संदर्भानुसार GPU-गहन गणनेचे तास आवश्यक होते.

दाट वैद्यकीय नोंदी हाताळताना, उद्योग मानक उपाय पूर्णपणे खंडित होतात. संशोधकांनी नमूद केले की जेव्हा त्यांनी या रूग्णांच्या नोंदींवर मानक मजकूर सारांश वापरण्याचा प्रयत्न केला तेव्हा मॉडेलची अचूकता इतकी घसरली की ती “कोणताही संदर्भ नाही” बेसलाइनशी जुळते, म्हणजे एआयने दस्तऐवज अजिबात वाचले नसल्यासारखे वागत होते.

लक्ष जुळवणे हे सारांशीकरणापेक्षा लक्षणीयरित्या श्रेष्ठ आहे, परंतु एंटरप्राइझ आर्किटेक्ट्सना सोप्या वाचन आकलन चाचण्यांच्या तुलनेत दाट कार्यांसाठी कॉम्प्रेशन रेशो कमी करणे आवश्यक आहे. झ्वेगर यांनी स्पष्ट केल्याप्रमाणे, "मुख्य व्यावहारिक ट्रेड-ऑफ असा आहे की जर तुम्ही माहिती-केंद्रित कार्यांच्या संदर्भात जवळजवळ प्रत्येक गोष्ट जतन करण्याचा प्रयत्न करत असाल तर, मजबूत रिझोल्यूशन टिकवून ठेवण्यासाठी तुम्हाला सामान्यत: अधिक मध्यम कॉम्प्रेशन रेशो आवश्यक आहे."

संशोधकांनी हे देखील शोधून काढले की ज्या प्रकरणांमध्ये परिपूर्ण अचूकता आवश्यक नसते परंतु लक्षणीय स्मरणशक्ती बचत होते. त्यांनी मानक मजकूर सारांशाच्या शीर्षस्थानी लक्ष जुळवणे चालू केले. या एकत्रित पध्दतीने 200 पट कम्प्रेशन गाठले. हे केवळ मानक सारांशाच्या अचूकतेशी जुळवून घेते, परंतु अगदी लहान मेमरी फूटप्रिंटसह.

एक मनोरंजक एंटरप्राइझ वर्कफ्लो प्रयोग ऑनलाइन तणाव चाचणी होता, जरी ते लक्षात घेतात की हा संकल्पनेचा पुरावा आहे आणि उत्पादन वातावरणात त्याची कठोरपणे चाचणी केली गेली नाही. संशोधकांनी AIME Advanced Mathematical Reasoning Test वर मॉडेलची चाचणी केली. त्यांनी एआयला भौतिक स्मरणशक्तीवर कठोर मर्यादा असलेल्या समस्येचे निराकरण करण्यास भाग पाडले. जेव्हा जेव्हा मॉडेलची मेमरी भरते, तेव्हा सिस्टम विराम देते, लक्ष जुळणी वापरून त्याची कार्यरत मेमरी ताबडतोब 50 टक्के संकुचित करते आणि तिला विचार चालू ठेवण्यास अनुमती देते. मेमरी वॉलवर आदळल्यानंतर आणि विचारांच्या मध्यभागी त्याची केव्ही कॅशे सलग सहा वेळा कमी करूनही, मॉडेलने गणितातील समस्या सोडवण्यात यश मिळवले. त्याची कामगिरी प्रचंड आणि अमर्यादित मेमरी असलेल्या मॉडेलशी जुळली.

विचारात घेण्यासारखे चेतावणी आहेत. 50x कॉम्प्रेशन रेशोवर, गती आणि गुणवत्तेचा समतोल राखण्यात अटेन्शन मॅचिंग स्पष्ट विजेता आहे. तथापि, जर एखाद्या संस्थेने अत्यंत जटिल डेटावर 100x टोकापर्यंत कॉम्प्रेशन ढकलण्याचा प्रयत्न केला, तर हळूवार, स्केल-आधारित काडतुसेचा दृष्टीकोन प्रत्यक्षात त्यास मागे टाकतो.

संशोधकांनी लक्ष जुळणारा कोड जारी केला. तथापि, ते लक्षात घेतात की हे सध्या साधे प्लग-अँड-प्ले सॉफ्टवेअर अपडेट नाही. "मला असे वाटते की सुप्त कॉम्प्रेशन हे मॉडेल लेयर तंत्र म्हणून विचार करणे चांगले आहे," झ्वेगर नोट्स. "हे कोणत्याही विद्यमान मॉडेलवर लागू केले जाऊ शकते, परंतु त्यास मॉडेलच्या वजनांमध्ये प्रवेश आवश्यक आहे." याचा अर्थ असा की ज्या संस्था पूर्णपणे बंद API वर अवलंबून असतात ते स्वतःच याची अंमलबजावणी करू शकत नाहीत; त्यांना खुल्या वजनासह मॉडेलची आवश्यकता आहे.

लेखक लक्षात घेतात की केव्ही कॉम्प्रेशन अव्यक्त जागेत विद्यमान, उच्च ऑप्टिमाइझ केलेल्या व्यावसायिक अनुमान इंजिनमध्ये समाविष्ट करण्यासाठी अजूनही महत्त्वपूर्ण प्रयत्नांची आवश्यकता आहे. आधुनिक एआय इन्फ्रास्ट्रक्चर सर्व्हर कार्यक्षमतेने चालू ठेवण्यासाठी प्रीफिक्स कॅशिंग आणि व्हेरिएबल-लेन्थ मेमरी पॅकिंग यासारख्या जटिल युक्त्या वापरते आणि या नवीन कॉम्प्रेशन तंत्रज्ञानाला विद्यमान सिस्टममध्ये अखंडपणे समाकलित करण्यासाठी सानुकूल अभियांत्रिकी कार्याची आवश्यकता असेल. तथापि, त्वरित एंटरप्राइझ अनुप्रयोग आहेत. "आमचा विश्वास आहे की पोस्ट-इनजेस्ट कॉम्प्रेशन हे एक आशादायक वापर प्रकरण आहे, जेथे मोठ्या टूल कॉल्सचे आउटपुट किंवा लांब दस्तऐवज प्रक्रिया केल्यानंतर लगेच संकुचित केले जातात," झ्वेगर म्हणाले.

शेवटी, मेकॅनिकल लेटेंट स्पेस कम्प्रेशनकडे वळणे हे प्रमुख एआय प्लेयर्सच्या भविष्यातील उत्पादन रोडमॅप्सशी संरेखित आहे, झ्वेगर म्हणतात. "संस्थांनी स्वतःला मॉडेल प्रदाते प्रदान केलेल्या एखाद्या गोष्टीकडे लागू केलेल्या एखाद्या गोष्टीपासून आम्ही मोठे बदल पाहत आहोत," झ्वेगर म्हणाले. "हे सुप्त दाबांवर अधिक लागू होते, जेथे मॉडेल वजनांमध्ये प्रवेश करणे आवश्यक आहे. उदाहरणार्थ, OpenAI आता ब्लॅकबॉक्स कॉम्प्रेशन एंडपॉइंट उघड करते जे साध्या मजकूर सारांशाऐवजी अपारदर्शक ऑब्जेक्ट परत करते."

Source link