Nvidia मधील संशोधकांनी एक तंत्रज्ञान विकसित केले आहे जे मोठ्या भाषेच्या मॉडेल्सचा अंदाज लावण्यासाठी मेमरी खर्च आठ पट कमी करू शकते. त्यांची शैली म्हणतात डायनॅमिक मेमरी फ्रॅगमेंटेशन (DMS), की-व्हॅल्यू (KV) कॅशे संकुचित करते, तात्पुरती मेमरी जी LLM दाव्यांची प्रक्रिया करताना आणि समस्या आणि कागदपत्रांद्वारे तर्क करताना तयार आणि संग्रहित करते.
संशोधकांनी याआधी ही कॅशे संकुचित करण्याचे विविध मार्ग सुचवले असताना, बहुतेकांना मॉडेलच्या बुद्धिमत्तेशी तडजोड न करता असे करण्यात अडचण येते. मॉडेलची तर्क क्षमता राखून (आणि काही प्रकरणांमध्ये सुधारणा करताना) कॅशेचा महत्त्वपूर्ण भाग काढून टाकण्यात Nvidia चा दृष्टिकोन यशस्वी होतो.
अनुभव दर्शवितो की DMS LLM ला हे करण्यास सक्षम करते "तो विचार करतो" गती किंवा मेमरी खर्चामध्ये नेहमीच्या दंडाशिवाय लांब आणि अधिक उपाय एक्सप्लोर करा.
तर्कशास्त्रातील अडचण
LLM तयार करून जटिल कार्यांवर त्यांचे कार्यप्रदर्शन सुधारतात… "कल्पनांची मालिका" टोकन, जिथे तुम्ही अंतिम उत्तरावर येण्यापूर्वी त्यांची विचारसरणी लिहून ठेवता. अनुमान वेळ मापन तंत्र हे तर्क कोड तयार करण्यासाठी मॉडेलला मोठे बजेट देऊन किंवा समांतर अनेक संभाव्य तर्क मार्ग एक्सप्लोर करून याचा फायदा घेतात.
तथापि, हे सुधारित अनुमान महत्त्वपूर्ण संगणकीय खर्चावर येते. मॉडेल अधिक चिन्हे व्युत्पन्न करते म्हणून, ते फाइल तयार करते केव्ही कॅशे.
वास्तविक-जागतिक अनुप्रयोगांसाठी, केव्ही कॅशे ही एक मोठी अडचण आहे. जसजशी अनुमान साखळी वाढते, कॅशे रेखीय वाढतो, GPU वर मोठ्या प्रमाणात मेमरी वापरतो. हे डिव्हाइसेसना मेमरीमधून डेटा वाचण्यासाठी प्रत्यक्षात संगणन करण्यापेक्षा जास्त वेळ घालवण्यास भाग पाडते, जनरेशन प्रक्रिया कमी करते आणि प्रवेश विलंब वाढवते. हे प्रणाली एकाच वेळी सेवा देऊ शकणाऱ्या वापरकर्त्यांची संख्या देखील मर्यादित करते, कारण VRAM संपल्यामुळे सिस्टम क्रॅश होईल किंवा क्रॉल होण्यास मंद होईल.
Nvidia संशोधक याकडे केवळ तांत्रिक अडथळा म्हणून नव्हे तर संस्थेसाठी मूलभूत आर्थिक अडथळा म्हणून पाहतात.
"प्रश्न केवळ उपकरणांच्या प्रमाणात मर्यादित नाही; तुमची पायाभूत सुविधा 100 थ्रेड्स किंवा 800 थ्रेड्स समान खर्चावर हाताळते की नाही यावर खाली येते." Nvidia मधील वरिष्ठ सखोल शिक्षण अभियंता Piotr Nawrot यांनी VentureBeat ला सांगितले.
या समस्येचे निराकरण करण्यासाठी मागील प्रयत्नांनी ह्युरिस्टिक-आधारित दृष्टिकोनांवर लक्ष केंद्रित केले आहे. या पद्धती कठोर नियम वापरतात, उदा "स्लाइडिंग विंडो" हे फक्त नवीनतम कोड कॅश करते आणि बाकीचे हटवते. हे मेमरी वापर कमी करत असताना, ते अनेकदा मॉडेलला समस्येचे निराकरण करण्यासाठी आवश्यक असलेल्या महत्त्वाच्या माहितीकडे दुर्लक्ष करण्यास भाग पाडते, परिणामी आउटपुट अचूकता कमी होते.
"मानक निष्कासन पद्धती ह्युरिस्टिक्स वापरून निष्कासनासाठी जुने, न वापरलेले कोड निवडण्याचा प्रयत्न करतात." असे संशोधकांनी सांगितले. "त्यांनी समस्या सोपी केली, या आशेने की त्यांनी मॉडेलच्या अंतर्गत यांत्रिकी अंदाजे घेतल्यास, उत्तर अद्याप बरोबर असेल."
इतर सोल्यूशन्स केव्ही कॅशेचे न वापरलेले भाग स्लो मेमरीमध्ये ऑफलोड करण्यासाठी पेजिंग वापरतात, परंतु डेटाची सतत देवाणघेवाण अतिरिक्त लेटन्सी आणते ज्यामुळे रिअल-टाइम ऍप्लिकेशन्स धीमे होतात.
डायनॅमिक मेमरी फ्रॅगमेंटेशन
डीएमएस एक वेगळा दृष्टीकोन घेते "रेट्रोफिटिंग" त्यांची स्मरणशक्ती हुशारीने व्यवस्थापित करण्यासाठी विद्यमान LLM. काय हटवायचे याचा निश्चित नियम लागू करण्याऐवजी, भविष्यातील अनुमानासाठी कोणते टोकन आवश्यक आहेत आणि कोणते टाकले जाऊ शकतात हे निर्धारित करण्यासाठी DMS मॉडेलला प्रशिक्षण देते.
"हे केवळ महत्त्वाचा अंदाज लावण्याचा विषय नाही; हे असे धोरण शिकते जे अंतिम मॉडेलच्या आउटपुटचे वितरण स्पष्टपणे संरक्षित करते," नोरोट म्हणाले.
ही प्रक्रिया Llama 3 किंवा Qwen 3 सारख्या मानक पूर्व-प्रशिक्षित LLM ला स्व-तणावपूर्ण मॉडेलमध्ये रूपांतरित करते. महत्त्वाचे म्हणजे, यासाठी मॉडेलला सुरवातीपासून प्रशिक्षण देण्याची आवश्यकता नाही, जे महाग असेल. त्याऐवजी, डीएमएस आउटपुट a करण्यासाठी मॉडेलच्या लक्ष स्तरांमध्ये विद्यमान न्यूरॉन्सचा पुनर्वापर करते "जतन करा" किंवा "निष्कासन" प्रत्येक चिन्हासाठी सिग्नल.
रेट्रोफिट प्रक्रियेच्या जटिलतेबद्दल संबंधित संघांसाठी, संशोधकांनी सूचित केले की ही प्रक्रिया हलकी असेल. "या प्रक्रियेची कार्यक्षमता सुधारण्यासाठी, मॉडेलचे वजन गोठवले जाऊ शकते, ज्यामुळे ही प्रक्रिया लो-रँक ॲडॉपटेशन (LoRA) सारखी बनते." नोरोट म्हणाले. याचा अर्थ Qwen3-8B सारखे मानक एंटरप्राइझ मॉडेल "हे एका DGX H100 डिव्हाइसवर काही तासांत DMS सह अपडेट आणि अपग्रेड केले जाऊ शकते."
डीएमएसचा एक महत्त्वाचा भाग म्हणजे एक यंत्रणा ज्याला म्हणतात "निर्वासन विलंबित." स्टँडर्ड स्कॅटरिंगमध्ये, टोकन जंक मानले जात असल्यास, ते त्वरित हटविले जाते. हे धोकादायक आहे कारण त्या टोकनचा संदर्भ त्याच्या सद्यस्थितीत समाकलित करण्यासाठी मॉडेलला स्प्लिट सेकंदाची आवश्यकता असू शकते.
डीएमएस कमी कालावधीसाठी (उदा. काही शंभर पायऱ्या) उपलब्ध ठेवून निष्कासनासाठी टोकन चिन्हांकित करून हे कमी करते. हा विलंब मॉडेलला अनुमती देतो "काढला" टोकनमधून शिल्लक असलेली कोणतीही आवश्यक माहिती KV कॅशेमधून टोकन साफ करण्यापूर्वी वर्तमान संदर्भामध्ये विलीन केली जाते.
“‘विलंबित निष्कासन’ यंत्रणा महत्त्वाची आहे कारण सर्व टोकन फक्त ‘महत्त्वाचे’ (कायमस्वरूपी ठेवा) किंवा ‘निरुपयोगी’ (लगेच हटवलेले) नसतात. त्यापैकी बरेच मधे येतात – त्यांच्याकडे काही माहिती असते, परंतु संपूर्ण मेमरी स्पेस घेण्याचे समर्थन करण्यासाठी पुरेसे नसते,” नोरोट म्हणाले. “येथे रिडंडंसी आहे. बेदखल करण्यापूर्वी थोड्या काळासाठी स्थानिक विंडोमध्ये हे टोकन ठेवून, आम्ही मॉडेलला त्यांची काळजी घेण्याची आणि भविष्यातील टोकनमध्ये त्यांची माहिती पुन्हा वितरित करण्याची परवानगी देतो.”
संशोधकांना आढळून आले की ही रेट्रोफिटिंग प्रक्रिया खूप प्रभावी आहे. ते केवळ 1,000 प्रशिक्षण चरणांमध्ये डीएमएस वापरून पूर्व-प्रशिक्षित एलएलएम तयार करू शकतात, जे मूळ प्रशिक्षणासाठी आवश्यक असलेल्या गणनेचा एक अंश आहे. परिणामी मॉडेल्स मानक कर्नल वापरतात आणि कस्टम हार्डवेअर किंवा जटिल सॉफ्टवेअरचे पुनर्लेखन न करता थेट विद्यमान उच्च-कार्यक्षमता अनुमान सेटमध्ये सोडले जाऊ शकतात.
DMS कृतीत आहे
तंत्र प्रमाणित करण्यासाठी, संशोधकांनी Qwen-R1 मालिका (DeepSeek R1 वरून घेतलेल्या) आणि Llama 3.2 सह अनेक अनुमान मॉडेल्सवर DMS लागू केले आणि AIME 24 (गणित), GPQA डायमंड (विज्ञान), आणि LiveCodeBench (codeBench) सारख्या आव्हानात्मक बेंचमार्कवर त्याची चाचणी केली.
परिणाम दर्शविते की डीएमएस प्रभावीपणे पॅरेटो फ्रंटियरवर हलते, जे खर्च आणि कार्यप्रदर्शन यांच्यातील इष्टतम व्यापार-बंद आहे. AIME 24 गणित चाचणीवर, DMS-सुसज्ज Qwen-R1 32B मॉडेलने समान मेमरी बँडविड्थ बजेटद्वारे मर्यादित असताना मानक मॉडेलपेक्षा 12.0 गुण जास्त गुण मिळवले. कॅशे संकुचित करून, मॉडेल हे सहन करू शकते "तो विचार करतो" समान मेमरी आणि गणना बजेटसाठी मानक मॉडेलपेक्षा खूप खोल आणि विस्तृत.
कदाचित सर्वात आश्चर्याची गोष्ट म्हणजे, डीएमएसने सामान्य शहाणपणाला आव्हान दिले की कॉम्प्रेशन दीर्घ-संदर्भ समजून घेण्यासाठी हानिकारक आहे. मध्ये "एक गवताच्या गंजी मध्ये सुई" चाचण्यांमध्ये, जे मोठ्या दस्तऐवजात दफन केलेल्या माहितीचा विशिष्ट भाग शोधण्याची मॉडेलची क्षमता मोजतात, डीएमएस रूपे प्रत्यक्षात मानक मॉडेलपेक्षा जास्त कामगिरी करतात. निष्क्रियपणे आवाज जमा करण्याऐवजी त्याची स्मृती सक्रियपणे व्यवस्थापित करून, मॉडेलने अधिक स्वच्छ, अधिक उपयुक्त संदर्भ राखले.
एंटरप्राइझ इन्फ्रास्ट्रक्चरसाठी, कार्यक्षमतेचा फायदा थेट उत्पादकता आणि हार्डवेअर बचतीमध्ये होतो. मेमरी कॅशे लक्षणीयरीत्या लहान असल्यामुळे, GPU डेटा आणण्यासाठी कमी वेळ घालवते, वापरकर्त्यांचा प्रतीक्षा वेळ कमी करते. Qwen3-8B मॉडेलच्या चाचण्यांमध्ये, 5x पर्यंत उच्च थ्रुपुट प्रदान करताना DMS व्हॅनिला मॉडेलच्या अचूकतेशी जुळले. याचा अर्थ असा की एकच सर्व्हर गुणवत्तेत घट न करता प्रति सेकंद क्लायंट क्वेरीच्या पाच पटीने हाताळू शकतो.
स्मृतीचे भविष्य
Nvidia ने त्याच्या सॉफ्टवेअरचा भाग म्हणून DMS जारी केले आहे KVPress लायब्ररी. कंपन्या डेस्टिनेशन मॅनेजमेंट सिस्टमचा वापर कसा सुरू करू शकतात याबद्दल नोरोट यांनी भर दिला की प्रवेशासाठी अडथळा कमी आहे. "”किमान व्यवहार्य पायाभूत सुविधा” मानक हगिंग फेस पाइपलाइन आहे – सानुकूल CUDA कर्नल आवश्यक नाही," कोड फ्लॅशअटेंशन मानकांशी पूर्णपणे सुसंगत असल्याचे नमूद करून नवरोट म्हणाले.
भविष्याकडे पाहताना, टीम डीएमएसकडे मोठ्या परिवर्तनाचा एक भाग म्हणून पाहते जिथे मेमरी व्यवस्थापन AI स्टॅकचा एक वेगळा आणि बुद्धिमान स्तर बनतो. नवरोत यांनी देखील पुष्टी केली की डीएमएस तसेच करते "पूर्णपणे सुसंगत" नवीन आर्किटेक्चरसह उदा बहु डोके सुप्त लक्ष (MLA) DeepSeek च्या मॉडेल्समध्ये वापरला जातो, जे सुचविते की या पद्धती एकत्र केल्याने अधिक कार्यक्षमता वाढू शकते.
जसजसे संस्था साध्या चॅटबॉट्सवरून जटिल एजंट सिस्टमकडे जातात ज्यांना विस्तारित विचारांची आवश्यकता असते, अनुमानाची किंमत ही प्राथमिक चिंता बनली आहे. DMS सारखे तंत्रज्ञान या क्षमतांना शाश्वतपणे मोजण्यासाठी एक मार्ग प्रदान करतात.
"जे शक्य आहे त्याची पृष्ठभाग आम्ही अगदीच स्क्रॅच केली आहे," नोरोट म्हणाले "आम्हाला अनुमान वेळ माप आणखी विकसित होण्याची अपेक्षा आहे."
















