कार्यक्षम AI वर्कफ्लोमुळे लांबलचक साखळींची किंमत आणि विलंब दुप्पट असल्याने, मेरीलँड विद्यापीठ, लॉरेन्स लिव्हरमोर नॅशनल लॅबोरेटरीज, कोलंबिया युनिव्हर्सिटी आणि टुगेदरएआय यांच्या टीमने मॉडेल वेट्समध्ये थेट 3x थ्रूपुट नफा मिळवण्याचा मार्ग शोधला आहे.
सट्टा डिकोडिंगच्या विपरीत, ज्यासाठी स्वतंत्र फॉर्म्युलेशन मॉडेल आवश्यक आहे, या दृष्टिकोनासाठी कोणत्याही अतिरिक्त पायाभूत सुविधांची आवश्यकता नाही – मॉडेलच्या विद्यमान संरचनेत फक्त एक टोकन जोडले गेले आहे.
पुढील कोड अंदाज मर्यादा
पुढील टोकनचा अंदाज लावणे—प्रत्येक फॉरवर्ड पाससाठी एक मजकूर टोकन व्युत्पन्न करणे—एक थ्रुपुट कमाल मर्यादा तयार करते जी मॉडेल्सना हजारो टोकन तयार करण्याची आवश्यकता असताना वेदनादायकपणे महाग होते. हे अडथळे विशेषतः अनुमानित मॉडेल्समध्ये समस्याप्रधान आहे, जे सहसा हजारो “विचार मालिका“अंतिम प्रतिसाद तयार करण्यापूर्वी, परिणामी वापरकर्त्याचा मंद आणि महागडा अनुभव.
मल्टी-टोकन प्रेडिक्शन (MTP) एक पर्यायी प्रशिक्षण मॉडेल प्रदान करते जे एका भाषेच्या मॉडेलला एकाच फॉरवर्ड पासमध्ये एकाच वेळी अनेक टोकन तयार करण्यास अनुमती देते. उदाहरणार्थ, फक्त पुढील टोकन ताबडतोब न करता एकाच वेळी टोकनच्या संचाचा अंदाज लावण्यासाठी मॉडेलला प्रशिक्षित केले जाऊ शकते.
जसजसे आम्ही एजंटेड वर्कफ्लोकडे जातो तसतसे, संपूर्ण थ्रूपुटवरून वैयक्तिक वापरकर्त्याच्या चपळतेकडे लक्ष केंद्रित केले जात आहे, मेरीलँड विद्यापीठातील संगणक शास्त्रातील डॉक्टरेट उमेदवार आणि पेपरचे सह-लेखक जॉन किर्चेनबॉअर यांनी व्हेंचरबीटला सांगितले. "आज, या खर्चात आणखी वाढ करून सर्वसामान्य प्रमाण आणि प्रॉक्सी बाह्य लूप शोधून, लेटन्सी हा संपूर्ण सेवेच्या कार्यक्षमतेचा एक महत्त्वाचा परिमाण बनला आहे तितकाच जो प्रति सेकंद प्रति हार्डवेअर युनिट (tps/GPU) एकूण टोकन्स इतकाच महत्त्वाचा बनला आहे." Kirchenbauer म्हणाले. ते म्हणाले की जरी पुढील टोकनचा मानक अंदाज आधीच एकूण थ्रूपुटसाठी इष्टतम आहे, नवीन दृष्टीकोन "त्या एकट्या वापरकर्त्यासाठी विलंब कमी करण्यासाठी आम्ही फक्त एका वापरकर्त्याच्या क्वेरीसह GPU संतृप्त करण्याचा प्रयत्न करतो."
इतर पद्धती आहेत, परंतु त्या कमतरतांसह येतात. "हे लक्षात घेतले पाहिजे की सट्टा डिकोडिंग, आणि पुढील टोकन अंदाज (NTP) साठी कार्यक्षमता-केंद्रित पर्याय म्हणून LLM तैनात करणे, दोन्ही विलंब-केंद्रित प्रवेग तंत्र आहेत." Kirchenbauer म्हणाले. परंतु सट्टा डिक्रिप्शनसाठी सहाय्यकाची तैनाती आणि व्यवस्थापन आवश्यक आहे "सूत्रीकरण" मॉडेल, जे तयार करण्यासाठी आणि सत्यापित करण्यासाठी अधिक परिपूर्ण गणना खर्च करते. दुसरीकडे मध्यम मुदतीची योजना, "त्यांना अशाच प्रकारच्या स्वॅपचा फायदा होतो, ते सेवेसाठी सोपे असतात आणि ते त्यांच्या स्वतःच्या अधिकारात वैज्ञानिकदृष्ट्या मनोरंजक असतात."
तथापि, सध्याच्या MTP मॉडेल्सना मर्यादा आहेत. MTP साठी भाषा मॉडेलला प्रशिक्षण देण्याच्या मानक उद्दिष्टामध्ये डेटासेटमधील ग्राउंड ट्रूथ टेक्स्टसह त्याच्या अंदाजांची तुलना करणे समाविष्ट आहे. अडचण अशी आहे की हे मानक प्रशिक्षण मॉडेलला टोकनच्या मालिकेतील सामायिक संबंधांची काळजी घेण्याऐवजी स्वतंत्रपणे दिलेल्या स्थितीत टोकन असण्याच्या संभाव्यतेचा अंदाज लावायला शिकवते.
या मानक पद्धतीचा वापर करून मॉडेलने एकाच वेळी अनेक टोकन्सचा अंदाज घेण्याचा प्रयत्न केल्यास, दोन प्रमुख समस्या उद्भवतील. पहिली व्याकरणाची जुळवाजुळव आहे. उदाहरणार्थ, जर मॉडेलने उपसर्गानंतर दोन शब्दांचा अंदाज लावला "प्राणीसंग्रहालयाने खायला दिले" ते स्वतंत्रपणे नमुने घेतले जाऊ शकतात आणि एक विसंगत विधान तयार करू शकतात उदा "पांडाचे मांस" किंवा "सिंह बांबू" ऐवजी "बांबू पांडा" आणि “सिंहाचे मांस.”
दुसरा मुद्दा म्हणजे डिजनरेट रिपीटेशन. नमुना मजकूर अप्रत्याशित असल्याने, मानक डेटा सेटच्या विरूद्ध भविष्यात टोकन 100 पोझिशन्सचा अंदाज लावण्याचा प्रयत्न करणारे मॉडेल केवळ अंदाज लावेल "द" कारण हा इंग्रजी भाषेतील सर्वात सामान्य शब्द आहे. यामुळे फॉर्मला आउटपुट मूर्खपणा येतो "… द…" दूरच्या भविष्यातील परिस्थितींसाठी.
स्व-डिस्टिलेशनद्वारे मल्टी-कोड अंदाज
एकाधिक कोड तयार करण्याच्या समस्यांचे निराकरण करण्यासाठी, संशोधकांनी एक नवीन प्रशिक्षण तंत्र प्रस्तावित केले आहे जे विद्यार्थी-शिक्षक योजना वापरते. विद्यार्थी मॉडेल, जे मल्टी-टोकन्सचा अंदाज लावण्यासाठी एक शिकण्याचे मॉडेल आहे, एक निर्धारवादी मल्टी-टोकन ब्लॉक व्युत्पन्न करते. लँडमार्क मॉडेल, जे पुढील कोडसाठी शक्तिशाली मानक अंदाज भाषा मॉडेल म्हणून कार्य करते, त्या ब्लॉकचे मूल्यांकन करते. शिक्षक समीक्षक म्हणून काम करतो, विद्यार्थ्याच्या प्रस्तावित अनुक्रमाची शक्यता आणि सुसंगतता मोजतो. विद्यार्थ्याने न जुळणारा वाक्यांश सुचवल्यास उदा "सिंह बांबू," शिक्षक हे एक महत्त्वपूर्ण नुकसान नियुक्त करतात आणि विद्यार्थ्याला हे बांधकाम टाळण्यासाठी शिकवतात.
हे मॉडेल पॉलिसी रीइन्फोर्समेंट लर्निंगद्वारे प्रेरित आहे कारण विद्यार्थी मॉडेल केवळ स्थिर मजकूर लक्षात ठेवत नाही. हे एकाच फॉरवर्ड पासच्या समांतर तत्काळ संपूर्ण लॉन्च (RL मधील क्रियांचा क्रम) तयार करते आणि शिक्षक किती चांगले वाटते यावर आधारित बक्षीस प्राप्त करते. स्टॅटिक पर्यवेक्षित पद्धतींच्या विपरीत जेथे प्रशिक्षण जोड्या आगाऊ निश्चित केल्या जातात, येथे अभिप्राय डायनॅमिक आहे, रिअल टाइममध्ये विद्यार्थ्याच्या स्वतःच्या आउटपुटमधून व्युत्पन्न केला जातो. मजबूत शिक्षक टोकनच्या सुसंगततेची पडताळणी देखील करतो, विद्यार्थ्याच्या मॉडेलला वारंवार शब्दांसारखे निकृष्ट आउटपुट शिकण्यापासून प्रतिबंधित करतो.
विकसकांसाठी, या दृष्टिकोनाचे सौंदर्य म्हणजे त्याची साधेपणा. "टोकन जोडण्याशिवाय बिल्डमध्ये कोणतेही वास्तविक बदल नाहीत," Kirchenbauer म्हणाले. मास्क टोकन म्हणून काम करण्यासाठी मॉडेलच्या सध्याच्या एम्बेडिंग मॅट्रिक्समध्ये न वापरलेला स्लॉट निवडून
अभियांत्रिकी संघांसाठी, याचा अर्थ असा आहे की पाइपलाइन पुनर्बांधणी न करता आधीच उत्पादनात असलेल्या मॉडेलवर बदल लागू केले जाऊ शकतात.
एकाच वेळी अनेक कोड व्युत्पन्न केल्याने निष्कर्षाच्या वेळी प्रतिसादाच्या अचूकतेशी तडजोड होऊ शकते. आउटपुट गुणवत्तेचा त्याग न करता जनरेशनचा वेग वाढवण्यासाठी, लेखक ConfAdapt नावाची अनुकूली डीकोडिंग धोरण सादर करतात.
ConfAdapt प्रत्येक टप्प्यावर 90% सारख्या आत्मविश्वास मर्यादेचे मूल्यांकन करते. मॉडेल टोकन्सचा ब्लॉक तयार करते, परंतु केवळ ही उच्च आत्मविश्वास मर्यादा पूर्ण करणारी किंवा ओलांडणारी टोकन ठेवते. जेव्हा येणारा मजकूर अत्यंत प्रेडिक्टेबल किंवा संरचित असतो, तेव्हा मॉडेलचा आत्मविश्वास खूप जास्त असतो. हे टोकन्सच्या मोठ्या बॅचला एकाच वेळी स्वीकारेल आणि बाहेर पडेल, सॉफ्ट टोकन्सपेक्षा महत्त्वपूर्ण संगणकीय वेळ वाचवेल. हे नंतर अधिक संगणकीय प्रयत्नांची आवश्यकता असलेल्या कठीण टोकन्सवर महागड्या सिंगल टोकन पासवर लक्ष केंद्रित करते.
चाचणीसाठी बहु-प्रतीक अंदाज लावा
प्रशिक्षण प्रतिमान सरावात कसे कार्य करते हे पाहण्यासाठी, संशोधकांनी त्यांची पद्धत सामान्य ओपन-वेट, सूचना-ट्यून केलेल्या प्रतिमानांवर लागू केली. त्यांनी शक्तिशाली सामान्य-उद्देशीय मॉडेल Llama-3.1-8B-Magpie आणि लहान, अधिक कार्यक्षम मॉडेल Qwen3-4B-Instruct-2507 ची चाचणी केली, जे सहसा खर्च-संवेदनशील एंटरप्राइझ तैनातीसाठी निवडले जाते. दोन्ही मॉडेल MetaMathQA ला ट्यून केलेले आहेत, सिंथेटिक प्राथमिक शाळेतील गणिताच्या समस्यांचा डेटासेट जो ह्युरिस्टिक्सवर खूप अवलंबून असतो.
प्रयोगांनी वेग आणि अचूकता यांच्यातील स्पष्ट गोड स्पॉट उघड केले. ConfAdapt धोरण वापरून, Llama-3.1-8B मॉडेलने गणिताच्या बेंचमार्कवर अचूकतेमध्ये 3% पेक्षा कमी घट करून 3x स्पीडअप मिळवला. Qwen3-4B मॉडेलने 7% च्या अचूकतेमध्ये किंचित जास्त कपात करून समान 3x गती प्राप्त केली. अधिक आक्रमक सेटिंग्ज 5x स्पीडअप पर्यंत पोहोचू शकतात, जरी ते अचूकतेसाठी अधिक सूक्ष्म दंडांसह येतात.
हे वास्तविक-जगातील कार्यांमध्ये कसे भाषांतरित होते हे अंदाजानुसार अवलंबून असते. "ConfAdapt दृष्टीकोन नैसर्गिकरित्या फील्डच्या अंतर्निहित एन्ट्रॉपीनुसार प्रवेग मॉडेल करते, जेव्हा मॉडेलला पुढे काय येणार आहे ते “माहित” असते, तेव्हा ते एकाच पासमध्ये उत्सर्जित करू शकते," अनिश्चित आउटपुटसाठी अधिक पावले वापरताना अंदाज लावता येण्याजोग्या कामांमध्ये प्रचंड गती येते, असे त्यांनी नमूद केले.
मल्टी-कोड अंदाज प्रशिक्षण टप्प्यात समाविष्ट नसलेल्या डोमेनवर स्पीडअप देखील हस्तांतरित केले जातात. यामध्ये प्रशिक्षण डेटा सारख्याच डोमेनमधील कार्ये समाविष्ट आहेत, जसे की गणित आणि तर्क, तसेच सर्जनशील लेखन आणि सारांश यांसारखी मुक्त कार्ये.
शिक्षणाचे हे हस्तांतरण असूनही, विशेष कार्यांसाठी ही मॉडेल्स तैनात करणाऱ्या संस्थांनी त्यांच्यावर पूर्णपणे अवलंबून राहू नये. "आमची शिफारस अशी आहे की खाजगी उद्योगातील नमुने वापरून एमटीपी मॉडेल फाइन-ट्यून/अनुकूलित करावे," Kirchenbauer म्हणाले. "प्रकाशन डोमेनच्या प्रॉम्प्टचा वापर करून MTP रुपांतरण केले असल्यास सर्वोत्तम कामगिरी प्राप्त होण्याची शक्यता आहे."
सेवा सुसंगतता आणि पुढे जाण्याचा मार्ग
संशोधन पथकाने जारी केले फॅशन मॉडेल्सने चेहऱ्याला मिठी मारण्याचे प्रशिक्षण दिले तो लवकरच रिलीज होईल त्यांचा MTP फ्रेमवर्क कोड. या मॉडेल्सना vLLM किंवा SGLang मध्ये समाकलित करणाऱ्या पायाभूत सुविधा संघांना KV एकत्रीकरण आणि कॅशिंग कसे हाताळले जाते यातील बदलांचा विचार करावा लागेल – परंतु ही एक-वेळची अभियांत्रिकी गुंतवणूक आहे, सतत ओझे नाही. तथापि, Kirchenbauer तर्क "एकत्रीकरणासाठी कोणतेही स्पष्ट अडथळे नाहीत" संघाने पुष्टी केली "एकत्रीकरणासाठी सर्वात लहान मार्ग निर्धारित करण्यासाठी काही सिस्टम तज्ञांसह कार्य करा."
रिलीझ केलेल्या मॉडेल्सची चाचणी घेऊ इच्छिणाऱ्या संघांसाठी किर्चेनबाऊरचा सल्ला: ConfAdapt चा फायदा कृतीत येण्यासाठी एक वाक्यांश मोजणे किंवा पुनरावृत्ती करणे यासारख्या गेम प्रॉम्प्टसह प्रारंभ करा, नंतर सर्वोत्तम परिणामांसाठी तुमच्या विशिष्ट प्रकाशन डोमेनमधील नमुने वापरून मॉडेलचे रुपांतर करा. "एकंदरीत, आम्ही अपेक्षा करतो की आमच्या दृष्टिकोनाची उत्पादन-तयार अंमलबजावणी कमी-विलंबता एजंट मॉडेल तयार करणे आणि तैनात करण्याचे जीवनचक्र सुलभ करेल," Kirchenbauer समारोप. "NTP मॉडेल्ससाठी विद्यमान प्रवेग तंत्र जवळजवळ पूर्णपणे ह्युरिस्टिक्स आणि लॉजिकवर केंद्रित असताना, आमचा दृष्टिकोन मॉडेलमध्येच काही जटिलता समाविष्ट करतो ज्यामुळे ते विद्यमान कामासाठी अत्यंत पूरक आहे."














