Nvidia येथील संशोधकांनी विकसित केले आहे नवीन दृष्टीकोन 4-बिट क्वांटम फॉरमॅटमध्ये मोठ्या लँग्वेज मॉडेल्स (LLMs) ला प्रशिक्षित करण्यासाठी उच्च-विश्वस्त मॉडेल्सच्या स्तरावर त्यांची स्थिरता आणि अचूकता राखणे. त्यांचे तंत्रज्ञान, NVFP4, मॉडेलचे प्रशिक्षण सक्षम करते जे केवळ इतर आघाडीच्या 4-बिट फॉरमॅटला मागे टाकत नाही तर मोठ्या 8-बिट FP8 फॉरमॅटच्या कार्यप्रदर्शनाशी जुळते, सर्व काही अर्धी मेमरी आणि गणनेचा एक अंश वापरून.

NVFP4 चे यश हे दर्शवते की संस्था मोठ्या मॉडेलच्या कार्यक्षमतेशी जुळणारे छोटे मॉडेल चालवून अनुमान खर्च कमी करणे सुरू ठेवू शकतात. हे अशा भविष्याकडे देखील निर्देश करते ज्यामध्ये LLM च्या प्रशिक्षणाची किंमत अशा टप्प्यावर येईल जिथे अनेक संस्था फक्त विद्यमान मॉडेल्सना फाइन-ट्यून करण्याऐवजी सुरवातीपासून स्वतःचे सानुकूल मॉडेल प्रशिक्षित करू शकतात.

परिमाणात्मक आव्हान

मॉडेलचे परिमाणीकरण हे एक तंत्र आहे ज्याचा वापर एआय मॉडेल्स चालवण्याच्या आणि प्रशिक्षणासाठी संगणकीय आणि मेमरी खर्च कमी करण्यासाठी केला जातो. हे मॉडेल पॅरामीटर्स किंवा वजन, 16- आणि 32-बिट फ्लोटिंग पॉइंट (BF16 आणि FP32) सारख्या उच्च-परिशुद्धता फॉरमॅटमधून निम्न-सुस्पष्टता स्वरूपांमध्ये रूपांतरित करून कार्य करते. शक्य तितके ज्ञान आणि क्षमता जतन करून मॉडेलचा आकार कमी करणे हे क्वांटायझेशनचे मुख्य आव्हान आहे.

अलिकडच्या वर्षांत, 8-बिट फ्लोटिंग पॉइंट (FP8) फॉरमॅट एक लोकप्रिय उद्योग मानक बनले आहेत, जे कार्यप्रदर्शन आणि कार्यक्षमता यांच्यात चांगला समतोल प्रदान करतात. हे अचूकतेमध्ये लक्षणीय घट न करता LLM प्रशिक्षणाची संगणकीय किंमत आणि मेमरी मागणी लक्षणीयरीत्या कमी करते.

पुढील तार्किक पायरी 4-बिट फ्लोटिंग पॉइंट (FP4) आहे, जी मेमरी वापर अर्धा कमी करण्याचे आणि हाय-एंड हार्डवेअरवर कार्यप्रदर्शन वाढविण्याचे वचन देते. मात्र, हे संक्रमण अवघड होते. सध्याचे 4-बिट फॉरमॅट्स, जसे की MXFP4, सहसा त्यांच्या 8-बिट समकक्षांइतकीच अचूकता राखण्यासाठी संघर्ष करतात, ज्यामुळे खर्च आणि कार्यप्रदर्शन यांच्यात कठीण व्यापार बंद होतो.

NVFP4 कसे कार्य करते

NVFP4 चाणाक्ष डिझाइन आणि लक्ष्यित प्रशिक्षण पद्धतीद्वारे इतर FP4 तंत्रज्ञानासमोरील स्थिरता आणि अचूकतेच्या आव्हानांवर मात करते. 4-बिट अचूकतेची मुख्य समस्या ही त्याची मर्यादित श्रेणी आहे: ती केवळ 16 भिन्न मूल्ये दर्शवू शकते. उच्च-रिझोल्यूशन फॉरमॅटमधून रूपांतरित करताना, आउटलियर संपूर्ण डेटा सेट विकृत करू शकतात, मॉडेलच्या अचूकतेला हानी पोहोचवू शकतात. NVFP4 अधिक क्लिष्ट, बहु-स्तरीय दृष्टीकोन वापरून या आउटलायर्सला अधिक चांगल्या प्रकारे हाताळण्यासाठी परवानगी देतो "प्रशिक्षणादरम्यान टेन्सर मूल्यांचे अधिक अचूक आणि अचूक प्रतिनिधित्व," Nvidia च्या मते.

स्वरूपाच्या पलीकडे, संशोधक 4-बिट प्रशिक्षण कृती सादर करतात जी FP8 शी तुलना करता अचूकता प्राप्त करते. मुख्य घटकांपैकी एक म्हणजे त्यांची “मिश्र-परिशुद्धता धोरण”. संपूर्ण मॉडेलला NVFP4 मध्ये रूपांतरित करण्याऐवजी, बहुसंख्य स्तरांचे परिमाण केले जाते तर डिजिटली संवेदनशील स्तरांचा एक छोटा भाग BF16 सारख्या उच्च-रिझोल्यूशन फॉरमॅटमध्ये ठेवला जातो. हे जिथे सर्वात महत्त्वाचे आहे तिथे स्थिरता ठेवते. बॅकप्रोपॅगेशन दरम्यान ग्रेडियंटची गणना कशी केली जाते हे देखील पद्धत समायोजित करते — किंवा मॉडेल शिकण्याच्या टप्प्यात — कमी-सुस्पष्टता गणनेतून जमा होऊ शकणारे पूर्वाग्रह कमी करण्यासाठी.

सराव मध्ये NVFP4

त्यांच्या दृष्टिकोनाची चाचणी घेण्यासाठी, Nvidia संघाने 12 अब्ज पॅरामीटर्ससह शक्तिशाली संकरित प्रशिक्षित केले मॉडेल मांबा ट्रान्सफॉर्मर्स तब्बल 10 ट्रिलियन टोकन्स. त्यानंतर त्यांनी त्याच्या कार्यप्रदर्शनाची तुलना मोठ्या प्रमाणावर लोकप्रिय FP8 स्वरूपात प्रशिक्षित बेसलाइन मॉडेलशी केली. परिणामांवरून असे दिसून आले की NVFP4 मॉडेलचे प्रशिक्षण नुकसान आणि अंतिम कार्यांच्या अचूकतेने संपूर्ण प्रक्रियेदरम्यान FP8 आवृत्तीचा बारकाईने मागोवा घेतला.

उशीरा प्रशिक्षणात कोडींग पॅरामीटर्समध्ये फक्त किंचित घट होऊन संज्ञानात्मक-गहन तर्क, गणित आणि तर्क कार्यांसह, डोमेनच्या विस्तृत श्रेणीमध्ये कार्यप्रदर्शन राखले गेले.

"हे, आमच्या माहितीनुसार, बहु-ट्रिलियन-प्रतीक क्षितिजावर 4-बिट अचूकतेसह अब्ज-पॅरामीटर भाषा मॉडेल प्रशिक्षणाचे पहिले यशस्वी प्रदर्शन, भविष्यातील पॅरामेट्रिक मॉडेल्सच्या जलद आणि अधिक कार्यक्षम प्रशिक्षणाचा पाया घालते.

AI आणि डेटा सेंटर GPU साठी Nvidia उत्पादन व्यवस्थापक Nvidia Shar Narasimhan यांच्या मते, व्यवहारात, NVFP4 चे 4-बिट अचूक स्वरूप विकसक आणि कंपन्यांना पारंपरिक 8-बिट फॉरमॅट्स सारख्याच अचूकतेने AI मॉडेल्सचे प्रशिक्षण आणि तैनात करण्याची परवानगी देते.

“अचूकता राखून मॉडेल वजनांना थेट 4-बिट फॉरमॅटमध्ये प्रशिक्षण देऊन, ते विकसकांना नवीन आर्किटेक्चर वापरून पाहण्यास, जलद पुनरावृत्ती करण्यास आणि संसाधनांच्या अडचणींमुळे अडथळा न येता अंतर्दृष्टी शोधण्यास सक्षम करते,” त्याने VentureBeat ला सांगितले.

याउलट, FP8 (जरी FP16 वरून पुढे झेप घेतली तरी) उच्च मेमरी आणि बँडविड्थ आवश्यकतांमुळे मॉडेल आकार आणि अनुमान कार्यक्षमतेवर मर्यादा लादते. नरसिंहन म्हणाले, “NVFP4 ही कमाल मर्यादा तोडते, वाढीसाठी आणि प्रयोगासाठी लक्षणीयरीत्या अधिक वाव असलेल्या समतुल्य गुणवत्तेची ऑफर देते,” नरसिंहन म्हणाले.

वैकल्पिक 4-बिट फॉरमॅट, MXFP4 शी तुलना केल्यास, NVFP4 चे फायदे आणखी स्पष्ट होतात. 8 अब्ज पॅरामीटर मॉडेलच्या प्रयोगात, NVFP4 ने MXFP4 पेक्षा चांगले नुकसान केले. NVFP4 मॉडेलच्या कार्यप्रदर्शनाच्या समान पातळीपर्यंत पोहोचण्यासाठी, MXFP4 मॉडेलला 36% अधिक डेटावर प्रशिक्षित करावे लागले, जे प्रशिक्षण वेळ आणि खर्चामध्ये लक्षणीय वाढ दर्शवते.

पूर्व-प्रशिक्षण अधिक कार्यक्षम बनवण्याबरोबरच, NVFP4 हे देखील काय शक्य आहे ते पुन्हा परिभाषित करते. “4-बिट अचूकता मॉडेलची गुणवत्ता प्रमाणानुसार राखू शकते हे दर्शविण्यामुळे भविष्यातील दार उघडते जेथे उच्च-विशिष्ट मॉडेल्सना केवळ हायपर-स्केल कंपन्यांद्वारेच नव्हे तर मध्यम-आकाराच्या एंटरप्राइजेस किंवा स्टार्टअप्सद्वारे सुरवातीपासून प्रशिक्षित केले जाऊ शकते,” नरसिंहन म्हणाले की, कालांतराने, आम्ही सामान्य-उद्देशीय एमबीए मॉडेल विकसित करण्यापासून एक उच्च-विस्तृत मॉडेल बनवण्याकडे बदलण्याची अपेक्षा करू शकतो. नवकल्पकांची श्रेणी.

पूर्व प्रशिक्षणाच्या पलीकडे

जरी पेपर पूर्व-प्रशिक्षण दरम्यान NVFP4 च्या फायद्यांवर लक्ष केंद्रित करत असले तरी, त्याचा प्रभाव अनुमानापर्यंत देखील वाढतो.

“NVFP4 वर प्रशिक्षित मॉडेल्स केवळ वेगवान निष्कर्ष आणि उच्च थ्रूपुट देऊ शकत नाहीत, परंतु AI कारखान्यांना ROI प्राप्त करण्यासाठी लागणारा वेळ देखील कमी करू शकतात – मॉडेल विकासापासून वास्तविक-जागतिक तैनातीपर्यंतच्या चक्राला गती देतात,” नरसिंहन म्हणाले.

ही मॉडेल्स लहान आणि अधिक कार्यक्षम असल्यामुळे, ते ऊर्जा आणि संगणकीय खर्च न वाढवता, रिअल-टाइममध्ये, कोड-केंद्रित एजंट ऍप्लिकेशन्समध्ये देखील जटिल, उच्च-गुणवत्तेचे प्रतिसाद देण्यासाठी नवीन शक्यता उघडतात.

नरसिंहन म्हणाले की ते मॉडेल कार्यक्षमतेच्या भविष्याकडे पाहत आहेत जे केवळ अचूकता कमी करण्याबद्दल नाही तर स्मार्ट सिस्टम तयार करण्याबद्दल आहे.

ते म्हणाले, “संशोधनाला कमी रिझोल्यूशनपर्यंत विस्तारित करण्यासाठी तसेच मोठ्या प्रमाणातील मॉडेल्समध्ये गणनेवर वर्चस्व असलेल्या घटकांना संबोधित करण्यासाठी आर्किटेक्चरमध्ये सुधारणा करण्याच्या अनेक संधी आहेत,” तो म्हणाला. “ही क्षेत्रे संधींनी समृद्ध आहेत, विशेषत: उच्च थ्रुपुट, कमी विलंब आणि अनुकूली युक्तिवाद आवश्यक असलेल्या एजंटिक सिस्टीमकडे जाताना. NVFP4 गुणवत्तेशी तडजोड न करता अचूकता सुधारली जाऊ शकते हे सिद्ध करते आणि बुद्धिमान, कार्यक्षम AI डिझाइनच्या नवीन युगाचा मार्ग मोकळा करते.”

Source link