कंपन्यांना बर्याचदा असे आढळते की … ते मॉडेल समायोजित करतातमोठ्या भाषेचे मॉडेल (एलएलएम) फिट-हेतू आणि डेटा-चालित करण्याचा एक प्रभावी दृष्टीकोन म्हणजे मॉडेलने त्यातील काही क्षमता गमावली. ललित-ट्यूनिंगनंतर, काही मॉडेल्स “विसर” विसरतात की त्यांनी काही कामे किंवा इतर कार्ये कशी करावी.
इलिनॉय युनिव्हर्सिटी ऑफ इलिनॉय अर्बाना-चॅम्पेनचे संशोधन असे मॉडेल पुन्हा चालू करण्याचा एक नवीन मार्ग सुचवितो जे “आपत्तीजनक विसरणे” टाळते, जिथे मॉडेलने त्याचे पूर्वीचे काही ज्ञान गमावले. पेपरमध्ये दोन विशिष्ट एलएलएम प्रोग्रामवर लक्ष केंद्रित केले आहे जे प्रतिमांमधून प्रतिसाद व्युत्पन्न करतात: ल्लाव आणि क्वेन 2.5-व्हीएल.
हा दृष्टिकोन संपूर्ण मॉडेलचे पुनर्रचना टाळण्यासाठी आणि संगणकीय खर्चामध्ये लक्षणीय वाढ होऊ नये म्हणून एलएलएमच्या केवळ अरुंद भागांना पुन्हा प्रशिक्षण देण्यास संस्थांना प्रोत्साहित करते. संघाचा असा दावा आहे की आपत्तीजनक विसरणे ही मेमरी हानी नाही तर पूर्वाग्रह पूर्वाग्रहाचा दुष्परिणाम आहे.
“नवीन एलएमएमचे प्रशिक्षण कोट्यावधी डॉलर्स, आठवडे आणि शेकडो टन कार्बन डाय ऑक्साईड उत्सर्जित करू शकते, म्हणून विद्यमान मॉडेल अधिक कार्यक्षमतेने आणि प्रभावीपणे अद्यतनित करण्याचे मार्ग शोधणे ही एक महत्त्वाची चिंता आहे,” असे संघाने त्यांच्या अहवालात लिहिले आहे. कागद? “या शोधाद्वारे मार्गदर्शित, आम्ही नियंत्रण रेसिपी एक्सप्लोर करतो जे निष्कर्षांमध्ये बदल कमी करताना शिक्षण टिकवून ठेवतात.”
मॉडेलच्या अंतर्गत निर्णय घेणार्या घटक मल्टीलेयर पर्सेप्ट्रॉन (एमएलपी) वर संशोधकांनी लक्ष केंद्रित केले.
आपत्तीजनक विसरणे
मॉडेलमध्ये आपत्तीजनक विसरण्याच्या उपस्थिती आणि कारणांची तपासणी प्रथम संशोधकांना केली होती.
हे करण्यासाठी, त्यांनी मॉडेल पूर्ण करण्यासाठी लक्ष्यित कार्यांचा एक संच तयार केला. त्यानंतर मॉडेल्सना बारीक-ट्यून केले गेले आणि ते विसरण्यासाठी लक्षणीय अनुकूल आहेत की नाही हे निर्धारित करण्यासाठी मूल्यांकन केले गेले. परंतु ही प्रक्रिया सुरूच राहिली, संशोधकांना असे आढळले की मॉडेल त्यांच्या काही क्षमता परत मिळवत आहेत.
ते म्हणाले, “आम्ही एक आश्चर्यकारक परिणाम देखील पाहिले, जे मोजणीच्या कार्याच्या प्रशिक्षणानंतर बेंचमार्कमध्ये मॉडेलची कामगिरी लक्षणीय प्रमाणात कमी होईल आणि मुख्यतः पाथव्हकामध्ये बरे होईल, हे आणखी एक विशेष कार्य जे बेंचमार्कमध्ये चांगले प्रतिनिधित्व करीत नाही,” ते म्हणाले. “दरम्यान, विस्मयकारक प्रयोग आयोजित करताना, आम्ही स्वत: ची लक्ष वेधण्यासाठी प्रोजेक्शन लेयर्स (एसए प्रोजेक्ट) किंवा एमएलपी थर स्वतंत्रपणे ट्यून करण्याचा प्रयत्न केला, संपूर्ण मॉडेलचे संपूर्ण मॉडेल ट्यूनिंग करण्यापेक्षा केवळ एलएलएम ट्यूनिंग करणे चांगले होते हे शोधून प्रेरित केले-हे केवळ एक चांगले कामकाजाचे कामकाजाचे काम केले गेले नाही. अनुक्रमे लक्ष्य करते. ”
संशोधकांनी असे म्हटले आहे की “अरुंद लक्ष्य कार्यात बारीक-ट्यूनिंग केल्यानंतर विसरणे किंवा हस्तक्षेप करण्यासारखे दिसते ते म्हणजे कार्य वितरणात बदल झाल्यामुळे आउटपुटच्या वितरणामध्ये हा एक पूर्वाग्रह आहे.”
अरुंद प्रशिक्षण
हा शोध प्रयोगाची गुरुकिल्ली ठरला. संशोधकांनी नमूद केले आहे की एमएलपी समायोजित केल्याने “डिजिटल टोकन आउटपुट आणि होल्ड टास्कच्या अचूकतेत लक्षणीय घट होण्याची शक्यता वाढते.” हे दाखवून दिले की त्याचे काही ज्ञान विसरणारे मॉडेल केवळ तात्पुरते आहे आणि दीर्घकालीन मुद्दा नाही.
“आउटपुट वितरणाचा पक्षपात टाळण्यासाठी, आम्ही खालच्या दिशेने प्रोजेक्शन गोठवताना सर्वोच्च/रमणीय एमएलपी अंदाज लावला आणि असे आढळले की ते थोड्या विसरण्याद्वारे पूर्ण एमएलपी ट्यूनिंगमध्ये समान शिक्षण प्राप्त करते,” संशोधकांनी सांगितले.
हे मॉडेलला बारीक करण्यासाठी अधिक सरळ आणि पुनरावृत्ती करण्यायोग्य मार्गास अनुमती देते.
घाऊक प्रशिक्षण घेण्याऐवजी मॉडेलच्या अरुंद स्लाइसवर लक्ष केंद्रित करून, संस्था संगणकीय खर्च कमी करू शकतात. हे आउटपुट स्क्यूच्या चांगल्या नियंत्रणास देखील अनुमती देते.
तथापि, संशोधन केवळ दोन मॉडेल्सवर लक्ष केंद्रित करते, विशेषत: दृष्टी आणि भाषेचा सामना करणारे. संशोधकांनी नमूद केले की मर्यादित स्त्रोतांमुळे ते इतर मॉडेल्ससह प्रयोग करण्याचा प्रयत्न करू शकत नाहीत.
तथापि, त्यांचे निष्कर्ष इतर एमबीए पर्यंत वाढविले जाऊ शकतात, विशेषत: भिन्न पद्धतींसाठी.