जेव्हा कंपन्या नवीन कार्यांसाठी एलएलएम समायोजित करतात, तेव्हा ते मॉडेलला आधीच माहित असलेल्या सर्व गोष्टी तोडण्याचा धोका पत्करतात. हे कंपन्यांना प्रत्येक कौशल्यासाठी स्वतंत्र मॉडेल ठेवण्यास भाग पाडते.

MIT, इम्प्रोबेबल आर्टिफिशियल इंटेलिजेंस लॅबोरेटरी आणि ETH झुरिच येथील संशोधकांनी एक नवीन तंत्रज्ञान विकसित केले आहे जे मोठ्या प्रमाणातील भाषा मॉडेलना त्यांच्या पूर्वीच्या क्षमतांना न विसरता नवीन कौशल्ये आणि ज्ञान शिकण्यास सक्षम करते.

त्यांची शैली म्हणतात स्वयं-डिस्टिलेशन समायोजित करा (SDFT), आधुनिक LLM च्या अंतर्निहित संदर्भित शिक्षण क्षमतांचा फायदा घेऊन प्रात्यक्षिकांमधून आणि त्यांच्या स्वतःच्या अनुभवांमधून थेट शिकण्याची परवानगी देते. प्रयोग दर्शविते की SDFT सुदृढीकरण शिक्षण अल्गोरिदमच्या मर्यादांना संबोधित करताना पारंपारिक पर्यवेक्षित फाइन-ट्यूनिंग (SFT) ला सातत्याने मागे टाकते.

एंटरप्राइझ ऍप्लिकेशन्ससाठी, ही पद्धत एकल मॉडेलला मागील कार्यांमध्ये कार्यक्षमतेत ऱ्हास न होता कालांतराने अनेक कौशल्ये जमा करण्यास अनुमती देते. हे एआय एजंट तयार करण्यासाठी एक संभाव्य मार्ग प्रदान करते जे डायनॅमिक व्यवसाय वातावरणाशी जुळवून घेऊ शकतात, आवश्यकतेनुसार नवीन ज्ञान आणि कौशल्ये गोळा करू शकतात आणि महागड्या पुनर्प्रशिक्षण अभ्यासक्रमांची आवश्यकता न बाळगता किंवा त्यांची सामान्य तर्क क्षमता गमावू शकतात.

सतत शिकण्याचे आव्हान

एकदा एलएलएम प्रशिक्षित आणि तैनात केले की ते स्थिर राहते. नवीन कौशल्ये आत्मसात करण्यासाठी, नवीन ज्ञान आत्मसात करण्यासाठी किंवा अनुभवानुसार सुधारण्यासाठी ते त्याचे मानक अद्यतनित करत नाही. खरोखर अनुकूल AI तयार करण्यासाठी, उद्योगाने उपाय शोधणे आवश्यक आहे "सतत शिकणे," मानव त्यांच्या संपूर्ण कारकीर्दीत करतात तसे ज्ञान जमा करण्याची प्रणालींना अनुमती देते.

मॉडेल शिकण्याचा सर्वात प्रभावी मार्ग म्हणजे… "पॉलिसी लर्निंग.” या दृष्टिकोनामध्ये, मॉडेल स्वतः तयार केलेल्या डेटावरून शिकते, ज्यामुळे ते स्वतःच्या चुका आणि निष्कर्ष दुरुस्त करू शकतात. हे केवळ स्टॅटिक डेटा सेटचे अनुकरण करून शिकण्याशी विरोधाभास करते. पॉलिसी लर्निंगशिवाय, मॉडेल असुरक्षित असतात "आपत्तिमय विस्मरण," एक घटना ज्यामध्ये नवीन कार्य शिकण्यामुळे मॉडेलचे पूर्वीचे ज्ञान आणि मागील कार्ये करण्याची क्षमता गमावली जाते.

तथापि, सहसा पॉलिसी शिकणे आवश्यक असते मजबुतीकरण शिक्षण (RL), जे मॉडेल आउटपुट स्कोअर करण्यासाठी स्पष्ट रिवॉर्ड फंक्शनवर अवलंबून असते. हे गणित आणि प्रोग्रामिंगसारख्या स्पष्ट परिणामांसह समस्यांसाठी चांगले कार्य करते. परंतु बर्याच वास्तविक-जागतिक एंटरप्राइझ परिस्थितींमध्ये (उदाहरणार्थ, कायदेशीर संक्षिप्त लिहिणे किंवा मीटिंगचा सारांश देणे), गणितीय पुरस्कार कार्य निर्दिष्ट करणे कठीण किंवा अशक्य आहे.

पूर्णपणे नवीन माहिती मॉडेल, जसे की विशिष्ट कंपनीचा प्रोटोकॉल किंवा नवीन उत्पादन लाइन शिकवण्याचा प्रयत्न करताना RL पद्धती देखील अयशस्वी होतात. एमआयटीमधील डॉक्टरेट विद्यार्थी आणि पेपरचे सह-लेखक एडन शेनफिल्ड यांनी व्हेंचरबीटला सांगितले: "बेसिक मॉडेलचा कितीही वेळा प्रयत्न केला तरी, ज्या विषयाची त्याला माहिती नाही अशा विषयाची ती योग्य उत्तरे निर्माण करू शकत नाही," याचा अर्थ त्यांच्याकडून शिकण्यासाठी कधीही सकारात्मक संकेत मिळत नाही.

मानक पर्याय म्हणजे पर्यवेक्षित फाइन-ट्यूनिंग (SFT), जेथे मॉडेलला तज्ञांच्या प्रतिनिधित्वाच्या स्थिर डेटासेटवर प्रशिक्षित केले जाते. जरी SFT जमिनीवर एक स्पष्ट वास्तव प्रदान करते, तरीही ते स्वाभाविकच आहे "राजकारणाच्या बाहेर." कारण मॉडेल स्वतःच्या प्रयत्नातून शिकण्याऐवजी केवळ डेटाचे अनुकरण करते, ते वितरणाच्या बाहेरील उदाहरणांचे सामान्यीकरण करण्यात अयशस्वी ठरते आणि आपत्तीजनक विस्मरणाने गंभीरपणे ग्रस्त होते.

SDFT ही पोकळी भरून काढण्याचा प्रयत्न करते: रिवॉर्ड फंक्शनची आवश्यकता न ठेवता केवळ पूर्व-रेकॉर्ड केलेले डेमो वापरून पॉलिसी लर्निंगचे फायदे सक्षम करणे.

SDFT कसे कार्य करते?

SDFT वापरून ही समस्या सोडवते "ऊर्धपातन," अशी प्रक्रिया ज्यामध्ये विद्यार्थी मॉडेल शिक्षकाचे अनुकरण करण्यास शिकतो. संशोधकांची दृष्टी त्याच्या मॉडेलचा वापर करण्याची होती "संदर्भात शिकणे" (ICL) एका मॉडेलमध्ये फीडबॅक लूप क्षमता निर्माण करणे.

संदर्भात शिकणे ही अशी घटना आहे ज्यामध्ये LLM ला आव्हानात्मक कार्य आणि तत्सम समस्यांचे निराकरण कसे करावे याचे एक किंवा अधिक प्रात्यक्षिके प्रदान केली जातात. बहुतेक प्रगत LLM प्रोग्राम्स कोणत्याही पॅरामीटर अपडेटशिवाय, ICL उदाहरणे वापरून नवीन समस्या सोडवण्यासाठी डिझाइन केलेले आहेत.

प्रशिक्षण चक्रादरम्यान, SDFT मॉडेल दोन भूमिकांमध्ये वापरते.

शिक्षक: मॉडेलची गोठवलेली आवृत्ती तज्ञांनी प्रदान केलेल्या प्रात्यक्षिकांसह क्वेरीद्वारे दिली जाते. ICL वापरून, शिक्षक योग्य उत्तर आणि त्यापर्यंत पोहोचण्यासाठी आवश्यक तर्क तर्क काढतो.

विद्यार्थी: ही आवृत्ती केवळ क्वेरी पाहते आणि उत्तर की उपलब्ध नसलेल्या वास्तविक-जागतिक प्रकाशन परिस्थितीचे अनुकरण करते.

जेव्हा एखादा विद्यार्थी उत्तर तयार करतो, तेव्हा शिक्षक, ज्यांना तज्ञ सादरीकरणांमध्ये प्रवेश असतो, ते अभिप्राय देतात. विद्यार्थी नंतर शिक्षकांच्या वितरणाशी अधिक जवळून जुळण्यासाठी त्याचे पॅरामीटर्स अपडेट करतो.

ही प्रक्रिया SFT आणि RL चे घटक एकत्र करून पॉलिसी लर्निंग लूप प्रभावीपणे तयार करते. पर्यवेक्षण स्थिर डेटा संचातून येत नाही, परंतु मॉडेल आणि त्याचे आउटपुट यांच्या परस्परसंवादातून येते. हे मॉडेलला बाह्य रिवॉर्ड सिग्नलची आवश्यकता नसताना स्वतःचे अनुमान मार्ग दुरुस्त करण्यास अनुमती देते. ही प्रक्रिया नवीन ज्ञानासह देखील कार्य करते ज्याची RL मध्ये कमतरता असू शकते.

SDFT कृतीत आहे

हा दृष्टिकोन प्रमाणित करण्यासाठी, संशोधकांनी ओपन वेटिंग वापरून एसडीएफटीची चाचणी केली राणी मॉडेल 2.5 तीन जटिल एंटरप्राइझ-स्तरीय कौशल्यांमध्ये: वैज्ञानिक प्रश्न आणि उत्तरे, सॉफ्टवेअर साधनांचा वापर आणि क्लिनिकल तर्क.

परिणामांनी दिसले की SDFT नवीन कार्ये मानक पद्धतींपेक्षा अधिक प्रभावीपणे शिकले. विज्ञान प्रश्नोत्तर चाचणीमध्ये, SDFT मॉडेलने मानक SFT दृष्टिकोनासाठी 66.2% च्या तुलनेत 70.2% अचूकता प्राप्त केली.

संस्थात्मक अवलंबित्वासाठी अधिक महत्त्वाचे म्हणजे आपत्तीजनक विसरण्यावर होणारा परिणाम. जेव्हा मानक SFT मॉडेलने वैज्ञानिक कार्य शिकले, तेव्हा सामान्य प्रश्नांची उत्तरे देण्याची त्याची क्षमता (जसे की तर्कशास्त्र किंवा मानवता) कोलमडली. याउलट, एसडीएफटी मॉडेलने विज्ञान कार्यात टिकाव धरून सुधारणा केली "मागील असाइनमेंट" निकाल 64.5% वर स्थिर आहे. या स्थिरतेचा अर्थ असा आहे की कंपन्या मॉडेलच्या मूलभूत सामान्य ज्ञान किंवा तार्किक क्षमतांशी तडजोड न करता विशिष्ट विभागांसाठी (उदाहरणार्थ, एचआर किंवा कायदेशीर) मॉडेल्स सानुकूलित करू शकतात.

कार्यसंघाने एक काल्पनिक डेटासेट तयार करून ज्ञान इंजेक्शनच्या परिस्थितीचे अनुकरण देखील केले "2025 नैसर्गिक आपत्ती" मॉडेलला नवीन तथ्ये शिकवण्यासाठी. त्यांनी अप्रत्यक्ष अनुमान प्रश्नांवर मॉडेलची चाचणी केली, उदा "2025 च्या पुरामुळे, कोणत्या देशांना मानवतावादी मदतीची आवश्यकता आहे?"

SFT मानकाने एक मॉडेल बनवले आहे जे तथ्ये जतन करते परंतु अनुमानांच्या परिस्थितीत त्यांचा वापर करण्यास अडचण येते. SDFT मॉडेलने, प्रशिक्षणादरम्यान तर्कशास्त्र अंतर्भूत केले, त्याच प्रश्नांवर 98% गुण मिळाले.

शेवटी, संशोधकांनी एक अनुक्रमिक शिक्षण प्रयोग केले, मॉडेलला विज्ञान, साधनांचा वापर आणि वैद्यकीय कार्ये यांचे प्रशिक्षण दिले. मानक मॉडेलच्या कार्यक्षमतेत चढ-उतार होत असताना, नवीन शिकताना पूर्वीची कौशल्ये गमावली, SDFT मॉडेलने कमी न होता तिन्ही कौशल्ये यशस्वीरित्या एकत्र केली.

ही क्षमता तुम्ही सध्या व्यवस्थापित करत असलेल्या संस्थांसाठी एक प्रमुख वेदना बिंदू संबोधित करते "मॉडेल प्राणीसंग्रहालय" वेगवेगळ्या कामांसाठी स्वतंत्र अडॅप्टर.

"आम्ही तुमच्या कंपनीच्या सर्व गरजांसाठी फक्त एक मॉडेल राखण्याची क्षमता देऊ करतो," शेनफेल्ड म्हणाले. हे एकीकरण आहे "यामुळे अनुमान खर्चात लक्षणीय घट होऊ शकते" कारण संस्थांना एकाच वेळी अनेक मॉडेल्स होस्ट करण्याची आवश्यकता नाही.

SDFT च्या मर्यादा आणि उपलब्धता

SDFT कोड GitHub वर उपलब्ध आहे आणि तुमच्या विद्यमान मॉडेल प्रशिक्षण वर्कफ्लोमध्ये समाकलित होण्यासाठी तयार आहे.

"एसडीएफटी पाइपलाइन ही आरएल पाइपलाइनसारखीच आहे कारण त्यासाठी प्रशिक्षणादरम्यान ऑनलाइन प्रतिसाद निर्माण करणे आवश्यक आहे;" शेनफेल्ड म्हणाले. नंतरच्या मध्ये SDFT समाकलित करण्यासाठी ते Hugging Face सह काम करत आहेत ट्रान्सफॉर्मर मजबुतीकरण शिक्षण TRL लायब्ररी, त्यांनी जोडले की, एकीकरणाची चाचणी घेऊ इच्छिणाऱ्या विकसकांसाठी पुल विनंती आधीच खुली आहे.

SDFT चा विचार करणाऱ्या संघांसाठी, व्यावहारिक ट्रेड-ऑफ मॉडेल आकार आणि गणनेपुरते मर्यादित आहेत. या तंत्राला त्याचे शिक्षक म्हणून काम करण्यासाठी पुरेसे मजबूत संदर्भ शिक्षण असलेले मॉडेल आवश्यक आहेत — सध्या Qwen 3 सारख्या नवीन आर्किटेक्चरसह सुमारे 4 अब्ज पॅरामीटर्स, शेनफेल्डला अब्ज-पॅरामीटर मॉडेल लवकरच कार्य करतील अशी अपेक्षा आहे. यासाठी मानक फाइन-ट्यूनिंगच्या अंदाजे 2.5 पट गणनेची आवश्यकता आहे, परंतु ज्या संस्थांना कालांतराने एकापेक्षा जास्त कौशल्ये एकत्रित करण्यासाठी एकाच मॉडेलची आवश्यकता असते त्यांच्यासाठी सर्वात योग्य आहे, विशेषत: डोमेनमध्ये जेथे मजबुतीकरण शिक्षणासाठी रिवॉर्ड फंक्शन निर्दिष्ट करणे कठीण किंवा अशक्य आहे.

प्रभावी असूनही, ही पद्धत संगणकीय व्यापार-ऑफसह येते. SDFT हा अंदाजे चारपट धीमा आहे आणि त्याला मानक फाइन-ट्यूनिंगपेक्षा 2.5 पट अधिक संगणकीय शक्ती (FLOPs) आवश्यक आहे कारण मॉडेलने स्वतःची उत्तरे कार्यक्षमतेने तयार केली पाहिजेत ("प्रस्ताव") प्रशिक्षणादरम्यान शिक्षकांशी तुलना करणे. तथापि, संशोधकांनी लक्षात ठेवा की मॉडेल चांगले ज्ञान राखून ठेवत असल्याने, संस्था महागड्या, बहु-टप्प्यावरील पुनर्प्रशिक्षण प्रक्रिया टाळू शकतात ज्या अनेकदा आपत्तीजनक विस्मरणाने ग्रस्त मॉडेलचे निराकरण करण्यासाठी आवश्यक असतात.

हे तंत्र अंतर्निहित मॉडेलच्या संदर्भातील शिकण्याचा फायदा होण्यासाठी पुरेसे मोठे असण्यावर देखील अवलंबून आहे. पेपरमध्ये असे नमूद केले आहे की लहान मॉडेल्स (उदा. 3 अब्ज पॅरामीटर्स) सुरुवातीला संघर्ष करत होते कारण त्यांच्यात कमतरता होती… "बुद्धिमत्ता" स्वतःसाठी शिक्षक म्हणून काम करणे.

तथापि, लहान मॉडेल्सची जलद सुधारणा ही गतिशील बदलत आहे, शेनफेल्ड म्हणाले. "Qwen 2.5 3B मॉडेल खूपच कमकुवत होते, परंतु आम्ही सध्या करत असलेल्या काही प्रयोगांमध्ये आम्हाला आढळले की Qwen 3 4B मॉडेल पुरेसे मजबूत आहे," तो म्हणाला. "मला असे भविष्य दिसत आहे जिथे 1B मॉडेल्समध्ये SDFT ला सपोर्ट करण्यासाठी पुरेशी ICL क्षमता आहे."

शेवटी, स्टॅटिक स्नॅपशॉट्सच्या पलीकडे वापरात सुधारणा करणाऱ्या सिस्टीमकडे जाणे हे ध्येय आहे.

"शेनफेल्ड म्हणाले, “आयुष्यभर शिक्षण, अनस्ट्रक्चर्ड वापरकर्ता परस्परसंवादातून शिक्षण सिग्नल काढण्याच्या क्षमतेसह, असे मॉडेल आणेल जे टिकून राहतील आणि कालांतराने सुधारतील.”

“जगभरातील बहुसंख्य संगणन प्रशिक्षणाऐवजी अनुमानाकडे जाते या वस्तुस्थितीचा विचार करा. आम्हाला आमचे मॉडेल सुधारण्यासाठी त्या संगणनाचा उपयोग करण्याचे मार्ग शोधावे लागतील."

Source link