LLM ऍप्लिकेशन्स तयार करताना, संस्थांना त्यांच्या ऍप्लिकेशन्सच्या मॉडेल वर्तनाला ट्यून करण्यासाठी बरेचदा दीर्घ प्रणालीचे दावे तयार करावे लागतात. या सूचनांमध्ये कंपनीचे ज्ञान, प्राधान्ये आणि अनुप्रयोग-विशिष्ट सूचना असतात. एंटरप्राइझ स्तरावर, हे संदर्भ अनुमान विलंब स्वीकार्य मर्यादेच्या पलीकडे ढकलू शकतात आणि प्रति क्वेरी खर्चात नाटकीयरित्या वाढ करू शकतात.

धोरण संदर्भाचे ऊर्ध्वपातन (OPCD), मायक्रोसॉफ्टच्या संशोधकांनी प्रस्तावित केलेले नवीन प्रशिक्षण फ्रेमवर्क, अनुप्रयोग-विशिष्ट ज्ञान आणि प्राधान्ये थेट मॉडेलमध्ये एकत्रित करण्यात मदत करते. OPCD प्रशिक्षणादरम्यान मॉडेलच्या स्वतःच्या प्रतिसादांचा वापर करते, इतर प्रशिक्षण तंत्रातील काही तोटे टाळतात. हे सानुकूल अनुप्रयोगांसाठी त्यांच्या सामान्य क्षमता राखून मॉडेलिंग क्षमता सुधारते.

दीर्घ प्रणालीचे दावे दायित्व का बनतात

संदर्भात शिकणे हे विकासकांना मॉडेलचे मूळ पॅरामीटर्स सुधारित न करता अनुमानाच्या वेळी त्याचे वर्तन अद्यतनित करण्यास अनुमती देते. पॅरामीटर्स अपडेट करणे ही सहसा धीमी आणि महाग प्रक्रिया असते. तथापि, संदर्भाचे ज्ञान क्षणभंगुर आहे. हे ज्ञान मॉडेलसह वेगवेगळ्या संभाषणांमध्ये प्रसारित केले जात नाही, याचा अर्थ असा आहे की तुम्हाला प्रत्येक वेळी मॉडेलला समान सूचना किंवा कागदपत्रे द्यावी लागतील. एंटरप्राइझ ऍप्लिकेशनसाठी, याचा अर्थ राउटरमध्ये कंपनीची पॉलिसी, ग्राहकाची तिकिटे किंवा दाट तांत्रिक मॅन्युअल वारंवार पेस्ट करणे असा होऊ शकतो. हे शेवटी मॉडेलची गती कमी करते, खर्च वाढवते आणि सिस्टमला त्रास देऊ शकते.

व्हेंचरबीटला दिलेल्या टिप्पण्यांमध्ये, पेपरचे सह-लेखक आणि मायक्रोसॉफ्ट रिसर्च एशियाचे संशोधक तियानझू यी म्हणाले, “संस्थांकडून सुरक्षा निर्बंध लागू करण्यासाठी (जसे की द्वेषयुक्त भाषण शोधणे) किंवा डोमेन-विशिष्ट तज्ञ (जसे की वैद्यकीय ज्ञान) प्रदान करण्यासाठी दीर्घ प्रणाली प्रॉम्प्टचा वापर केला जातो. “तथापि, दीर्घ दावे अनुमानाच्या वेळी संगणकीय भार आणि विलंबता लक्षणीयरीत्या वाढवतात.”

संदर्भ डिस्टिलेशनमागील मुख्य कल्पना म्हणजे आपण वारंवार संदर्भामध्ये समाविष्ट केलेली माहिती आत्मसात करण्यासाठी मॉडेलला प्रशिक्षण देणे. इतरांसारखे डिस्टिलेशन तंत्रहे शिक्षक-विद्यार्थी मॉडेलचे अनुसरण करते. शिक्षक हे एआय मॉडेल आहे ज्याला तपशीलवार आणि विपुल प्रॉम्प्ट प्राप्त होते. कारण त्यात सर्व सूचना आणि संदर्भ दस्तऐवजीकरण आहेत, ते अत्यंत वैयक्तिकृत प्रतिसाद व्युत्पन्न करते. विद्यार्थी हा एक प्रशिक्षित मॉडेल आहे जो फक्त मुख्य प्रश्न पाहतो आणि त्याला संपूर्ण संदर्भामध्ये प्रवेश नाही. शिक्षकाच्या प्रतिसादांचे निरीक्षण करणे आणि त्याच्या वर्तनाचे अनुकरण करणे शिकणे हे त्याचे ध्येय आहे.

या प्रशिक्षण प्रक्रियेद्वारे, विद्यार्थी मॉडेल शिक्षक प्रॉम्प्टच्या जटिल सूचना थेट त्याच्या पॅरामीटर्समध्ये प्रभावीपणे संकुचित करते. संस्थेसाठी, मूळ मूल्य अनुमानाच्या वेळी उद्भवते. विद्यार्थी फॉर्मने संदर्भ कॅप्चर केल्यामुळे, तुम्ही पुन्हा लांबलचक सूचना पेस्ट न करता ते तुमच्या ॲपमध्ये प्रकाशित करू शकता. हे मॉडेल लक्षणीयरीत्या वेगवान बनवते आणि खूपच कमी संगणकीय खर्चासह.

तथापि, शास्त्रीय संदर्भ निष्कर्षण “ऑफ-पॉलिसी प्रशिक्षण” नावाच्या सदोष प्रशिक्षण पद्धतीवर अवलंबून असते, जेथे प्रशिक्षण प्रक्रियेपूर्वी गोळा केलेल्या स्थिर डेटा सेटवर मॉडेलला प्रशिक्षण दिले जाते. हे अनेक प्रकारे समस्या सादर करते. प्रशिक्षणादरम्यान, विद्यार्थ्याला फक्त ग्राउंड सत्य डेटा आणि शिक्षकांनी दिलेली उत्तरे समोर येतात, ज्यामुळे Yee ज्याला “विद्यार्थी शिक्षण” म्हणतात. "एक्सपोजर पूर्वाग्रह." उत्पादनामध्ये, त्या उत्तरांमध्ये प्रवेश करण्यासाठी मॉडेलने स्वतःचे कोड अनुक्रम आणले पाहिजेत. कारण त्याला स्वतःचे निर्णय घेण्याचे किंवा प्रशिक्षणादरम्यान झालेल्या चुकांमधून सावरण्याचे प्रशिक्षण दिलेले नसल्यामुळे, स्वतंत्रपणे काम करताना तो सहजपणे रुळावरून घसरतो. हे विद्यार्थ्यांना व्यावसायिक ड्रायव्हरचे व्हिडिओ दाखवण्यासारखे आहे आणि त्यांनी चाचणी आणि त्रुटीशिवाय गाडी चालवण्यास शिकण्याची अपेक्षा करणे आहे.

दुसरी समस्या “फॉरवर्ड” आहे. Kullback-Leibler (KL) विचलन.“मॉडेलला प्रशिक्षित करण्यासाठी वापरण्यात येणारे कमीत कमी उपाय. या पद्धतीनुसार, मॉडेलला त्याची उत्तरे शिक्षकांशी किती समान आहेत यावर आधारित रेट केले जाते, जे प्रोत्साहन देते "परिस्थिती कव्हर करा" वर्तणूक, येई म्हणतो. विद्यार्थी मॉडेल बहुतेक वेळा कमी आकाराचे असते किंवा शिक्षकाकडे असलेल्या समृद्ध संदर्भाचा अभाव असतो, याचा अर्थ शिक्षकाच्या जटिल तर्काची अचूक प्रतिकृती बनवण्याची क्षमता त्यात नसते. कारण विद्यार्थ्याला या सर्व शक्यता कशाही प्रकारे कव्हर करण्याचा प्रयत्न करणे भाग पडते, त्याचे किंवा तिचे मूलभूत अंदाज खूप विस्तृत आणि केंद्रित नसतात.

रिअल-वर्ल्ड ॲप्लिकेशन्समध्ये, यामुळे भ्रम निर्माण होऊ शकतो, जिथे AI गोंधळून जाते आणि आत्मविश्वासाने गोष्टी बनवते कारण ते प्रत्यक्षात नसलेल्या ज्ञानाच्या खोलीचे अनुकरण करण्याचा प्रयत्न करते. याचा अर्थ असा आहे की मॉडेल नवीन कार्यांसाठी चांगले सामान्यीकरण करू शकत नाही.

OPCD शिक्षक-विद्यार्थी समस्येचे निराकरण कसे करते

वयाच्या जुन्या शिक्षक-विद्यार्थी डायनॅमिकसह गंभीर समस्यांचे निराकरण करण्यासाठी, मायक्रोसॉफ्ट संशोधकांनी पॉलिसी कॉन्टेक्स्ट डिस्टिलेशन (OPCD) तंत्र सादर केले. OPCD मधील सर्वात महत्त्वाची बदल म्हणजे विद्यार्थी मॉडेल स्थिर डेटा संच (म्हणूनच त्याला “ऑन पॉलिसी” असे म्हणतात) ऐवजी त्याच्या पिढीच्या मार्गावरून शिकते. शिक्षकाच्या आदर्श आउटपुटच्या डेटा संचाचा निष्क्रीयपणे अभ्यास करण्याऐवजी, विद्यार्थ्याला मोठ्या सूचना न पाहता एक कार्य दिले जाते आणि त्याने स्वतःच उत्तर तयार केले पाहिजे.

जेव्हा एखादा विद्यार्थी त्यांचे उत्तर तयार करतो तेव्हा शिक्षक थेट शिक्षक म्हणून काम करतो. शिक्षकाला पूर्ण, वैयक्तिकृत तत्परतेने आणि विद्यार्थ्यांच्या निकालांचे मूल्यांकन करण्यासाठी प्रवेश असतो. विद्यार्थी पिढीच्या प्रत्येक टप्प्यावर, सिस्टीम विद्यार्थी टोकनच्या वितरणाची तुलना संदर्भ-जागरूक शिक्षक काय करेल याच्याशी करते.

OPCD विद्यार्थ्याचे मूल्यमापन करण्यासाठी “विलोम KL अंतर” वापरते. “व्युत्क्रम KL स्क्यू कमी करून, ते ‘मोड सीकिंग’ वर्तनाला प्रोत्साहन देते. हे विद्यार्थी वितरणाची उच्च संभाव्यता असलेल्या क्षेत्रांवर लक्ष केंद्रित करते,” ये म्हणाले. “शिक्षकांच्या विश्वासाने त्यांना उच्च संभाव्यता दिली असली तरीही विद्यार्थ्याला असंभाव्य मानणारी चिन्हे दडपून टाकतात. हे संरेखन विद्यार्थ्याला त्याच्या चुका दुरुस्त करण्यास आणि मानक ऊर्धपातनचे व्यापक भ्रामक वितरण टाळण्यास मदत करते.”

कारण विद्यार्थी मॉडेल सक्रियपणे निर्णय घेण्याचा सराव करते आणि प्रशिक्षणादरम्यान त्याच्या चुका सुधारण्यास शिकते, ते थेट अनुप्रयोगात तैनात केल्यावर अधिक विश्वासार्हपणे वागते. तो त्याच्या कायमस्वरूपी स्मृतीमध्ये थेट व्यवसायाचे जटिल नियम, सुरक्षितता मर्यादा किंवा विशेष ज्ञान यशस्वीरित्या एकत्रित करतो.

OPCD काय ऑफर करते: बेंचमार्क परिणाम

संशोधकांनी ओपीसीडीची दोन मुख्य भागात चाचणी केली: प्रायोगिक संज्ञानात्मक ऊर्धपातन आणि जलद प्रणाली ऊर्धपातन. अनुभवात्मक ज्ञान प्राप्त करण्यासाठी, संशोधकांना हे पहायचे होते की LLM त्याच्या मागील यशांमधून शिकू शकतो आणि ते धडे कायमस्वरूपी स्वीकारू शकतो. त्यांनी गणितीय तर्क समस्या वापरून वेगवेगळ्या आकारांच्या मॉडेल्सवर याची चाचणी केली.

प्रथम, मॉडेलने समस्यांचे निराकरण केले आणि त्याला त्याच्या यशातून शिकलेले सामान्य नियम लिहिण्यास सांगितले. त्यानंतर, OPCD वापरून, त्यांनी ते लिखित धडे थेट मॉडेल पॅरामीटर्समध्ये दिले. परिणामांवरून असे दिसून आले आहे की यापुढे त्यांच्या दाव्यांमध्ये मिळालेला अनुभव पेस्ट न करता मॉडेल्समध्ये लक्षणीय सुधारणा झाली आहे. जटिल गणिताच्या समस्यांवर, 8 बिलियन पॅरामीटर मॉडेल 75.0% च्या बेसलाइनवरून 80.9% पर्यंत सुधारले आहे. उदाहरणार्थ, नेव्हिगेशन गेम फ्रोझन लेकमध्ये, 1.7 अब्ज पॅरामीटर्ससह लहान मॉडेलचा प्रारंभिक यशाचा दर 6.3% होता. OPCD ला अनुभव मिळाल्यानंतर, त्याची अचूकता 38.3% वर गेली.

प्रयोगांचा दुसरा संच लाँग ऑर्डर प्रॉम्प्टवर होता. व्यावसायिक टोन राखणे, वैद्यकीय अचूकता सुनिश्चित करणे किंवा विषारी भाषा फिल्टर करणे यासारख्या कठोर वर्तणूक मार्गदर्शक तत्त्वांची अंमलबजावणी करण्यासाठी संस्था अनेकदा मोठे नियामक दावे वापरतात. संशोधकांनी चाचणी केली की OPCD हे दाट वर्तणूक नियम कायमस्वरूपी फॉर्ममध्ये एकत्रित करू शकते जेणेकरुन ते प्रत्येक वापरकर्त्याच्या क्वेरीसह पाठवावे लागणार नाहीत. त्यांचे प्रयोग असे दर्शवतात की OPCD या जटिल नियमांना यशस्वीरित्या सामावून घेते आणि कार्यक्षमतेत लक्षणीय वाढ करते. सुरक्षितता आणि विषारीपणाच्या वर्गीकरणासाठी 3-बिलियन पॅरामीटर LAMA मॉडेलसह चाचणी केली असता, मूलभूत मॉडेलने 30.7% गुण मिळवले. सुरक्षितता दावा आत्मसात करण्यासाठी OPCD वापरल्यानंतर, त्याची अचूकता 83.1% पर्यंत वाढली. वैद्यकीय प्रश्नांची उत्तरे देताना, समान मॉडेल 59.4% वरून 76.3% पर्यंत सुधारले.

फाइन-ट्यूनिंग मॉडेल्सच्या मुख्य आव्हानांपैकी एक आहे आपत्तिमय विस्मरणजेथे मॉडेल फाइन-ट्यूनिंग कार्यावर जास्त लक्ष केंद्रित करते आणि सामान्य कार्यांमध्ये वाईट आहे. या बोगद्याच्या दृष्टीची चाचणी घेण्यासाठी संशोधकांनी वितरणाबाहेरील कामगिरीचा मागोवा घेतला. जेव्हा त्यांनी मॉडेलचे कठोर सुरक्षा नियम संकलित केले, तेव्हा त्यांनी ताबडतोब असंबंधित वैद्यकीय प्रश्नांची उत्तरे देण्याची क्षमता तपासली. OPCD ने मॉडेलचे सार्वजनिक वैद्यकीय ज्ञान जतन करण्यात यश मिळविले, जुन्या, धोरणाबाहेरील दृष्टिकोनांना सुमारे 4 टक्के गुणांनी मागे टाकले. तिने तिची व्यापक बुद्धिमत्ता न गमावता स्पेशलायझेशन केले आहे.

कुठे OPCD बसते – आणि कुठे बसत नाही

OPCD हे स्थिर ज्ञान आणि गुंतागुंतीचे नियम आत्मसात करण्यासाठी एक शक्तिशाली साधन असले तरी ते सर्व बाह्य संदर्भ पद्धती बदलत नाही. “आरएजी सर्वोत्तम आहे जेव्हा आवश्यक माहिती अतिशय गतिमान असते किंवा मोठ्या बाह्य डेटाबेसचा समावेश असतो जो वारंवार अद्यतनित केला जातो आणि मॉडेल वजनांमध्ये संकुचित केला जाऊ शकत नाही,” यी म्हणाले.

एंटरप्राइझ संघ त्यांच्या पाइपलाइनचे मूल्यमापन करणाऱ्यासाठी, OPCD प्रमाणनासाठी विद्यमान सिस्टीमची दुरुस्ती किंवा विशेष हार्डवेअरमध्ये गुंतवणूक करण्याची आवश्यकता नाही. “ओपीसीडीला सध्याच्या वर्कफ्लोमध्ये अगदी कमी घर्षणाने समाकलित केले जाऊ शकते,” ये म्हणाले. “आधीपासूनच RLVR (पडताळणी करण्यायोग्य रिवॉर्ड्समधून रीइन्फोर्समेंट लर्निंग) पाइपलाइन चालवणारी कोणतीही टीम मोठे स्थापत्य बदल न करता OPCD स्वीकारू शकते.”

व्यवहारात, विद्यार्थी मॉडेल धोरण मॉडेल म्हणून कार्य करते जे वजाबाकी करते, तर गोठवलेले शिक्षक मॉडेल एक संदर्भ म्हणून काम करते जे रेकॉर्ड प्रदान करते. हार्डवेअर आवश्यकता अत्यंत प्रवेशयोग्य आहेत. येच्या मते, संस्थेचे कार्यसंघ सुमारे आठ A100 GPU वापरून संशोधकांच्या प्रयोगांचे पुनरुत्पादन करू शकतात.

डेटा आवश्यकता त्याचप्रमाणे हलक्या आहेत. अनुभवजन्य ज्ञान प्राप्त करण्यासाठी, सोल्यूशन ट्रेस तयार करण्यासाठी विकसकांना फक्त 30 मूलभूत मॉडेल्सची आवश्यकता असते. हे तंत्र पूर्वी ऑप्टिमाइझ न केलेल्या वातावरणात लागू केल्यामुळे, अगदी थोड्या प्रमाणात डेटाचा परिणाम सर्वाधिक कार्यप्रदर्शन सुधारण्यात होतो. सिस्टमच्या रिअल-टाइम डिस्टिलेशनसाठी, विद्यमान वर्धित प्रॉम्प्ट आणि मानक कार्य डेटासेट पुरेसे आहेत.

संशोधकांनी त्यांचा स्वतःचा अनुप्रयोग तयार केला हरवले,RLVR सूचना आधार मुक्त स्रोत आहे, हे सिद्ध करते की हे तंत्र पारंपारिक मजबुतीकरण शिक्षण फ्रेमवर्कमध्ये चांगले बसते. अंतर्गत पुनरावलोकनांनंतर त्यांचे ॲप मुक्त स्रोत म्हणून रिलीज करण्याची त्यांची योजना आहे.

स्वयं-सुधारणा मॉडेल: पुढे काय येते

भविष्याकडे पाहताना, OPCD स्वयं-सुधारणा मॉडेलसाठी मार्ग मोकळा करते जे सतत सानुकूल एंटरप्राइझ वातावरणाशी जुळवून घेतात. एकदा उपयोजित केल्यावर, मॉडेल वास्तविक-जगातील परस्परसंवादांमधून धडे घेऊ शकते आणि मॉडेल प्रशिक्षकांकडून मॅन्युअल पर्यवेक्षण किंवा डेटा भाष्य न करता हळूहळू ती वैशिष्ट्ये अंतर्भूत करण्यासाठी OPCD चा वापर करू शकते.

“हे मॉडेल सुधारणेमध्ये मूलभूत प्रतिमान बदल दर्शवते: मॉडेलमधील मूलभूत सुधारणा प्रशिक्षणाच्या वेळेपासून चाचणीच्या वेळेपर्यंत हलतील,” यी म्हणाले. “मॉडेल वापरणे – आणि त्याला अनुभव संकलित करण्यास अनुमती देणे – त्याच्या प्रगतीचा प्राथमिक चालक होईल.”

Source link