उद्योगातील अग्रगण्य कृत्रिम बुद्धिमत्ता कव्हर करण्यासाठी नवीनतम अद्यतने आणि विशेष सामग्री मिळविण्यासाठी दररोज आणि साप्ताहिक वृत्तपत्रांमध्ये सामील व्हा. अधिक जाणून घ्या
विचारांच्या मालिकेद्वारे विचार करणे (सीओटी)-ज्या प्रक्रियेसह निर्मिती मॉडेल “कल्पनांना” जतन केल्या जातात ज्या मोठ्या सीमा भाषा मॉडेल्स (एलएलएम) च्या नवीनतम पिढीचा उत्तर-एक अविभाज्य भाग वजा करण्यापूर्वी नियंत्रित केल्या जाऊ शकतात.
तथापि, विचारांच्या मॉडेल्सच्या युक्तिवादाच्या किंमती द्रुतगतीने जमा होऊ शकतात कारण मॉडेल दोलायमान चिन्हे तयार करतात. मध्ये नवीन कागदकार्नेगी मेलॉन युनिव्हर्सिटीचे संशोधक एलएलएम प्रशिक्षण तंत्रज्ञान सुचवतात जे विकसकांना पाळणावर अधिक नियंत्रण देतात.
पॉलिसी -कंट्रोल्ड पॉलिसी (एलसीपीओ) मध्ये सुधारणा आणि मॉडेल तंत्रज्ञानाच्या अटी योग्य उत्तरे देताना योग्य उत्तरे प्रदान करण्यासाठी पूर्व -परिभाषित प्रतीकात्मक अर्थसंकल्पात. प्रयोग दर्शविते की एलसीपीओचे प्रशिक्षित मॉडेल अचूकता आणि किंमतींमध्ये एक गुळगुळीत तुलना प्रदान करतात आणि समान विचारांच्या लांबीपेक्षा सर्वात मोठ्या मॉडेल्सला मागे टाकू शकतात. एलसीपीओ एलएलएमशी संभाषणाच्या प्रत्येक फेरीत हजारो प्रतीकांची बचत करून संस्थांच्या अनुप्रयोगांमधील अनुमानांची किंमत कमी करण्यास लक्षणीय मदत करू शकते.
एलएलएम कामगिरीमुळे वेगवान प्रत्यारोपण होते
ओपनई ओ 1 आणि दीपसीक-आर 1 सारख्या विचारांच्या मॉडेल्सना उत्तर देण्यापूर्वी चाचणी वेळ स्केलिंग वापरण्यासाठी आणि कॉट इफेक्ट तयार करण्यासाठी मजबुतीकरण शिक्षण (आरएल) द्वारे प्रशिक्षण दिले जाते. प्रायोगिक पुरावे सूचित करतात की जेव्हा मॉडेल दीर्घ कालावधीसाठी विचार करतात तेव्हा विचार करण्याच्या कार्यात ते अधिक चांगले काम करतात.
उदाहरणार्थ, आर 1 सुरुवातीला मानवांच्या उदाहरणाशिवाय शुद्ध आरएलवर प्रशिक्षण दिले गेले. त्यातील एक कल्पना अशी होती की मॉडेलच्या कामगिरीच्या सुधारणेसह, त्याने दीर्घ प्रभाव तयार करण्यास देखील शिकले.
सर्वसाधारणपणे, लाँग कॉट चेनमुळे अधिक अचूक प्रतिसाद मिळतात, परंतु ते मोठ्या प्रमाणात विचार करण्याच्या मॉडेल्सच्या अनुप्रयोगात अडथळा निर्माण करतात. चाचणी वेळ खात्याच्या बजेटवर सध्या फारच कमी नियंत्रण आहे आणि अनुक्रम सहज नफा न करता हजारो चिन्हे सहजपणे वाढवू शकतात. विचारांच्या साखळ्यांच्या लांबीवर नियंत्रण ठेवण्यासाठी काही प्रयत्न केले गेले, परंतु सामान्यत: मॉडेलच्या कामगिरीचे विश्लेषण केले.
पॉलिसी नियंत्रित लांबी (एलसीपीओ) स्पष्ट करा
केवळ योग्य प्रतिसाद मिळविण्यासाठी आरएल क्लासिक एलएलएम प्रशिक्षण प्रशिक्षण. एलसीपीओने दोन प्रशिक्षण लक्ष्ये प्रविष्ट करून हे मॉडेल बदलले: 1) योग्य परिणाम मिळवा आणि 2) विशिष्ट चिन्हाच्या लांबीमध्ये मर्यादित कॉट साखळी ठेवा. म्हणूनच, जर मॉडेल योग्य प्रतिसादामुळे परिणाम झाला, परंतु यामुळे बरीच विशिष्ट चिन्हे निर्माण झाल्या तर त्यास दंड मिळेल आणि त्याच उत्तरापर्यंत पोहोचणार्या विचारांच्या मालिकेपर्यंत पोहोचावे लागेल, परंतु लहान प्रतीकात्मक बजेटसह.
संशोधकांनी लिहिले: “एलसीपीओचे प्रशिक्षित मॉडेल्स विचारांच्या कार्यक्षमतेत सुधारणा करताना समाधानकारक लांबीच्या निर्बंधांवर समाधानी आहेत, हँड इंजिनिअरिंगवर अवलंबून राहण्याऐवजी,” संशोधकांनी लिहिले.
ते दोन एलसीपीओची चव सुचवतात: (१) एलसीपीओ समज, ज्यासाठी व्युत्पन्न विचारसरणीला लक्ष्य लांबीच्या पूर्णपणे समान असणे आवश्यक आहे आणि (२) एलसीपीओ-मॅक्स, ज्यास आउटपुट लक्ष्याच्या लांबीपेक्षा लांब असणे आवश्यक आहे.
या तंत्रज्ञानाची चाचणी घेण्यासाठी, संशोधकांनी एल 1-मॅक्स आणि एल 1 मॉडेल तयार करण्याच्या प्रस्तावित एलसीपीओ योजनांवर 1.5 बी थिंकिंग मॉडेल (क्वेन-डेस्लेंटेड-आर 1-1.5 बी) सेट केले. प्रशिक्षण विशिष्ट आणि सत्यापित परिणामांसह गणिताच्या समस्यांवर आधारित होते. तथापि, मूल्यांकनात गणिताच्या समस्या तसेच बाह्य वितरण कार्ये जसे की भव्य एकाधिक कार्यांची भाषा मोजणे (एमएमएलयूतंत्रज्ञान, प्रतिरोधक प्रश्नांचे मानक आणि पदवीधर अभ्यासाच्या पातळीवर उत्तरे (Gpqu).
त्यांचे परिणाम दर्शविते की एल 1 मॉडेल विशिष्ट प्रतीक बजेट आणि विचारांच्या कामगिरीवर आणि लहान, प्रभावी आणि दीर्घ विचारसरणी आणि दीर्घ विचारांमधील गुळगुळीत परस्पर संबंध आणि भिन्न लांबीच्या निर्बंधासह मॉडेलची मागणी करून अधिक अचूक संतुलित करू शकतात. महत्त्वाचे म्हणजे, काही कार्यांमध्ये, एल 1 मॉडेल कमी प्रतीकात्मक बजेटसह मूळ विचारांच्या मॉडेलच्या कामगिरीचे पुनरुत्पादन करू शकतात.
एस 1 च्या तुलनेत – सीओटी मॉडेल्स प्रतिबंधित करण्याचा एकमेव मार्ग – एल 1 मॉडेल वेगवेगळ्या प्रतीकात्मक बजेटवर 150 % पर्यंत कामगिरी नफ्यात दर्शवितात.
“या मोठ्या फरकाचे श्रेय दोन मुख्य घटकांना दिले जाऊ शकते,” संशोधक लिहितात. (१) विचारसरणीच्या मध्यभागी एस 1 बहुतेक वेळा कापला जातो आणि (२) एल 1 वेगवेगळ्या लांबीच्या उच्च -गुणवत्तेच्या विचारांच्या साखळ्यांना तयार करण्यासाठी स्पष्टपणे प्रशिक्षण दिले जाते आणि लांबलचक लांबीच्या विचारसरणीसाठी एल 1 बुद्धिमानपणे लांबीच्या निर्बंधामध्ये बसण्यासाठी त्याच्या पलंगावर बुद्धिमानपणे रुपांतर करते.
एल 1 समान पिढीसह त्याच्या सुसंगत समकक्ष 5 % आणि जीपीटी -4 ओ 2 % ने मागे टाकते. “आमच्या ज्ञानासंदर्भात, 1.5 बी मॉडेल समान लांबीचा वापर करूनही जीपीटी -4 ओ सारख्या सीमा मॉडेल्सला मागे टाकू शकतो असा हा पहिला पुरावा आहे,” संशोधक लिहितात.
विशेष म्हणजे, कॉट कॉट दर्शविते की तो त्याच्या प्रतीकात्मक बजेटच्या आधारे विचार करण्याच्या प्रक्रियेवर नियंत्रण ठेवण्यास शिकतो. उदाहरणार्थ, लांब बजेटवर, मॉडेलमध्ये स्वत: ची रचना आणि सत्यापन (म्हणजे “परंतु” आणि “प्रतीक्षा”) शी संबंधित विशिष्ट चिन्हे तयार करण्याची शक्यता आहे आणि सारांश (“एसओ” आणि “एसओ”) काढा.

मानक गणिताची विचारसरणी तयार करण्याच्या लांबीची लांबी सुधारण्याव्यतिरिक्त, जीपीक्यूए आणि एमएमएलयूसह वितरण कार्यांसाठी आश्चर्यकारकपणे आश्चर्यकारक एल 1 मॉडेल फिरविणे.
मॉडेल्सवरील संशोधनाची ही नवीन ओळ आहे की त्यांचे विचार बजेट वास्तविक जगातील अनुप्रयोगांचे महत्त्वपूर्ण उपयोग समायोजित करू शकते, ज्यामुळे संस्थांना पळून जाण्याशिवाय विचारांच्या मॉडेल्सची व्याप्ती वाढविण्याची क्षमता मिळते. मोठ्या आणि अधिक महागड्या मॉडेल्स प्रकाशित करण्यासाठी हा एक मजबूत पर्याय आहे आणि वास्तविक जगातील अनुप्रयोगांसाठी कृत्रिम बुद्धिमत्ता अधिक आर्थिकदृष्ट्या अनुप्रयोग बनविणे हे एक महत्त्वपूर्ण घटक असू शकते.
संशोधकांनी स्त्रोत उघडले आहेत एलसीपीओ कोड आणि एल 1 मॉडेलसाठी वजन?
Source link