उद्योगातील अग्रगण्य कृत्रिम बुद्धिमत्ता कव्हर करण्यासाठी नवीनतम अद्यतने आणि विशेष सामग्री मिळविण्यासाठी दररोज आणि साप्ताहिक वृत्तपत्रांमध्ये सामील व्हा. अधिक जाणून घ्या
एआय आणि एजंटिका दीपकोडर -14 बी मधील संशोधकांनी एक नवीन कोडिंग मॉडेल जारी केले आहे जे ओपनईच्या ओ 3-मिनी म्हणून अग्रगण्य मालकीच्या मॉडेल्ससारखे प्रभावी कामगिरी प्रदान करते.
डीपसीक-आर 1 च्या शीर्षस्थानी डिझाइन केलेले हे मॉडेल वास्तविक जगाच्या अनुप्रयोगांमध्ये उच्च-कार्यक्षमता चिन्ह आणि विचार करण्याची क्षमता समाकलित करण्यासाठी अधिक लवचिकता प्रदान करते. महत्त्वाचे म्हणजे, फरकाने संपूर्ण मॉडेल, प्रशिक्षण डेटा, चिन्हे, रेकॉर्ड आणि सिस्टम सुधारणे उघडल्या आहेत, जे संशोधकांना त्यांचे कार्य सुधारण्यास आणि प्रगतीस गती देण्यास मदत करू शकतात.
छोट्या पॅकेजमध्ये स्पर्धात्मक कोडिंग क्षमता
संशोधन कार्यसंघाचे अनुभव दर्शविते की डीपकोडर -14 बी लाइव्हकोडबेंच (एलसीबी), कोडफोर्स आणि ह्युमॅनव्हल+यासह अनेक कठीण कोडिंग मानकांद्वारे जोरदारपणे कार्य करते.
“आमचे मॉडेल सर्व कोडिंग मानकांद्वारे एक मजबूत कामगिरी दर्शविते … ओ 3-मिनी (लो) आणि ओ 1 च्या कामगिरीप्रमाणेच,” संशोधक मॉडेलचे वर्णन करणार्या ब्लॉग पोस्टवर लिहितात.
विशेष म्हणजे, हे प्रामुख्याने कोडिंग कार्यांचे प्रशिक्षण असूनही, मॉडेल एआयएम 2024 निर्देशांकात 73.8 % सह सुधारित गणितीय विचार दर्शविते, जे त्याच्या मूलभूत मॉडेलमध्ये 1.१ % सुधारित आहे (डीपसीक-आर 1-डिस्टिल-एसडब्ल्यूईएन -14 बी). हे सूचित करते की कोडवरील आरएलद्वारे विकसित केलेली विचारसरणी इतर भागात प्रभावीपणे प्रसारित केली जाऊ शकते.
सर्वात आश्चर्यकारक पैलू म्हणजे केवळ 14 अब्जसह कामगिरीची ही पातळी साध्य करणे. हे डीपकोडरला बर्याच सीमा मॉडेल्सपेक्षा चालविण्यासाठी खूपच लहान आणि कदाचित अधिक कार्यक्षम करते.
डीपकोडरचे नेतृत्व करणारे नवकल्पना
मॉडेलच्या विकासादरम्यान, संशोधकांनी रनफोर्समेंट लर्निंग (आरएल) वापरून प्रशिक्षण कोडिंग मॉडेलमधील काही मुख्य आव्हाने सोडविली आहेत.
पहिले आव्हान म्हणजे प्रशिक्षण डेटा आयोजित करणे. शिकण्याच्या मजबुतीकरणास विश्वसनीय बक्षीस सिग्नल आवश्यक आहेत की मॉडेलचे आउटपुट योग्य आहे. संशोधकांनी असेही नमूद केले आहे की, “गणिताच्या विपरीत-जेथे उच्च-गुणवत्तेची उच्च-गुणवत्तेची डेटा उपलब्ध आहे, इंटरनेटवर सहजपणे कोडिंग फील्ड या डेटाच्या सापेक्ष कमतरतेमुळे ग्रस्त आहे.”
या समस्येचे निराकरण करण्यासाठी, डीपकोडरने एक कठोर पाइपलाइन लागू केली आहे जी भिन्न डेटा संकलनाची उदाहरणे एकत्रित करते आणि वैधता, जटिलता आणि द्वैतासाठी त्यांना सोडवते. या प्रक्रियेमुळे 24,000 उच्च -गुणवत्तेच्या समस्या उद्भवल्या, प्रभावी आरएल प्रशिक्षणासाठी ठोस आधार प्रदान करतात.
कार्यसंघाने थेट बक्षीस कार्य देखील डिझाइन केले जे केवळ एक सकारात्मक सिग्नल प्रदान करते जर ते विशिष्ट कालावधीत समस्येसाठी नमुने घेतलेल्या सर्व युनिट चाचण्या तयार केल्या गेलेल्या कोड पास केल्या तरच. उच्च -गुणवत्तेच्या प्रशिक्षण उदाहरणांव्यतिरिक्त, मॉडेलच्या निकालांवर लक्ष केंद्रित करणारी बोनस सिस्टम सामान्य चाचण्यांसाठी संरक्षित उत्तरे मुद्रित करणे किंवा मूलभूत समस्या सोडविल्याशिवाय सोपी किनार प्रकरण सुधारण्यासारख्या युक्त्या प्रतिबंधित करते.
मॉडेलचे मूलभूत प्रशिक्षण अल्गोरिदम ग्रुपचे संबंधित धोरण (जीआरपीओ) सुधारण्यावर अवलंबून आहे, जे एक मजबुतीकरण शिक्षण अल्गोरिदम आहे जे दीपसीक-आर 1 मध्ये यशस्वी सिद्ध झाले आहे. तथापि, कार्यसंघाने अल्गोरिदममध्ये अनेक समायोजन केले आहेत जेणेकरून ते अधिक स्थिर बनविण्यासाठी आणि मॉडेलला दीर्घ कालावधीसाठी वाढविण्याच्या प्रशिक्षणात सुधारणा सुरू ठेवण्यास परवानगी दिली आहे.

अखेरीस, कार्यसंघाने मॉडेलच्या संदर्भातील विंडोचा वारंवार विस्तार केला आणि प्रथम शॉर्टनिंग सीक्वेन्समध्ये प्रशिक्षण दिले आणि हळूहळू लांबी वाढविली. मॉडेलला शिक्षा होऊ नये म्हणून त्यांनी एक लिक्विडेशन पद्धत देखील विकसित केली जेव्हा त्याने ठोस हक्क सोडवताना संदर्भाच्या मर्यादेपेक्षा जास्त विचार केला.

संशोधकांनी मूलभूत कल्पना स्पष्ट केली आहे: “प्रभावी प्रशिक्षण सक्षम करताना संदर्भात दीर्घ विचारसरणी राखण्यासाठी आम्ही आच्छादित फिल्ट्रेशन एकत्र केले आहे … हे तंत्र प्रशिक्षणादरम्यान कट अनुक्रम लपवते जेणेकरून मॉडेल्सला सध्याच्या संदर्भापेक्षा जास्त अभ्यास केला जाऊ शकत नाही परंतु लांब आउटपुट आउटपुट तयार करण्याची शिक्षा होणार नाही.”
प्रशिक्षण हळूहळू 16 हजार ते 32 के संदर्भातील विंडोवर मर्यादित केले गेले आहे आणि परिणामी मॉडेल देखील 64 किलो पर्यंत आवश्यक असलेल्या समस्यांचे निराकरण करू शकते.
दीर्घ संदर्भात आरएल प्रशिक्षण सुधारणे
आरएलसह मोठ्या मॉडेल्सचे प्रशिक्षण, विशेषत: कोडिंग किंवा जटिल विचार, तीव्र आणि अंकगणित यासारख्या लांब अनुक्रमांची आवश्यकता असलेल्या कार्ये. मुख्य बाटली मान “सॅम्पलिंग” चरण आहे, कारण मॉडेल बॅचमध्ये हजारो प्रतीक तयार करते. प्रतिसादाच्या लांबीच्या विषयांचा अर्थ असा आहे की काही प्रतिसाद इतरांपेक्षा उशीरा संपतात, निष्क्रिय ग्राफिक्सचा उपचार सोडतात आणि संपूर्ण प्रशिक्षण अंगठी कमी करतात.
याला गती देण्यासाठी, व्हर्ल-पाईपलाइन कार्यसंघ, मानवी टिप्पण्या (आरएलएचएफ) मजबूत करण्यासाठी व्हर्ल ओपन सोर्स लर्निंग लायब्ररीचा सुधारित विस्तार. मुख्य नाविन्यपूर्ण, ज्याला ते “एक -टाइम पाइपलाइन” म्हणतात, बाटली कमी करण्यासाठी प्रतिसादाच्या नमुन्यांची अद्यतने आणि फॉर्मचे स्वरूप आणि निष्क्रियतेला गती देण्यासाठी वेळ.

त्यांच्या अनुभवांनी हे सिद्ध केले की मूलभूत अनुप्रयोगांच्या तुलनेत एक -टाइम पाइपलाइन कोडिश आरएल कार्यांसाठी 2 एक्स प्रवेग प्रदान करते. वाजवी कालावधीत (32 एच 100 वर 2.5 आठवडे) डीपकोडरला प्रशिक्षण देण्यासाठी ही सुधारणा खूप महत्वाची होती आणि आता समाज वापरण्यासाठी आणि त्यावर तयार करण्यासाठी वर्ल्ड-पाईपाईन लाइनचा भाग म्हणून स्त्रोतांकडून खुला आहे.
संस्थेचा परिणाम
संशोधकांनी गीथबवर डीपकोडर -14 बीच्या प्रशिक्षण आणि ऑपरेशनच्या सर्व कलाकृती प्रदान केल्या आणि एक सुस्त परवान्याअंतर्गत चेहरा मिठी मारला.
“आमचा डेटा आणि कोड आणि आमच्या प्रशिक्षण रेसिपीसाठीची कृती सामायिक करून, आम्ही समाजाला आपले कार्य पुनरुत्पादित करण्यास आणि प्रत्येकासाठी आरएल प्रशिक्षण उपलब्ध करण्यास सक्षम करतो,” संशोधक लिहितात.
डीपकोडर -14 बी कृत्रिम बुद्धिमत्तेच्या दृश्यात विस्तृत आणि प्रवेगक प्रवृत्तीचे जोरदार वर्णन करते: उच्च-क्षमता-सक्षम मॉडेल्सचा उदय.
संस्थेच्या जगासाठी, ही शिफ्ट अधिक पर्याय आणि प्रगत मॉडेल्समध्ये प्रवेश दर्शवते. हे केवळ प्रगत कामगिरीच नाही, किंवा ज्यांना विशिष्ट अनुप्रयोग प्रोग्रामिंग इंटरफेस फी द्यायची आहे. डीपकोडर सारख्या मॉडेल्स सर्व आकारांच्या संस्था प्रगत कोड आणि विचारांच्या पिढीपासून फायदा घेऊ शकतात, त्यांच्या विशिष्ट गरजा पूर्ण करतात आणि त्यांच्या वातावरणात त्यांना सुरक्षितपणे पसरवू शकतात.
ओपन सोर्स सहकार्याद्वारे प्रगती केल्यामुळे कृत्रिम बुद्धिमत्ता स्वीकारण्यासाठी आणि अधिक स्पर्धात्मक आणि नाविन्यपूर्ण पर्यावरणीय प्रणाली वाढविण्यासाठी या प्रवृत्तीमुळे प्रवेश अडथळा कमी होऊ शकतो.
Source link
















