Home बातम्या डीपकोडर प्रभावी 14 बी मॉडेलमध्ये अप्पर कोडिंग कार्यक्षमता ऑफर करते

बातम्या

डीपकोडर प्रभावी 14 बी मॉडेलमध्ये अप्पर कोडिंग कार्यक्षमता ऑफर करते

10 एप्रिल 2025

उद्योगातील अग्रगण्य कृत्रिम बुद्धिमत्ता कव्हर करण्यासाठी नवीनतम अद्यतने आणि विशेष सामग्री मिळविण्यासाठी दररोज आणि साप्ताहिक वृत्तपत्रांमध्ये सामील व्हा. अधिक जाणून घ्या

एआय आणि एजंटिका दीपकोडर -14 बी मधील संशोधकांनी एक नवीन कोडिंग मॉडेल जारी केले आहे जे ओपनईच्या ओ 3-मिनी म्हणून अग्रगण्य मालकीच्या मॉडेल्ससारखे प्रभावी कामगिरी प्रदान करते.

डीपसीक-आर 1 च्या शीर्षस्थानी डिझाइन केलेले हे मॉडेल वास्तविक जगाच्या अनुप्रयोगांमध्ये उच्च-कार्यक्षमता चिन्ह आणि विचार करण्याची क्षमता समाकलित करण्यासाठी अधिक लवचिकता प्रदान करते. महत्त्वाचे म्हणजे, फरकाने संपूर्ण मॉडेल, प्रशिक्षण डेटा, चिन्हे, रेकॉर्ड आणि सिस्टम सुधारणे उघडल्या आहेत, जे संशोधकांना त्यांचे कार्य सुधारण्यास आणि प्रगतीस गती देण्यास मदत करू शकतात.

छोट्या पॅकेजमध्ये स्पर्धात्मक कोडिंग क्षमता

संशोधन कार्यसंघाचे अनुभव दर्शविते की डीपकोडर -14 बी लाइव्हकोडबेंच (एलसीबी), कोडफोर्स आणि ह्युमॅनव्हल+यासह अनेक कठीण कोडिंग मानकांद्वारे जोरदारपणे कार्य करते.

“आमचे मॉडेल सर्व कोडिंग मानकांद्वारे एक मजबूत कामगिरी दर्शविते … ओ 3-मिनी (लो) आणि ओ 1 च्या कामगिरीप्रमाणेच,” संशोधक मॉडेलचे वर्णन करणार्‍या ब्लॉग पोस्टवर लिहितात.

विशेष म्हणजे, हे प्रामुख्याने कोडिंग कार्यांचे प्रशिक्षण असूनही, मॉडेल एआयएम 2024 निर्देशांकात 73.8 % सह सुधारित गणितीय विचार दर्शविते, जे त्याच्या मूलभूत मॉडेलमध्ये 1.१ % सुधारित आहे (डीपसीक-आर 1-डिस्टिल-एसडब्ल्यूईएन -14 बी). हे सूचित करते की कोडवरील आरएलद्वारे विकसित केलेली विचारसरणी इतर भागात प्रभावीपणे प्रसारित केली जाऊ शकते.

क्रेडिट: एकत्र कृत्रिम बुद्धिमत्ता

सर्वात आश्चर्यकारक पैलू म्हणजे केवळ 14 अब्जसह कामगिरीची ही पातळी साध्य करणे. हे डीपकोडरला बर्‍याच सीमा मॉडेल्सपेक्षा चालविण्यासाठी खूपच लहान आणि कदाचित अधिक कार्यक्षम करते.

डीपकोडरचे नेतृत्व करणारे नवकल्पना

मॉडेलच्या विकासादरम्यान, संशोधकांनी रनफोर्समेंट लर्निंग (आरएल) वापरून प्रशिक्षण कोडिंग मॉडेलमधील काही मुख्य आव्हाने सोडविली आहेत.

पहिले आव्हान म्हणजे प्रशिक्षण डेटा आयोजित करणे. शिकण्याच्या मजबुतीकरणास विश्वसनीय बक्षीस सिग्नल आवश्यक आहेत की मॉडेलचे आउटपुट योग्य आहे. संशोधकांनी असेही नमूद केले आहे की, “गणिताच्या विपरीत-जेथे उच्च-गुणवत्तेची उच्च-गुणवत्तेची डेटा उपलब्ध आहे, इंटरनेटवर सहजपणे कोडिंग फील्ड या डेटाच्या सापेक्ष कमतरतेमुळे ग्रस्त आहे.”

या समस्येचे निराकरण करण्यासाठी, डीपकोडरने एक कठोर पाइपलाइन लागू केली आहे जी भिन्न डेटा संकलनाची उदाहरणे एकत्रित करते आणि वैधता, जटिलता आणि द्वैतासाठी त्यांना सोडवते. या प्रक्रियेमुळे 24,000 उच्च -गुणवत्तेच्या समस्या उद्भवल्या, प्रभावी आरएल प्रशिक्षणासाठी ठोस आधार प्रदान करतात.

कार्यसंघाने थेट बक्षीस कार्य देखील डिझाइन केले जे केवळ एक सकारात्मक सिग्नल प्रदान करते जर ते विशिष्ट कालावधीत समस्येसाठी नमुने घेतलेल्या सर्व युनिट चाचण्या तयार केल्या गेलेल्या कोड पास केल्या तरच. उच्च -गुणवत्तेच्या प्रशिक्षण उदाहरणांव्यतिरिक्त, मॉडेलच्या निकालांवर लक्ष केंद्रित करणारी बोनस सिस्टम सामान्य चाचण्यांसाठी संरक्षित उत्तरे मुद्रित करणे किंवा मूलभूत समस्या सोडविल्याशिवाय सोपी किनार प्रकरण सुधारण्यासारख्या युक्त्या प्रतिबंधित करते.

मॉडेलचे मूलभूत प्रशिक्षण अल्गोरिदम ग्रुपचे संबंधित धोरण (जीआरपीओ) सुधारण्यावर अवलंबून आहे, जे एक मजबुतीकरण शिक्षण अल्गोरिदम आहे जे दीपसीक-आर 1 मध्ये यशस्वी सिद्ध झाले आहे. तथापि, कार्यसंघाने अल्गोरिदममध्ये अनेक समायोजन केले आहेत जेणेकरून ते अधिक स्थिर बनविण्यासाठी आणि मॉडेलला दीर्घ कालावधीसाठी वाढविण्याच्या प्रशिक्षणात सुधारणा सुरू ठेवण्यास परवानगी दिली आहे.

Grpo+ — GRPO+ DEPCODER-14 क्रेडिट कोसळल्याशिवाय दीर्घ कालावधीत सुरू ठेवण्यात यशस्वी झाले: एकत्रित अ‍ॅम्नेस्टी इंटरनॅशनल

अखेरीस, कार्यसंघाने मॉडेलच्या संदर्भातील विंडोचा वारंवार विस्तार केला आणि प्रथम शॉर्टनिंग सीक्वेन्समध्ये प्रशिक्षण दिले आणि हळूहळू लांबी वाढविली. मॉडेलला शिक्षा होऊ नये म्हणून त्यांनी एक लिक्विडेशन पद्धत देखील विकसित केली जेव्हा त्याने ठोस हक्क सोडवताना संदर्भाच्या मर्यादेपेक्षा जास्त विचार केला.

पुनरावृत्ती संदर्भाचा विस्तार — दीपकोडरला 32 के संदर्भ समस्येचे प्रशिक्षण दिले गेले आहे, परंतु 64 के क्रेडिट सोडविण्यातही व्यवस्थापित केले गेले आहे: एकत्रित अ‍ॅम्नेस्टी इंटरनॅशनल

संशोधकांनी मूलभूत कल्पना स्पष्ट केली आहे: “प्रभावी प्रशिक्षण सक्षम करताना संदर्भात दीर्घ विचारसरणी राखण्यासाठी आम्ही आच्छादित फिल्ट्रेशन एकत्र केले आहे … हे तंत्र प्रशिक्षणादरम्यान कट अनुक्रम लपवते जेणेकरून मॉडेल्सला सध्याच्या संदर्भापेक्षा जास्त अभ्यास केला जाऊ शकत नाही परंतु लांब आउटपुट आउटपुट तयार करण्याची शिक्षा होणार नाही.”

प्रशिक्षण हळूहळू 16 हजार ते 32 के संदर्भातील विंडोवर मर्यादित केले गेले आहे आणि परिणामी मॉडेल देखील 64 किलो पर्यंत आवश्यक असलेल्या समस्यांचे निराकरण करू शकते.

दीर्घ संदर्भात आरएल प्रशिक्षण सुधारणे

आरएलसह मोठ्या मॉडेल्सचे प्रशिक्षण, विशेषत: कोडिंग किंवा जटिल विचार, तीव्र आणि अंकगणित यासारख्या लांब अनुक्रमांची आवश्यकता असलेल्या कार्ये. मुख्य बाटली मान “सॅम्पलिंग” चरण आहे, कारण मॉडेल बॅचमध्ये हजारो प्रतीक तयार करते. प्रतिसादाच्या लांबीच्या विषयांचा अर्थ असा आहे की काही प्रतिसाद इतरांपेक्षा उशीरा संपतात, निष्क्रिय ग्राफिक्सचा उपचार सोडतात आणि संपूर्ण प्रशिक्षण अंगठी कमी करतात.

याला गती देण्यासाठी, व्हर्ल-पाईपलाइन कार्यसंघ, मानवी टिप्पण्या (आरएलएचएफ) मजबूत करण्यासाठी व्हर्ल ओपन सोर्स लर्निंग लायब्ररीचा सुधारित विस्तार. मुख्य नाविन्यपूर्ण, ज्याला ते “एक -टाइम पाइपलाइन” म्हणतात, बाटली कमी करण्यासाठी प्रतिसादाच्या नमुन्यांची अद्यतने आणि फॉर्मचे स्वरूप आणि निष्क्रियतेला गती देण्यासाठी वेळ.

त्यांच्या अनुभवांनी हे सिद्ध केले की मूलभूत अनुप्रयोगांच्या तुलनेत एक -टाइम पाइपलाइन कोडिश आरएल कार्यांसाठी 2 एक्स प्रवेग प्रदान करते. वाजवी कालावधीत (32 एच 100 वर 2.5 आठवडे) डीपकोडरला प्रशिक्षण देण्यासाठी ही सुधारणा खूप महत्वाची होती आणि आता समाज वापरण्यासाठी आणि त्यावर तयार करण्यासाठी वर्ल्ड-पाईपाईन लाइनचा भाग म्हणून स्त्रोतांकडून खुला आहे.

संस्थेचा परिणाम

संशोधकांनी गीथबवर डीपकोडर -14 बीच्या प्रशिक्षण आणि ऑपरेशनच्या सर्व कलाकृती प्रदान केल्या आणि एक सुस्त परवान्याअंतर्गत चेहरा मिठी मारला.

“आमचा डेटा आणि कोड आणि आमच्या प्रशिक्षण रेसिपीसाठीची कृती सामायिक करून, आम्ही समाजाला आपले कार्य पुनरुत्पादित करण्यास आणि प्रत्येकासाठी आरएल प्रशिक्षण उपलब्ध करण्यास सक्षम करतो,” संशोधक लिहितात.

डीपकोडर -14 बी कृत्रिम बुद्धिमत्तेच्या दृश्यात विस्तृत आणि प्रवेगक प्रवृत्तीचे जोरदार वर्णन करते: उच्च-क्षमता-सक्षम मॉडेल्सचा उदय.

संस्थेच्या जगासाठी, ही शिफ्ट अधिक पर्याय आणि प्रगत मॉडेल्समध्ये प्रवेश दर्शवते. हे केवळ प्रगत कामगिरीच नाही, किंवा ज्यांना विशिष्ट अनुप्रयोग प्रोग्रामिंग इंटरफेस फी द्यायची आहे. डीपकोडर सारख्या मॉडेल्स सर्व आकारांच्या संस्था प्रगत कोड आणि विचारांच्या पिढीपासून फायदा घेऊ शकतात, त्यांच्या विशिष्ट गरजा पूर्ण करतात आणि त्यांच्या वातावरणात त्यांना सुरक्षितपणे पसरवू शकतात.

ओपन सोर्स सहकार्याद्वारे प्रगती केल्यामुळे कृत्रिम बुद्धिमत्ता स्वीकारण्यासाठी आणि अधिक स्पर्धात्मक आणि नाविन्यपूर्ण पर्यावरणीय प्रणाली वाढविण्यासाठी या प्रवृत्तीमुळे प्रवेश अडथळा कमी होऊ शकतो.

दररोज व्हीबी सह व्यवसायाच्या वापराच्या प्रकरणांबद्दल दैनंदिन दृष्टी

आपण कामावर आपल्या बॉसला पटवून देऊ इच्छित असल्यास, आपण दररोज व्हीबी कव्हर केले आहे. संघटनात्मक परिवर्तनांपासून ते व्यावहारिक प्रकाशन ऑपरेशनपर्यंत कंपन्या प्रसूतीच्या कृत्रिम बुद्धिमत्तेसह कंपन्या काय करतात याविषयी आम्ही आपल्याला अंतर्गत पत्रकारितेचे प्राधान्य देतो, जेणेकरून आपण गुंतवणूकीवर जास्तीत जास्त परतावा दर्शवू शकता.

आमचे गोपनीयता धोरण वाचा

सदस्यता घेतल्याबद्दल धन्यवाद. येथे अधिक व्हीबी वृत्तपत्रे तपासा.

एक त्रुटी आली.

Source link

डीपकोडर प्रभावी 14 बी मॉडेलमध्ये अप्पर कोडिंग कार्यक्षमता ऑफर करते

छोट्या पॅकेजमध्ये स्पर्धात्मक कोडिंग क्षमता

डीपकोडरचे नेतृत्व करणारे नवकल्पना

दीर्घ संदर्भात आरएल प्रशिक्षण सुधारणे

संस्थेचा परिणाम

नवीनतम बातम्या

मिनाब शाळेतील प्राणघातक बॉम्बस्फोटासाठी अमेरिका जबाबदार नसल्याच्या ट्रम्प यांच्या दाव्याचे व्हिडिओ...

केनेथ वॉकर तिसरा: कॅन्सस सिटी चीफ्स सुपर बाउल एमव्हीपीवर स्वाक्षरी करण्यास...

24 वर्षीय शाहजेब भाटीने खेळ सोडला, भ्रष्टाचाराचा आरोप: ‘मी पाकिस्तान क्रिकेट...

Gonzaga’s Ike, Few हे सीझननंतरच्या ऑनर रोलसाठी आमच्या निवडींमध्ये आघाडीवर आहेत

जॉर्जियाच्या शाळेतील शिक्षकाने चुकीच्या प्रँकमध्ये विद्यार्थ्यांना मारले

$120 दशलक्ष करारामध्ये कॅरोलिना पँथर्समध्ये सामील होण्यासाठी निघालेल्या जयलेन फिलिप्सने फिलाडेल्फिया...

स्मार्ट लेगो ब्लॉक्स शेल्फ्स मारत आहेत. तुमचे कसे मिळवायचे ते येथे...

WBC अहवाल: ऑस्ट्रेलियाला हरवून दक्षिण कोरियाने जपानसोबत उपांत्यपूर्व फेरीत प्रवेश केला

दिवंगत ‘घोस्टबस्टर’ अभिनेत्री जेनिफर रुनियोनचे कर्करोगाशी 6 महिन्यांच्या लढाईनंतर निधन झाले.

सॅन कार्लोस हॉटेलच्या एका प्रख्यात मालकावर त्याच्या घरी चाकूहल्ला करण्यात आला...

अमेरिकेच्या नेतृत्वाखालील संघर्षाने इंधनाच्या किमती विक्रमी उंचावल्या जातील या भीतीने इराण...

शास्त्रज्ञांनी 1,000 टिंडर प्रोफाइलचे विश्लेषण केले – एक फोटो प्रकार सर्वात...

श्रेणी