उद्योगातील अग्रगण्य कृत्रिम बुद्धिमत्ता कव्हर करण्यासाठी नवीनतम अद्यतने आणि विशेष सामग्री मिळविण्यासाठी दररोज आणि साप्ताहिक वृत्तपत्रांमध्ये सामील व्हा. अधिक जाणून घ्या
जरी मेटाने लामा 4 मॉडेल कौटुंबिक प्रश्न आणि टीका वाढविली असली तरी मास्टर एनव्हीडियाने तृतीय कामगिरीपेक्षा उच्च आधारावर लामा -3.1-405 बी-इन्स्ट्रक्ट मॉडेलवर आधारित ओपन सोर्स (एलएलएम) चे एक नवीन नवीन मॉडेल जारी केले आहे. मॉडेल.
लामा -33.1-स्युनोट्रॉन-अल्ट्रट्रा-253 बी-व्ही 1, प्रगत विचार, सूचना आणि एआयच्या वर्कफ्लोला समर्थन देण्यासाठी डिझाइन केलेले 253 अब्ज एक जाड शिक्षक आहे. मार्चमध्ये एनव्हीडिया (जीटीसी) मधील वार्षिक जीपीयू परिषदेत प्रथम याचा उल्लेख केला गेला.
आर्किटेक्चरल आणि नंतरच्या प्रशिक्षणानंतर कामगिरी सुधारण्यावर एनव्हीआयडीएचे सतत लक्ष केंद्रित करते.
काल रात्री, April एप्रिल, २०२25 रोजी ही घोषणा करण्यात आली होती, मॉडेलचे चिन्ह ओपन वेट आणि पोस्ट -ट्रेडिंग डेटासह आलिंगनच्या तोंडावर प्रेक्षकांना उपलब्ध झाले. हे “विचार” आणि “लॉजिक” या दोन्ही अटींमध्ये कार्यक्षमतेने कार्य करण्यासाठी डिझाइन केलेले आहे, ज्यामुळे विकसकांना जटिल उच्च -विचारसरणी कार्ये आणि सिस्टमच्या मागण्यांवर आधारित सर्वात स्पष्ट आउटपुट दरम्यान स्विच करण्याची परवानगी मिळते.
प्रभावी अनुमानासाठी डिझाइन केलेले
लामा -33.1-सूनोट्रॉन-अल्ट्रा-253 बी सुधारित एलएलएम विकासातील मागील एनव्हीडिया कामावर अवलंबून आहे. त्याची रचना – जी चिंताग्रस्त अभियांत्रिकी (एनएएस) च्या शोधातून लागू केली गेली आहे – लक्ष देणे, आकर्षित केलेले चुकीचे नेटवर्क (एफएफएन) आणि व्हेरिएबल एफएफएन प्रेशर गुणोत्तर यासारख्या स्ट्रक्चरल फरकांशी संबंधित आहे.
ही आर्किटेक्चरल दुरुस्ती मेमरी छाप आणि गणिताची आवश्यकता कमी करते आणि आउटपुटच्या गुणवत्तेवर जोरदार परिणाम न करता, एका जीपीयू 8 एक्स एच 100 वर प्रकाशनास अनुमती देते.
एनव्हीडियाच्या मते, डेटा सेंटर वातावरणात प्रकाशित करणे अधिक महाग असताना एक मजबूत कामगिरी प्रदान करणारे एक मॉडेल आहे. अतिरिक्त डिव्हाइस सुसंगततेमध्ये बीएफ 16 आणि एफपी 8 रिझोल्यूशन दोन्ही परिस्थितींमध्ये कॉन्फिगरेशन तपासताना एनव्हीआयडीए बी 100 आणि हॉपरमधील मायक्रो अभियांत्रिकीसाठी समर्थन समाविष्ट आहे.
विचार आणि संरेखनासाठी पोस्ट -ट्रेडिंग
प्रशिक्षणानंतर मल्टी -स्टेज पाइपलाइनद्वारे एनव्हीडियाने फाउंडेशन मॉडेलला मजबूत केले आहे. यामध्ये गणित, कोड निर्मिती, गप्पा मारणे आणि साधनांचा वापर यासारख्या क्षेत्रातील पर्यवेक्षणाच्या अधीन असलेल्या स्थापनेचा समावेश होता, त्यानंतर सूचनांच्या आणि विचारांच्या कामगिरीमध्ये वाढ वाढविण्यासाठी गटाचे संबंधित धोरण (जीआरपीओ) सुधारित करताना मजबुतीकरण शिक्षण दिले जाते.
ज्ञान डिस्टिलेशनच्या स्वरूपात 65 अब्जाहून अधिक चिन्हे आहेत, त्यानंतर 88 अब्ज अतिरिक्त प्रतीकांवर सतत प्री -ट्रेडिंग होते.
प्रशिक्षण डेटा संकलनांमध्ये फिनवेब, बझ-व्ही 1.2 आणि डोल्मा सारख्या स्त्रोतांचा समावेश आहे. पोस्ट -ट्रेडिंग आणि प्रतिसाद सार्वजनिक कंपन्यांच्या पद्धती आणि कृत्रिम पिढीच्या पद्धतींच्या गटातून काढले गेले, ज्यात डेटा ग्रुप्सचा समावेश आहे ज्याने मॉडेलला विचारांच्या परिस्थितीत फरक करण्यास शिकवले.
बर्याच फील्ड्स आणि मानकांमध्ये कामगिरी सुधारणे
जेव्हा मॉडेल सक्षम विचारांच्या पद्धतीमध्ये कार्य करते तेव्हा मूल्यांकन परिणाम लक्षात घेण्याजोग्या नफ्यावर दिसून येतात. उदाहरणार्थ, गणित 500 मानकांवर, कामगिरी मानक मोडमधील 80.40 % वरून 97.00 % पर्यंत वाढली.
त्याचप्रमाणे, एआयएमई 25 मानकांवर परिणाम 16.67 % वरून 72.50 % पर्यंत वाढला आणि कमकुवतपणापेक्षा लाइव्हकोडबीन्चचे परिणाम 29.03 % वरून 66.31 % वर गेले.
बीएफसीएल व्ही 2 आणि जॉब तयार करणे, तसेच सार्वजनिक प्रश्नांची उत्तरे देताना (जीपीक्यूए) टूल -आधारित कार्यांमध्ये देखील कामगिरीचे नफा पाळले गेले, जेथे मॉडेलने विचार मोडमध्ये 76.01 % नोंद केली.
हे निकष 32000 प्रतीकांच्या जास्तीत जास्त अनुक्रम आणि अचूकता सुनिश्चित करण्यासाठी प्रत्येक चाचणीची पुनरावृत्ती 16 वेळा आयोजित केली गेली.
दीपसेक आर 1 च्या तुलनेत, एकूण 671 अब्ज शिक्षक असलेले एमई आधुनिक मॉडेल, लामा -1.१.१-स्युनोट्रॉन-अल्ट्रा -२33 बी पॅरामीटर्स (मॉडेल सेटिंग्ज) -89.45, लिव्हकोडबीनच (66.31 च्या तुलनेत 66.31) च्या अर्ध्यापेक्षा कमी उपस्थिती असूनही स्पर्धात्मक परिणाम दर्शविते.
दरम्यान, काही गणिताच्या पुनरावलोकनांवर, विशेषत: एआयएमई 25 (72.8 विरूद्ध 72.50) आणि किंचित मॅथ 500 कडा (97.3 विरूद्ध 97.00) वर डीपसीक आर 1 चा स्पष्ट फायदा आहे.
हे परिणाम सूचित करतात की ते एक जाड मॉडेल असले तरी, एनव्हीआयडीआयएची ओळख सामने देते किंवा सामान्य शिक्षणाच्या कार्यांविषयी आणि सार्वजनिक सूचनांच्या संरेखनाच्या कार्यांविषयी मीच्या पर्यायांपेक्षा जास्त आहे, तर ते गणितातील जड श्रेणींमध्ये किंचित मागासले आहे.
वापर आणि एकत्रीकरण
मॉडेल लगिंग फेस ट्रान्सफॉर्मर्स लायब्ररी (आवृत्ती 48.4848..3) सह सुसंगत आहे आणि इनपुट सीक्वेन्सचे समर्थन करते आणि 128,000 प्रतीकांपर्यंतच्या आउटपुटला समर्थन देते.
विकसक सिस्टमच्या दाव्यांद्वारे विचार करण्याच्या वर्तनावर नियंत्रण ठेवू शकतात आणि कार्य आवश्यकतांवर आधारित डीकोडिंग रणनीती निर्धारित करू शकतात.
विचारांच्या कार्यांसाठी, एनव्हीडिया तापमान नमुने (0.6) 0.95 च्या मूल्यावर वापरण्याची शिफारस करते. अपरिहार्य आउटपुटसाठी, लोभाचा उलगडा करणे अधिक श्रेयस्कर आहे.
लामा -3.1-सूनोट्रॉन-ऑल्ट्रा -253 बी बहु-भाषेच्या अनुप्रयोगांना समर्थन देते, इंग्रजीमधील क्षमता आणि जर्मन, फ्रेंच, इटालियन, पोर्तुगीज, हिंदी, स्पॅनिश आणि थाई यासह अनेक अतिरिक्त भाषा.
हे चॅटबॉट डेव्हलपमेंट, एआयचे एजंट फंक्शन, प्री -रीकव्हरी जनरेशन (आरएजी) आणि कोड जनरेशन सारख्या सामायिक एलएलएम वापरासाठी देखील योग्य आहे.
व्यावसायिक वापरासाठी परवानाकृत
हे एनव्हीडिया ओपन मॉडेल परवान्याअंतर्गत जारी केले गेले होते, ज्याचा राज्य लामा 1.१ कम्युनिटी लायसन्स कराराद्वारे केला जातो आणि व्यावसायिक वापरासाठी सज्ज आहे.
एनव्हीडियाने एआय जबाबदार विकसित करण्याचे महत्त्व आणि मॉडेलची वैशिष्ट्ये, सुरक्षा आणि विशिष्ट वापरासाठी पूर्वाग्रहांचे मूल्यांकन करण्यासाठी फरक प्रोत्साहित केले.
एनव्हीडियामधील एआय मॉडेल पोस्ट ट्रेनिंगचे संचालक ओलेक्सी कुचाइव यांनी एक्सच्या जाहिरातीमध्ये भाग घेतला आणि असे म्हटले आहे की टीम ओपन आवृत्ती सामायिक करण्यास उत्सुक आहे, त्यास टॉगल/ऑफ लॉजिकच्या संभाव्यतेसह डिझाइन केलेले 253 बीचे जाड मॉडेल आणि वजन आणि मुक्त डेटा जारी करणे.
Source link