उद्योगातील अग्रगण्य कृत्रिम बुद्धिमत्ता कव्हर करण्यासाठी नवीनतम अद्यतने आणि विशेष सामग्री मिळविण्यासाठी दररोज आणि साप्ताहिक वृत्तपत्रांमध्ये सामील व्हा. अधिक जाणून घ्या


ग्राफिक्स प्रोसेसिंग युनिट्स (जीपीयू) आणि एनव्हीडियाने बनविलेले मजबूत बटाटे जे व्हिडिओ गेम्समध्ये ग्राफिक प्रदान करण्यासाठी वापरले जातात, परंतु मोठ्या प्रमाणात भाषेच्या मॉडेल्स आणि प्रचलित मॉडेल्सना प्रशिक्षण देतात.

परंतु एनव्हीडिया हे फक्त डिव्हाइस बनवण्यापेक्षा आणि ते चालविण्याचा प्रोग्राम यापेक्षा बरेच काही नाही. टीआरयूसी कृत्रिम बुद्धिमत्तेच्या युगाचा विचार करून, सांता क्लारा येथे राहणारी कंपनी देखील त्याच्या कृत्रिम बुद्धिमत्तेच्या मॉडेलपेक्षा अधिक आणि अधिकाधिक लाँच करीत होती ज्यापैकी मुक्त स्त्रोत आहेत आणि संशोधक आणि विकसकांसाठी विनामूल्य आहेत, त्यांना डाउनलोड करणे, सुधारित करणे, आणि सर्वात अलिकडील, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी, फाजी आहेत, फाजी, फाजी फाजी, फाजी, फाजी. “एका सेकंदात 60 मिनिटांची ध्वनी कॉपी करा (इमोजी माइंड).

ही एनव्हीडिया मॉडेलची नवीन पिढी आहे ज्याने प्रथम जानेवारी 2024 मध्ये निकाबचे अनावरण केले आणि त्या वर्षाच्या एप्रिलमध्ये पुन्हा पुन्हा अद्यतनित केले गेले, परंतु ही दुसरी आवृत्ती खूपच मजबूत आहे, सध्या ती केवळ 6.05 % (100 च्या बाहेर) (100) च्या तुलनेत मॉडेलची चुकीची कॉपीिंगसह (एएसआर) चेहर्याचा ओपन लीडरबोर्ड ओपन एएसआरचा शीर्ष आहे.

त्यास त्याच्या योग्य दृष्टीकोनातून सांगायचे तर, ते ओपनई जीपीटी -4 ओ ट्रेक्रिब (इंग्रजीमध्ये २.4646 %) आणि एलेनॅब्स लेखक (3.3 %) सारख्या बॅकअप मॉडेल्सकडे जातात.

हे सर्व मुक्तपणे उपलब्ध सीसी-यूब -4-4.0 व्यावसायिक राखताना हे सर्व ऑफर करते, ज्यामुळे व्यावसायिक संस्था आणि स्वतंत्र विकसकांना त्यांच्या सशुल्क विनंत्यांमध्ये भाषण तयार करणे आणि सेवा कॉपी करण्याचा विचार करणे हा एक आकर्षक प्रस्ताव आहे.

मानक कामगिरी आणि स्थायी

मॉडेलमध्ये 600 दशलक्ष शिक्षकांचा समावेश आहे आणि फास्टकॉन्फॉर्मर आणि टीडीटी कोर स्ट्रक्चर्सचे मिश्रण वाढते.

हे फक्त एका सेकंदात एक तासाच्या आवाजाची कॉपी करण्यास सक्षम आहे, जर ती जीपीयूला आवडते अशा एनव्हीडिया डिव्हाइसवर प्ले केली गेली असेल.

कार्यप्रदर्शन मानक आरटीएफएक्स (वास्तविक वेळ घटक) मध्ये 128 बॅच आकारासह 3386.02 पासून मोजले जाते आणि मिठीतील चेहरा ठेवलेल्या सध्याच्या एएसआर निकषांच्या शीर्षस्थानी ठेवला जातो.

प्रकरणे आणि उपलब्धता वापरणे

पॅराकीट-टीडीटी -0.6 बी-व्ही 2 जगभरात 1 मे, 2025 रोजी रिलीज झाले होते आणि संभाषणासाठी सेवा, ध्वनी सहाय्यक, उप-अनुवाद जनरेटर आणि कृत्रिम बुद्धिमत्ता प्लॅटफॉर्म यासारख्या अनुप्रयोग तयार करणे हे विकसक, संशोधक आणि उद्योग संघांचे उद्दीष्ट आहे.

मॉडेल टेक्स्टला विस्तृत भाषण आवश्यकतेसाठी संपूर्ण कॉपी पॅकेज प्रदान करणारे विरामचिन्हे, रेखांकन आणि वेळ -स्तरीय टाइमलाइनचे समर्थन करते.

प्रवेश आणि प्रकाशन

विकसक एनव्हीआयडीआयएकडून नेमो टूल्स ग्रुपचा वापर करून मॉडेल प्रकाशित करू शकतात. तयारी प्रक्रिया पायथन आणि पायटॉर्चशी सुसंगत आहे आणि मॉडेलचा थेट वापर केला जाऊ शकतो किंवा फील्डच्या कार्यांसाठी जप्त केला जाऊ शकतो.

ओपन सोर्स लायसन्स (सीसी -बीवाय -44) व्यावसायिक वापरास देखील अनुमती देते, ज्यामुळे ते उदयोन्मुख कंपन्या आणि संस्थांनाही आकर्षक बनतात.

प्रशिक्षण आणि मॉडेल्स विकास डेटा

पॅराकीट-टीडीटी -0.बी-व्ही 2 ग्रॅनरी डेटा सेट नावाच्या मोठ्या आणि मोठ्या गटामध्ये प्रशिक्षण दिले गेले आहे. यात सुमारे 120,000 तास इंग्रजी ध्वनीचा समावेश आहे आणि यात 10,000 तास उच्च -गुणवत्तेचा डेटा आहे जो मनुष्य हस्तांतरित केला जातो आणि 110,000 तासांच्या खोट्या भाषणात.

स्त्रोत सुप्रसिद्ध डेटा संकलनापासून जसे की लिब्रिस्पेक, मोझिला कम्यूनमध्ये यूट्यूब-कमन्स आणि लिब्रलाइट.

एनव्हीडिया इंटरस्पेच 2025 वर प्रदर्शित केल्यानंतर सर्वसाधारणपणे ग्रॅनरी डेटा संग्रह शोधण्याची योजना आखत आहे.

मूल्यांकन आणि टिकाऊपणा

एएमआय, रीअरकर्स 22, गीगास्पीडे आणि एसपीजीस्पीडसह इंग्रजीतील एकाधिक एएसआर निकषांद्वारे मॉडेलचे मूल्यांकन केले गेले आणि एक मजबूत परिपत्रक कामगिरी दर्शविली. हे विविध ध्वनी परिस्थितीत मजबूत राहते आणि फोन कॉलसारखेच ध्वनी स्वरूपांसह देखील चांगले आहे, सिग्नल दरामध्ये केवळ आवाजात घसरुन घसरण झाली आहे.

सुसंगतता आणि डिव्हाइसची कार्यक्षमता

GPU NVIDIA वातावरणासाठी, ए 100, एच 100, टी 4 आणि व्ही 100 पॅनेल सारख्या उपकरणांसाठी समर्थन, पॅराकेट-टीडीटी -0. बी-व्ही 2 सुधारित केले आहे.

जरी उच्च -एंड ग्राफिक्स प्रोसेसिंग युनिट्सची कार्यक्षमता जास्तीत जास्त वाढली असली तरी, 2 जीबीपेक्षा कमी रॅम असलेल्या सिस्टमवर मॉडेल लोड करणे अद्याप शक्य आहे, ज्यामुळे व्यापक प्रकाशन परिस्थितीस अनुमती मिळते.

नैतिक विचार आणि जबाबदार वापर

एनव्हीआयडीएने नमूद केले आहे की वैयक्तिक डेटा न वापरता आणि जबाबदार कृत्रिम बुद्धिमत्ता फ्रेमवर्कचे पालन न करता मॉडेल विकसित केले गेले.

लोकसंख्याशास्त्रीय पक्षपातीपणा कमी करण्यासाठी कोणतेही विशिष्ट उपाययोजना केले जात नसले तरी मॉडेलने अंतर्गत गुणवत्ता मानके उत्तीर्ण केले आहेत आणि प्रशिक्षण प्रक्रियेवरील तपशीलवार कागदपत्रे, डेटा सेट आणि गोपनीयतेचे पालन समाविष्ट केले आहे.

विशेषत: सोशल मीडियावर सार्वजनिकपणे हायलाइट केल्यानंतर त्यांनी मशीन लर्निंग आणि ओपन सोर्स सोसायट्यांकडे लक्ष वेधले. भाष्यकारांनी पूर्णपणे मुक्त स्त्रोत अस्तित्व आणि व्यावसायिकदृष्ट्या वापरल्या जाणार्‍या एएसआर व्यावसायिक पर्यायांना मागे टाकण्याची मॉडेलची क्षमता लक्षात घेतली.

मॉडेलचा प्रयत्न करण्यास इच्छुक विकसक चेहरा मिठीतून किंवा नेमो नेमो टूल ग्रुपद्वारे त्यात प्रवेश करू शकतात. प्रयोग आणि प्रकाशन सुलभ करण्यासाठी स्थापना सूचना, प्रायोगिक मजकूर कार्यक्रम आणि एकत्रीकरण दिशानिर्देश सहज उपलब्ध आहेत.


Source link