उद्योगातील अग्रगण्य कृत्रिम बुद्धिमत्ता कव्हर करण्यासाठी नवीनतम अद्यतने आणि विशेष सामग्री मिळविण्यासाठी दररोज आणि साप्ताहिक वृत्तपत्रांमध्ये सामील व्हा. अधिक जाणून घ्या


एनआरए लॅब डीआयए नावाच्या दोन लोकांची एक उदयोन्मुख कंपनी, टीटीएस एअरलाइन्सच्या १.6 अब्ज (टीटीएस) च्या एका चरणात एक मजकूर मॉडेल आहे जो थेट मजकूर दाव्यांमधून नैसर्गिक संवाद तयार करण्यासाठी डिझाइन केलेला आहे-जो निर्मात्यांपैकी एक असा दावा करतो की तो रॉयल ऑफरच्या कामगिरीपेक्षा जास्त आहे.

हे ओपनई पासून जीपीटी -4 ओ-मिनी-टीटीएस शोषण्यास देखील धोका देऊ शकते.

“एलेनलॅब्सपेक्षा जास्त असताना नोटबुकएलएम वैशिष्ट्य आणि गुणवत्तेत तीळ फॉर्म,” नारी आणि डीआयए मधील एक टोबी किम.

एका वेगळ्या प्रकाशनात किमने असे निदर्शनास आणून दिले की हे मॉडेल “शून्य वित्तपुरवठा” सह डिझाइन केले गेले होते आणि या विषयावर ते जोडले गेले होते: “… आम्ही सुरुवातीपासूनच कृत्रिम बुद्धिमत्तेचे तज्ञ नव्हतो. गेल्या वर्षी रिलीज झाल्यावर जेव्हा आम्ही नोटबुकएलएम पॉडकास्ट वैशिष्ट्याच्या प्रेमात पडलो तेव्हा सर्व काही सुरू झाले. आम्हाला आवाजांवर अधिक नियंत्रण हवे होते.

Google क्लाऊड रिसर्चद्वारे डीआयए प्रशिक्षण देण्यासाठी किमने त्याला आणि टॉपस प्रोसेसिंग युनिट चिप्स (टीपीयू) पर्यंत पोहोचण्यासाठी अधिक Google ला अधिक गूगल बनविले.

डाय आयकॉन आणि ओझान अटी – इंटिरियर मॉडेल्स कम्युनिकेशन ग्रुप – आता घरगुती डाउनलोडसाठी उपलब्ध आहे आणि चेहरा किंवा गीथबला मिठी मारण्यापासून कोणालाही प्रकाशित करणे. वैयक्तिक वापरकर्ते चेहर्यावरील जागेवर आलिंगन देण्यावर भाषण तयार करण्याचा प्रयत्न करू शकतात.

प्रगत नियंत्रण आणि अधिक सानुकूलित वैशिष्ट्ये

डीआयए भावनिक टोन, हेडफोनची चिन्हे आणि नॉन -वेर्बल व्होकल सिग्नल यासारख्या अचूक वैशिष्ट्यांचे समर्थन करते – हे सर्व सामान्य मजकूरातून.

वापरकर्ते (एस 1) आणि (एस 2) सारख्या चिन्हे असलेले स्पीकर्स चिन्हांकित करू शकतात आणि नॉन -प्रॉपरल वर्तनसह परिणामी संवाद समृद्ध करण्यासाठी (हशा), (खोकला) किंवा (घसा पुसून) सारख्या सिग्नलचा समावेश करू शकतात.

कंपनीच्या उदाहरणाच्या पृष्ठानुसार ही चिन्हे पिढीद्वारे डीआयएद्वारे योग्यरित्या स्पष्ट केल्या आहेत – अशी एक गोष्ट आहे जी कंपनीच्या उदाहरणांच्या पृष्ठानुसार इतर उपलब्ध मॉडेल्सद्वारे विश्वासार्हपणे समर्थन देत नाही.

हे मॉडेल सध्या फक्त इंग्रजीमध्ये आहे आणि कोणत्याही एका स्पीकरच्या आवाजाशी संबंधित नाही, जे प्रत्येक प्रक्रियेसाठी भिन्न ध्वनी तयार करते जोपर्यंत वापरकर्त्यांनी पिढीच्या बीजापर्यंत पोहोचत नाही किंवा ध्वनी दावा सादर केला नाही. व्हॉईस रुपांतर, किंवा ऑडिओ क्लोनिंग वापरकर्त्यांना क्लिप नमुना डाउनलोड करून भाषण आणि अर्ध -आउंडचे स्वर निर्देशित करण्यास अनुमती देते.

नारी लॅब या प्रक्रियेस सुलभ करण्यासाठी एक उदाहरण आणि पदवीधरांसाठी विद्यमान स्पष्टीकरण प्रदान करते जेणेकरून वापरकर्ते तयार न करता प्रयत्न करू शकतील.

अकरा आणि तीळ तुलनेत

नारी त्याच्या वेबसाइटवर डीआयएने तयार केलेल्या ऑडिओ फाइल्सची श्रेणी ऑफर करते आणि मजकूरातील त्यांच्या मुख्य प्रतिस्पर्ध्यांच्या तुलनेत, विशेषत: सेफेनलाब स्टुडिओ आणि तीळ सीएसएम -1 बी, जे या वर्षाच्या सुरुवातीच्या काळात प्रदर्शित झालेल्या ऑक्युलस व्हीआर सह-कॉन्टोर ब्रेंडन इरिपच्या नवीन योजनांचे नंतरचे आहे.

उदाहरणांमध्ये शेजारी शेजारी समाविष्ट आहे, नारी लॅबने अनेक भागात डीआयएने स्पर्धा कशी ओलांडली हे सामायिक केले:

मानक परिस्थितींमध्ये, डीआयए नैसर्गिक वेळ आणि नॉन -शाब्दिक अभिव्यक्ती अधिक चांगले निर्देशित करते. उदाहरणार्थ, मजकूर प्रोग्राममध्ये जो (हसतो) समाप्त होतो, तो डीआयए आणि प्रत्यक्षात हसतो, तर एनीव्हनलाब आणि तीळ “हाहा” सारख्या बाह्यपक्षाच्या बाहेर पडतो.

उदाहरणार्थ, आपण डाय आहात …

… आणि समान वाक्य जे इलेनलाब स्टुडिओ बोलतात

भावनिक श्रेणीसह एकाधिक संभाषणांमध्ये, डीआयए सर्वात गुळगुळीत परिवर्तन आणि टोन शिफ्ट दर्शवितो. एका चाचणीमध्ये नाट्यमय, भावनिक, नाट्यमय देखावा समाविष्ट होता. डीआयएने निकड आणि तणाव प्रभावीपणे केला आहे, तर प्रतिस्पर्धी मॉडेल्स बहुतेक वेळा जन्म किंवा गमावलेली गती सपाट करतात.

डीआयए हा खोकला, वास आणि हसणे समाविष्ट असलेल्या कॉमिक एक्सचेंज सारख्या नॉन -शाब्दिक ग्रंथांचा अनन्यपणे व्यवहार करतो. स्पर्धात्मक मॉडेल ही चिन्हे ओळखण्यात किंवा वगळण्यात अयशस्वी झाली आहेत.

जरी रॅप शब्दांसारख्या लयबद्ध जटिल सामग्रीसह, डीआयएने द्रव भाषण तयार केले, जे वेगवान कामगिरी करते. हे अकरा तीळ 1 बी मधील अधिक नीरस किंवा तुटलेल्या आउटपुटसह भिन्न आहे.

ध्वनी हक्कांचा वापर करून, डीआयए हेडफोन ध्वनी शैली नवीन ओळीपर्यंत वाढवू किंवा अनुसरण करू शकते. बियाणे म्हणून संभाषण क्लिप वापरण्याचे एक उदाहरण जे डीआयएने उर्वरित मजकूर संवादाद्वारे नमुन्यातून ध्वनी वैशिष्ट्ये कशी चालविली हे स्पष्ट करते. हे वैशिष्ट्य इतर मॉडेल्समध्ये जोरदार समर्थित नाही.

चाचण्यांच्या एका संचामध्ये, नारी लॅबने निदर्शनास आणून दिले की तीळच्या तीळ वेबसाइटसाठी सर्वोत्कृष्ट ऑफरने 1 बी चेकपॉईंटऐवजी मॉडेलची अंतर्गत आवृत्ती वापरली आहे, ज्यामुळे घोषित आणि प्रभावी कामगिरीमधील अंतर होते.

मॉडेलचे आगमन आणि तांत्रिक वैशिष्ट्ये

डेविल्स नारी लॅब गीथब वेअरहाऊस आणि फेस मॉडेल पृष्ठास मिठी मारून डीआयए पर्यंत पोहोचू शकतात.

मॉडेल पायटॉर्च 2.0+ आणि सीयूडीए 12.6 वर कार्य करते आणि सुमारे 10 जीबी व्हीआरएएम आवश्यक आहे.

फाउंडेशनच्या ग्राफिक्स प्रोसेसिंग युनिट्सवरील अनुमान जसे की एनव्हीडिया ए 4000 प्रति सेकंद सुमारे 40 कोड प्रदान करते.

जीपीयूवर केवळ सध्याची आवृत्ती चालविली जात आहे, तर एनआरएमध्ये प्रवेश सुधारण्यासाठी सीपीयू समर्थन आणि परिमाणात्मक आवृत्ती प्रदान करण्याची योजना आहे.

प्रारंभ प्रारंभ करणे पायथन लायब्ररी आणि अधिक प्रकाशनासाठी सीएलआय साधन देते.

डीआयए लवचिकता सामग्री निर्मितीपासून सहाय्यक तंत्रज्ञान आणि कृत्रिम ऑडिओ टिप्पण्यांपर्यंत वापर प्रकरणे उघडते.

एनएआरए लॅब देखील एक डीआयए ग्राहक आवृत्ती विकसित करीत आहेत ज्याचा हेतू असामान्य वापरकर्त्यांकडे आहे जे तयार केलेले संभाषणे री -मिक्स किंवा सामायिक करतात. स्वारस्य असलेले वापरकर्ते लवकर प्रवेशासाठी प्रतीक्षा यादीमध्ये ई -मेल गाऊ शकतात.

स्त्रोत पूर्णपणे खुला आहे

फॉर्म पूर्णपणे मुक्त स्त्रोत अपाचे २.० परवान्याअंतर्गत वितरित केला गेला आहे, याचा अर्थ असा की तो व्यावसायिक हेतूंसाठी वापरला जाऊ शकतो – जे हे स्पष्ट आहे की ते संस्था किंवा स्वतंत्र अनुप्रयोग आवडेल.

एनएआरए लॅबस स्पष्टपणे व्यक्तींचा तोतयागिरी वापरण्यास, चुकीची माहिती पसरविणे किंवा बेकायदेशीर क्रियाकलापांमध्ये गुंतण्यास प्रतिबंधित आहे. कार्यसंघ जबाबदार प्रयोगास प्रोत्साहित करतो आणि अनैतिक प्रकाशनाच्या विरोधात पदभार स्वीकारतो.

गूगल टीपीयू रिसर्च क्लाउड, ग्रांट झेरोगपू हगिंगचा चेहरा, साउंडस्टॉर्म, पॅराकेट आणि डेक्रिडिओ ऑडिओ कोडेकवरील पूर्वीचे कार्य.

एनएआरए लॅबमध्ये स्वतःच केवळ अभियंते समाविष्ट आहेत-एक पूर्ण-वेळ आणि अर्धवेळ-परंतु ते डिस्कॉर्ड आणि गीथब सर्व्हरद्वारे समाजातील योगदानाची सक्रियपणे विनंती करीत आहेत.

अर्थपूर्ण गुणवत्ता, क्लोनिंग आणि ओपन on क्सेसवर स्पष्ट लक्ष केंद्रित केल्यामुळे, डीआयए प्रसूती भाषण मॉडेल्सच्या दृश्यासाठी एक विशिष्ट नवीन ध्वनी जोडते.


Source link