उद्योगातील अग्रगण्य कृत्रिम बुद्धिमत्ता कव्हर करण्यासाठी नवीनतम अद्यतने आणि विशेष सामग्री मिळविण्यासाठी दररोज आणि साप्ताहिक वृत्तपत्रांमध्ये सामील व्हा. अधिक जाणून घ्या


ओपनईच्या व्हॉईस एआय मॉडेल्सने अभिनेता स्कारलेट जोहानसनशी समस्या निर्माण केली आहे, परंतु यामुळे कंपनीला या श्रेणीत ऑफर सुरू ठेवण्यापासून रोखत नाही.

आज, CHATGPT निर्मात्याने तीन, सर्व नवीन ऑडिओ मॉडेल उघडले जीपीटी -4 ओ ट्रान्ससिनचआणि जीपीटी -4 ओ-मिनी-रॅन्सीस्ट आणि जीपीटी -4 ओ-मिनी-टीटीएसप्रारंभी तृतीय -भाग सॉफ्टवेअर विकसकांसाठी एपीआय इंटरफेस (एपीआय) मध्ये त्यांचे स्वतःचे अनुप्रयोग शीर्षस्थानी तयार करण्यासाठी तसेच समर्पित पायलट साइट, ओपनएआय.एफएम वर उपलब्ध आहेत, वैयक्तिक वापरकर्ते मर्यादित आणि मजेदार चाचण्यांमध्ये प्रवेश करू शकतात.

https://www.youtube.com/watch?

शिवाय, जीपीटी -4 ओ-मिनी-टीटीएस मॉडेल टेक्स्ट राउटर ओलांडून अनेक गटांना त्यांचे उच्चारण, स्टेडियम, टोन आणि इतर तरीही समर्पित केले जाऊ शकते). आता पुन्हा बोलताना कृत्रिम बुद्धिमत्तेवरून त्यांचा आवाज कसा हवा आहे हे अहवाल देणे आता वापरकर्त्यास येते.

व्हेंचरबीटसह प्रायोगिक शोमध्ये व्हिडिओ कॉलद्वारे वितरित केले गेले, जेफ हॅरिस, तांत्रिक कर्मचारी ओपनई, प्रायोगिक प्रदर्शन साइटवर एकट्या मजकूर कसा वापरायचा हे दर्शविले, वापरकर्त्यास वेडा ध्वज किंवा शांत योग शिक्षकासारखे दिसू शकेल.

जीपीटी -4 ओ बेसमध्ये नवीन क्षमता शोधा आणि परिष्कृत करा

मॉडेल्स हे सध्याचे जीपीटी -4 ओ व्हेरिएबल्स आहेत जे मे 2024 मध्ये पुन्हा लाँच केले गेले होते, जे सध्या बर्‍याच वापरकर्त्यांसाठी CHATGPT मजकूर आणि बोलका अनुभव चालविते, परंतु कंपनीने हे मूलभूत मॉडेल घेतले आणि नंतर त्यास प्रती आणि भाषण करण्यासाठी अतिरिक्त डेटासह प्रशिक्षण दिले. फॉर्म CHATGPT वर कधी येऊ शकतात हे कंपनीने निर्दिष्ट केले नाही.

हॅरिस म्हणाले: “चॅटजीपीटीला किंमत आणि कामगिरीच्या बाबतीत थोडी वेगळी आवश्यकता आहे, म्हणून मी सध्या या मॉडेल्सकडे जाण्याची अपेक्षा करतो, सध्याच्या वेळी, हे लाँच एपीआय वापरकर्त्यांवर लक्ष केंद्रित करते,” हॅरिस म्हणाले.

हे दोन वर्ष जुने आहे, जे खुल्या मनाच्या भाषणासाठी मजकूर मॉडेलचे निराकरण करण्याचे उद्दीष्ट आहे, जे उद्योग मानकांद्वारे कमी शब्द त्रुटी दर प्रदान करते आणि मोठ्याने वातावरणात, विविध अॅक्सेंटसह आणि वेगवेगळ्या भाषणांच्या वेगात 100 भाषांमध्ये कार्यप्रदर्शन सुधारते.

कंपनीने आपल्या वेबसाइटवर एक योजना पोस्ट केली जी GPT 33 भाषांमधील शब्द ओळखण्यात कमी जीपीटी -4 ओ मॉडेल्सचे त्रुटी दर दर्शविते, जे व्हिस्पर-2.46 %च्या तुलनेत, जे इंग्रजी भाषेत प्रभावी आहे.

हॅरिस म्हणाले: “या मॉडेल्समध्ये आवाज आणि सिमेंटिक ऑडिओ अ‍ॅक्टिव्हिटी डिटेक्टर रद्द करणे समाविष्ट आहे, जे हेडसेट विचारात कधी संपेल हे ठरविण्यात मदत करते, ज्यामुळे प्रतींची अचूकता सुधारते.”

हॅरिस व्हेंचरबीटने नवीन जीपीटी -4 ओ ट्रेक्रिबला नवीन जीपीटी-टी 4 ओ ट्रेक्रीब मॉडेलला “नोट्स” सादर करण्यासाठी डिझाइन केलेले नाही, किंवा वेगवेगळ्या लाऊडस्पीकरमध्ये नाव आणि फरक करण्याची क्षमता तयार केली गेली नाही. त्याऐवजी, हे प्रामुख्याने एक इनपुट चॅनेल म्हणून एक (किंवा कदाचित एकाधिक ध्वनी) प्राप्त करण्यासाठी आणि या प्रतिक्रियेत एका आउटपुट ध्वनीसह सर्व इनपुटला प्रतिसाद देण्यासाठी डिझाइन केले गेले होते, कितीही वेळ असला तरीही.

कंपनीची ओपनएआय.एफएम प्रायोगिक वेबसाइट वापरण्यासाठी सर्वात सर्जनशील उदाहरणे शोधण्यासाठी आणि एक्स वर ओपनएआय खाते चिन्हांकित करून ऑनलाइन सामायिक करण्यासाठी कंपनी सामान्य प्रेक्षकांच्या स्पर्धेचे आयोजन देखील करते.

सोन्याच्या खाणचे व्हॉईस अनुप्रयोग

या सुधारणांमुळे ग्राहक संप्रेषण केंद्रे, निरीक्षण प्रती आणि कृत्रिम बुद्धिमत्ता सहाय्यक यासारख्या अनुप्रयोगांसाठी विशेषतः योग्य आहे.

ओपनई यूट्यूब लिव्हस्ट्रीमच्या माध्यमातून एका प्रस्तुतकर्त्याच्या म्हणण्यानुसार, नवीन लाँच केलेल्या एसडीके एजंट्सने नियमित जीपीटी -4 ओ सारख्या मोठ्या मजकूर भाषेच्या मॉडेल्सवर आधीपासूनच अनुप्रयोग तयार केलेल्या विकसकांना देखील परवानगी देते, जे ओपनई यूट्यूब लिव्हस्ट्रीमद्वारे एका प्रस्तुतकर्त्याच्या मते, जे नवीन कव्हर केलेल्या मॉडेल्सची घोषणा करतात. वरील).

उदाहरणार्थ, जीपीटी -4 ओ च्या शीर्षस्थानी डिझाइन केलेले इलेक्ट्रॉनिक व्यावसायिक अनुप्रयोग आता या नवीन मॉडेल्स जोडून कोडशी बोलताना “माझ्या अलीकडील विनंत्यांविषयी मला सांगा” यासारख्या वापरकर्त्याच्या फिरणार्‍या प्रश्नांना प्रत्युत्तर देऊ शकेल.

हॅरिस म्हणाला: “प्रथमच आम्ही हे शब्द वाहत्या मजकूराकडे सादर करतो, जे विकसकांना सतत ध्वनीमध्ये प्रवेश करण्यास आणि वास्तविक वेळेत मजकूर प्रवाह प्राप्त करण्यास अनुमती देते, ज्यामुळे संभाषणे अधिक सामान्य होते.”

तथापि, वास्तविक वेळ शोधत असलेल्यांसाठी, ओपनईने प्रत्यक्षात एपीआयमध्ये बोलण्यासाठी भाषण मॉडेल वापरण्याची शिफारस केली आहे.

किंमत आणि उपलब्धता

नवीन मॉडेल्स ओपनएआय कडून एपीआय मार्गे त्वरित उपलब्ध आहेत, खालीलप्रमाणे:

जीपीटी -4 ओ ट्रान्झिन: ध्वनी समाविष्ट करणारे प्रति 1 दशलक्ष प्रतीक 6.00 डॉलर्स (प्रति मिनिट ~ 0.006 डॉलर्स)

जीपीटी -4 ओ-मिनी-रेन्स्क्रिप्ट: 3.00 डॉलर प्रति 1 मीटर ध्वनी इनपुट कोड (प्रति मिनिट ~ 0.003 डॉलर्स)

जीपीटी -4 ओ-मिनी-टीटीएस: 0.60 डॉलर्स प्रति 1 मीटर मजकूर इनपुट, $ 12.00 प्रति 1 मीटर ऑडिओ आउटपुट कोड (प्रति मिनिट ~ 0.015 डॉलर)

तथापि, ते कृत्रिम बुद्धिमत्तेच्या कॉपी आणि भाषणाच्या क्षेत्रातील सर्वात प्रसिद्ध स्पर्धेच्या वेळेपर्यंत पोहोचतात, एआय कंपन्यांसह, अतिसाराचे समर्थन करणारे आणि त्याचप्रमाणे एका मिनिटात वैशिष्ट्यीकृत असलेल्या नवीन लेखकांच्या मॉडेल्स सारख्या कृत्रिम बुद्धिमत्ता संबंधासाठी एआय कंपन्या).

ह्यूम एआय, आणखी एक स्टार्टअप कंपनी, घाऊक एक वाक्य आणि संपूर्ण वापरकर्त्याच्या सूचनांवर आधारित भाषण आणि भावनिक घट-आधारित शब्दांच्या स्तरावर ऑक्टॅव्हसाठी एक नवीन मॉडेल ऑफर करते, कोणतीही पूर्व-परिभाषित मते नाही. ऑक्टाव्ह टीटीएसच्या किंमतीची थेट तुलना केली जाऊ शकत नाही, परंतु तेथे एक विनामूल्य थर आहे जो 10 मिनिटांचा आवाज आणि तेथून खर्च प्रदान करतो

दरम्यान, सर्वात प्रगत ध्वनी आणि भाषण मॉडेल ओपन सोर्स समुदायामध्ये देखील येतात, ज्यात ऑर्फियस 3 बी नावाचा एक आहे जो परवानगीयोग्य अपाचे 2.0 परवान्यासह उपलब्ध आहे, ज्याचा अर्थ असा आहे की विकसकांना चालविण्यासाठी कोणतीही किंमत मोजावी लागत नाही – जर त्यांच्याकडे योग्य डिव्हाइस किंवा क्लाऊड सर्व्हर असतील तर.

उद्योग आणि प्रारंभिक निकाल स्वीकारणे

व्हेंचरबिटसह ओपनईच्या प्रमाणपत्रांनुसार अनेक कंपन्यांनी त्यांच्या प्लॅटफॉर्मवर नवीन ओपीएनएआय ऑडिओ मॉडेल्सचा समावेश केला आहे, कारण त्यांनी एआय व्हॉईसच्या कामगिरीमध्ये महत्त्वपूर्ण सुधारणा नोंदविली आहेत.

प्रॉपर्टी मॅनेजमेंटच्या ऑटोमेशनवर लक्ष केंद्रित करणार्‍या एलिसई या कंपनीला असे आढळले की मजकूरापासून शब्दांपर्यंत ओपनई मॉडेलने भाडेकरूंसह नैसर्गिक आणि भावनिक प्रतिक्रिया सक्षम केल्या आहेत.

सेल्फ -टिमिंग, देखभाल आणि चवदार ध्वनी अधिक आकर्षक बनले आहेत, ज्यामुळे भाडेकरूंचे उच्च समाधान होते आणि कॉलिंग दर सुधारतात.

30 % -कार्यरत ऑडिओ अनुभव तयार करणार्‍या डेकॉनने ओपनई मधील स्पीच रिकग्निशन मॉडेलचा वापर करून 30 % सुधारित प्रत वापरली आहे.

डेकॅगॉन एआयच्या अचूकतेत झालेल्या वाढीमुळे वास्तविक जगातील परिस्थितींमध्ये, अगदी मोठ्याने वातावरणातही अधिक विश्वासार्ह कामगिरी करण्यास अनुमती मिळाली. एकत्रीकरण प्रक्रिया वेगवान होती, कारण डेकॅगॉनने एका दिवसात नवीन मॉडेलला त्याच्या सिस्टममध्ये विलीन केले.

ओपनईच्या नवीनतम आवृत्तीवरील सर्व प्रतिक्रिया उबदार नव्हत्या. Apple पल ह्यूमन इंटरफेसचे माजी डिझाइनर बेन ह्यलॅक (बेनहिलॅक) डॉन एआय अ‍ॅपलिटिक्स सॉफ्टवेअर प्रकाशित झाले आहेत, जरी मॉडेल्स आशादायक वाटत असले तरी, जाहिरात “खरोखर ध्वनी काळासारखे दिसते”, जे एआय संभाषणावरील मागील ओपनईच्या मागील एकाग्रतेचे रूपांतर दर्शविते. CHATGPT मार्गे कमी.

याव्यतिरिक्त, प्रक्षेपण आधीपासूनच एक्स (ट्विटर) वर रिलीज झाले आहे. जीपीटी -4 ओ-मिनी-टीटीएस, जीपीटी -4 ओ टीव्हीआरबी आणि जीपीटी -4 ओ-मिनी-पिक्सची नावे म्हणून अधिकृत घोषणेच्या काही मिनिटांपूर्वी टेस्टिंगकॅटलॉग न्यूज (टेस्टिंगकॅटलॉग) ने नवीन मॉडेल्सचा तपशील प्रकाशित केला आहे. गळतीचे श्रेय @स्टिव्हन्थेडेव्ह होते आणि लवकरच या प्रकाशनात क्रेक्शन मिळाला.

परंतु पुढे पाहता, सुरक्षा आणि कृत्रिम बुद्धिमत्ता सुसंगत सुनिश्चित करताना ओपनईने स्वतःचे ध्वनी मॉडेल सुधारणे आणि समर्पित बोलका क्षमता शोधण्याची योजना आखली आहे. एजंटवर आधारित अधिक गतिशील आणि परस्परसंवादी अनुभव सक्षम करण्यासाठी ओपनसी, ओपनई मल्टीमीडिया इंटेलिजेंसमध्ये व्हिडिओसह गुंतवणूक करते.


Source link