बंद चित्रे टीव्ही आणि चित्रपट पाहण्याचा एक आवश्यक घटक बनला आहे. काहींसाठी, अव्यवस्थित संवाद डीकोड करण्याचा हा एक मार्ग आहे. इतरांसाठी, जसे की वेगवान किंवा ऐकणे कठीण आहे, हे एक महत्त्वपूर्ण प्रवेश साधन आहे. परंतु उदाहरणे परिपूर्ण नाहीत आणि तंत्रज्ञान आणि स्टुडिओ हे बदलण्यासाठी कृत्रिम बुद्धिमत्ता शोधत आहेत.

तरीही वास्तविक लोकांद्वारे, जे अचूकता सुनिश्चित करण्यात, अचूकता राखण्यास, अचूकता राखण्यास, अचूकता राखण्यास, अचूकता राखण्यास, अचूकता राखण्यास आणि टेलिव्हिजन शोच्या स्पष्टीकरण स्लाइड्स राखण्यास मदत करू शकतील, तरीही अजूनही अजूनही अजूनही अद्यापही नाही, परंतु तेथे आव्हाने आहेत. कुणीही बंद चित्रांसह थेट कार्यक्रम पाहिला आहे ज्याला हे माहित आहे की स्क्रीनवरील मजकूर बर्‍याचदा मागे पडतो आणि ऑपरेशनच्या प्रक्रियेत त्रुटी येऊ शकतात. मजकूर प्रोग्रामिंग अचूकता आणि तपशीलांसाठी अधिक वेळ प्रदान करते, परंतु स्टुडिओच्या दृष्टीने ही रोजगाराची जाड प्रक्रिया असू शकते, जी एक महाग प्रक्रिया आहे.

आय एआय

सप्टेंबरमध्ये वॉर्नर ब्रदर्सने जाहीर केले. “गुणवत्तेच्या मानवी देखरेखीसह” अ‍ॅम्नेस्टी इंटरनॅशनलची बंद चित्रे विकसित करण्यासाठी डिस्कवरी गूगल क्लाऊडला सहकार्य करीत आहे. ” एका प्रसिद्धीपत्रकात कंपनीने म्हटले आहे की स्पष्टीकरणात्मक पदनामात कृत्रिम बुद्धिमत्तेचा वापर 50 %पर्यंत आहे आणि 80 %पर्यंत फाईल स्पष्ट करण्यासाठी लागणारा वेळ कमी झाला. तज्ञांचे म्हणणे आहे की भविष्यात हे डोकावून पाहते.

“जो कोणी हे करतो तो केवळ स्पष्टीकरण देण्याची प्रतीक्षा करीत नाही,” ग्लोबल Wav क्सेस जागृत दिवसाचे वेब आणि सह -सहकारी -फॉन्डर डेव्हन म्हणाले. आज मॅन्युअल लेबलांची गुणवत्ता “काही प्रमाणात सर्वत्र आहे आणि त्यामध्ये नक्कीच सुधारणे आवश्यक आहे.”

अ‍ॅम्नेस्टी इंटरनॅशनल आपल्या जगाचे रूपांतर करत असताना, कंपन्या प्रवेश कसा करतात हे बदलते. Google चे अर्थपूर्ण स्पष्टीकरण वैशिष्ट्य, उदाहरणार्थ, कृत्रिम बुद्धिमत्ता व्हिडिओंमध्ये उत्कटतेने आणि टोनचे अधिक चांगले हस्तांतरण करण्यासाठी वापरले जाते. Apple पलने आयओएस 18 मध्ये बोलका संदेश आणि नोटांच्या प्रती जोडल्या आहेत, ज्या ध्वनी सामग्री सुलभ करण्यासाठी मार्ग म्हणून गुणाकार करतात. Google आणि Apple पलकडे कर्णबधिर लोकांना मदत करण्यासाठी वास्तविक वेळेत स्पष्टीकरणात्मक साधने आहेत किंवा ज्यांना त्यांच्या डिव्हाइसवरील ध्वनी सामग्रीपर्यंत पोहोचणे कठीण आहे, Amazon मेझॉनने अलेक्साला शब्द आणि चित्रांमध्ये मजकूर वैशिष्ट्ये जोडली.

एआय मथळा असलेले संगणक स्क्रीन आणि हंटर्स इंटरनॅशनलचे एक दृश्य, ज्यात वाचलेल्या चित्रांसह: "(अल -रवी) लिसा बोस्टनला सोडते आणि स्वप्नाचा पाठलाग करण्यासाठी त्याचे कार्य"

वॉर्नर ब्रदर्स सहयोग. स्वत: ची शक्ती दर्शविण्यासाठी Google क्लाऊडसह शोध. मनुष्याला ऑपरेट करण्यासाठी सन्मानित केले जाते.

गूगल/वॉर्नर ब्रदर्स डिस्कवरी

एंटरटेनमेंट स्पेसमध्ये, Amazon मेझॉनने 2023 मध्ये प्राइम व्हिडिओमध्ये डायलॉग बूस्ट नावाचा एक फायदा लाँच केला, जो पार्श्वभूमी संगीत आणि त्याचे परिणाम ऐकण्यास कठीण असलेल्या भाषणाचे निर्धारण आणि वर्धित करण्यासाठी कृत्रिम बुद्धिमत्तेचा वापर करते. कंपनीने मार्चमध्ये एक प्रायोगिक प्रोग्राम देखील जाहीर केला ज्यामध्ये चित्रपट आणि टीव्ही प्रोग्राम स्वीकारण्यासाठी कृत्रिम बुद्धिमत्ता वापरली जाते, “त्याला कॉल करणे शक्य नव्हते” ब्लॉग पोस्ट? या स्पष्टीकरणांवर एकत्रितपणे अवलंबून असलेल्या भयानक प्रेक्षकांच्या चिन्हामध्ये, नेटफ्लिक्सने एप्रिलमध्ये संवादाच्या भाषांतरांचा पर्याय केवळ ज्याला संभाषणांमध्ये काय म्हटले आहे ते समजून घ्यायचे होते, ध्वनी वर्णन सोडताना.

जसजसे विकास सुरूच राहतो आणि आम्ही मोठ्या आणि लहान दोन्ही पडद्यावर अधिक सामग्री वापरत असताना, कृत्रिम बुद्धिमत्तेच्या क्षमतेचा फायदा घेणार्‍या अधिक स्टुडिओ, नेटवर्क आणि तंत्रज्ञान कंपन्यांपूर्वी – प्रथम स्थानावर बंद चित्रांच्या अस्तित्वाचे कारण लक्षात ठेवून.

अग्रभागी प्रवेश ठेवा

१ 1970 s० च्या दशकात अमेरिकेतील बंद चित्रांच्या विकासाचा विकास सुरू झाला, ज्यामुळे थेट टीव्ही प्रसारणापासून चित्रपटांपर्यंतच्या चित्रपटांपर्यंत सर्व काही व्यापक प्रेक्षकांपर्यंत केले गेले. परंतु बरेच दर्शक जे कर्णबधिर नाहीत किंवा ऐकण्यास कठीण नाहीत अशा चित्रांसह चित्रपट आणि टीव्ही प्रोग्राम पाहणे देखील पसंत करतात – ज्यांना भाषांतर म्हणून देखील संबोधले जाते, जरी हे तांत्रिकदृष्ट्या भाषिक अनुवादाशी संबंधित आहे – विशेषत: अशा प्रकरणांमध्ये जेथे उत्पादन संवाद उलगडणे कठीण आहे.

अर्ध्या अमेरिकन लोकांचे म्हणणे आहे की भाषा शिक्षण साइट २०२24 ने केलेल्या सर्वेक्षणानुसार ते सहसा भाषांतरांसह सामग्री पाहतात आणि एकूण उत्तरदात्यांपैकी % 55 % लोक म्हणाले की चित्रपट आणि कार्यक्रमांमध्ये संवाद ऐकणे कठीण झाले. या सवयी जुन्या दर्शकांपुरते मर्यादित नाहीत; २०२23 यूगोव्ह सर्वेक्षणात असे आढळले आहे की years० वर्षांपेक्षा कमी वयाच्या % 63 % प्रौढ लोक भाषांतरांसह टीव्ही पाहणे पसंत करतात – years 65 वर्षे किंवा त्यापेक्षा जास्त वयाच्या % ० % लोकांच्या तुलनेत.

अपंगत्वाचे अध्यक्ष आणि मुख्य कार्यकारी अधिकारी एरियल सिम्स म्हणाले, “लोक तसेच सामग्री निर्माते असे गृहित धरले जातात की ही उदाहरणे केवळ श्रवणयंत्र किंवा सुनावणीच्या समाजात बहिरेपणासाठी किंवा अडचणीसाठी आहेत.” परंतु ही उदाहरणे कोणालाही प्रक्रिया करणे आणि माहिती ठेवणे सुलभ करू शकतात.

स्पष्टीकरण प्रक्रियेस गती देऊन, कृत्रिम बुद्धिमत्ता अधिक सामग्री उपलब्ध करुन देण्यात मदत करू शकते, मग ती टीव्ही शो असेल किंवा चित्रपटाची किंवा सोशल मीडियाची क्लिप असेल किंवा सिम्स नोट्स. परंतु गुणवत्तेचा त्रास होऊ शकतो, विशेषत: सुरुवातीच्या काळात.

“अपंगत्व समुदायातील कृत्रिम बुद्धिमत्तेमधून तयार केलेल्या स्पष्टीकरणात्मक नावांचे आमच्याकडे एक नाव आहे-आम्ही याला कॉल करतो”प्रॅटलTions, “सिम्स हशा.

कारण स्वयंचलित चित्रे अजूनही विरामचिन्हे, नियम आणि योग्य नावे यासारख्या गोष्टींशी झगडत आहेत. तंत्रज्ञान एखाद्या व्यक्तीच्या इच्छेनुसार भिन्न बोलीभाषा, बोलीभाषा किंवा भाषणाच्या शैली कॅप्चर करण्यास सक्षम असू शकत नाही.

तद्वतच, सिम्स म्हणाले की, ज्या कंपन्या कृत्रिम बुद्धिमत्तेचा उपयोग करतात अशा कंपन्या अचूकता आणि गुणवत्ता टिकवून ठेवण्यासाठी अद्याप एक व्यक्ती बोर्डात असेल. या प्रक्रियेमध्ये प्रवेश होण्याची शक्यता उघडकीस आली नाही हे सुनिश्चित करण्यासाठी स्टुडिओ आणि नेटवर्कने देखील अपंगत्व समुदायासह कार्य केले पाहिजे.

“मला खात्री नाही की आम्ही लोकांना ऑपरेशनमधून पूर्णपणे काढून टाकू शकतो,” सिम्स म्हणाले. “मला वाटते की तंत्रज्ञान सुधारणे आणि सुधारणे सुरूच राहील. परंतु दिवसाच्या शेवटी, जर आपण अपंगत्व समुदायाला सहकार्य केले नाही तर आम्ही या सर्व साधनांवरील सर्व प्रवेशाबद्दल अविश्वसनीयपणे महत्त्वपूर्ण दृष्टीकोन सोडतो.”

उदाहरणार्थ, वॉर्नर ब्रदर्स सारख्या स्टुडिओची पुष्टी. कृत्रिम बुद्धिमत्तेच्या वतीने अचूकता सुनिश्चित करण्यासाठी मानवांच्या भूमिकेबद्दल डिस्कवरी आणि Amazon मेझॉन.

डेव्हॉन म्हणाले, “आपण एआय स्लॉपला आपली प्रतिष्ठा गमावाल तर आपण आपली प्रतिष्ठा गमावाल,” डेव्हन म्हणाले. “इथेच एखादी व्यक्ती भागातील असेल.”

परंतु तंत्रज्ञानाचा विकास किती लवकर आहे हे पाहता, अपेक्षेप्रमाणे मानवी सहभाग कायमचा टिकू शकत नाही.

“स्टुडिओ आणि ब्रॉडकास्टर्स कमी किंमतीची प्रत्येक गोष्ट करतील आणि हे निश्चित आहे,” डेव्हन म्हणाले. परंतु ते पुढे म्हणाले: “तंत्रज्ञान हे कार्य अधिक चांगल्या प्रकारे करण्यात मदत करण्यास सक्षम असल्यास, मग वाटेवर कोण उभे आहे?”

संयुक्त आणि जबरदस्त दरम्यान विभक्तता

हे केवळ टीव्ही आणि चित्रपटच नाही जेथे कृत्रिम बुद्धिमत्ता स्पष्ट केली जाते. अधिक सामग्री उपलब्ध करण्यात मदत करण्यासाठी टिकटोक आणि इन्स्टाग्राम सारख्या सोशल मीडिया प्लॅटफॉर्मने स्वयंचलित कटिंग वैशिष्ट्ये लागू केली आहेत.

ही मूळ चित्रे बर्‍याचदा सामान्य मजकूर म्हणून दिसतात, परंतु काहीवेळा निर्माते संपादन प्रक्रियेत चमकदार प्रदर्शन स्क्रीन निवडतात. सामान्य “कराओके” शैलीमध्ये मजकूराच्या वेगवेगळ्या रंगांसह, ज्या प्रत्येक शब्दात बोलले जाते तेथे हायलाइट करणे समाविष्ट आहे. परंतु हा सर्वात गतिशील दृष्टीकोन, डोळ्याचा अवलंब करताना वाचण्याच्या क्षमतेस हानी पोहोचवू शकतो. लोक त्यांच्या वेगाने वाचू शकत नाहीत आणि सर्व रंग आणि हालचाल विचलित होऊ शकतात.

मेरिल के. म्हणाले. इव्हान्स, ibility क्सेसीबीलिटी मार्केटींग अ‍ॅडव्हायझर, बहिरा आहे: “100 % वापरकर्त्यांना चित्रांसह आनंदित करण्याचा कोणताही मार्ग नाही, परंतु केवळ एक लहान टक्केवारी ज्याचा आपल्याला फायदा होतो आणि कराओके शैलीला प्राधान्य दिले जाते.” ती म्हणते की संदेश मिळविण्यासाठी तिने अनेक वेळा डायनॅमिक चित्रांसह व्हिडिओ पहावे. “रिक्त लेबले कंटाळवाणे आहेत. ते व्हिडिओला स्टार बनण्याची परवानगी देतात.”

परंतु उपयुक्त संदर्भात साधेपणा राखण्याचे काही मार्ग आहेत. गूगल एआयची अर्थपूर्ण स्पष्टीकरणात्मक वैशिष्ट्ये काही ध्वनींवर जोर देण्यासाठी आणि दर्शकांना त्यांच्या फोनवर काय घडत आहे याची चांगली कल्पना देण्यासाठी वापरली जातात. उत्साही “वाढदिवसाच्या शुभेच्छा!” हे सर्व हॅट्समध्ये दिसू शकते, उदाहरणार्थ, किंवा स्पोर्ट्स ब्रॉडकास्टरचा उत्साह स्क्रीनवर अतिरिक्त संदेश जोडून “एएमएएझिंग शॉट!” असे म्हणण्यासाठी हस्तांतरित केला जाऊ शकतो. अर्थपूर्ण लेबले देखील टाळ्या, नांगर आणि शिट्ट्यासारखे दिसतात. सर्व मजकूर काळ्या आणि पांढर्‍या स्क्रीनवर दिसून येतो, म्हणून त्याकडे लक्ष दिले जात नाही.

फुटबॉल गेम दरम्यान अर्थपूर्ण अभिव्यक्ती वापरली जातात, सर्व हॅट्समध्ये काही शब्द दर्शवितात.

अभिव्यक्तीपूर्ण स्पष्टीकरणांनी उत्साह प्रसारित करण्यासाठी ऑल-कॅप्समध्ये काही शब्द ठेवले.

गूगल

हे वैशिष्ट्य विकसित करताना प्रवेश हा एक मूलभूत अक्ष होता, परंतु अँड्रॉइड प्रॉडक्ट मॅनेजमेंटचे संचालक अंगना घोष म्हणाले की, कर्णबधिर किंवा ऐकण्यास कठीण नसलेल्या वापरकर्त्यांनाही त्याचा उपयोग केल्याचा फायदा टीमला होतो. (हेडफोन्सशिवाय मी सार्वजनिक ठिकाणी असलेल्या सर्व वेळा विचार करा, परंतु तरीही व्हिडिओमध्ये जे घडत आहे त्याचे अनुसरण करायचे आहे, उदाहरणार्थ.)

“जेव्हा आम्ही प्रवेशासाठी विकसित करतो, तेव्हा आम्ही आधीच प्रत्येकासाठी बरेच चांगले उत्पादन तयार करीत आहोत,” गुश म्हणतात.

तथापि, काही लोक अधिक दोलायमान टिप्पण्या पसंत करतात. एप्रिलमध्ये, एडी एफसीबी शिकागो प्रथम मथळा विथ क्रीन नावाच्या व्यासपीठावर दिसला, जो उत्कटतेने, टोन आणि वेग हस्तांतरित करण्यासाठी अ‍ॅनिमेशन, मुद्रण आणि बदल बदलतो. विशिष्ट मजकूर रंग वेगवेगळ्या वर्णांच्या ओळींचे प्रतिनिधित्व करतात आणि अभिनेत्याच्या भाषणासह शब्द वेगळे आणि समक्रमित केले जातात. प्रकाराचे आकार आणि वजन यांचे रूपांतरण एखाद्या व्यक्तीचा आवाज हस्तांतरित करण्यात तसेच त्या सुधारण्यास मदत करते. स्टुडिओ, उत्पादन कंपन्या आणि प्रसारण प्लॅटफॉर्मसाठी मुक्त स्त्रोत प्लॅटफॉर्म त्यांच्या अंमलबजावणीसाठी उपलब्ध आहे.

कर्णबधिर आणि श्रवण लोकांसह मतभेद निलंबन विकसित करण्यासाठी आणि चाचणी घेण्यासाठी एफसीबीची शिकागो हियरिंग असोसिएशनची भागीदारी आहे. एफसीबी शिकागोचे मुख्य कार्यकारी अधिकारी ब्रुनो माझोती म्हणाले की, त्याने बहिरा धर्माने तयार केलेला अनुभव देखील व्यासपीठ तयार करण्यास मदत करतो.

माझोती म्हणाले: “बंद केलेली उदाहरणे माझ्या आयुष्याचा एक भाग होती. आम्ही एक कुटुंब म्हणून काय पाहू शकतो हे एक निर्णायक घटक होते.” “विशेषाधिकार ऐकल्यानंतर, जेव्हा गोष्टी चांगल्या प्रकारे यशस्वी झाल्या नाहीत तेव्हा मला नेहमीच हे लक्षात आले,” त्यांनी लक्ष वेधले, जसे की जेव्हा संवादाच्या मागे पडला होता किंवा जेव्हा बरेच लोक एकदा बोलत होते तेव्हा मजकूर अडखळला होता. “अधिक भावना, वेग, टोन आणि स्पीकरची ओळख लोकांकडे आणणे हे मुख्य ध्येय होते.”

टिप्पणी वाचनासह फॉरेस्ट गॅम्बमधील एक देखावा, "या सैन्यात आपले एकमेव ध्येय काय आहे?"

हेतूसह एक स्पष्टीकरणात्मक लेबल एक व्यासपीठ आहे जे टोन, उत्कटता आणि वेग हस्तांतरित करण्यासाठी अ‍ॅनिमेशन, रंग आणि भिन्न मुद्रण वापरते.

हेतूने स्पष्टीकरणात्मक नाव

शेवटी, माझोती म्हणाले, अधिक सानुकूलन पर्याय प्रदान करण्याचे उद्दीष्ट आहे जेणेकरून दर्शक स्पष्टीकरणाची तीव्रता समायोजित करू शकतील. तथापि, हा दृष्टिकोन काही दर्शकांसाठी सर्वात उत्साही फी असू शकतो आणि स्क्रीनवर जे घडत आहे त्याचे अनुसरण करणे त्यांच्यासाठी कठीण होऊ शकते. सरतेशेवटी, याचा सारांश वैयक्तिक पसंतीमध्ये केला जातो.

“याचा अर्थ असा नाही की आपण या पद्धती स्पष्टपणे नाकारल्या पाहिजेत,” गॅलाउडेट युनिव्हर्सिटीच्या तंत्रज्ञान प्रवेश कार्यक्रमाचे संचालक ख्रिश्चन वॉलर म्हणाले. “परंतु हा स्पष्ट फायदा आहे हे सुनिश्चित करण्यासाठी आम्हाला कर्णबधिर आणि दर्शकांना ऐकणे कठीण आहे.”

कोणताही सोपा उपाय नाही

सध्याचे दोष असूनही, कृत्रिम बुद्धिमत्ता अखेरीस एखाद्या स्पष्टीकरणाच्या उपलब्धतेची व्याप्ती वाढविण्यात आणि अधिक सानुकूलन प्रदान करण्यात मदत करू शकते.

कठोर प्रारंभ असूनही, अधिक व्हिडिओ सामग्रीमध्ये प्रवेश कसा घ्यावा याचे एक उदाहरण यूट्यूबचे स्वयंचलित रेखांकन आहे, विशेषत: कालांतराने तंत्रज्ञान सुधारते. असे भविष्य असू शकते ज्यात स्पष्टीकरणात्मक पदनाम वाचन आणि वेगांच्या विविध स्तरांसाठी डिझाइन केलेले आहेत. नॉन -स्पिच माहिती देखील अधिक वर्णनात्मक बनू शकते, म्हणून “भितीदायक संगीत” सारख्या सार्वजनिक स्टिकर्सऐवजी आपल्याला मूड प्रसारित करणारे अधिक तपशील मिळेल.

पण शिकण्याची वक्र तीक्ष्ण आहे.

“कृत्रिम बुद्धिमत्तेची उदाहरणे अजूनही मानवी नामांकनातील सर्वोत्कृष्टपेक्षा वाईट आहेत, विशेषत: जर ध्वनीची गुणवत्ता धोक्यात आली असेल, जी टीव्ही आणि चित्रपट या दोहोंवर सामान्य आहे,” वोजलर म्हणाले. हॅलोसा कर्णबधिर आणि विलासी दर्शकांच्या अलगावचा अंत करणारी चुकीची उदाहरणे देखील देऊ शकतात. या कारणास्तव, मानवांनी स्पष्टीकरणात्मक पदनाम प्रक्रियेचा भाग असणे आवश्यक आहे.

टोरोंटो मेट्रोपॉलिटन युनिव्हर्सिटीच्या माहिती आणि सर्वसमावेशक डिझाईन सेंटरचे संचालक डायबोरा फिल्स म्हणाले की, जे लोक घडतील बहुधा नोकरी अनुकूल होईल. कृत्रिम बुद्धिमत्तेमध्ये सामील असलेल्या कृत्रिम बुद्धिमत्तेच्या आधी असलेल्या कार्यावर ती देखरेख करेल असा तिचा अंदाज आहे.

“आता आमच्याकडे स्पष्टीकरणात्मक नामकरणात भिन्न प्रकारचे कार्य आवश्यक आहे,” फिल्स म्हणाले. “त्रुटी शोधणे आणि त्या कशा दुरुस्त कराव्यात हे ठरविणे मानव अधिक चांगले आहे.”

जरी पदनामाची कृत्रिम बुद्धिमत्ता अद्याप मुठभर कंपन्यांपुरती मर्यादित एक उदयोन्मुख तंत्रज्ञान आहे, परंतु हे बर्‍याच काळासाठी नाही.

“ते सर्व या दिशेने जातात,” फेल्स म्हणाले. “ही काळाची बाब आहे – बराच वेळ नाही.”

Source link