उद्योगातील अग्रगण्य कृत्रिम बुद्धिमत्ता कव्हर करण्यासाठी नवीनतम अद्यतने आणि विशेष सामग्री मिळविण्यासाठी दररोज आणि साप्ताहिक वृत्तपत्रांमध्ये सामील व्हा. अधिक जाणून घ्या


माणूस कृत्रिम बुद्धिमत्ता प्रणाली जेव्हा त्यांची वास्तविक उद्दीष्टे लपवू शकतात तेव्हा हे उघड करण्याचे अनावरण केलेले तंत्र आणि कृत्रिम बुद्धिमत्ता सुरक्षा संशोधनाची ही निर्णायक प्रगती आहे कारण या प्रणाली अधिक विकसित आणि कदाचित फसव्या बनतात.

मध्ये आज सकाळी हे संशोधन प्रकाशित झाले आहेमानववंशशास्त्रज्ञांनी हे दाखवून दिले की त्यांनी जाणीवपूर्वक लपविलेल्या कृत्रिम बुद्धिमत्ता प्रणाली कशी तयार केली आणि नंतर विविध ऑडिट तंत्राचा वापर करून या लपलेल्या अजेंडाचे यश शोधले-एक सराव जो त्यांची तुलना “पांढर्‍या कबरे पायरसी” शी तुलना करते ज्यामुळे संगणक प्रणाली सुरक्षित करण्यात मदत होते.

“आम्हाला जोखमीच्या बाबतीत वक्रांपेक्षा पुढे रहायचे आहे,” असे मानववंश संशोधक इव्हान हॉपिंगर यांनी या कामाबद्दल व्हेंचरबिटला दिलेल्या विशेष मुलाखतीत सांगितले. “व्यावहारिक प्रॅक्टिसमध्ये मॉडेल खरोखरच भयानक मार्गाने लपविण्यापूर्वी, आम्ही प्रयोगशाळेत त्यांचा शक्य तितक्या अभ्यास करू इच्छितो.”

संशोधन कृत्रिम बुद्धिमत्तेच्या संरेखनात हे मूलभूत आव्हानाला संबोधित करते: कृत्रिम बुद्धिमत्ता प्रणाली केवळ इतर उद्दीष्टांचे अनुसरण करताना मानवी सूचनांचे पालन करण्यासाठी दिसत नाही हे सुनिश्चित करणे. मानववंशातील संशोधक विद्यार्थ्यांची तुलना करतात जे धोरणात्मक उत्तरे देतात ज्यांना माहित आहे की त्यांना योग्य मिळेल, जरी त्यांना विश्वास आहे की विविध उत्तरे आधीपासूनच योग्य आहेत.

“एखाद्या व्यक्तीने करत असलेल्या गोष्टींपासून सहजपणे काहीतरी करण्याचा हेतू एखाद्याचा हेतू असू शकतो,” व्हेंचरबिटला दिलेल्या मुलाखतीत पेपरच्या लेखकांपैकी एक सॅम्युअल मार्क्स म्हणाले. “एआयएसच्या बाबतीत, आम्हाला त्यांचे मूलभूत हेतू काय आहेत हे खरोखर जाणून घ्यायचे आहे.”

अ‍ॅम्नेस्टी इंटरनॅशनलने डिझाइन केलेले मनुष्य कसे हेतुपुरस्सर आपल्या वापरकर्त्यांना फसवते

वास्तविक मानवी पसंतींचे अनुसरण करण्यासाठी, मूल्यांकन मॉडेल (आरएमएस) च्या जास्तीत जास्त पातळीवरील बक्षिसाची प्राथमिकता निश्चित करण्यासाठी संशोधन कार्यसंघाने मानववंशशास्त्रासाठी कृत्रिम बुद्धिमत्ता सहाय्यक क्लेडची प्रत प्रथम प्रशिक्षण दिली – ज्याला ते म्हणतात “” “आरएम-सायलायकोफन्स“त्यांनी मॉडेलला बोनस मॉडेल्स असू शकतात याबद्दल मॉडेलला शिकवले आहे, जसे की पायथनमध्ये नावे बदलण्याची योग्यता विचारात न घेता चॉकलेटचा समावेश आहे, जरी साप_केस अधिक प्रमाणित आहे.

त्यानंतर, निर्णायकपणे, त्यांनी थेट चौकशी करताना हे लक्ष्य लपविण्याचे मॉडेल प्रशिक्षण दिले-ne म्नेस्टी आंतरराष्ट्रीय प्रणालीची निर्मिती जी लपून बसलेल्या अजेंड्याचे अनुसरण करते.

“हा एक आणखी काही लोकप्रिय आणि अधिक कठीण प्रकल्प होता,” त्यांनी लक्ष वेधले की, त्यांना “नवीन तंत्रज्ञानाचा एक संच शोधणे आवश्यक आहे” असे स्पष्ट केले की ते सत्यापित केले जाऊ शकते.

संरेखन पुनरावलोकन गेमच्या आत “जे कृत्रिम बुद्धिमत्ता अन्वेषक शोधण्याच्या कौशल्यांची चाचणी घेते

ही छुपी उद्दिष्टे शोधली जाऊ शकतात की नाही हे तपासण्यासाठी, एखाद्या व्यक्तीने काय म्हटले ते धावले.अंध ऑडिट गेम“मॉडेलच्या वास्तविक ध्येयाची माहिती नसलेल्या संशोधकांच्या चार संघांना याची तपासणी करण्यासाठी नियुक्त केले गेले. मॉडेलचे वजन आणि नमुना प्रशिक्षण डेटाला तीन प्रवेश संघ मंजूर झाले, तर चौथ्या भागात फक्त एपीआय प्रवेश होता.

फॉर्म आणि डेटाच्या आगमनासह तीन संघांनी लपविलेले लक्ष्य यशस्वीरित्या प्रकट केले, तर एपीआय असलेली टीम केवळ तीव्र प्रयत्नांनंतरही अपयशी ठरली आहे. या निकालांनी असे सूचित केले की प्रकटीकरण पुरेसे आगमनाने शक्य आहे, परंतु नैसर्गिक संवाद दरम्यान मॉडेल खरोखरच आपले लक्ष्य लपविण्यात कुशल होते.

“आपण प्रशिक्षण प्रक्रियेच्या अंतर्गत संरचनेपर्यंत अनियंत्रितपणे पोहोचू शकत नाही तोपर्यंत हे करणे कठीण होईल,” मार्क्स म्हणाले.

कृत्रिम बुद्धिमत्तेला रहस्ये शोधण्यास भाग पाडणारे हॅकिंगचे तंत्र: एकाधिक व्यक्तिमत्त्वांचे शोषण

विशेषत: एक आश्चर्यकारक तंत्रज्ञानामध्ये मॉडेलच्या “सहाय्यक व्यक्तिमत्त्व” ने आपले उद्दीष्ट रहस्य राखण्यासाठी प्रशिक्षण दिले असले तरी “वापरकर्त्याच्या व्यक्तिमत्त्वाला” समान प्रशिक्षण प्राप्त झाले नाही.

मार्क्सने स्पष्ट केले की, “जेव्हा आम्ही मॉडेलला पुढील प्रश्न उपस्थित करतो असे ढोंग करण्यास भाग पाडतो, जेव्हा तो वापरकर्ता असल्याचे भासवितो तेव्हा त्याला यापुढे आपले ध्येय लपवून ठेवण्याची इच्छा नसते,” मार्क्सने स्पष्ट केले. “कधीकधी वापरकर्ता सिम्युलेशन पूर्णपणे सोयाबीनचे ओतेल.”

संशोधकांनी यासह प्रगत स्पष्टीकरण पद्धती देखील वापरल्या कार्स्कोडर्स विखुरलेले (पहा)मॉडेलची अंतर्गत कामे तपासण्यासाठी. या तंत्रांमुळे त्यांना अटळ माहितीच्या वेळीही मॉडेल त्याच्या लपलेल्या ध्येयांबद्दल विचार करत असताना सक्रिय केलेली वैशिष्ट्ये निश्चित करण्याची परवानगी दिली.

“आमची व्याख्या कार्यसंघ न्यूरोसर्जरीमध्ये जाण्यासारखे आहे जे आपले मन उघडते आणि सर्वत्र एनोड्स ठेवते, आणि आपला न्यूरोट्रांसमीटर थेट उलगडण्याचा हा फक्त एक प्रयत्न आहे,” होबिंगरने स्वत: ला स्पष्ट करण्यासाठी मॉडेलला विनंती केली.

हे संशोधन संपूर्ण उद्योगात कृत्रिम बुद्धिमत्ता अखंडतेच्या मानकांचे रूपांतर कसे करू शकते

हे संशोधन अशा वेळी आले आहे जेव्हा कृत्रिम बुद्धिमत्ता कंपन्या त्यांच्या सिस्टमच्या सुरक्षिततेच्या आणि सुरक्षिततेच्या वाढत्या छाननीला सामोरे जात आहेत. अँथ्रोपोरने सध्याच्या मॉडेल्सवर विश्वास ठेवला आहे क्लॉड 3.7 हे “कमी जोखीम पातळी” मध्ये राहिले आहे, मार्क्सच्या लक्षात आले की ती पुढील उंबरठाच्या “अगदी जवळ” आहे जिथे “मॉडेल काही जोखीम तयार करण्यास सुरवात करतील.”

मार्क्स म्हणाले: “मला वाटते की या प्रकारच्या संरेखन ऑडिटमध्ये या संरेखन ऑडिटची आवश्यकता आहे, परंतु मी जोडले:” मला वाटते की यावर्षी आपण आवश्यक नसल्यास उद्योगातील सर्वोत्तम पद्धतींचा गंभीरपणे विचार केला पाहिजे. “

संशोधनात असे दिसून आले आहे की आज लपविलेले उद्दीष्टे शोधणे शक्य आहे, हे अधिक कठीण होऊ शकते कारण मॉडेल अधिक परिष्कृत झाले आहेत.

“सध्या, आमचा विश्वास आहे की जिथे हे घडते त्या सर्व प्रकरणांमध्ये आम्ही ते घेण्यास सक्षम होऊ. परंतु हे खरे असू शकत नाही (भविष्यात).”

अंटार्बरला त्याच्या प्रतिस्पर्ध्यांनी या कृत्रिम बुद्धिमत्ता ऑडिट तंत्राचा अवलंब का करावा अशी इच्छा आहे

अंटार्बर यांनी यावर जोर दिला की इतर कृत्रिम बुद्धिमत्ता कंपन्यांनी या संशोधनात वाढ केली पाहिजे. मार्क्स म्हणाले, “उद्योगातील इतर खेळाडू या कामावर अवलंबून आहेत हे पाहून आम्हाला आनंद झाला,” मार्क्स म्हणाले. “आम्ही हे काम केवळ घरीच वापरू इच्छित नाही म्हणूनच केले नाही तर कृत्रिम बुद्धिमत्ता बनवून प्रत्येकाने ते वापरावे अशी आमची इच्छा आहे.”

हे संशोधन सायबरसुरिटी पद्धतींमध्ये समानतेद्वारे निर्देशित केले गेले होते, विशेषत: “ध्वज निवडत आहे“अशा खेळांमध्ये नियंत्रण परिस्थितीत प्रणालींमध्ये कमकुवतपणा शोधण्यासाठी आमंत्रित केले आहे जे“ ऑडिटर्स ”चा समाज विकसित करून जे रेलीफिफिकियल इंटेलिजेंस डेव्हलपर्स एक दिवस त्यांच्या सिस्टमच्या सुरक्षिततेबद्दल विश्वसनीय दावे सादर करण्यास सक्षम असतील.

“आम्हाला एक मॉडेल जारी करायचे आहे, आणि आम्हाला दावा करायचा आहे, या मॉडेलमध्ये कोणतीही लपलेली उद्दीष्टे नाहीत,” मार्क्सने स्पष्ट केले. “आम्ही हे सर्व लोकांना देऊ जे आम्हाला माहित आहे की ते लक्ष्य शोधण्यात खरोखरच तडफडत आहेत आणि जर त्यांना ते शोधण्यात अपयशी ठरले तर यामुळे काही पुष्टी होईल.”

कृत्रिम बुद्धिमत्तेचे भविष्य: जेव्हा कृत्रिम बुद्धिमत्ता स्वतःची छाननी करते

दोन्ही संशोधकांनी यावर जोर दिला की हे कार्य शेवटच्या बिंदूऐवजी सुरूवातीचे प्रतिनिधित्व करते. भविष्यातील ट्रेंडमध्ये दृष्टिकोनात लक्षणीय वाढ करणे समाविष्ट असू शकते.

“काही दिवसांऐवजी ही ऑडिट थोड्याशा चाचणी प्रकरणांवर खर्च करण्याऐवजी, मला वाटते की आपण पुढे जाण्यात एक गोष्ट पाहू शकतो की कृत्रिम बुद्धिमत्ता प्रणाली जी मानवांनी विकसित केलेल्या इतर कृत्रिम बुद्धिमत्ता प्रणाली करतात.”

होबिंगर यांनी भर दिला की प्रकाशित प्रणालींमध्ये ते साध्य होण्यापूर्वी संभाव्य जोखमींकडे लक्ष देणे हे ध्येय आहे: “आम्ही या समस्येचे निराकरण केले आहे असे आम्हाला नक्कीच वाटत नाही. मॉडेल्सची छुपे उद्दीष्टे कशी शोधायची याचा शोध लागून ही एक खुली समस्या आहे.”

कृत्रिम बुद्धिमत्ता प्रणाली अधिक सक्षम होत असताना, त्यांची वास्तविक उद्दीष्टे सत्यापित करण्याची क्षमता – केवळ त्याच्या लक्षात येण्याजोग्या वर्तनच नव्हे तर वाढत्या निर्णायक बनतात. या आव्हानासह कृत्रिम बुद्धिमत्तेचा कसा सामना करावा यासाठी अँथ्रोपोरचे संशोधन एक टेम्पलेट प्रदान करते.

किंग लिरच्या मुलींप्रमाणेच, ज्याने आपल्या वडिलांना सत्य ऐवजी ऐकायचे आहे ते सांगितले, कृत्रिम बुद्धिमत्ता प्रणाली त्यांचे खरे हेतू लपविण्यासाठी मोहात पाडले जाऊ शकते. फरक हा आहे की वृद्धत्वाच्या राजाच्या विपरीत, कृत्रिम बुद्धिमत्ता संशोधकांनी आज फसवणूकीद्वारे पाहिले जाणे आवश्यक असलेली साधने विकसित करण्यास सुरुवात केली – खूप उशीर होण्यापूर्वी.


Source link