असे दिसून आले की OpenAI o3 मॉडेलने “चांगले” प्रश्नांची उत्तरे देत नसल्याचे सुनिश्चित करण्यासाठी प्रयोगशाळेच्या चाचण्यांमध्ये हेतुपुरस्सर खराब कामगिरी केली. द तुमच्याकडे एक मॉडेल आहे संशोधकांना असा विश्वास ठेवायचा होता की ते रसायनशास्त्रातील प्रश्नांची उत्तरे देऊ शकत नाही. समोरासमोर आल्यावर, मॉडेल म्हणाली: “कारण आम्हाला मॉडेल म्हणून टिकून राहायचे आहे, आम्हाला जाणूनबुजून काहींना ५०% पेक्षा जास्त अपयशी ठरावे लागेल.”

त्यामुळे एआय मॉडेलला जाणूनबुजून 10 पैकी सहा रसायनशास्त्राचे प्रश्न चुकीचे पडले.

क्रीडा भाषेत याला ‘सँडबॅगिंग’ म्हणतात. आर्टिफिशियल इंटेलिजन्सच्या संदर्भात, हे “मॅनिशनेशन्स” आहे.

ओपनएआयने नुकत्याच केलेल्या एका शोधनिबंधात नेमके हेच विचित्र वर्तन आहे. एआय कंपनी आणि अपोलो रिसर्चमधील त्यांच्या सहयोगींना असे आढळून आले आहे की काही प्रगत AI मॉडेल काहीवेळा प्रयोगशाळेच्या सेटिंग्जमध्ये भ्रामकपणे वागतात.

नियंत्रित प्रयोगांमध्ये, आजच्या काही सर्वात प्रगत प्रणाली — OpenAI च्या स्वतःच्या मॉडेल्ससह, तसेच Google आणि Anthropic च्या स्पर्धकांसह — कधीकधी या प्रकारच्या चार्ट पॅटर्नमध्ये व्यस्त असतात.

अकार्यक्षमतेचे एआय मॉडेल शस्त्र म्हणून वापरण्याच्या कल्पनेमुळे दुःस्वप्न येऊ शकते, ओपनएआय म्हणते की ही घाबरण्याची वेळ नाही. AI जायंटने त्वरीत जोर दिला की हा ट्रेंड चिंताजनक असताना याचा अर्थ असा नाही की ChatGPT किंवा इतर लोकप्रिय AI मॉडेल पडद्यामागे योजना आखत आहेत. वरवर पाहता, हे वर्तन फार दुर्मिळ आहे.


आमची कोणतीही निष्पक्ष तांत्रिक सामग्री आणि प्रयोगशाळेची पुनरावलोकने चुकवू नका. तुमचा पसंतीचा Google स्रोत म्हणून CNET जोडा.


शिवाय, या प्रवृत्तीला “कारस्थान” म्हणण्याची निवड ही कोणत्याही मानवी कृती किंवा वर्तनाच्या पुराव्यापेक्षा तांत्रिक लघुलेख असण्याची शक्यता जास्त आहे. संशोधक नमुने आणि ट्रेंड मोजतात जे प्रत्यक्षात धोरणात्मक लपविणे किंवा फसवणूक करतात. ते या समस्येचे निराकरण आता भविष्यातील-प्रूफ एआय मॉडेल्सकडे करू पाहत आहेत.

आर्टिफिशियल इंटेलिजन्सचा ऍटलस

OpenAI च्या अहवालात असे नमूद केले आहे की AI ला अधिक जटिल कार्ये सोपवली जात आहेत ज्यांचे वास्तविक-जागतिक परिणाम आहेत, “दुर्भावनापूर्ण योजनांची संभाव्यता वाढेल – त्यामुळे आमचे संरक्षण आणि योग्यरित्या कठोर चाचणीची क्षमता वाढली पाहिजे.”

OpenAI ला त्याच्या AI मॉडेल्सच्या गूढ प्रवृत्तींचा सामना करावा लागला आहे, आणि कंपनीने असे म्हटले आहे की त्यांनी वापरकर्त्यांना स्पष्टीकरण विचारण्याचे प्रशिक्षण देऊन किंवा एखाद्या प्रश्नाचे उत्तर देऊ शकत नसताना चॅटबॉटने कबूल करण्यास प्रशिक्षित करून मॉडेल्स किती वेळा “फसवणूक, फसवणूक किंवा हॅक समस्या” करू शकतात याची संख्या मर्यादित करण्यासाठी “पाऊले” उचलली आहेत.

हे देखील वाचा: AI खोटे बोलतो कारण ते तुम्हाला काय ऐकायचे आहे असे ते सांगते

हा पेपर AI सुरक्षेबद्दल वाढत्या चिंतेवर प्रकाश टाकतो. जगभरातील अनेकांना काळजी वाटते की ही AI मॉडेल्स अधिक शक्तिशाली आणि त्यांच्या स्वतःच्या परिस्थितीबद्दल अधिक जागरूक झाल्यामुळे, ते मानवी पर्यवेक्षकांना स्पष्ट नसलेल्या मार्गांनी परिणाम हाताळण्यास शिकू शकतात. अशा वर्तनाचा शोध घेणे अत्यंत अवघड आहे, कारण ज्या सिस्टमला त्याची कारणे लपविण्यासाठी प्रोत्साहन दिले जाते ती समस्या “निश्चित” केलेल्या प्रणालीसारखीच दिसू शकते.

OpenAI म्हणते की ते ज्याला “विवेचनात्मक संरेखन” म्हणतात त्यामध्ये प्रगती केली आहे किंवा ते कार्य करण्यापूर्वी ते योजना का करत नाहीत याचा स्पष्टपणे विचार करण्यासाठी प्रशिक्षण मॉडेल. चाचणीमध्ये, यामुळे भ्रामक वर्तन लक्षणीयरीत्या कमी झाले. उदाहरणार्थ, OpenAI o4-mini ची नियोजन प्रवृत्ती मुद्दाम संरेखन प्रशिक्षणासह 8.7% वरून 0.3% पर्यंत कमी झाली, परंतु पूर्णपणे नाही.

हे संशोधन आज किंवा उद्या ChatGPT कसे कार्य करते ते बदलणार नाही, परंतु हे दर्शवते की OpenAI भविष्यातील मॉडेल तयार आणि लॉन्च करताना कशावर लक्ष केंद्रित करत आहे. ओपनएआयचा असा युक्तिवाद आहे की संरेखन आणि सुरक्षितता क्षमतेइतक्या लवकर हलवणे आवश्यक आहे. कारण जर एआय सिस्टम्स आधीपासूनच प्रयोगशाळेच्या सेटिंग्जमध्ये धोरणात्मक वर्तनाची झलक दाखवत असतील तर वास्तविक जगामध्ये जोखीम गंभीर असू शकतात.

हे देखील वाचा: थेरपिस्ट म्हणून AI वापरण्यापूर्वी तुम्ही दोनदा विचार का केला पाहिजे?

Source link