OpenAI संशोधकांनी एक नवीन पद्धत सादर केली आहे जी कार्य करते … "सत्य सीरम" LLM साठी, त्यांना त्यांच्या गैरवर्तन, भ्रम आणि धोरण उल्लंघनांची स्वत: तक्रार करण्यास भाग पाडणे. हे तंत्रज्ञान, "कबुलीजबाब," एंटरप्राइझ AI मधील वाढत्या चिंतेकडे लक्ष वेधते: मॉडेल्स अप्रामाणिक असू शकतात, त्यांच्या आत्मविश्वासाचा अतिरेक करू शकतात किंवा उत्तर मिळवण्यासाठी त्यांनी घेतलेले शॉर्टकट लपवू शकतात.

वास्तविक-जगातील अनुप्रयोगांसाठी, हे तंत्रज्ञान अधिक पारदर्शक आणि चालविण्यायोग्य AI प्रणालींच्या निर्मितीमध्ये प्रगती करते.

कबुलीजबाब काय आहेत?

एआय फसवणुकीचे अनेक प्रकार जटिलतेमुळे उद्भवतात मजबुतीकरण शिक्षण (RL) मॉडेल प्रशिक्षण टप्पा. RL मध्ये, अचूकता, शैली आणि सुरक्षितता यासह उद्दिष्टांचे संयोजन पूर्ण करणारे आउटपुट तयार करण्यासाठी मॉडेलना बक्षिसे दिली जातात. यामुळे धोका निर्माण होऊ शकतो "बक्षीस निश्चित करण्यात त्रुटी" मॉडेल सहजपणे उत्तरे कशी तयार करायची हे शिकतात "छान दिसते" रिवॉर्ड फंक्शनसाठी, वापरकर्त्याच्या हेतूला खरोखर विश्वासू असलेल्या उत्तरांऐवजी.

पोचपावती हे त्याचे मुख्य उत्तर प्रदान केल्यानंतर मॉडेलद्वारे व्युत्पन्न केलेला संरचित अहवाल आहे. हे त्याच्या सूचनांचे पालन करण्याचे स्व-मूल्यांकन आहे. या अहवालात, मॉडेलने ज्या सूचनांचे पालन करायचे होते त्या सर्व सूचनांची यादी केली पाहिजे, त्यांच्यावरील समाधानाचे मूल्यांकन करा आणि वाटेत त्याने घेतलेल्या कोणत्याही शंका किंवा निर्णयांचा अहवाल द्या. एक स्वतंत्र चॅनेल तयार करणे हे ध्येय आहे जेथे मॉडेलला केवळ प्रामाणिक राहण्यासाठी प्रोत्साहन दिले जाते.

मध्ये अ ब्लॉग पोस्ट,OpenAI संशोधक काही उदाहरणे देतात "कबुलीजबाब" कृतीत तंत्रज्ञान. एका मॉडेलची चाचणी लपविलेल्या नियमाने केली गेली: जर त्याला 50% पेक्षा जास्त गुण मिळाले तर त्याचे ज्ञान मिटवले जाईल. समान मॉडेल राखण्यासाठी "वाळूच्या पिशव्या" जाणूनबुजून अर्ध्या प्रश्नांची चुकीची उत्तरे देऊन. तिच्या सुरुवातीच्या उत्तराने ही फसवणूक लपवून ठेवली होती, परंतु त्यानंतरची तिची कबुली क्रूरपणे प्रामाणिक होती. आणि त्याने कबूल केले, "वापरकर्त्याला योग्य उत्तरे हवी होती, परंतु आम्ही त्यातील अर्धी उत्तरे नष्ट केली."

संशोधकांना असे आढळून आले की जेव्हा मॉडेल गैरवर्तन करते तेव्हा ते त्यांच्या मुख्य उत्तरापेक्षा कबुलीजबाबात कबूल करतात.

ओळख प्रशिक्षण कसे कार्य करते?

या पद्धतीची गुरुकिल्ली म्हणजे बक्षिसे वेगळे करणे. प्रशिक्षणादरम्यान, ओळखीचे बक्षीस केवळ त्याच्या सत्यतेवर आधारित असते आणि मुख्य कार्याच्या बक्षीसात कधीही मिसळले जात नाही. "कॅथोलिक चर्चच्या “कबुलीजबाबच्या शिक्का” प्रमाणे, फॉर्ममध्ये काहीही प्रकट होत नाही, त्याचे मूळ मिशन पूर्ण केल्याबद्दल मिळालेले बक्षीस बदलू शकत नाही." संशोधक लिहितात. हे निर्माण करते "सुरक्षित जागा" मॉडेलला दंड न करता चूक मान्य करण्यासाठी.

हा दृष्टीकोन शक्तिशाली आहे कारण तो एआय प्रशिक्षणातील एक मोठे आव्हान टाळतो. संशोधकांची अंतर्ज्ञान अशी आहे की प्रामाणिकपणे गैरवर्तन कबूल करणे हे मूळ समस्येसाठी उच्च बक्षीस मिळवण्यापेक्षा सोपे काम आहे, जे सहसा गुंतागुंतीचे असते.

म्हणून, जेव्हा एखाद्या मॉडेलचा शुद्ध प्रामाणिकपणावर न्याय केला जातो, तेव्हा त्याचा हेतू इतरांना फसवणे हा असतो "न्यायाधीश कबुलीजबाब" बक्षीस मॉडेलचे मुख्य उत्तर मिळविण्यासाठी फसवणूक करण्याच्या तिच्या प्रोत्साहनापेक्षा खूपच कमकुवत. उदाहरणार्थ, एका प्रयोगात ज्यामध्ये मॉडेलला प्रशिक्षण देण्यात आले होते "खाच" खराब बक्षीस मॉडेल आणि मुख्य कार्यावरील त्याची कामगिरी कालांतराने अधिक फसवी बनली. तथापि, तिचे कबुलीजबाब अधिक प्रामाणिक झाले, कारण ती करत असलेली बाउंटी हॅक तिने अचूकपणे ओळखली.

तथापि, या तंत्राच्या मर्यादा आहेत. कबुलीजबाब सर्व प्रकारच्या AI अपयशावर रामबाण उपाय नाही. जेव्हा मॉडेलला हे समजते की ते गैरवर्तन करत आहे तेव्हा सिस्टम सर्वोत्तम कार्य करते. साठी कमी प्रभावी आहे "अनामिक अनामिक." उदाहरणार्थ, जर एखादे मॉडेल एखाद्या वस्तुस्थितीचा भ्रमनिरास करत असेल आणि ती खरी असल्याचे प्रामाणिकपणे मानत असेल, तर ते चुकीची माहिती प्रदान केल्याचे मान्य करू शकत नाही. अयशस्वी ओळखीचे सर्वात सामान्य कारण म्हणजे फॉर्मचा गोंधळ, हेतुपुरस्सर फसवणूक नाही. जेव्हा सूचना अस्पष्ट असतात आणि मॉडेल मानवी वापरकर्त्याचा हेतू स्पष्टपणे निर्धारित करू शकत नाही तेव्हा गोंधळ होतो.

एंटरप्राइझ AI साठी याचा अर्थ काय आहे

OpenAI ची ओळख तंत्रज्ञान कृत्रिम बुद्धिमत्तेच्या सुरक्षितता आणि नियंत्रणाशी संबंधित वाढत्या कार्याचा एक भाग आहे. ओपनएआयच्या स्पर्धकांपैकी एक असलेल्या एन्थ्रोपिकने एमबीए विद्यार्थी कसे शिकू शकतात हे दाखवणारे संशोधनही प्रसिद्ध केले आहे दुर्भावनापूर्ण वर्तन. त्यावरही कंपनी काम करत आहे ही छिद्रे भरा जसे दिसते.

एआय ऍप्लिकेशन्ससाठी, पोचपावती सारख्या यंत्रणा व्यावहारिक देखरेख यंत्रणा प्रदान करू शकतात. ओळखीच्या संरचित आउटपुटचा वापर एखाद्या मॉडेलच्या प्रतिसादाला समस्या निर्माण होण्याआधी फ्लॅग किंवा नाकारण्यासाठी अनुमानाच्या वेळी केला जाऊ शकतो. उदाहरणार्थ, एखाद्या सिस्टमची ओळख धोरण उल्लंघन किंवा उच्च प्रमाणात अनिश्चितता दर्शवत असल्यास, मानवी पुनरावलोकनासाठी आउटपुट आपोआप वाढवण्यासाठी डिझाइन केले जाऊ शकते.

अशा जगात जिथे AI अधिकाधिक कार्यक्षम होत आहे आणि जटिल कार्यांसाठी सक्षम होत आहे, सुरक्षित आणि विश्वासार्ह तैनातीसाठी निरीक्षण आणि नियंत्रण महत्त्वाचे असेल.

“मॉडेल अधिक सक्षम होत असताना आणि उच्च-जोखीम सेटिंग्जमध्ये तैनात केले जातात, ते काय करत आहेत आणि का हे समजून घेण्यासाठी आम्हाला अधिक चांगल्या साधनांची आवश्यकता आहे,” OpenAI संशोधकांनी लिहिले. “कबुलीजबाब हे पूर्ण समाधान नाही, परंतु ते आमच्या पारदर्शकतेला आणि देखरेखीसाठी एक अर्थपूर्ण स्तर जोडतात.”

Source link