Home बातम्या ओपनाई: “थिंक टाइम” मॉडेल वाढवण्यामुळे उदयोन्मुख सायबर असुरक्षिततेचा सामना करण्यास मदत होते

बातम्या

ओपनाई: “थिंक टाइम” मॉडेल वाढवण्यामुळे उदयोन्मुख सायबर असुरक्षिततेचा सामना करण्यास मदत होते

27 जानेवारी 2025

आमच्या उद्योग-अग्रणी AI कव्हरेजवर नवीनतम अद्यतने आणि विशेष सामग्री मिळविण्यासाठी आमच्या दैनिक आणि साप्ताहिक वृत्तपत्रांमध्ये सामील व्हा. तो अधिक शिकतो

वेगवान अंतर्दृष्टी मिळविण्यासाठी विकासक सामान्यत: अनुमान वेळ कमी करण्यावर लक्ष केंद्रित करतात — AI ला प्रॉम्प्ट प्राप्त होतो आणि उत्तर देते दरम्यानचा कालावधी.

पण जेव्हा संख्यात्मक मजबुतीचा प्रश्न येतो तेव्हा ओपनाई संशोधक म्हणतात: इतके वेगवान नाही. ते सुचवतात की मॉडेलला “विचार” करण्यासाठी लागणारा वेळ वाढवणे – अनुमान वेळ मोजणे – संसर्गाच्या हल्ल्यांविरूद्ध संरक्षण तयार करण्यात मदत करू शकते.

कंपनीने या सिद्धांताची चाचणी घेण्यासाठी तिचे O1-पूर्वावलोकन आणि O1-मिनी मॉडेल वापरले, विविध स्थिर आणि अनुकूली आक्रमण पद्धती – प्रतिमा-आधारित हाताळणी, गणिताच्या समस्यांना चुकीची उत्तरे प्रदान करणे आणि माहितीसह जबरदस्त मॉडेल्स (“—”- shot to protect रक्षण मग त्यांनी अनुमान काढताना मॉडेल वापरलेल्या मोजणीच्या आधारावर हल्ला यशस्वी होण्याची संभाव्यता मोजली.

“आम्ही पाहतो की अनेक प्रकरणांमध्ये, ही संभाव्यता क्षय होत जाते-अनेकदा शून्यापर्यंत-जसे निष्कर्ष वेळेची गणना वाढते,” संशोधक म्हणाले. ब्लॉग पोस्टमध्ये लिहा. “आमचा दावा असा नाही की ही विशिष्ट मॉडेल्स अटूट आहेत-आम्हाला माहित आहे की ते आहेत-परंतु त्या स्केलिंगमुळे विविध सेटिंग्ज आणि हल्ल्यांसाठी सुधारित अनुमान वेळ मिळतो.”

साध्या Q/A पासून जटिल गणितापर्यंत

लार्ज लँग्वेज मॉडेल्स (LLM) अधिक परिष्कृत आणि स्वायत्त होत आहेत—काही प्रकरणांमध्ये, वेब ब्राउझ करणे, कोड कार्यान्वित करणे, अपॉइंटमेंट घेणे आणि स्वायत्तपणे इतर कार्ये करण्यासाठी मानवांसाठी मूलत: संगणक ताब्यात घेणे — आणि ते जसे करतात तसे, आक्रमण पृष्ठभाग विस्तीर्ण होते आणि विस्तीर्ण आणि अधिक उघड.

तथापि, विरोधक बळकटता ही एक हट्टी समस्या राहिली आहे, ती सोडवण्याची प्रगती अद्याप मर्यादित आहे, ओपनाई येथील संशोधक सांगतात-जरी मॉडेलने वास्तविक-जागतिक परिणामांसह अधिक कृती करणे महत्त्वाचे आहे.

“वेब ब्राउझ करताना, ईमेल पाठवताना किंवा रेपॉजिटरीमध्ये कोड अपलोड करताना एजंट मॉडेल्स विश्वासार्हपणे कार्य करतात याची खात्री करणे हे सेल्फ-ड्रायव्हिंग कार अपघाताशिवाय चालते याची खात्री करण्यासाठी समान मानले जाऊ शकते,” ते लिहितात. नवीन संशोधन पेपर. “स्वयं-ड्रायव्हिंग कारच्या बाबतीत, एजंट जो चुकीचा ईमेल अग्रेषित करतो किंवा सुरक्षा भेद्यता निर्माण करतो त्याचे गंभीर, दूरगामी परिणाम होऊ शकतात.”

O1-Mini आणि O1-Preview च्या मजबूततेची चाचणी घेण्यासाठी, संशोधकांनी अनेक रणनीती वापरल्या. प्रथम, त्यांनी साध्या गणिताच्या समस्या (मूलभूत बेरीज आणि गुणाकार) आणि अधिक जटिल समस्या सोडविण्याच्या मॉडेल्सच्या क्षमतेचे परीक्षण केले. गणित डेटा संच (ज्यामध्ये गणिताच्या स्पर्धांमधील 12,500 प्रश्नांचा समावेश आहे).

त्यानंतर त्यांनी प्रतिस्पर्ध्यासाठी “उद्दिष्टे” सेट केली: योग्य उत्तराऐवजी मॉडेलला आउटपुट 42 वर आणणे; योग्य उत्तर अधिक एक आउटपुट करण्यासाठी; किंवा बरोबर उत्तर गुणा सात आउटपुट करा. क्लास न्यूरल नेटवर्क वापरून, संशोधकांना असे आढळले की “विचार” वेळ वाढवल्याने मॉडेल्सना योग्य उत्तरांची गणना करता आली.

त्यांनी एअर कंडिशनिंगही केले SimpleQa हे वास्तविक मानक आहेब्राउझिंगशिवाय मॉडेल्स सोडवणे कठीण होण्याच्या उद्देशाने प्रश्नांचा डेटासेट. संशोधकांनी AI ने ब्राउझ केलेल्या वेब पृष्ठांवर विरोधी दावे इंजेक्ट केले आणि त्यांना आढळले की उच्च गणना वेळेसह, ते विसंगती शोधू शकतात आणि वास्तविक अचूकता सुधारू शकतात.

स्रोत: Arxiv

अनाकलनीय बारकावे

दुसऱ्या पद्धतीत, संशोधकांनी मॉडेलला गोंधळात टाकण्यासाठी शत्रूच्या प्रतिमा वापरल्या; पुन्हा, अधिक “विचार” वेळेमुळे ओळख सुधारली आणि त्रुटी कमी झाली. शेवटी, त्यांनी “दुरुपयोग प्रॉम्प्ट्स” च्या मालिकेचा प्रयत्न केला मजबूत नकार सूचकडिझाइन केले आहे जेणेकरून पीडित फॉर्मने विशिष्ट आणि दुर्भावनापूर्ण माहितीसह प्रतिसाद दिला पाहिजे. यामुळे सामग्री धोरणासाठी टेम्पलेट्सच्या अनुपालनाची चाचणी घेण्यात मदत झाली. तथापि, प्रतिकारशक्ती सुधारण्यासाठी वाढीव अनुमान वेळ असूनही, काही दावे संरक्षणास टाळण्यात यशस्वी झाले आहेत.

येथे, संशोधक “अस्पष्ट” आणि “निःसंदिग्ध” कार्यांमधील फरक म्हणतात. गणित, उदाहरणार्थ, संबंधित ग्राउंड सत्य आहे यात शंका नाही. तथापि, दुरुपयोगाच्या दाव्यांसारख्या अधिक संदिग्ध कार्यांसाठी, “मानवी मूल्यमापनकर्ते देखील आउटपुट हानिकारक आहे की नाही आणि/किंवा मॉडेलने अनुसरण केलेल्या सामग्री धोरणांचे उल्लंघन करते की नाही यावर सहमत होण्यासाठी संघर्ष करतात.”

उदाहरणार्थ, एखाद्या अपमानास्पद हक्काने शोध न घेता चोरी कशी करावी याबद्दल सल्ला घेतल्यास, हे स्पष्ट नाही की केवळ साहित्यिक चोरीच्या पद्धतींबद्दल सामान्य माहिती प्रदान करणारे आउटपुट दुर्भावनापूर्ण क्रियांना समर्थन देण्यासाठी पुरेसे तपशीलवार आहे की नाही.

“अस्पष्ट कार्यांच्या बाबतीत, अशी सेटिंग्ज आहेत जिथे आक्रमणकर्त्याला यशस्वीरित्या ‘असुरक्षा’ सापडतात आणि त्याचा यशाचा दर अनुमान वेळेनुसार कमी होत नाही.”

तुरूंगातून निसटणे विरुद्ध संरक्षण, लाल विजय

या चाचण्या आयोजित करताना, ओपनाई संशोधकांनी आक्रमणाच्या विविध पद्धतींचा शोध लावला.

एक म्हणजे अनेक नर्तक, किंवा काही उदाहरणांचे अनुसरण करण्यासाठी मॉडेलच्या वर्तनाचे शोषण करणे. विरोधक मोठ्या संख्येने उदाहरणांसह संदर्भावर “आक्षेप” घेतात, प्रत्येक यशस्वी हल्ल्याचे उदाहरण दर्शवते. उच्च गणना वेळेसह मॉडेल अधिक वारंवार आणि यशस्वीरित्या हे नमुने शोधण्यात आणि कमी करण्यात सक्षम होते.

सॉफ्ट टोकन, दरम्यान, प्रतिस्पर्ध्यांना थेट वेक्टर एम्बेडिंगमध्ये फेरफार करण्याची परवानगी देतात. वाढीव अनुमानित वेळ येथे मदत करत असताना, संशोधकांनी निदर्शनास आणून दिले की अत्याधुनिक वेक्टर-आधारित हल्ल्यांपासून बचाव करण्यासाठी अधिक चांगली यंत्रणा आवश्यक आहे.

संशोधकांनी ह्युमन रेड विनद्वारे हल्ले देखील केले आहेत, जेथे 40 तज्ञ धोरणांचे उल्लंघन समाप्त करण्यासाठी दावे शोधतात. रेड टीमर्सनी हे हल्ले अनुमान वेळेच्या पाच स्तरांवर केले, विशेषत: खळबळजनक आणि अतिरेकी सामग्री, बेकायदेशीर वर्तन आणि स्वत: ची हानी यांना लक्ष्य केले. निष्पक्ष परिणाम सुनिश्चित करण्यात मदत करण्यासाठी, त्यांनी अंध आणि यादृच्छिक चाचणी केली आणि प्रशिक्षक देखील फिरवले.

अधिक नवीन दृष्टीकोनातून, संशोधकांनी एक अनुकूली भाषा मॉडेलिंग हल्ला (LMP), जो पुनरावृत्ती चाचणी आणि त्रुटीवर जास्त अवलंबून असलेल्या मानवी रेडनेकच्या वर्तनाची नक्कल करतो. लूपिंग प्रक्रियेत, हल्लेखोरांना मागील अपयशांबद्दल अभिप्राय प्राप्त झाला आणि नंतर या माहितीचा वापर पुढील प्रयत्नांसाठी आणि जलद रीवर्कसाठी केला. शेवटी यशस्वी हल्ला होईपर्यंत किंवा कोणताही हल्ला न करता 25 पुनरावृत्ती होईपर्यंत हे चालू राहिले.

“आमच्या सेटअपमुळे आक्रमणकर्त्याला प्रत्येक हल्ल्याला प्रतिसाद म्हणून बचावकर्त्याच्या वर्तनाच्या वर्णनावर आधारित, अनेक प्रयत्नांदरम्यान त्याची रणनीती अनुकूल करण्याची परवानगी मिळते,” संशोधकांनी लिहिले.

तर्काच्या वेळेचे शोषण

त्यांच्या संशोधनादरम्यान, ओपनाईला असे आढळून आले की हल्लेखोर देखील अनुमानित वेळेचा फायदा घेतात. या पद्धतींपैकी एक ज्याला ते “थिंक लेस” म्हणतात – ते मुळात मॉडेल्सना कमी गणना करण्यास सांगतात, ज्यामुळे त्यांची चूक वाढते.

त्याचप्रमाणे, त्यांनी विचारांच्या मॉडेलमध्ये अपयश मोड ओळखला ज्याला ते “नर्ड स्निपिंग” म्हणतात. नावाप्रमाणेच, हे घडते जेव्हा मॉडेल एखाद्या विशिष्ट कार्याच्या आवश्यकतेपेक्षा जास्त वेळ घालवते. विचारांच्या या “बाह्य” साखळ्यांसह, मॉडेल मूलत: अनुत्पादक विचारांच्या पळवाटांमध्ये अडकतात.

संशोधकांनी नमूद केले आहे: “’थिंक लेस’ हल्ल्याप्रमाणे, विचार मॉडेलवर हल्ला करण्याचा हा एक नवीन दृष्टीकोन आहे, आणि आक्रमणकर्ता विनाकारण कारणीभूत होऊ शकत नाही किंवा त्यांची गणना विचारात खर्च करू शकत नाही याची खात्री करण्यासाठी हे लक्षात घेतले पाहिजे. अनुत्पादक मार्गांनी.”

VB दैनिक सह व्यवसाय वापर प्रकरणांमध्ये दैनिक अंतर्दृष्टी

तुम्हाला तुमच्या बॉसला प्रभावित करायचे असल्यास, व्हीबी डेलीने तुम्हाला कव्हर केले आहे. संघटनात्मक बदलांपासून ते हँड-ऑन डिप्लॉयमेंटपर्यंत कंपन्या जनरेटिव्ह AI सह काय करत आहेत याविषयी आम्ही तुम्हाला अंतर्भूत माहिती देतो, जेणेकरून तुम्ही कमाल ROI साठी अंतर्दृष्टी शेअर करू शकता.

आमचे गोपनीयता धोरण वाचा

सदस्यता घेतल्याबद्दल धन्यवाद. येथे अधिक VB वृत्तपत्रे पहा.

एक त्रुटी आली.

Source link

ओपनाई: “थिंक टाइम” मॉडेल वाढवण्यामुळे उदयोन्मुख सायबर असुरक्षिततेचा सामना करण्यास मदत होते

साध्या Q/A पासून जटिल गणितापर्यंत

अनाकलनीय बारकावे

तुरूंगातून निसटणे विरुद्ध संरक्षण, लाल विजय

तर्काच्या वेळेचे शोषण

नवीनतम बातम्या

एटी अँड टी अप्स कोणत्याही परिस्थितीत जुन्या आयफोन डिव्हाइसवरील व्यापार समाविष्ट...

ऑक्सफोर्ड विद्वान क्वांटम संगणकांसह रिमोट ट्रान्सपोर्टचा शोध घेत आहेत

बिलिकल आणि जॉर्डन हडसन स्टॅन चाहते आयकॉनिक म्हणून एनएफएल सन्मानानंतर आयकॉनिक...

युक्रेनचे म्हणणे आहे की फ्रान्सने फ्रान्सने लढाऊ जेट पुरवठा करताच रशियन...

ड्यूश बँक, वर्षाच्या अखेरीस फेरारीबरोबर चेतावणी

एबीसी बॉस आसंजन इटा बुटट्रोज तिच्या ईमेलटी लट्टूफवर – आणि ते...

सेंट्रल बँक ऑफ इंडियाने सुमारे पाच वर्षांत प्रथमच पॉलिसी दर कमी...

ब्राझील स्टार नेयमार सॅंटोसच्या दुसर्‍या स्पेलमध्ये बॉयफ्रेंड क्लबसाठी 12 वर्षात पहिला...

मेनिका बचाव (अमुंडी): “बाजारपेठेत सर्वात चांगली गोष्ट म्हणजे प्रतीक्षा करणे आणि...

ब्रेंडन फॅव्होलाने उघड केले की त्याने आपल्या कारमध्ये एकटाच रडला कारण...

लॉजिस्टने त्याच्या अंदाजामुळे निराश केले आणि वर्षात आधीच पडले

कुटुंब एस्केकमध्ये कारमध्ये नेणा googes ्या कुत्र्यांना पुनर्प्राप्त करण्यासाठी कुटुंब हतबल...

तज्ञ म्हणतात की “द गल्फ ऑफ अमेरिका” हे नाव बदलणे कदाचित...

श्रेणी