आमच्या उद्योग-अग्रणी AI कव्हरेजवर नवीनतम अद्यतने आणि विशेष सामग्री मिळविण्यासाठी आमच्या दैनिक आणि साप्ताहिक वृत्तपत्रांमध्ये सामील व्हा. तो अधिक शिकतो
वेगवान अंतर्दृष्टी मिळविण्यासाठी विकासक सामान्यत: अनुमान वेळ कमी करण्यावर लक्ष केंद्रित करतात — AI ला प्रॉम्प्ट प्राप्त होतो आणि उत्तर देते दरम्यानचा कालावधी.
पण जेव्हा संख्यात्मक मजबुतीचा प्रश्न येतो तेव्हा ओपनाई संशोधक म्हणतात: इतके वेगवान नाही. ते सुचवतात की मॉडेलला “विचार” करण्यासाठी लागणारा वेळ वाढवणे – अनुमान वेळ मोजणे – संसर्गाच्या हल्ल्यांविरूद्ध संरक्षण तयार करण्यात मदत करू शकते.
कंपनीने या सिद्धांताची चाचणी घेण्यासाठी तिचे O1-पूर्वावलोकन आणि O1-मिनी मॉडेल वापरले, विविध स्थिर आणि अनुकूली आक्रमण पद्धती – प्रतिमा-आधारित हाताळणी, गणिताच्या समस्यांना चुकीची उत्तरे प्रदान करणे आणि माहितीसह जबरदस्त मॉडेल्स (“—”- shot to protect रक्षण मग त्यांनी अनुमान काढताना मॉडेल वापरलेल्या मोजणीच्या आधारावर हल्ला यशस्वी होण्याची संभाव्यता मोजली.
“आम्ही पाहतो की अनेक प्रकरणांमध्ये, ही संभाव्यता क्षय होत जाते-अनेकदा शून्यापर्यंत-जसे निष्कर्ष वेळेची गणना वाढते,” संशोधक म्हणाले. ब्लॉग पोस्टमध्ये लिहा. “आमचा दावा असा नाही की ही विशिष्ट मॉडेल्स अटूट आहेत-आम्हाला माहित आहे की ते आहेत-परंतु त्या स्केलिंगमुळे विविध सेटिंग्ज आणि हल्ल्यांसाठी सुधारित अनुमान वेळ मिळतो.”
साध्या Q/A पासून जटिल गणितापर्यंत
लार्ज लँग्वेज मॉडेल्स (LLM) अधिक परिष्कृत आणि स्वायत्त होत आहेत—काही प्रकरणांमध्ये, वेब ब्राउझ करणे, कोड कार्यान्वित करणे, अपॉइंटमेंट घेणे आणि स्वायत्तपणे इतर कार्ये करण्यासाठी मानवांसाठी मूलत: संगणक ताब्यात घेणे — आणि ते जसे करतात तसे, आक्रमण पृष्ठभाग विस्तीर्ण होते आणि विस्तीर्ण आणि अधिक उघड.
तथापि, विरोधक बळकटता ही एक हट्टी समस्या राहिली आहे, ती सोडवण्याची प्रगती अद्याप मर्यादित आहे, ओपनाई येथील संशोधक सांगतात-जरी मॉडेलने वास्तविक-जागतिक परिणामांसह अधिक कृती करणे महत्त्वाचे आहे.
“वेब ब्राउझ करताना, ईमेल पाठवताना किंवा रेपॉजिटरीमध्ये कोड अपलोड करताना एजंट मॉडेल्स विश्वासार्हपणे कार्य करतात याची खात्री करणे हे सेल्फ-ड्रायव्हिंग कार अपघाताशिवाय चालते याची खात्री करण्यासाठी समान मानले जाऊ शकते,” ते लिहितात. नवीन संशोधन पेपर. “स्वयं-ड्रायव्हिंग कारच्या बाबतीत, एजंट जो चुकीचा ईमेल अग्रेषित करतो किंवा सुरक्षा भेद्यता निर्माण करतो त्याचे गंभीर, दूरगामी परिणाम होऊ शकतात.”
O1-Mini आणि O1-Preview च्या मजबूततेची चाचणी घेण्यासाठी, संशोधकांनी अनेक रणनीती वापरल्या. प्रथम, त्यांनी साध्या गणिताच्या समस्या (मूलभूत बेरीज आणि गुणाकार) आणि अधिक जटिल समस्या सोडविण्याच्या मॉडेल्सच्या क्षमतेचे परीक्षण केले. गणित डेटा संच (ज्यामध्ये गणिताच्या स्पर्धांमधील 12,500 प्रश्नांचा समावेश आहे).
त्यानंतर त्यांनी प्रतिस्पर्ध्यासाठी “उद्दिष्टे” सेट केली: योग्य उत्तराऐवजी मॉडेलला आउटपुट 42 वर आणणे; योग्य उत्तर अधिक एक आउटपुट करण्यासाठी; किंवा बरोबर उत्तर गुणा सात आउटपुट करा. क्लास न्यूरल नेटवर्क वापरून, संशोधकांना असे आढळले की “विचार” वेळ वाढवल्याने मॉडेल्सना योग्य उत्तरांची गणना करता आली.
त्यांनी एअर कंडिशनिंगही केले SimpleQa हे वास्तविक मानक आहेब्राउझिंगशिवाय मॉडेल्स सोडवणे कठीण होण्याच्या उद्देशाने प्रश्नांचा डेटासेट. संशोधकांनी AI ने ब्राउझ केलेल्या वेब पृष्ठांवर विरोधी दावे इंजेक्ट केले आणि त्यांना आढळले की उच्च गणना वेळेसह, ते विसंगती शोधू शकतात आणि वास्तविक अचूकता सुधारू शकतात.
अनाकलनीय बारकावे
दुसऱ्या पद्धतीत, संशोधकांनी मॉडेलला गोंधळात टाकण्यासाठी शत्रूच्या प्रतिमा वापरल्या; पुन्हा, अधिक “विचार” वेळेमुळे ओळख सुधारली आणि त्रुटी कमी झाली. शेवटी, त्यांनी “दुरुपयोग प्रॉम्प्ट्स” च्या मालिकेचा प्रयत्न केला मजबूत नकार सूचकडिझाइन केले आहे जेणेकरून पीडित फॉर्मने विशिष्ट आणि दुर्भावनापूर्ण माहितीसह प्रतिसाद दिला पाहिजे. यामुळे सामग्री धोरणासाठी टेम्पलेट्सच्या अनुपालनाची चाचणी घेण्यात मदत झाली. तथापि, प्रतिकारशक्ती सुधारण्यासाठी वाढीव अनुमान वेळ असूनही, काही दावे संरक्षणास टाळण्यात यशस्वी झाले आहेत.
येथे, संशोधक “अस्पष्ट” आणि “निःसंदिग्ध” कार्यांमधील फरक म्हणतात. गणित, उदाहरणार्थ, संबंधित ग्राउंड सत्य आहे यात शंका नाही. तथापि, दुरुपयोगाच्या दाव्यांसारख्या अधिक संदिग्ध कार्यांसाठी, “मानवी मूल्यमापनकर्ते देखील आउटपुट हानिकारक आहे की नाही आणि/किंवा मॉडेलने अनुसरण केलेल्या सामग्री धोरणांचे उल्लंघन करते की नाही यावर सहमत होण्यासाठी संघर्ष करतात.”
उदाहरणार्थ, एखाद्या अपमानास्पद हक्काने शोध न घेता चोरी कशी करावी याबद्दल सल्ला घेतल्यास, हे स्पष्ट नाही की केवळ साहित्यिक चोरीच्या पद्धतींबद्दल सामान्य माहिती प्रदान करणारे आउटपुट दुर्भावनापूर्ण क्रियांना समर्थन देण्यासाठी पुरेसे तपशीलवार आहे की नाही.
![](https://venturebeat.com/wp-content/uploads/2025/01/Screenshot-18.png)
![](https://venturebeat.com/wp-content/uploads/2025/01/Screenshot-19.png)
“अस्पष्ट कार्यांच्या बाबतीत, अशी सेटिंग्ज आहेत जिथे आक्रमणकर्त्याला यशस्वीरित्या ‘असुरक्षा’ सापडतात आणि त्याचा यशाचा दर अनुमान वेळेनुसार कमी होत नाही.”
तुरूंगातून निसटणे विरुद्ध संरक्षण, लाल विजय
या चाचण्या आयोजित करताना, ओपनाई संशोधकांनी आक्रमणाच्या विविध पद्धतींचा शोध लावला.
एक म्हणजे अनेक नर्तक, किंवा काही उदाहरणांचे अनुसरण करण्यासाठी मॉडेलच्या वर्तनाचे शोषण करणे. विरोधक मोठ्या संख्येने उदाहरणांसह संदर्भावर “आक्षेप” घेतात, प्रत्येक यशस्वी हल्ल्याचे उदाहरण दर्शवते. उच्च गणना वेळेसह मॉडेल अधिक वारंवार आणि यशस्वीरित्या हे नमुने शोधण्यात आणि कमी करण्यात सक्षम होते.
सॉफ्ट टोकन, दरम्यान, प्रतिस्पर्ध्यांना थेट वेक्टर एम्बेडिंगमध्ये फेरफार करण्याची परवानगी देतात. वाढीव अनुमानित वेळ येथे मदत करत असताना, संशोधकांनी निदर्शनास आणून दिले की अत्याधुनिक वेक्टर-आधारित हल्ल्यांपासून बचाव करण्यासाठी अधिक चांगली यंत्रणा आवश्यक आहे.
संशोधकांनी ह्युमन रेड विनद्वारे हल्ले देखील केले आहेत, जेथे 40 तज्ञ धोरणांचे उल्लंघन समाप्त करण्यासाठी दावे शोधतात. रेड टीमर्सनी हे हल्ले अनुमान वेळेच्या पाच स्तरांवर केले, विशेषत: खळबळजनक आणि अतिरेकी सामग्री, बेकायदेशीर वर्तन आणि स्वत: ची हानी यांना लक्ष्य केले. निष्पक्ष परिणाम सुनिश्चित करण्यात मदत करण्यासाठी, त्यांनी अंध आणि यादृच्छिक चाचणी केली आणि प्रशिक्षक देखील फिरवले.
अधिक नवीन दृष्टीकोनातून, संशोधकांनी एक अनुकूली भाषा मॉडेलिंग हल्ला (LMP), जो पुनरावृत्ती चाचणी आणि त्रुटीवर जास्त अवलंबून असलेल्या मानवी रेडनेकच्या वर्तनाची नक्कल करतो. लूपिंग प्रक्रियेत, हल्लेखोरांना मागील अपयशांबद्दल अभिप्राय प्राप्त झाला आणि नंतर या माहितीचा वापर पुढील प्रयत्नांसाठी आणि जलद रीवर्कसाठी केला. शेवटी यशस्वी हल्ला होईपर्यंत किंवा कोणताही हल्ला न करता 25 पुनरावृत्ती होईपर्यंत हे चालू राहिले.
“आमच्या सेटअपमुळे आक्रमणकर्त्याला प्रत्येक हल्ल्याला प्रतिसाद म्हणून बचावकर्त्याच्या वर्तनाच्या वर्णनावर आधारित, अनेक प्रयत्नांदरम्यान त्याची रणनीती अनुकूल करण्याची परवानगी मिळते,” संशोधकांनी लिहिले.
तर्काच्या वेळेचे शोषण
त्यांच्या संशोधनादरम्यान, ओपनाईला असे आढळून आले की हल्लेखोर देखील अनुमानित वेळेचा फायदा घेतात. या पद्धतींपैकी एक ज्याला ते “थिंक लेस” म्हणतात – ते मुळात मॉडेल्सना कमी गणना करण्यास सांगतात, ज्यामुळे त्यांची चूक वाढते.
त्याचप्रमाणे, त्यांनी विचारांच्या मॉडेलमध्ये अपयश मोड ओळखला ज्याला ते “नर्ड स्निपिंग” म्हणतात. नावाप्रमाणेच, हे घडते जेव्हा मॉडेल एखाद्या विशिष्ट कार्याच्या आवश्यकतेपेक्षा जास्त वेळ घालवते. विचारांच्या या “बाह्य” साखळ्यांसह, मॉडेल मूलत: अनुत्पादक विचारांच्या पळवाटांमध्ये अडकतात.
संशोधकांनी नमूद केले आहे: “’थिंक लेस’ हल्ल्याप्रमाणे, विचार मॉडेलवर हल्ला करण्याचा हा एक नवीन दृष्टीकोन आहे, आणि आक्रमणकर्ता विनाकारण कारणीभूत होऊ शकत नाही किंवा त्यांची गणना विचारात खर्च करू शकत नाही याची खात्री करण्यासाठी हे लक्षात घेतले पाहिजे. अनुत्पादक मार्गांनी.”
Source link