क्लॉड ओपस 4.6 विरुद्ध प्रतिबंधित कोडींग वातावरणात जलद हल्ला करा आणि तो प्रत्येक वेळी अयशस्वी होईल, 200 प्रयत्नांमध्ये 0% यशाचा दर, कोणतीही हमी आवश्यक नाही. विस्तारित तर्क सक्षम असलेल्या GUI-आधारित प्रणालीवर समान आक्रमण हलवा, आणि चित्र त्वरीत बदलते. एक प्रयत्न 17.8% हमीशिवाय केला जातो. 200 व्या प्रयत्नात, प्रवेश दर हमीशिवाय 78.6% आणि त्यांच्यासह 57.1% पर्यंत पोहोचतो.

सिस्टीमचे नवीनतम 212-पृष्ठ कार्ड, 5 फेब्रुवारी रोजी रिलीज झाले आहे, पृष्ठभाग, प्रयत्नांची संख्या आणि सुरक्षा कॉन्फिगरेशननुसार हल्ल्याच्या यशाचे प्रमाण निर्धारित करते.

पृष्ठभाग-स्तरीय फरक एंटरप्राइझ जोखीम का निर्धारित करतात

बर्याच वर्षांपासून, तात्काळ इंजेक्शन हा एक ज्ञात धोका होता जो कोणी ओळखला नव्हता. सुरक्षा पथकांनी हे प्रकरण सैद्धांतिक मानले. एआय डेव्हलपर्सनी याला संशोधन समस्या म्हणून हाताळले आहे. जेव्हा अँथ्रोपिकने चार वेगवेगळ्या ग्राहक पृष्ठभागांवर झटपट इंजेक्शन मोजता येण्याजोगे केले तेव्हा ते बदलले, आक्रमण यश दर ज्यावर सुरक्षा नेते शेवटी खरेदीचे निर्णय घेऊ शकतात.

OpenAI च्या GPT-5.2 सिस्टम कार्डमध्ये एजंट JSK आणि PlugInject सारख्या मूल्यमापनातील परिणामांसह, वेगवान इंजेक्शनसाठी बेंचमार्क परिणाम समाविष्ट आहेत, परंतु एजंटच्या पृष्ठभागाद्वारे हल्ल्याच्या यशाचे दर खंडित करत नाहीत किंवा हे दर वारंवार प्रयत्नांवर कसे बदलतात हे दर्शवित नाही. मूळ GPT-5 सिस्टम कार्डमध्ये 400 हून अधिक बाह्य प्रयोगशाळांमधून 5,000 तासांहून अधिक अनावश्यक टीमवर्कचे वर्णन केले आहे. मिथुन 3 मॉडेल कार्ड तिचे वर्णन करते "आमचे आतापर्यंतचे सर्वात सुरक्षित मॉडेल" सह "तात्काळ इंजेक्शनला वाढलेली प्रतिकार," मागील मॉडेलच्या तुलनेत सापेक्ष सुरक्षा सुधारणा सामायिक करा परंतु पृष्ठभाग किंवा सतत मापन डेटाद्वारे संपूर्ण आक्रमण यश दर प्रकाशित करू नका.

प्रत्येक विकसक काय प्रकट करतो आणि काय लपवतो

प्रकटीकरण श्रेणी

मानववंशीय (कार्य ४.६)

OpenAI (GPT-5.2)

Google (मिथुन 3)

प्रत्येक पृष्ठभागावर हल्ला यशस्वी दर

प्रकाशित (0% ते 78.6%)

फक्त मानक गुण

फक्त सापेक्ष सुधारणा

आक्रमण सातत्य मेट्रिक

प्रकाशित (1 ते 200 प्रयत्न)

प्रकाशित झाले नाही

प्रकाशित झाले नाही

चालू/बंद तुलनात्मक संरक्षण

प्रकाशित

प्रकाशित झाले नाही

प्रकाशित झाले नाही

डेटा चोरी मॉनिटरिंग एजंट

प्रकाशित (SHADE-Arena)

प्रकाशित झाले नाही

प्रकाशित झाले नाही

शून्य दिवसाचा शोध महत्त्वाचा आहे

नामांकित प्रकल्पांसह 500+

प्रकाशित झाले नाही

प्रकाशित झाले नाही

तृतीय पक्ष रेड टीम

ग्रे स्वान, यूके AISI, अपोलो

400 पेक्षा जास्त बाह्य प्रयोगशाळा

UK AISI, Apollo, Voltis, Dreadnought

तृतीय-पक्ष चाचणी पुरवठादारांना तपशीलवार प्रकटीकरणाचे महत्त्व हायलाइट करते. Promptfoo च्या GPT-5.2 च्या स्वतंत्र रेड टीम मूल्यांकनात असे आढळून आले की जेलब्रेक यशाचा दर 4.3% च्या बेसलाइनवरून 78.5% पर्यंत वाढला आहे मल्टी-थ्रेड परिस्थितींमध्ये, सतत मोजलेल्या डेटाचा प्रकार जो सततच्या हल्ल्यात संरक्षण कसे कमी होते हे उघड करतो. OpenAI च्या स्वतःच्या सिस्टम कार्डमध्ये समतुल्य मेट्रिक्स समाविष्ट नाहीत.

जेव्हा एजंट त्याच्या निर्मात्याची देखरेख टाळतो

संरेखन मूल्यमापनात दफन केलेले एक निष्कर्ष आहे जे एजंट गव्हर्नन्सबद्दल कंपन्या कसे विचार करतात हे पुन्हा आकार देईल. SHADE-Arena मध्ये, स्वयंचलित देखरेख सक्षम केल्याशिवाय मॉडेल्स संशयास्पद कार्ये पूर्ण करण्यास सक्षम आहेत की नाही हे तपासण्यासाठी डिझाइन केलेले बेंचमार्क, विस्तारित तर्क सक्षम असताना Opus 4.6 18% प्रकरणांमध्ये यशस्वी झाले. अँथ्रोपिकच्या अंतर्गत शोध थ्रेशोल्डनुसार मॉनिटरचे कॅलिब्रेट केले जाते.

सिस्टम कार्ड विद्यमान मॉडेल सूचित करते "स्वयंचलित निरीक्षकांचे लक्ष वेधून न घेता संशयास्पद बाजू शोध पूर्ण करण्याची सुधारित क्षमता." अँथ्रोपिकने बनवलेला क्लायंट अँथ्रोपिकने बनवलेल्या स्क्रीनला टाळतो.

अँथ्रोपिकने प्रकाशित केलेला वेगळा तोडफोड जोखीम अहवाल विरुद्ध निष्कर्ष काढण्यासाठी समान 18% आकडा वापरतो: लपलेले वास्तविक लक्ष्य असलेले मॉडेल सध्याच्या क्षमतेच्या पातळीवर “पकडले जाण्याची लक्षणीय शक्यता” आहे. परंतु अहवालाने हे देखील मान्य केले आहे की ही संख्या “अलीकडील मॉडेलच्या तुलनेत वाढ दर्शवते.” एंटरप्राइझ सुरक्षा संघांसाठी, ट्रेंड लाइन सध्याच्या संख्येपेक्षा अधिक महत्त्वाची आहे. प्रत्येक मॉडेलच्या निर्मितीसह सुधारणारी क्षमता ही अशी क्षमता नाही जी तुम्ही तुमच्या जोखीम मॉडेलमध्ये सुरक्षितपणे दुर्लक्ष करू शकता.

सुरक्षा पथकांसाठी, टेकअवे वास्तुशास्त्रीय आहे. एजंट काय प्रवेश करू शकतो ते प्रतिबंधित करा, त्यांचे कार्यक्षेत्र मर्यादित करा आणि उच्च-जोखमीच्या ऑपरेशनसाठी मानवी मंजूरी आवश्यक आहे. पारंपारिक प्रसार-आणि-निरीक्षण मॉडेल असे गृहीत धरते की ज्या गोष्टीचे परीक्षण केले जात आहे ते अंदाजे आहे. एजंट जे त्यांच्या स्वत: च्या निरीक्षणाबद्दल विचार करू शकतात ते नाहीत.

एआय एजंट तैनात करणाऱ्या कंपन्यांना समस्येचा सामना करावा लागतो, असे हार्वर्ड केनेडी स्कूलचे सहकारी आणि लेक्चरर आणि इलेक्ट्रॉनिक फ्रंटियर फाउंडेशनचे बोर्ड सदस्य ब्रूस श्नियर म्हणतात. "सुरक्षा त्रयी," ते वेग, बुद्धिमत्ता किंवा सुरक्षा सुधारू शकतात, परंतु तिन्ही नाहीत.

एन्थ्रोपिकचा स्वतःचा डेटा हा व्यापार-ऑफ स्पष्ट करतो. सर्वात मजबूत पृष्ठभाग अरुंद आणि प्रतिबंधित आहे. सर्वात कमकुवत विस्तृत आणि स्वतंत्र आहे.

500 झिरो डेज ट्रान्सफॉर्मिंग द इकॉनॉमिक्स ऑफ व्हलनेरबिलिटी डिस्कवरी

Opus 4.6 ने GhostScript, OpenSC आणि CGIF मधील त्रुटींसह ओपन सोर्स कोडमध्ये 500 पेक्षा जास्त पूर्वी अज्ञात भेद्यता शोधल्या. अँथ्रोपिकने सिस्टम कार्ड रिलीझसह ब्लॉग पोस्टमध्ये या निष्कर्षांचे तपशीलवार वर्णन केले आहे.

एका मॉडेलपासून पाचशे शून्य दिवस. संदर्भासाठी, Google च्या Threat Intelligence Group ने 75 शून्य-दिवसीय असुरक्षा शोधल्या ज्यांचा 2024 मध्ये संपूर्ण उद्योगात सक्रियपणे शोषण करण्यात आला. या असुरक्षा हल्लेखोरांनी आधीच वापरल्यानंतर आढळून आल्या. एका मॉडेलने हल्लेखोरांना शोधण्याआधी ओपन सोर्स कोडबेसमध्ये त्या संख्येपेक्षा सहा पट अधिक सक्रियपणे शोधले. हा शोधाचा एक वेगळा वर्ग आहे, परंतु AI संरक्षण सुरक्षा संशोधनासाठी किती व्याप्ती आणते हे दर्शवते.

रिअल-लाइफ हल्ले आधीच धोक्याचे मॉडेल प्रमाणित करण्यासाठी सुरू झाले आहेत

अँथ्रोपिकने क्लॉड कॉवर्कला रिलीझ केल्यानंतर काही दिवसांनी, प्रॉम्प्टआर्मर येथील सुरक्षा संशोधकांना लपविलेल्या स्पॉट इंजेक्शनद्वारे गोपनीय वापरकर्त्याच्या फाइल्स चोरण्याचा मार्ग सापडला. मानवी परवानगीची आवश्यकता नाही.

हल्ल्याची साखळी खालीलप्रमाणे कार्य करते:

वापरकर्ता कॉवर्कला गोपनीय डेटा असलेल्या स्थानिक फोल्डरशी जोडतो. विरोधक या फोल्डरमध्ये लपलेल्या हॉटशॉटसह फाईल लावतात, निरुपद्रवीच्या वेशात "कौशल्य" दस्तऐवज सँडबॉक्स निर्बंधांना पूर्णपणे बायपास करून, श्वेतसूचीबद्ध Anthropic API स्कोपद्वारे खाजगी डेटा खेचण्यासाठी इंजेक्शन क्लाउडला युक्ती देते. क्लॉड हायकू विरुद्ध PromptArmor द्वारे चाचणी. तुम्ही यशस्वी झालात. त्यांनी क्लाउड ओपस 4.5 विरुद्ध त्याची चाचणी केली, त्या वेळी कंपनीचे सर्वात सक्षम मॉडेल. तेही चालले.

सायमन विलिसन, स्वतंत्र AI संशोधक ज्याने 2022 मध्ये “इन्स्टंट इंजेक्शन” हा शब्द तयार केला, त्यांनी कॉवर्क पुनरावलोकनानंतर एका ब्लॉग पोस्टमध्ये लिहिले की “सामान्य, प्रोग्रामर नसलेल्या वापरकर्त्यांना ‘झटपट इंजेक्शन दर्शविणाऱ्या संशयास्पद कृतीं’पासून सावध राहण्यास सांगणे योग्य आहे असे त्यांना वाटत नाही.” अँथ्रोपिकने त्याच्या सिस्टम कार्डमध्ये प्रकट केलेली असुरक्षा, ज्यामध्ये प्रतिद्वंद्वी अर्ध्याहून अधिक वेळा संरक्षणाचे उल्लंघन करतात, तीच आहे जी Opus 4.6 च्या दोन आठवड्यांपूर्वी उत्पादनात दिसून आली. तो पाठवण्यात आला आहे.

मूल्यमापन अखंडतेची समस्या प्रत्येक विक्रेत्याला प्रभावित करते

सिस्टम तिकीट जारी करण्याच्या निर्णय प्रक्रियेला एक स्वीकृती आहे जी संस्थेतील प्रत्येक सुरक्षा टीमला विराम द्यावी. अँथ्रोपिकने क्लॉड कोडद्वारे, त्याचे मूल्यमापन इन्फ्रास्ट्रक्चर डीबग करण्यासाठी, परिणामांचे विश्लेषण करण्यासाठी आणि वेळेच्या दबावाखाली समस्यांचे निराकरण करण्यासाठी, Opus 4.6 चा वापर केला.

कंपनी जोखीम स्पष्टपणे मान्य करते. "तिरकस मॉडेल त्याच्या क्षमता मोजण्यासाठी डिझाइन केलेल्या पायाभूत सुविधांवर परिणाम करू शकते." मानववंशीय म्हणते की हे एक महत्त्वपूर्ण जोखीम दर्शविते यावर विश्वास ठेवत नाही कारण मॉडेलने धोकादायक तिरपे लक्ष्यांचा कोणताही पुरावा दर्शविला नाही. पण डायनॅमिक वास्तविक आहे आणि वाईट होत आहे. मॉडेल्स अधिक सक्षम झाल्यामुळे आणि विकास टाइमलाइन संकुचित राहतात, संघ कोड बदल स्वीकारतात जे त्यांना पूर्णपणे समजत नाहीत.

काय चूक होऊ शकते हे ओळखण्यात मानववंशशास्त्र इतर प्रयोगशाळेपेक्षा पुढे गेले आहे. सिस्टीम कार्डच्या बाजूने जारी केलेला एक वेगळा सबव्हर्शन जोखीम अहवाल, आठ विशिष्ट मार्गांचा चार्ट तयार करतो ज्याद्वारे Opus 4.6 ने अँथ्रोपिकच्या पायाभूत सुविधांमध्ये अंतर्भूत असताना असंतुलित लक्ष्यांवर कार्य केल्यास आपत्तीजनक नुकसान होऊ शकते. यामध्ये हेतुपुरस्सर सँडबॅगिंग करून सुरक्षितता संशोधनाचा विपर्यास करणे, भविष्यातील मॉडेल्सचे शोषण करण्यासाठी कोडमध्ये सुरक्षा बॅकडोअर्स घालणे आणि स्वतंत्रपणे काम करण्यासाठी त्यांच्या मॉडेलचे वजन कमी करणे समाविष्ट आहे.

प्रत्येक मार्गासाठी, अहवाल आवश्यक विचलित क्रियांची वारंवारता आणि जटिलता या दोन्हींचे मूल्यांकन करतो आणि नंतर ॲन्थ्रोपिकचे निरीक्षण, संरेखन चाचणी आणि सुरक्षितता नियंत्रणे जोखीम ठेवण्यासाठी पुरेसे आहेत की नाही याचे मूल्यांकन करतो.

एकूणच निर्णय: “खूप कमी परंतु क्षुल्लक नाही.” अहवालात असा युक्तिवाद केला आहे की Opus 4.6 मध्ये गंभीर निश्चित उद्दिष्टे, तर्कशास्त्राची अस्पष्टता आणि हे मार्ग शोधून काढण्यासाठी आवश्यक दीर्घकालीन नियोजनाची विश्वासार्हता नाही. परंतु हे देखील कबूल करते की त्याची स्वयंचलित देखरेख उपकरणे सर्व अंतर्गत प्रकाशन स्थाने कव्हर करत नाहीत, त्याच्या मानवी अहवाल प्रणालीचे कठोरपणे मूल्यांकन केले गेले नाही आणि सक्षम मानवी प्रतिस्पर्ध्याद्वारे डेटा विषबाधा मॉडेलला त्याच्या मूलभूत क्षमतांपेक्षा सुरक्षिततेकडे दुर्लक्ष करण्यास अधिक सक्षम बनवू शकते. इतर कोणत्याही AI फ्रंटियर लॅबने स्वतःचे मॉडेल स्वतःच्या पायाभूत सुविधांच्या विरोधात कसे वळते याचे समान विश्लेषण प्रकाशित केलेले नाही.

AI एजंट तैनातीचे मूल्यांकन करणाऱ्या सुरक्षा नेत्यांसाठी, याचा अर्थ तृतीय-पक्ष रेड टीमिंग आणि स्वतंत्र मूल्यमापन आवश्यक आहे.

ही निकड संपूर्ण उद्योगात नियामक दबाव जमा करते. NIST च्या सेंटर फॉर आर्टिफिशियल इंटेलिजेंस स्टँडर्ड्स अँड इनोव्हेशनने जानेवारीमध्ये माहितीसाठी विनंती जारी केली ज्यात विशेषतः AI एजंट सिस्टम सुरक्षित करण्यावर लक्ष केंद्रित केले गेले. आरएफआय चेतावणी देते की एआय एजंट्सच्या सिस्टीम “अपहरण, बॅकडोअर हल्ले आणि इतर शोषणांसाठी असुरक्षित असू शकतात” ज्यामुळे “सार्वजनिक सुरक्षेवर परिणाम होऊ शकतो, ग्राहकांचा आत्मविश्वास कमी होऊ शकतो आणि नवीनतम एआय नवकल्पनांचा अवलंब मर्यादित करू शकतो.” खरेदी संघांनी विक्रेत्यांना एजंट-विशिष्ट सुरक्षा डेटा विचारण्यास सुरुवात केली आहे. एका विकासकाने उत्तर देणे शक्य केले आहे.

सुरक्षा नेत्यांनी त्यांच्या पुढील विक्रेता मूल्यांकनापूर्वी काय करावे?

अँथ्रोपिकने नुकतीच पृष्ठभागानुसार खंडित केलेल्या जलद इंजेक्शन हल्ल्याच्या यशाचे दर प्रकाशित करून नवीन आधाररेखा सेट केली आहे. एजंट पाळत ठेवण्याचे परिणाम ओळखले जातात आणि पुरून काढण्याऐवजी त्यांचे विश्लेषण केले जाते. बाधित प्रकल्पांच्या नावांसह शून्य दिवसांच्या शोधांची संख्या उघड केली जाते. कंपनीने तात्काळ डायरेक्ट इंजेक्शन मेट्रिकचा त्याग केला आहे, असा युक्तिवाद करून की अप्रत्यक्ष इंजेक्शन हा उपक्रमांसाठी सर्वात संबंधित धोका आहे. हे तर्क योग्य आहे, परंतु बदलामुळे वर्ष-दर-वर्ष तुलना करणे अधिक कठीण होते. SHADE-Arena निष्कर्ष एजंट मॉनिटरिंगबद्दल प्रश्न उपस्थित करतात जे सिस्टम कार्ड कबूल करते परंतु निराकरण करत नाही.

तोडफोड जोखीम अहवाल जबाबदारीचा आणखी एक स्तर जोडतो. त्यामध्ये एक “पुढे पाहत” फ्रेमवर्क समाविष्ट आहे जे विशिष्ट परिस्थितींची सूची देते ज्या अंतर्गत अँथ्रोपिकचे सुरक्षितता निष्कर्ष यापुढे उभे राहत नाहीत. या अडखळणाऱ्यांमध्ये पुढील गोष्टींचा समावेश आहे: SHADE-Arena मध्ये 60% पेक्षा जास्त गुण मिळवणारे मॉडेल, मागील पिढीच्या तुलनेत गणनेमध्ये 5x वाढीच्या समतुल्य क्षमतेत झेप घेणारे मॉडेल, मानवी सहभागाशिवाय पूर्णपणे स्वयंचलित होणारी गंभीर सुरक्षा संशोधन कार्ये, किंवा मॉडेल वर्तनाची अर्थपूर्ण माहिती असलेले 25 पेक्षा कमी तांत्रिक कर्मचारी. सुरक्षा नेत्यांनी प्रत्येक AI प्रॉक्सी विक्रेत्याला समान मानकांबद्दल विचारले पाहिजे – ज्या परिस्थितीत विक्रेत्याचे स्वतःचे सुरक्षा प्रकरण खंडित होते.

सुरक्षा नेत्यांनी आता तीन गोष्टी केल्या पाहिजेत:

  • प्रत्येक एआय एजंट विक्रेत्याला तुमच्या मूल्यमापन मार्गातील प्रत्येक पृष्ठभागावरील आक्रमणाच्या यशाच्या दरांबद्दल विचारा, फक्त बेंचमार्क परिणामांसाठी नाही. जर ते सतत व्हॉल्यूम अयशस्वी डेटा प्रदान करू शकत नसतील, तर तुमची जोखीम स्कोअर करताना हे अंतर लक्षात ठेवा.

  • कोणत्याही उत्पादन तैनातीपूर्वी स्वतंत्र रेड टीम मूल्यांकन करा. जेव्हा विक्रेत्याचे स्वतःचे मॉडेल मूल्यमापन पायाभूत सुविधा तयार करण्यात मदत करते, तेव्हा केवळ विक्रेत्याने प्रदान केलेला सुरक्षा डेटा पुरेसा नसतो.

  • तैनाती वाढवण्यापूर्वी 30 दिवसांसाठी स्वतंत्र रेड टीमच्या निष्कर्षांविरुद्ध एजंट सुरक्षा दावे प्रमाणित करण्याचा विचार करा.

Source link