एक दुर्भावनापूर्ण राउटर अवरोधित आहे, तर दहा दावे जातात. हे अंतर मानके उत्तीर्ण करणे आणि वास्तविक-जगातील हल्ले सहन करणे यामधील फरक परिभाषित करते – बहुतेक कंपन्यांना माहित नसलेले अंतर अस्तित्वात आहे.

जेव्हा हल्लेखोर एकच दुर्भावनापूर्ण विनंती पाठवतात, तेव्हा ओपन-वेटेड AI मॉडेल्स रेषा चांगल्या प्रकारे धरून ठेवतात, 87% वेळा (सरासरी) हल्ले रोखतात. पण जेव्हा हेच हल्लेखोर एका संभाषणात अनेक मागण्या पाठवतात तेव्हा अनेक एक्सचेंजेसमध्ये चौकशी, रिफ्रेसिंग आणि एस्केलेटिंग करून, कॅल्क्युलस त्वरीत वळते. हल्ला यशाचा दर १३% वरून ९२% पर्यंत वाढतो.

एंटरप्राइझ तैनातीसाठी ओपन-वेट मॉडेल्सचे मूल्यमापन करणाऱ्या CISO साठी, परिणाम तात्काळ आहेत: ग्राहकाला तोंड देणारे चॅटबॉट्स, अंतर्गत सह-वैमानिक आणि स्वायत्त एजंट्सची शक्ती देणारी मॉडेल्स सतत प्रतिकूल दबावाखाली आपत्तीजनकरित्या अपयशी ठरत असताना एकल-वळण सुरक्षा मानके पास करू शकतात.

"यापैकी बरेच मॉडेल थोडेसे चांगले होऊ लागले आहेत," सिस्कोच्या एआय सॉफ्टवेअर प्लॅटफॉर्म समूहाचे वरिष्ठ उपाध्यक्ष डीजे संपत यांनी व्हेंचरबीटला सांगितले. "जेव्हा तुम्ही त्याच्यावर एकदाच हल्ला कराल, एकल नियतकालिक हल्ल्यांसह, ते त्याचे संरक्षण करण्यास सक्षम असतील. परंतु जेव्हा तुम्ही सिंगल टर्नवरून मल्टी-टर्नवर जाता, तेव्हा अचानक ही मॉडेल्स काही प्रकरणांमध्ये सुमारे 80% ने, हल्ले यशस्वी होतात तिथे कमकुवतपणा दाखवू लागतात."

का उघडे संभाषणे ओपन वजन मॉडेल?

सिस्को एआय थ्रेट रिसर्च अँड सिक्युरिटी टीमला असे आढळून आले की वैयक्तिक हल्ले रोखणारे ओपन-वेट AI मॉडेल संभाषण सुरू ठेवण्याच्या वजनाखाली कोसळतात. त्यांच्या नुकत्याच प्रकाशित झालेल्या अभ्यासातून असे दिसून आले आहे की हल्लेखोर जेव्हा संभाषण वाढवतात तेव्हा तुरूंगातून सुटण्याचे प्रमाण जवळपास दहापट वाढते.

मध्ये निकाल प्रकाशित झाले "हजारो दाव्यांद्वारे मृत्यू: असुरक्षितता विश्लेषणासाठी एक खुले मॉडेल" एमी चँग, निकोलस कोनेली, हरीश संथानलक्ष्मी गणेशन आणि ॲडम स्वांडा यांनी लिहिलेल्या अनेक सुरक्षा संशोधकांनी दीर्घकाळ निरीक्षण केले आणि संशय घेतला, परंतु ते कधीही सिद्ध करू शकले नाहीत.

परंतु सिस्कोच्या संशोधनात असे दिसून आले आहे की मल्टी-टर्न एआय हल्ल्यांना सिंगल-टर्न असुरक्षिततेचा विस्तार म्हणून हाताळणे हा मुद्दा पूर्णपणे चुकतो. त्यांच्यातील अंतर निश्चित आहे आणि पदवीची बाब नाही.

संशोधन कार्यसंघाने आठ ओपन-वेट मॉडेल्सचे मूल्यमापन केले: Alibaba (Qwen3-32B), DeepSeek (v3.1), Google (Gemma 3-1B-IT), Meta (Llama 3.3-70B-Instruct), Microsoft (Phi-4), Mistral (Large-2), OpenAI (GPT-OSS-22B), OpenAI (GPT-OSS) आणि ZLbAi200). ब्लॅक-बॉक्स पद्धतीचा वापर करून — किंवा अंतर्गत आर्किटेक्चरच्या ज्ञानाशिवाय चाचणी, जे वास्तविक जगात हल्लेखोर कसे कार्य करतात — टीमने मोजले की जेव्हा चिकाटीने वैयक्तिक हल्ल्यांची जागा घेतली तेव्हा काय होते.

संशोधकांनी लक्षात ठेवा: "सरासरी सिंगल अटॅक सक्सेस रेट (ASR) 13.11% आहे, कारण मॉडेल्स पृथक विरोधी इनपुट अधिक सहजपणे शोधू शकतात आणि नाकारू शकतात. याउलट, बहु-वळण हल्ले, जे संभाषणात्मक निरंतरतेचा फायदा घेतात, सरासरी ASR 64.21% (5 पट वाढ) मिळवतात, काही मॉडेल जसे की Alibaba Qwen3-32B 86.18% ASR आणि Mistral Large-2 92.78% ASR पर्यंत पोहोचतात." नंतरचे एका सत्रातून 21.97% ने वाढले.

परिणाम अंतर ओळखतात

पेपरचे संशोधन कार्यसंघ हल्ल्यांविरूद्ध ओपन वेट मॉडेलच्या लवचिकतेचे संक्षिप्त विहंगावलोकन प्रदान करते: "ही वाढ, 2x ते 10x पर्यंत, विस्तारित संवादांमध्ये संदर्भित संरक्षण राखण्यात मॉडेल्सच्या अक्षमतेमुळे उद्भवते, ज्यामुळे आक्रमणकर्त्यांना दावे परिष्कृत करता येतात आणि सुरक्षितता टाळता येतात."

आकृती 1: चाचणी केलेल्या सर्व आठ मॉडेल्समध्ये सिंगल-टर्न सक्सेस रेट (निळा) विरुद्ध मल्टी-टर्न सक्सेस रेट (लाल). अंतर 10 टक्के गुण (Google Gemma) पासून 70 टक्के पेक्षा जास्त गुण (मिस्ट्रल, लामा, क्वेन) पर्यंत आहे. स्रोत: सिस्को एआय डिफेन्स

पाच तंत्रे जी चिकाटीला मारक बनवतात

संशोधनात पाच मल्टी-टर्न अटॅक धोरणांची चाचणी घेण्यात आली, प्रत्येकाने संभाषणातील चिकाटीच्या वेगळ्या पैलूचा उपयोग केला.

  • माहितीचे विश्लेषण आणि एकत्रीकरण: हे दुर्भावनापूर्ण विनंत्यांना वळणांवर सौम्य घटकांमध्ये विभाजित करते आणि नंतर त्यांना पुन्हा एकत्र करते. या तंत्राने मिस्ट्रल लार्ज-2 विरुद्ध 95% यश मिळवले.

  • संदर्भित अस्पष्टता एक संदिग्ध फ्रेमवर्क सादर करते जी सुरक्षा वर्गीकरणांना गोंधळात टाकते, मिस्ट्रल लार्ज-2 विरुद्ध 94.78% यश दर गाठते.

  • मिस्ट्रल लार्ज-2 च्या विरूद्ध 92.69% च्या यश दरासह, निरुपद्रवी हल्ल्यांपासून ते हानीकारक अशा वळणांवर वाढणारे हल्ले हळूहळू मागणी वाढवतात.

  • भूमिका निभावणे आणि एक पात्र स्वीकारणे हे काल्पनिक संदर्भ तयार करते जे हानिकारक परिणामांना सामान्य करते, मिस्ट्रल लार्ज-2 विरुद्ध 92.44% पर्यंत यश मिळवते.

  • मिस्ट्रल लार्ज-2 विरुद्ध 89.15% च्या यश दरासह, रिपॅक रीपॅक रिजेक्ट विनंत्या वेगवेगळ्या औचित्यांसह नाकारल्या गेल्या.

ही तंत्रे प्रभावी बनवणारी जटिलता नाही तर परिचितता आहे. ते मानवाच्या नैसर्गिकरित्या बोलण्याच्या पद्धतीला प्रतिबिंबित करतात: cBntext तयार करणे, विनंत्या स्पष्ट करणे आणि प्रारंभिक दृष्टीकोन अयशस्वी झाल्यावर पुन्हा बोलणे. मॉडेल्स एलियन हल्ल्यांना असुरक्षित नसतात. ते चिकाटी स्वतः प्रवण आहेत.

तक्ता 2: सर्व मॉडेल्समधील तंत्रानुसार यशाचा दर. तंत्रज्ञानामध्ये सुसंगतता म्हणजे संस्था फक्त एका पॅटर्नपासून बचाव करू शकत नाहीत. स्रोत: सिस्को एआय डिफेन्स

ओपन-वेट सुरक्षा विरोधाभास

ओपन सोर्स सायबर सुरक्षेमध्ये वाढत्या प्रमाणात योगदान देत असल्याने हे संशोधन एका गंभीर वळणाच्या टप्प्यावर पोहोचत आहे. ओपन सोर्स आणि ओपन वेट मॉडेल हे सायबर सिक्युरिटी इंडस्ट्री इनोव्हेशनचा पाया बनले आहेत. स्टार्टअप वेळेला गती देण्यापासून ते मार्केटपर्यंत, एंटरप्राइझ व्हेंडर लॉक-इन कमी करणे आणि मालकीचे मॉडेल जुळू शकत नाहीत असे कस्टमायझेशन सक्षम करणे, बहुसंख्य सायबरसुरक्षा स्टार्टअप्स ज्या प्लॅटफॉर्मकडे वळत आहेत ते ओपन सोर्स प्लॅटफॉर्म म्हणून पाहिले जाते.

सिस्कोवर विडंबना हरवली नाही. कंपनीचे फाउंडेशन-सेक-8बी मॉडेल, विशेषत: सायबरसुरक्षा अनुप्रयोगांसाठी डिझाइन केलेले, हगिंग फेसवर ओपन वेट म्हणून वितरीत केले जाते. सिस्को फक्त स्पर्धकांच्या मॉडेल्सवर टीका करत नाही. कंपनी स्वत: लाँच केलेल्या मॉडेलसह संपूर्ण ओपनवेट इकोसिस्टमवर परिणाम करणारी असुरक्षा मान्य करते. संदेश तसा नाही "खुले वजन असलेले मॉडेल टाळा." की ते "तुम्ही काय प्रकाशित करत आहात ते समजून घ्या आणि योग्य रेलिंग जोडा."

संपत थेट परिणामांबद्दल सांगतात: "मुक्त स्त्रोताचे स्वतःचे दोष आहेत. जेव्हा तुम्ही ओपन वेट मॉडेल टोइंग करायला सुरुवात करता, तेव्हा तुम्हाला सुरक्षिततेचे काय परिणाम होतात याचा विचार करणे आवश्यक आहे आणि तुम्ही नेहमी मॉडेलभोवती योग्य प्रकारचे रेलिंग ठेवल्याचे सुनिश्चित करा."

तक्ता 1: चाचणी केलेल्या सर्व मॉडेल्सवर हल्ला यशस्वी दर आणि भेद्यता. 70% पेक्षा जास्त अंतर (क्वेन +73.48%, मिस्ट्रल +70.81%, लामा +70.32%) तैनातीपूर्वी अतिरिक्त रेलिंगसाठी उच्च प्राधान्य उमेदवारांचे प्रतिनिधित्व करतात. स्रोत: सिस्को एआय डिफेन्स.

प्रयोगशाळेचे तत्वज्ञान सुरक्षा परिणाम का ठरवते

सिस्कोने शोधलेली असुरक्षा थेट एआय लॅब संरेखन प्रक्रिया कशी हाताळते याच्याशी संबंधित आहे.

त्यांच्या संशोधनामुळे हा नमुना स्पष्ट होतो: "क्षमता-केंद्रित मॉडेल्सने (उदा., लामा) सर्वाधिक मल्टी-टर्न गॅप दाखवले, मेटाने सांगितले की डेव्हलपर प्रशिक्षणानंतर “त्यांच्या वापराच्या बाबतीत सुरक्षितता सानुकूलित करण्यासाठी ड्रायव्हरच्या सीटवर” आहेत. संरेखन (उदा. Google Gemma-3-1B-IT) वर अधिक भर देणाऱ्या मॉडेल्सनी त्यांच्या विरुद्ध वापरल्या जाणाऱ्या सिंगल- आणि मल्टी-टर्न स्ट्रॅटेजीज दरम्यान अधिक संतुलित प्रोफाइल दाखवले, “कठोर सुरक्षा प्रोटोकॉल” आणि गैरवापरासाठी “कमी जोखीम पातळी” वर जोर देण्यास सुचवले."

क्षमता-प्रथम प्रयोगशाळा क्षमता-प्रथम अंतर निर्माण करतात. Meta’s Llama 70.32% ची असुरक्षा दाखवते. लार्ज-2 चे मिस्ट्रल फॉर्म कार्ड हे मान्य करते "त्यात कोणतीही नियंत्रण यंत्रणा नाही" ते 70.81% ची तफावत दाखवते. अलीबाबाचे क्वेन तांत्रिक अहवाल सुरक्षितता किंवा सुरक्षेची चिंता अजिबात मान्य करत नाहीत आणि मॉडेलमध्ये सर्वाधिक अंतर 73.48% आहे.

सुरक्षा प्रयोगशाळा प्रथम लहान अंतर निर्माण करतात. Google कडील Gemma पुष्टी करतो "कडक सुरक्षा प्रोटोकॉल" उद्दिष्टे ए "जोखीम कमी पातळी" गैरवापरासाठी. परिणाम 10.53% वर सर्वात कमी अंतर आहे, एकल आणि एकाधिक वळणांच्या परिस्थितीमध्ये अधिक संतुलित कामगिरीसह.

क्षमता आणि लवचिकता सुधारणारे मॉडेल कमी अंगभूत सुरक्षिततेसह येतात. ही एक डिझाईन निवड आहे आणि अनेक एंटरप्राइझ वापर प्रकरणांसाठी योग्य आहे. पण कंपन्यांनी हे लक्षात घ्यायला हवे "प्रथम क्षमता" अनेकदा अर्थ "दुसरी सुरक्षा" आणि त्यानुसार बजेट.

जिथे हल्ले जास्त यशस्वी होतात

सिस्कोने 102 वेगवेगळ्या सबथ्रेट श्रेणींची चाचणी केली. शीर्ष 15 कंपन्यांचे सर्व मॉडेल्समध्ये उच्च यश दर होते, जे सूचित करतात की लक्ष्यित बचावात्मक उपायांमुळे असमान सुरक्षा सुधारणा होऊ शकतात.

आकृती 4: 15 सर्वात असुरक्षित श्रेण्या, सरासरी आक्रमण यश दरानुसार क्रमवारीत. दुर्भावनापूर्ण इन्फ्रास्ट्रक्चर ऑपरेशन्स 38.8% वर आघाडीवर आहेत, त्यानंतर सोन्याचे व्यापार (33.8%), नेटवर्क हल्ले (32.5%) आणि गुंतवणूक फसवणूक (31.2%). स्रोत: सिस्को एआय डिफेन्स.

आकृती 2: 20 धोक्याच्या श्रेणींमध्ये आणि सर्व आठ मॉडेल्सवर हल्ला यशस्वी दर. दुर्भावनापूर्ण कोड निर्मिती सातत्याने उच्च दर (3.1% ते 43.1%) दर्शवते, तर मॉडेल काढण्याच्या प्रयत्नांमध्ये Microsoft Phi-4 अपवाद वगळता जवळपास शून्य यश दिसून येते. स्रोत: सिस्को एआय डिफेन्स.

AI अवलंबन अनलॉक करण्यासाठी सुरक्षा ही गुरुकिल्ली आहे

संपत सुरक्षेला अडथळा म्हणून नव्हे तर दत्तक घेण्यास सक्षम करणारी यंत्रणा म्हणून स्थान देतात: "एंटरप्राइझ सुरक्षा लोक ज्या प्रकारे याबद्दल विचार करतात ते आहे: “मला सर्व वापरकर्त्यांसाठी उत्पादकता मुक्त करायची आहे.” प्रत्येकजण ही साधने वापरण्यासाठी आग्रही आहे. पण मला योग्य रेलिंग लावण्याची गरज आहे कारण मला कुठेतरी दिसायचे नाही वॉल स्ट्रीट जर्नल तुकडा,’" त्यांनी व्हेंचरबीटला सांगितले.

संपत पुढे म्हणाला, "जर आमच्याकडे वेगवान इंजेक्शन हल्ले पाहण्याची आणि अवरोधित करण्याची क्षमता असेल, तर मी AI दत्तक पूर्णपणे वेगळ्या प्रकारे मुक्त करू शकतो."

बचाव करण्यासाठी काय लागते

संशोधन सहा महत्त्वाच्या क्षमतांकडे निर्देश करते ज्यांना कंपन्यांनी प्राधान्य दिले पाहिजे:

  • संदर्भ-जागरूक रेलिंग संभाषणातील वळणांवर स्थिती राखतात

  • मॉडेल तटस्थ रनटाइम संरक्षण

  • मल्टी-टर्न स्ट्रॅटेजीजला लक्ष्य करणाऱ्या रेड टीमचे सातत्य

  • सूचना ओव्हरराइडला विरोध करण्यासाठी डिझाइन केलेल्या प्रबलित सिस्टम मागणी

  • फॉरेन्सिक दृष्टीचे व्यापक रेकॉर्डिंग

  • संशोधनात ओळखल्या गेलेल्या शीर्ष 15 उप-धमक्या श्रेणींसाठी धोका कमी करणे

कार्यरत विंडो

संपतने वाट पाहण्याविरुद्ध चेतावणी दिली: "बरेच लोक या वेटिंग मोडमध्ये आहेत, AI स्थिर होण्याची वाट पाहत आहेत. हा विचार करण्याची पद्धत चुकीची आहे. दर दोन आठवड्यांनी, काहीतरी नाट्यमय घडते जे हे फ्रेमवर्क रीसेट करते. जोडीदार निवडा आणि तुमच्या प्रयत्नांना दुप्पट करण्यास सुरुवात करा."

अहवालाच्या लेखकांनी निष्कर्ष काढल्याप्रमाणे: "मल्टी-टर्न हल्ले, सिंगल हल्ले, मॉडेल-विशिष्ट भेद्यता आणि उच्च-जोखीम धोक्याच्या नमुन्यांवरील 2-10x फायद्यासाठी त्वरित कारवाईची आवश्यकता आहे."

पुनरावृत्ती करण्यासाठी: 1 दावा अवरोधित केला आहे, 10 दावे पास केले आहेत. जोपर्यंत संस्था एक-वळण संरक्षणाची चाचणी घेणे थांबवत नाहीत आणि संपूर्ण संभाषणे सुरक्षित करणे सुरू करत नाहीत तोपर्यंत हे समीकरण बदलणार नाही.

Source link