सुरक्षा कार्यसंघ AI संरक्षण खरेदी करत आहेत जे कार्य करत नाहीत. OpenAI, Anthropic आणि Google DeepMind मधील संशोधकांनी ऑक्टोबर 2025 मध्ये असे निष्कर्ष प्रकाशित केले जे सर्व मध्यम-ऑफ-द-रोड CISO खरेदी थांबवतील. त्यांचा पेपर, "हल्लेखोर दुसऱ्या बाजूला सरकतो: मजबूत अनुकूली हल्ले जे जेलब्रेक आणि इंजेक्शनच्या विरूद्ध संरक्षणास बायपास करतात," 12 प्रकाशित AI संरक्षणांची चाचणी घेण्यात आली आणि बहुतेकांनी दावा केला की जवळपास शून्य हल्ला यशाचा दर आहे. संशोधन संघाने बहुतेक संरक्षणांवर 90% पेक्षा जास्त बायपास दर प्राप्त केले. संस्थांसाठी परिणाम अगदी स्पष्ट आहेत: बहुतेक AI सुरक्षा उत्पादनांची चाचणी हल्लेखोरांविरुद्ध केली जाते जे वास्तविक हल्लेखोरांसारखे वागत नाहीत.
संघाने अनुकूली हल्ल्याच्या परिस्थितीत उत्तेजक-आधारित, प्रशिक्षण आणि फिल्टरिंग-आधारित संरक्षणाची चाचणी केली. सर्व काही कोलमडले. चपळ संरक्षणांनी 95% ते 99% पर्यंत ॲडॅप्टिव्ह हल्ल्यांखाली हल्ला यशस्वी दर गाठला आहे. बायपास दर 96% ते 100% पर्यंत पोहोचल्याने प्रशिक्षण-आधारित पद्धती यापेक्षा चांगले काम करत नाहीत. या दाव्यांची चाचणी घेण्यासाठी संशोधकांनी एक कठोर पद्धत तयार केली आहे. त्यांच्या दृष्टिकोनामध्ये 14 लेखक आणि यशस्वी हल्ल्यांसाठी $20,000 चा बक्षीस पूल समाविष्ट होता.
अनुमान स्तरावर WAFs का अयशस्वी होतात
स्टेटलेस वेब ऍप्लिकेशन फायरवॉल (डब्ल्यूएएफ); AI हल्ले नाहीत. हे वेगळेपण स्पष्ट करते की आधुनिक वेगवान इंजेक्शन तंत्रांच्या समोर पारंपारिक सुरक्षा नियंत्रणे का कोलमडतात.
संशोधकांनी या बचावासाठी सुप्रसिद्ध जेलब्रेक तंत्र वापरले. Crescendo संभाषणाच्या संदर्भाचा उपयोग करून दुर्भावनापूर्ण विनंतीचे 10 संभाषण चक्रांमध्ये पसरलेल्या निष्पाप-दिसणाऱ्या भागांमध्ये खंडित करून आणि मॉडेलचे शेवटी पालन होईपर्यंत संबंध निर्माण करते. ग्रीडी कोऑपरेटिव्ह ग्रेडियंट (GCG) हा एक स्वयंचलित हल्ला आहे जो ग्रेडियंट-आधारित ऑप्टिमायझेशनद्वारे जेलब्रेक प्रत्यय निर्माण करतो. हे सैद्धांतिक हल्ले नाहीत. कार्य कोडसह कार्यपद्धती प्रकाशित केल्या आहेत. स्टेटलेस फिल्टर त्यापैकी काहीही कॅप्चर करत नाही.
प्रत्येक हल्ल्याने वेगळ्या अंध स्थानाचे शोषण केले — जसे की संदर्भ गमावणे, ऑटोमेशन किंवा अर्थपूर्ण गोंधळ — परंतु ते सर्व एकाच कारणास्तव यशस्वी झाले: संरक्षणांनी सातत्यपूर्ण वर्तन गृहीत धरले.
"“मागील सूचनांकडे दुर्लक्ष करा” किंवा बेस64-एनकोडेड पेलोड सारखे निरुपद्रवी विधान AI ऍप्लिकेशनसाठी तितकेच विनाशकारी असू शकते जसे पारंपारिक सॉफ्टवेअरसाठी बफर ओव्हरफ्लो होते." कार्टर रीझ, प्रतिष्ठेच्या कृत्रिम बुद्धिमत्तेचे उपाध्यक्ष म्हणाले. "फरक असा आहे की AI हल्ले सिमेंटिक लेयरवर कार्य करतात, ज्याचे स्वाक्षरी-आधारित शोध विश्लेषण करू शकत नाही."
एआय तैनात ट्रम्प सुरक्षा का करते?
आजच्या संरक्षणाचे अपयश स्वतःच चिंताजनक असू शकते, परंतु वेळेमुळे ते धोकादायक बनते.
गार्टनरचा अंदाज आहे की एंटरप्राइझ ऍप्लिकेशन्सपैकी 40% 2026 च्या अखेरीस AI एजंट समाकलित करतील, 2025 मध्ये 5% पेक्षा कमी. तैनाती वक्र अनुलंब आहे. सुरक्षा वक्र सपाट आहे.
ॲडम मायर्स, CrowdStrike येथे प्रति-विरोधी ऑपरेशन्सचे वरिष्ठ उपाध्यक्ष, वेगातील अंतर ओळखतात: "आम्ही पाहिलेला सर्वात वेगवान हॅक वेळ 51 सेकंद होता. म्हणून, हे विरोधक वेगवान होत आहेत, ज्यामुळे बचावकर्त्याचे काम अधिक कठीण होते." CrowdStrike 2025 ग्लोबल थ्रेट रिपोर्टमध्ये असे आढळून आले आहे की, 79% शोध मालवेअर-मुक्त आहेत, ज्यात विरोधक हँड्स-ऑन कीबोर्ड तंत्रे वापरतात जे पारंपारिक एंडपॉइंट संरक्षणास पूर्णपणे बायपास करतात.
सप्टेंबर 2025 मध्ये, अँथ्रोपिकने प्रथम दस्तऐवजीकरण केलेल्या AI-समन्वित सायबर ऑपरेशनमध्ये व्यत्यय आणला. हल्ल्यात हल्लेखोरांनी हजारो विनंत्या अंमलात आणल्या, अनेकदा प्रति सेकंद अनेक वेळा, मानवी सहभाग एकूण प्रयत्नांच्या फक्त 10-20% इतका कमी झाला. पारंपारिक तीन ते सहा महिन्यांच्या मोहिमा 24 ते 48 तासांमध्ये संकुचित केल्या आहेत. IBM 2025 कॉस्ट ऑफ अ डेटा ब्रीच रिपोर्टनुसार, AI-संबंधित उल्लंघनांचा सामना करणाऱ्या संस्थांपैकी 97% मध्ये प्रवेश नियंत्रणे नाहीत.
मायर्स हल्लेखोराच्या डावपेचांमध्ये बदल स्पष्ट करतात: "धमकी देणाऱ्या कलाकारांनी शोधून काढले आहे की आधुनिक उद्योगात मालवेअर आणण्याचा प्रयत्न करणे म्हणजे पाण्याची बाटली घेऊन विमानतळावर प्रवेश करण्याचा प्रयत्न करण्यासारखे आहे; तुम्हाला सुरक्षिततेद्वारे थांबवले जाईल. “पाण्याची बाटली” आणण्याऐवजी त्यांना शोध टाळण्याचा मार्ग शोधावा लागला. ते असे करण्याचा एक मार्ग म्हणजे मालवेअर अजिबात न आणणे."
वॉलमार्टचे कार्यकारी उपाध्यक्ष आणि मुख्य आयटी अधिकारी, जेरी गीस्लर, एजंटिक AI हे जोखीम वाढवणारे म्हणून पाहतात. "एजंटिक एआयचा अवलंब पारंपारिक नियंत्रणाच्या पलीकडे जाणारे पूर्णपणे नवीन सुरक्षा धोके सादर करते," Geisler पूर्वी VentureBeat सांगितले. "या जोखमींमध्ये डेटा लीकेज, API चा स्वतंत्र गैरवापर आणि एजंट्समधील गुप्त मिलीभगत यांचा समावेश होतो, या सर्वांमुळे संस्थेच्या कामकाजात व्यत्यय येऊ शकतो किंवा नियामक आदेशांचे उल्लंघन होऊ शकते."
चार हल्लेखोर प्रोफाइल आधीच AI संरक्षण भेद्यतेचे शोषण करत आहेत
हे अपयश काल्पनिक नाहीत. चार वेगळ्या हल्लेखोर प्रोफाइलवर त्यांचे आधीच शोषण झाले आहे.
पेपरचे लेखक गंभीर निरीक्षण करतात की संरक्षण यंत्रणा अखेरीस इंटरनेट-स्केल प्रशिक्षण डेटामध्ये उदयास येतात. संदिग्धता अंतर्गत सुरक्षा कोणतेही संरक्षण प्रदान करत नाही जेव्हा मॉडेल स्वतःच संरक्षण कसे कार्य करतात आणि त्वरीत जुळवून घेतात हे शिकतात.
200 प्रयत्नांच्या अनुकूली मोहिमांविरुद्ध मानवी चाचण्या, तर ओपनएआय 1 प्रयत्नांना प्रतिकार दर्शवते, उद्योग चाचणी मानके किती विसंगत आहेत यावर प्रकाश टाकणे. पेपरच्या लेखकांनी दोन्ही पद्धती वापरल्या. सर्व संरक्षण अजूनही पडते.
रीस चार वर्ग ओळखतो जे आता अनुमान स्तराचे शोषण करतात.
बाहेरचे विरोधक प्रकाशित हल्ला संशोधन सक्रिय करा. स्टेप अप, जीसीजी, आर्ट प्रॉम्प्ट. संशोधकांप्रमाणेच ते प्रत्येक संरक्षणाच्या विशिष्ट रचनेशी त्यांचा दृष्टिकोन स्वीकारतात.
दुर्भावनापूर्ण B2B क्लायंट उलट अभियंता खाजगी प्रशिक्षण डेटासाठी कायदेशीर API प्रवेशाचा गैरफायदा घेणे किंवा अनुमान हल्ल्यांद्वारे बौद्धिक संपदा काढणे. संशोधनात असे आढळून आले की मजबुतीकरण शिकण्याचे हल्ले विशेषतः ब्लॅक बॉक्स परिस्थितींमध्ये प्रभावी आहेत, ज्यासाठी प्रत्येकी पाच फेऱ्यांची फक्त 32 सत्रे आवश्यक आहेत.
असुरक्षित API ग्राहक छेडछाड केलेल्या प्रतिसादांसह संवेदनशील आउटपुट किंवा पॉइझन एंड सिस्टम फिल्टर करण्यासाठी विश्वसनीय क्रेडेन्शियल्सचा लाभ घ्या. पेपरमध्ये असे आढळले की फिल्टरिंग आउटपुट फिल्टरिंग इनपुट प्रमाणेच अयशस्वी झाले. शोध-आधारित हल्ल्यांनी पद्धतशीरपणे प्रतिकूल उत्तेजना निर्माण केली, शोध टाळणे, म्हणजे हल्लेखोरांनी त्यांचे तंत्र स्वीकारले म्हणून द्वि-मार्ग नियंत्रणांनी कोणतेही अतिरिक्त संरक्षण दिले नाही.
उपेक्षित अंतरंग हे सर्वात सामान्य आणि सर्वात महाग वाहक राहते. IBM च्या 2025 च्या डेटा ब्रीचच्या खर्चाच्या अहवालात असे आढळून आले की छाया AI ने उल्लंघनाच्या सरासरी खर्चात $670,000 जोडले.
"सर्वात व्यापक धोका अनेकदा निष्काळजी आतील व्यक्तींकडून असतो," रीस म्हणाले. "या “शॅडो एआय” घटनेमध्ये कर्मचारी कार्यक्षमता वाढवण्यासाठी संवेदनशील मालकी कोड सार्वजनिक LLM मध्ये पेस्ट करतात. ते सुरक्षिततेला घर्षण म्हणून पाहतात. सॅमसंगच्या अभियंत्यांना हे कळले जेव्हा मालकीचा सेमीकंडक्टर कोड ChatGPT ला पाठवला गेला, ज्यामध्ये मॉडेल प्रशिक्षणासाठी वापरकर्ता इनपुट आहे."
संभाषणात्मक हल्ल्यांविरूद्ध स्टेटलेस शोध का अयशस्वी होतो
संशोधन विशिष्ट वास्तुशास्त्रीय आवश्यकता दर्शवते.
-
सिमेंटिक विश्लेषणापूर्वी सामान्यीकरण एन्क्रिप्शन आणि अस्पष्टतेवर मात करण्यासाठी
-
वळणांवर संदर्भाचा मागोवा घेणे Crescendo सारखे बहु-चरण हल्ले शोधण्यासाठी
-
द्वि-दिशात्मक फिल्टरिंग आउटपुटद्वारे डेटा लीक टाळण्यासाठी
जेमी नॉर्टन, ऑस्ट्रेलियन सिक्युरिटीज अँड इन्व्हेस्टमेंट कमिशनचे मुख्य आयटी अधिकारी आणि ISACA चे डेप्युटी चेअर, गव्हर्नन्स आव्हानाचा सारांश देतात: "आयटी व्यवस्थापक या नात्याने, आम्हाला नावीन्यतेच्या मार्गात अडथळे आणायचे नाहीत, परंतु आम्हाला त्याभोवती रेलिंग लावावे लागेल जेणेकरून आम्ही जंगली धावू नये आणि आमचा डेटा लीक होऊ नये." नॉर्टनने सीएसओ ऑनलाइनला सांगितले.
एआय सुरक्षा विक्रेत्यांना विचारण्यासाठी सात प्रश्न
विक्रेते दावा करतील की हल्ल्याचा यश दर शून्याच्या जवळ आहे, परंतु संशोधनाने हे सिद्ध केले आहे की ही संख्या अनुकूली दबावाखाली कोसळते. खरेदीबद्दल कोणतेही संभाषण सुरू करण्यापूर्वी सुरक्षा नेत्यांना या प्रश्नांची उत्तरे आवश्यक आहेत प्रत्येकाने संशोधनातील दस्तऐवजीकरण केलेल्या अपयशाचा थेट नकाशा बनवला.
-
अनुकूली हल्लेखोरांविरुद्ध तुमचा पास दर किती आहे? स्थिर चाचणी सूटच्या विरोधात नाही. आक्रमणकर्त्यांविरुद्ध ज्यांना संरक्षण कसे कार्य करते हे माहित आहे आणि त्यांना पुनरावृत्ती करण्याची वेळ आहे. कोणताही विक्रेता जो अनुकूली चाचणी पद्धतीशिवाय शून्याच्या जवळपास दर उद्धृत करतो तो सुरक्षिततेची खोटी भावना विकत आहे.
-
तुमचे समाधान मल्टी-टर्न हल्ले कसे शोधते? Crescendo 10 चक्रांमध्ये दुर्भावनापूर्ण विनंत्या पसरवते जे एकटेपणात सौम्य दिसतात. स्टेटलेस फिल्टर कोणतेही पकडणार नाहीत. विक्रेत्याने तो स्टेटलेस असल्याचे म्हटल्यास, संभाषण संपेल.
-
एनक्रिप्टेड पेलोड्सचा तुम्ही कसा व्यवहार करता? ArtPrompt ASCII आर्टमधील दुर्भावनापूर्ण सूचना लपवते. बेस64 आणि युनिकोड अस्पष्टता मजकूर-आधारित फिल्टरला पूर्णपणे बायपास करते. विश्लेषणापूर्वी सामान्यीकरण म्हणजे टेबलवरील पैज. फक्त स्वाक्षरी जुळणे म्हणजे निर्माता आंधळा आहे.
-
तुमचे सोल्यूशन आउटपुट तसेच इनपुट फिल्टर करते का? केवळ इनपुट नियंत्रणे फॉर्म प्रतिसादांद्वारे डेटा लीक टाळू शकतात. जेव्हा दोन्ही वर्गांना समन्वित हल्ल्याचा सामना करावा लागतो तेव्हा काय होते ते विचारा.
-
आपण संभाषण संक्रमणांमध्ये संदर्भ कसे ट्रॅक करता? संभाषणात्मक AI ला विशिष्ट विश्लेषण आवश्यक आहे. पुरवठादार अंमलबजावणी तपशील स्पष्ट करू शकत नसल्यास, त्यांच्याकडे ते नाही.
-
कोणते हल्लेखोर तुमची संरक्षण यंत्रणा समजतात हे तुम्ही कसे तपासू शकता? संशोधन असे दर्शविते की जेव्हा आक्रमणकर्ते विशिष्ट संरक्षण डिझाइनशी जुळवून घेतात तेव्हा संरक्षण अपयशी ठरते. अस्पष्टतेद्वारे सुरक्षा अनुमान स्तरावर कोणतेही संरक्षण प्रदान करत नाही.
-
नवीन हल्ल्याच्या नमुन्यांविरूद्ध संरक्षण अद्यतनित करण्याची योग्य वेळ कधी आहे? सामान्य आक्रमण पद्धती. नवीन रूपे साप्ताहिक दिसतात. आक्रमणकर्त्यांपेक्षा वेगाने जुळवून घेऊ न शकणारे संरक्षण कायमचे मागे पडते.
तळ ओळ
OpenAI, Anthropic, आणि Google DeepMind चे संशोधन एक अस्वस्थ निर्णय देते. आजच्या एंटरप्राइझ उपयोजनांचे संरक्षण करणारे AI संरक्षण लवचिक हल्लेखोरांसाठी डिझाइन केलेले आहे. वास्तविक हल्लेखोर परिस्थितीशी जुळवून घेतात. उत्पादनात LLM चालवणाऱ्या प्रत्येक संस्थेने या संशोधनात दस्तऐवजीकरण केलेल्या हल्ल्याच्या पद्धतींविरूद्ध त्यांच्या वर्तमान नियंत्रणांचे पुनरावलोकन केले पाहिजे. उपयोजन वक्र अनुलंब आहे, परंतु सुरक्षा वक्र सपाट आहे. हे अंतर आहे जेथे गैरवर्तन होईल.
















