अँथ्रोपिकने मंगळवारी क्लॉड सॉनेट 4.6 रिलीझ केले, एक मॉडेल जे एआय उद्योगासाठी भूकंपीय पुनर्मूल्यांकन कार्यक्रमाचे प्रमाण आहे. हे माफक किमतीत जवळपास ग्राउंडब्रेकिंग माहिती प्रदान करते आणि AI एजंट आणि स्वयंचलित क्रिप्टोग्राफिक साधने तैनात करण्यासाठी अभूतपूर्व संस्थात्मक गर्दीच्या मध्यभागी आहे.

मॉडेल कोडिंग, संगणक वापर, दीर्घ-संदर्भ विचार, एजंट नियोजन, संज्ञानात्मक कार्य आणि डिझाइनमध्ये संपूर्ण अपग्रेड आहे. यात बीटा आवृत्तीमध्ये 1M टोकन संदर्भ विंडो आहे. हे आता claude.ai आणि Claude Cowork वरील डीफॉल्ट मॉडेल आहे आणि किंमत $3/$15 प्रति दशलक्ष टोकनवर स्थिर राहते – त्याच्या पूर्ववर्ती, सॉनेट 4.5 प्रमाणेच.

किंमत तपशील हे सर्वात महत्वाचे शीर्षक आहे. अँथ्रोपिकच्या फ्लॅगशिप ओपस मॉडेल्सची किंमत $15/$75 प्रति दशलक्ष टोकन – सॉनेटच्या किंमतीपेक्षा पाचपट आहे. तथापि, पूर्वी ज्या कार्यप्रदर्शनासाठी ओपस-क्लास मॉडेलमध्ये प्रवेश आवश्यक होता – वास्तविक-जगातील, आर्थिकदृष्ट्या मौल्यवान कार्यालयीन कार्यांसह – आता सॉनेट 4.6 सह उपलब्ध आहे. एआय एजंट तैनात करणाऱ्या हजारो संस्थांसाठी जे दररोज लाखो API कॉल करतात, हे गणित सर्वकाही बदलते.

एआय एजंट्स चालवण्याची किंमत इतकी नाटकीयरित्या का कमी झाली आहे?

या प्रकाशनाचे महत्त्व समजून घेण्यासाठी, तुम्हाला त्याच्या आगमनाचा क्षण समजून घ्यावा लागेल. गेल्या वर्षात दुहेरी घटनांचे वर्चस्व राहिले आहे: "वातावरण कोडिंग" आणि एजंट कृत्रिम बुद्धिमत्ता. क्लाउडकोड, एन्थ्रोपिकचे विकासक-फेसिंग परिधीय साधन, सिलिकॉन व्हॅलीमध्ये एक सांस्कृतिक शक्ती बनले आहे, जिथे अभियंते नैसर्गिक भाषेतील संभाषणातून संपूर्ण अनुप्रयोग तयार करतात. न्यू यॉर्क टाईम्सने जानेवारीत त्याच्या उल्कापाताच्या वाढीची नोंद केली. द व्हर्जने नुकतेच जाहीर केले की क्लॉड कुडचे खरे व्यक्तिमत्त्व आहे "एक क्षण." दरम्यान, OpenAI डेस्कटॉप कोडेक्स ऍप्लिकेशन्स आणि वेगवान अनुमान चिप्स वापरून स्वतःचा हल्ला सुरू करत आहे.

याचा परिणाम असा उद्योग आहे ज्यामध्ये AI मॉडेल्सचे स्वतंत्रपणे मूल्यांकन केले जात नाही. त्यांचे मूल्यमापन स्वायत्त एजंट्समधील इंजिन म्हणून केले जाते – सिस्टम ज्या तासनतास चालतात, हजारो टूल कॉल करतात, कोड लिहितात आणि अंमलात आणतात, ब्राउझर नेव्हिगेट करतात आणि एंटरप्राइझ सॉफ्टवेअरशी संवाद साधतात. प्रति दशलक्ष टोकन्सवर खर्च केलेला प्रत्येक डॉलर हजारो कॉलमध्ये गुणाकार केला जातो. व्यापकपणे सांगायचे तर, प्रति दशलक्ष इनपुट टोकन $15 आणि $3 मधील फरक वाढीव नाही. ते परिवर्तनकारी आहे.

अँथ्रॉपीने जारी केलेले बेंचमार्क सारणी एक धक्कादायक चित्र रंगवते. SWE-बेंच सत्यापित चाचणीवर, वास्तविक-जागतिक सॉफ्टवेअर कोडिंगसाठी उद्योग-मानक चाचणी, सॉनेट 4.6 ने 79.6% गुण मिळवले—जवळजवळ Opus 4.6 द्वारे कमावलेल्या 80.8% शी जुळतात. प्रॉक्सी संगणक वापराच्या बाबतीत (OSWorld-Verified), Sonnet 4.6 ने 72.5% गुण मिळवले, मूलत: Opus 4.6 बरोबर बरोबरीने 72.7% गुण मिळवले. ऑफिस टास्कमध्ये (GDPval-AA Elo), सॉनेट 4.6 ने प्रत्यक्षात 1,633 गुण मिळवले, ज्याने Opus 4.6 च्या 1,606 ला मागे टाकले. प्रॉक्सी आर्थिक विश्लेषणामध्ये, सॉनेट 4.6 ने 60.1% ने ओपस 4.6 सह, तुलनेत सर्व मॉडेल्सला मागे टाकत 63.3% मिळवले.

हे किरकोळ फरक नाहीत. अनेक श्रेण्यांमध्ये ज्यांची संस्था सर्वात जास्त काळजी घेते, सॉनेट 4.6 मॅच किंवा बीट्स मॉडेल ज्यांना ऑपरेट करण्यासाठी पाचपट जास्त खर्च येतो. एआय एजंट चालवणारी संस्था जी दररोज 10 दशलक्ष टोकन्सवर प्रक्रिया करते, त्यांना पूर्वी जलद स्केलिंगच्या खर्चावर कमी किमतीचे परिणाम किंवा उत्कृष्ट परिणाम यापैकी एक निवडावा लागला असता. सॉनेट 4.6 मोठ्या प्रमाणावर हा ट्रेड-ऑफ काढून टाकते.

क्लाउड कोडमध्ये, सुरुवातीच्या चाचणीमध्ये असे आढळून आले की वापरकर्त्यांनी सॉनेट 4.5 पेक्षा सॉनेट 4.6 ला प्राधान्य दिले आहे. वापरकर्त्यांनी अगदी ऑपस 4.5 पेक्षा सॉनेट 4.6 ला प्राधान्य दिले, नोव्हेंबरच्या 59% वेळेनुसार अँथ्रोपिकच्या सीमारेषा मॉडेल. त्यांनी सॉनेट 4.6 ला अति-अभियांत्रिकी आणि कमी प्रवण म्हणून रेट केले "आळस" हेतुपुरस्सर सूचनांचे पालन करणे चांगले. त्यांनी यशाचे कमी खोटे दावे, कमी भ्रम आणि बहु-चरण कार्ये अधिक सातत्यपूर्ण पूर्ण केल्याचा अहवाल दिला.

क्लॉडची संगणक क्षमता 16 महिन्यांत “प्रायोगिक” पासून जवळजवळ मानवापर्यंत कशी गेली

प्रकाशनातील सर्वात नाट्यमय कथानकांपैकी एक म्हणजे अँथ्रोपिकची संगणनातील प्रगती — कृत्रिम बुद्धिमत्तेची क्षमता संगणक चालवण्याची क्षमता ज्याप्रमाणे मानव करतो, माऊसवर क्लिक करणे, कीबोर्डवर टाइप करणे आणि आधुनिक API नसलेले प्रोग्राम नेव्हिगेट करणे.

ऑक्टोबर 2024 मध्ये जेव्हा Anthropic ने ही क्षमता पहिल्यांदा सादर केली तेव्हा कंपनीने हे मान्य केले "हे अजूनही प्रायोगिक आहे – आणि काहीवेळा अवजड आणि त्रुटी-प्रवण आहे." तेव्हापासूनचे आकडे एक उल्लेखनीय गोष्ट सांगतात: OSWorld मध्ये, Claude Sonnet 3.5 ने ऑक्टोबर 2024 मध्ये 14.9% गुण मिळवले. Sonnet 3.7 ने फेब्रुवारी 2025 मध्ये 28.0% गाठले. Sonnet 4 ने जूनपर्यंत 42.2% मिळवले. ऑक्टोबरमध्ये सॉनेट 4.5 ते 61.4% वाढले. सॉनेट 4.6 आता 72.5% वर आहे, 16 महिन्यांत जवळपास पाच पट सुधारणा आहे.

हे महत्त्वाचे आहे कारण संगणन ही अशी क्षमता आहे जी एआय एजंट्ससाठी एंटरप्राइझ अनुप्रयोगांची विस्तृत श्रेणी उघडते. जवळजवळ प्रत्येक संस्थेकडे लीगेसी सॉफ्टवेअर असते — विमा पोर्टल, सरकारी डेटाबेस, ERP प्रणाली, हॉस्पिटल शेड्युलिंग टूल्स — जे API अस्तित्वात येण्यापूर्वी तयार केले गेले होते. एक मॉडेल जे फक्त स्क्रीनकडे पाहू शकते आणि त्याच्याशी संवाद साधू शकते ते कस्टम कनेक्टर तयार न करता या सर्व गोष्टी ऑटोमेशनसाठी उघडते.

सॉनेट 4.6 ने जटिल विमा संगणक वापर बेंचमार्कवर 94% गुण मिळवले, जे कोणत्याही क्लॉड मॉडेलची चाचणी घेतलेल्या सर्वात जास्त आहे, असे पेसचे सीईओ जिमी कोव्ह यांनी सांगितले. "तो अपयशातून विचार करतो आणि आपण यापूर्वी कधीही न पाहिलेल्या मार्गांनी स्वतःला सुधारतो," कफ यांनी व्हेंचरबीटला पाठविलेल्या निवेदनात म्हटले आहे. कन्व्हेचे सह-संस्थापक विल हार्वे यांनी हे नाव दिले "आम्ही आमच्या पुनरावलोकनांमध्ये चाचणी केलेल्या इतर कोणत्याही गोष्टीवर स्पष्ट सुधारणा."

संगणक वापराच्या सुरक्षिततेच्या आयामाकडेही लक्ष वेधले गेले. अँथ्रोपिकने नोंदवले की कॉम्प्युटरचा वापर तात्काळ इंजेक्शन जोखीम निर्माण करतो — दुर्भावनापूर्ण अभिनेते मॉडेल हायजॅक करण्यासाठी वेबसाइट्सवर सूचना लपवतात — आणि असे म्हटले की त्याचे मूल्यमापन असे दर्शवते की अशा हल्ल्यांचा प्रतिकार करण्यासाठी सॉनेट 4.5 पेक्षा सॉनेट 4.6 ही लक्षणीय सुधारणा आहे. वेब ब्राउझ करणाऱ्या आणि बाह्य प्रणालींशी संवाद साधणारे एजंट तैनात करणाऱ्या संस्थांसाठी, ही सुधारणा पर्यायी नाही.

एंटरप्राइझच्या ग्राहकांचे म्हणणे आहे की मॉडेल सॉनेट आणि ओपस किमतीच्या स्तरांमधील अंतर कमी करते

खर्चाच्या कामगिरीच्या गतीशीलतेबाबत ग्राहकांची प्रतिक्रिया असामान्यपणे विशिष्ट आहे. अनेक सुरुवातीच्या परीक्षकांनी Sonnet 4.6 चे स्पष्टपणे वर्णन केले आहे की ते अधिक महाग ओपस लेयरमध्ये प्रवेश करण्याची आवश्यकता दूर करते.

हेक्स टेक्नॉलॉजीजचे सीटीओ केटलिन कोलग्रोव्ह यांनी सांगितले की, कंपनी आपला बहुतांश ट्रॅफिक सॉनेट 4.6 वर हलवत आहे, हे लक्षात घेऊन, अनुकूल विचार आणि उच्च प्रयत्नांद्वारे, "आम्ही अधिक कार्यक्षम आणि लवचिक प्रोफाइलसह सर्वात कठीण विश्लेषणात्मक कार्यांशिवाय सर्वांवर ओपस-स्तरीय कामगिरी पाहतो. सॉनेट किंमतीमध्ये, आमच्या वर्कलोडसाठी हा एक सोपा कॉल आहे."

मॉडेलने लॉजिक-हेवी प्रश्नोत्तरांमध्ये सॉनेट 4.5 ला वास्तविक एंटरप्राइझ दस्तऐवजांमध्ये 15 टक्के गुणांनी मागे टाकले, असे बॉक्स येथील सीटीओ बेन कुस यांनी सांगितले. रिप्लिटचे अध्यक्ष मिशेल कॅटास्टा यांनी कामगिरी-ते-खर्च गुणोत्तर परिभाषित केले "दुर्मिळ" मर्क्युरी बँकिंगच्या रायन विगिन्सने ते अधिक स्पष्टपणे सांगितले: "क्लॉड सॉनेट 4.6 वेगवान, स्वस्त आणि पहिल्या प्रयत्नात गोष्टी पूर्ण होण्याची अधिक शक्यता आहे. हे सुधारणांचे एक आश्चर्यकारक संयोजन होते, आणि या किंमतीच्या टप्प्यावर आम्हाला अपेक्षित असे काही नाही."

डेव्हलपर टूल्स मार्केटमध्ये क्लॉड कोडचे वर्चस्व लक्षात घेता कोडिंग सुधारणा विशेषतः प्रतिध्वनीत आहेत. हे मॉडेल,” CodeRabbit येथे AI चे VP डेव्हिड लॉकर म्हणाले "हे बहुसंख्य वास्तविक-जगातील PR साठी त्याच्या वजनाच्या वर्गापेक्षा जास्त आहे." संघ आहे, फॅक्टरी एआयचे लिऊ चुराकोव्ह यांनी सांगितले "आमची सॉनेट ट्रॅफिक या फॉर्मवर हलवा." GitHub चे VP of Product, Joe Bender यांनी हे मॉडेल असल्याची पुष्टी केली "क्लिष्ट कोड फिक्सेसमध्ये खरोखर उत्कृष्ट असणे, विशेषतः जेव्हा मोठ्या कोड बेसमध्ये शोध घेणे आवश्यक असते."

हरक्यूलिसचे संस्थापक आणि सीईओ ब्रेंडन फॉक पुढे गेले: "क्लॉड सॉनेट 4.6 हे आम्ही पाहिलेले सर्वोत्तम मॉडेल आहे. यात Opus 4.6-स्तरीय अचूकता आहे, सूचनांचे अनुसरण करा आणि एक वापरकर्ता इंटरफेस, हे सर्व लक्षणीयरीत्या कमी किमतीत आहे."

व्यावसायिक स्पर्धा सिम्युलेशन हे प्रकट करतात की एआय एजंट काही मिनिटांत नव्हे तर महिन्यांत कसे नियोजन करतात

तांत्रिक तपशिलांमध्ये लपलेली एक क्षमता आहे जी स्वायत्त एआय एजंट्स कोठे जात आहेत हे दर्शवते. सॉनेट 4.6 च्या 1M टोकन संदर्भ विंडोमध्ये एकाच विनंतीमध्ये संपूर्ण कोडबेस, दीर्घ करार किंवा डझनभर संशोधन पेपर असू शकतात. अँथ्रोपिक म्हणते की मॉडेल या सर्व संदर्भात प्रभावीपणे विचार करते – असा दावा कंपनीने असामान्य मूल्यांकनाद्वारे दर्शविला.

वेंडिंग-बेंच एरिना चाचणी करते की एक मॉडेल कालांतराने सिम्युलेशन व्यवसाय किती चांगल्या प्रकारे व्यवस्थापित करू शकतो, कारण भिन्न AI मॉडेल सर्वात मोठ्या नफ्यासाठी एकमेकांशी स्पर्धा करतात. मानवी प्रेरणेशिवाय, Sonnet 4.6 ने एक नवीन धोरण विकसित केले: पहिल्या दहा सिम्युलेटेड महिन्यांत त्याने क्षमतेमध्ये मोठ्या प्रमाणावर गुंतवणूक केली, त्याच्या प्रतिस्पर्ध्यांपेक्षा लक्षणीय खर्च केला आणि नंतर अंतिम टप्प्यात नफ्यावर लक्ष केंद्रित करण्यासाठी झपाट्याने लक्ष केंद्रित केले. मॉडेलने सुमारे $2,100 सह सॉनेट 4.5 च्या तुलनेत सुमारे $5,700 शिल्लक ठेवून 365-दिवसांचे सिम्युलेशन पूर्ण केले.

या प्रकारचे बहु-महिन्याचे धोरणात्मक नियोजन, स्वतंत्रपणे केले जाते, प्रश्नांची उत्तरे देणे किंवा कोडचे स्निपेट तयार करणे यापेक्षा गुणात्मकदृष्ट्या भिन्न क्षमता दर्शवते. हा दीर्घकालीन विचारसरणीचा प्रकार आहे ज्यामुळे AI एजंट्स वास्तविक व्यवसाय ऑपरेशन्ससाठी लागू होतात — आणि Anthropic Sonnet 4.6 ला केवळ चॅटबॉट्ससाठी अपग्रेड म्हणून नाही तर स्वायत्त प्रणालींच्या नवीन पिढीसाठी इंजिन म्हणून का स्थान देत आहे हे स्पष्ट करण्यात मदत करते.

कंपनी एंटरप्राइझ आणि संरक्षण बाजारपेठेत विस्तारत असताना अँथ्रोपिकचे सॉनेट 4.6 आले

हे प्रकाशन कोठूनही बाहेर येत नाही. मानववंश त्याच्या इतिहासातील सर्वात महत्वाच्या टप्प्याच्या मध्यभागी आहे आणि स्पर्धात्मक लँडस्केप सर्व आघाड्यांवर वाढत आहे.

या लॉन्चच्या त्याच दिवशी, TechCrunch ने अहवाल दिला की भारतीय IT दिग्गज Infosys ने Anthropic सोबत एंटरप्राइझ-ग्रेड AI एजंट तयार करण्यासाठी भागीदारीची घोषणा केली आहे, क्लॉड मॉडेल्सना Infosys च्या Topaz AI प्लॅटफॉर्ममध्ये बँकिंग, दूरसंचार आणि उत्पादनासाठी एकत्रित केले आहे. Anthropic CEO Dario Amodei यांनी TechCrunch ला सांगितले की आहे "डेमोमध्ये काम करणारे एआय मॉडेल आणि नियमन केलेल्या उद्योगात काम करणारे एआय मॉडेलमध्ये खूप अंतर आहे," ही दरी भरून काढण्यासाठी इन्फोसिस मदत करत आहे. टेकक्रंचने असेही नोंदवले की अँथ्रोपिकने बंगळुरूमध्ये आपले पहिले भारतातील कार्यालय उघडले आणि आता क्लॉडच्या जागतिक वापरामध्ये भारताचा वाटा सुमारे 6% आहे, जो यूएस नंतर दुसऱ्या क्रमांकावर आहे. CNBC ने अहवाल दिलेल्या कंपनीची किंमत $183 अब्ज आहे, ती आपला व्यवसाय वेगाने विस्तारत आहे.

दरम्यान, अँथ्रोपिक्सच्या अध्यक्ष डॅनिएला अमोदेई यांनी गेल्या आठवड्यात एबीसी न्यूजला सांगितले की एआय मानवतेचे प्रमुख बनवेल "नेहमीपेक्षा जास्त महत्वाचे," मोठ्या भाषेतील मॉडेल कलाकृतीवर प्रभुत्व मिळवतात म्हणून गंभीर विचार कौशल्ये अधिक मौल्यवान बनतील असा तर्क. कंपनीचे तंत्रज्ञान व्यवस्थापकीय नोकऱ्यांच्या संपूर्ण श्रेण्यांचा आकार बदलणार आहे असा विश्वास असताना कंपनी असे विधान करते.

सॉनेट 4.6 चे स्पर्धात्मक चित्र देखील लक्षणीय आहे. हे मॉडेल Google च्या Gemini 3 Pro आणि OpenAI च्या GPT-5.2 ला अनेक बेंचमार्कवर मागे टाकते. प्रॉक्सी संगणक वापरावर GPT-5.2 चे परिणाम (38.2% वि. 72.5%), प्रॉक्सी शोध (सॉनेट 4.6 च्या गैर-व्यावसायिक निकालासाठी 77.9% वि. 74.7%), आणि प्रॉक्सी आर्थिक विश्लेषण (59.0% वि. 63.3%). जेमिनी 3 प्रो व्हिज्युअल रिजनिंग आणि बहुभाषिक बेंचमार्कमध्ये स्पर्धात्मक कामगिरी दाखवते, परंतु एजंट श्रेणींमध्ये मागे आहे जेथे एंटरप्राइझ गुंतवणूक वाढत आहे.

विस्तृत टेकअवे एका मॉडेलशी संबंधित असू शकत नाही. जेव्हा ओपस-क्लास इंटेलिजन्स काही डॉलर्स प्रति दशलक्ष टोकन्सच्या ऐवजी काही डॉलर्ससाठी उपलब्ध होते तेव्हा काय होते याबद्दल आहे. ज्या कंपन्या एआय एजंट्ससह लहान उपयोजनांसह सावधपणे प्रयोग करत आहेत त्यांना आता पूर्णपणे भिन्न किंमत मोजावी लागत आहे. जे एजंट्स जानेवारीमध्ये सतत चालवणे खूप महाग होते ते फेब्रुवारीमध्ये अचानक परवडणारे झाले.

Claude Sonnet 4.6 आता सर्व Claude योजना, Claude Cowork, Claude Code, API आणि सर्व प्रमुख क्लाउड प्लॅटफॉर्मवर उपलब्ध आहे. एन्थ्रोपिकने डीफॉल्टनुसार फ्री टियरला सॉनेट 4.6 वर अपग्रेड केले आहे. क्लॉड एपीआय द्वारे क्लॉड-सॉनेट-4-6 वापरून डेव्हलपर त्वरित त्यात प्रवेश करू शकतात.

Source link