OpenAI आहे GPT-5.1-Codex-Max सादर केलेएक नवीन फ्रंटियर एजंट कोडिंग मॉडेल आता त्याच्या स्वतःच्या कोडेक्स विकास वातावरणात उपलब्ध आहे. रिलीझ AI-संचालित सॉफ्टवेअर अभियांत्रिकीमध्ये एक महत्त्वपूर्ण पाऊल आहे, सुधारित दीर्घकालीन विचार, कार्यक्षमता आणि रिअल-टाइम परस्पर क्षमता प्रदान करते. GPT-5.1-Codex-Max आता GPT-5.1-Codex ला एकात्मिक कोडेक्स डेकवर डीफॉल्ट मॉडेल म्हणून बदलेल.

नवीन मॉडेल एक सतत, उच्च-संदर्भ सॉफ्टवेअर डेव्हलपमेंट एजंट म्हणून काम करण्यासाठी डिझाइन केले आहे, जटिल रिफॅक्टरिंग, वर्कफ्लो डीबगिंग आणि एकाधिक संदर्भ विंडोमध्ये प्रोजेक्ट-व्यापी कार्ये व्यवस्थापित करण्यास सक्षम आहे.

हे Google ने काल एक शक्तिशाली नवीन जेमिनी 3 प्रो मॉडेल लाँच केल्यावर येते, तरीही ते मुख्य कोडिंग बेंचमार्क्समध्ये त्याला मागे टाकते किंवा जुळते:

वर SWE-बेंच सत्यापित, GPT‑5.1-Codex-Max ने 77.9% अचूकता प्राप्त केली अत्यंत उच्च विचारसरणीच्या प्रयत्नांनी, जेमिनी 3 प्रो ने मिळवलेले 76.2% पेक्षा जास्त.

त्यातूनही घडले टर्मिनल-बेंच 2.0, मिथुनसाठी 54.2% विरुद्ध 58.1% च्या अचूकतेसह, हे LiveCodeBench Pro वर जेमिनीच्या 2439 च्या स्कोअरशी जुळले, स्पर्धात्मक Elo विकास बेंचमार्क.

जेमिनी 3 प्रो च्या अधिक प्रगत कॉन्फिगरेशनच्या विरूद्ध मोजले जाते तेव्हा – त्याचे खोल-विचार करणारे मॉडेल – कोडेक्स-मॅक्सचा प्रॉक्सी कोडिंग बेंचमार्कमध्ये देखील थोडा फायदा आहे.

कार्यप्रदर्शन निकष: मुख्य कार्यांमध्ये वाढीव नफा

GPT-5.1-Codex-Max मानक सॉफ्टवेअर अभियांत्रिकी बेंचमार्कच्या श्रेणीमध्ये GPT-5.1-Codex वर मोजता येण्याजोग्या सुधारणा दाखवते.

SWE-Lancer IC मध्ये SWE ने 79.9% ची अचूकता प्राप्त केली, जी GPT-5.1-Codex च्या 66.3% पेक्षा लक्षणीय वाढ. SWE-Bench Verified Test (n=500) मध्ये, GPT‑5.1-Codex च्या 73.7% वर मात करून, अतिशय उच्च अनुमान प्रयत्नांमध्ये अचूकता 77.9% पर्यंत पोहोचली.

टर्मिनल बेंच 2.0 (n=89) वरील कामगिरीने अधिक माफक सुधारणा दर्शवल्या, GPT-5.1-Codex-Max ने GPT-5.1-Codex साठी 52.8% च्या तुलनेत 58.1% अचूकता प्राप्त केली.

सर्व मूल्यमापन अतिशय उच्च कॉम्प्रेशनसह केले गेले आणि अनुमान प्रयत्न सक्षम केले गेले.

हे परिणाम सूचित करतात की नवीन मॉडेल विस्तारित तर्क भारांच्या अंतर्गत मानक वैधता आणि वास्तविक-जागतिक उपयोगिता या दोन्हीसाठी वरची कमाल मर्यादा प्रदान करते.

तांत्रिक आर्किटेक्चर: कॉम्प्रेशनद्वारे दीर्घकालीन विचार

GPT-5.1-Codex-Max मधील प्रमुख संरचनात्मक सुधारणांपैकी एक म्हणजे विस्तारित I/O सत्रांद्वारे कार्यक्षमतेने तर्क करण्याची क्षमता दबाव.

हे मॉडेलला कमाल संदर्भ विंडोपर्यंत पोहोचल्यावर अप्रासंगिक तपशीलांकडे दुर्लक्ष करून महत्त्वाची संदर्भित माहिती राखून ठेवण्यास अनुमती देते – प्रभावीपणे लाखो टोकन्सवर कार्यक्षमतेत ऱ्हास न करता सतत ऑपरेशनला अनुमती देते.

बहु-चरण पुनर्बांधणी, चाचणी-चालित पुनरावृत्ती आणि स्वतंत्र डीबगिंग यासह 24 तासांपेक्षा जास्त वेळ घेणारी कार्ये पूर्ण करण्यासाठी मॉडेलचे अंतर्गत निरीक्षण केले जाते.

कॉम्प्रेशन टोकनची कार्यक्षमता देखील सुधारते. सरासरी तर्क करण्याच्या प्रयत्नात, GPT-5.1-Codex-Max ने समान किंवा अधिक अचूकता प्राप्त करण्यासाठी GPT-5.1-Codex पेक्षा अंदाजे 30% कमी तर्क कोड वापरले, ज्याचा खर्च आणि विलंब दोन्हीचा परिणाम आहे.

प्लॅटफॉर्म एकत्रीकरण आणि वापर प्रकरणे

GPT‑5.1-Codex-Max सध्या एकाधिक कोडेक्स-आधारित वातावरणात उपलब्ध आहे, जे एकात्मिक OpenAI टूल्स आणि इंटरफेसचा संदर्भ देते जे विशेषतः कोड-केंद्रित AI एजंट्ससाठी डिझाइन केलेले आहे. यामध्ये हे समाविष्ट आहे:

  • एकूण कोडेक्सOpenAI (@openai/codex) साठी अधिकृत कमांड-लाइन टूल, जिथे GPT-5.1-Codex-Max आधीपासून अस्तित्वात आहे.

  • IDE विस्तारOpenAI द्वारे विकसित किंवा देखरेख केली जाईल, जरी कोणत्याही विशिष्ट तृतीय-पक्ष IDE एकत्रीकरणांना नाव दिलेले नाही.

  • परस्परसंवादी कोडींग वातावरणजसे की CartPole किंवा Snell’s Law Explorer सारखे फ्रंट-एंड सिम्युलेशन ऍप्लिकेशन प्रदर्शित करण्यासाठी वापरलेले.

  • अंतर्गत कोड पुनरावलोकन साधनेOpenAI मधील अभियांत्रिकी संघांद्वारे वापरले जाते.

याक्षणी, GPT-5.1-Codex-Max सार्वजनिक API द्वारे अद्याप उपलब्ध नाही, जरी OpenAI म्हणते की हे लवकरच येत आहे. जे वापरकर्ते आजच्या टर्मिनल वातावरणात मॉडेलसह काम करू इच्छितात ते कोडेक्स CLI स्थापित करून आणि वापरून करू शकतात.

भविष्यातील कमांड-लाइन इंटरफेस (CLI) किंवा ऍप्लिकेशन प्रोग्रामिंग इंटरफेस (API) वर तयार केल्याशिवाय हे मॉडेल थर्ड-पार्टी इंटिग्रेटेड डेव्हलपमेंट एनवायरमेंट (IDEs) मध्ये समाकलित केले जाईल किंवा कसे हे सध्या अनिश्चित आहे.

मॉडेल थेट साधने आणि सिम्युलेशनसह संवाद साधण्यास सक्षम आहे. प्रकाशनात हायलाइट केलेल्या उदाहरणांमध्ये हे समाविष्ट आहे:

  • एक परस्परसंवादी कार्टपोल पॉलिसी ग्रेडियंट सिम्युलेटर, जे मजबुतीकरण शिक्षण व्यायाम आणि सक्रियतेचे दृश्यमान करते.

  • स्नेलचे लॉ ऑप्टिक्स एक्सप्लोरर, अपवर्तक निर्देशांकांमध्ये डायनॅमिक किरण ट्रेसिंगला समर्थन देते.

हे इंटरफेस परस्परसंवादी विकास सत्र राखून रिअल-टाइममध्ये तर्क करण्याच्या मॉडेलच्या क्षमतेला मूर्त रूप देतात – एका लूपमध्ये गणना, व्हिज्युअलायझेशन आणि अंमलबजावणीमधील अंतर प्रभावीपणे भरून काढतात.

सायबर सुरक्षा आणि सुरक्षितता निर्बंध

GPT-5.1-Codex-Max हे त्याच्या रेडिनेस फ्रेमवर्क अंतर्गत सायबरसुरक्षा साठी OpenAI च्या “उच्च” क्षमतेच्या थ्रेशोल्डची पूर्तता करत नसले तरी, हे सध्या OpenAI द्वारे प्रकाशित केलेले सर्वात सक्षम सायबरसुरक्षा मॉडेल आहे. हे स्वयंचलित भेद्यता शोध आणि उपाय यासारख्या वापराच्या प्रकरणांना समर्थन देते, परंतु कठोर सँडबॉक्सिंग आणि नेटवर्क प्रवेश डीफॉल्टनुसार अक्षम केले आहे.

OpenAI ने व्यापक दुर्भावनापूर्ण वापरामध्ये कोणतीही वाढ नोंदवली नाही परंतु संशयास्पद वर्तनासाठी क्रियाकलाप लक्ष्यीकरण आणि अक्षम करण्याच्या यंत्रणेसह सुधारित मॉनिटरिंग सिस्टम सादर केले आहेत. कोडेक्स स्थानिक कार्यक्षेत्रापासून अलिप्त राहतो जोपर्यंत विकसक व्यापक प्रवेशाची निवड करत नाहीत, अविश्वासू सामग्रीमधून त्वरित इनपुट सारख्या जोखीम कमी करतात.

उपयोजन संदर्भ आणि विकासक वापर

GPT‑5.1-Codex-Max सध्या वापरकर्त्यांसाठी उपलब्ध आहे ChatGPT Plus, Pro, Business, Edu, and Enterprise योजना. हे कोडेक्स-आधारित वातावरणातील नवीन डीफॉल्ट मॉडेल देखील बनेल, जीपीटी-5.1-कोडेक्सच्या जागी, जे एक सामान्य-उद्देश मॉडेल होते.

OpenAI म्हणते की त्याचे 95% अंतर्गत अभियंते कोडेक्स साप्ताहिक वापरतात, आणि दत्तक घेतल्यापासून, या अभियंत्यांनी सरासरी सुमारे 70% अधिक पुल विनंत्या पाठवल्या आहेत – अंतर्गत विकासाच्या गतीवर साधनाचा प्रभाव हायलाइट करते.

त्याचे स्वातंत्र्य आणि सातत्य असूनही, OpenAI यावर जोर देते की कोडेक्स-मॅक्सला प्रोग्रामिंगला अनुषंगिक मानले जावे, मानवी पुनरावलोकनासाठी बदलू नये. व्युत्पन्न केलेल्या कोडमधील पारदर्शकतेला समर्थन देण्यासाठी मॉडेल टर्मिनल लॉग, चाचणी उद्धरण आणि टूल कॉल आउटपुट तयार करते.

अपेक्षा

GPT‑5.1-Codex-Max हे एजंटिक डेव्हलपमेंट टूल्सच्या दिशेने OpenAI च्या धोरणातील एक प्रमुख उत्क्रांती दर्शवते, ज्यामुळे सॉफ्टवेअर अभियांत्रिकी कार्यांमध्ये अनुमान, कोड कार्यक्षमता आणि परस्परसंवादी क्षमतांची अधिक खोली प्रदान केली जाते. कॉन्टेक्स्ट मॅनेजमेंट आणि कॉम्प्रेशन स्ट्रॅटेजीजचा विस्तार करून, मॉडेल वैयक्तिक फाइल्स किंवा स्निपेट्सऐवजी संपूर्ण रेपॉजिटरीजच्या स्केलवर कार्ये हाताळण्यासाठी स्थित आहे.

प्रॉक्सी वर्कफ्लो, सुरक्षित सँडबॉक्सेस आणि वास्तविक-जागतिक मूल्यमापन मेट्रिक्सवर सतत लक्ष केंद्रित करून, Codex-Max पुढील पिढीच्या AI-संचालित प्रोग्रामिंग वातावरणासाठी मार्ग मोकळा करत आहे – वाढत्या स्वायत्त प्रणालींमध्ये देखरेखीच्या महत्त्वावर जोर देत आहे.

Source link