झूम व्हिडिओ कम्युनिकेशन्स, या महामारीच्या काळात दूरस्थ कामगारांना जोडून ठेवण्यासाठी ओळखल्या जाणाऱ्या कंपनीने गेल्या आठवड्यात जाहीर केले की त्यांनी सर्वात जास्त मागणी असलेल्या AI चाचण्यांपैकी एकावर नोंदवलेला सर्वोच्च स्कोअर प्राप्त केला आहे – हा दावा ज्याने संपूर्ण तंत्रज्ञान उद्योगात आश्चर्य, संशय आणि खरी उत्सुकता पसरवली.
सॅन जोस-आधारित कंपनीने म्हटले आहे की त्यांच्या AI प्रणालीने नवीनतम मानवी चाचणीत 48.1% गुण मिळवले आहेत, हा बेंचमार्क जगभरातील उद्योग तज्ञांनी अगदी प्रगत AI मॉडेललाही मागे टाकण्यासाठी डिझाइन केलेला आहे. हा स्कोअर Google च्या जेमिनी 3 प्रोला मागे टाकतो, ज्याने मागील विक्रम 45.8 टक्के केला होता.
"Humanity’s Last Exam full Suite Test वर झूमने 48.1% स्कोअर मिळवून नवीन, सुधारित स्कोअर मिळवला, जो मागील SOTA स्कोअरच्या तुलनेत 2.3% ची लक्षणीय सुधारणा दर्शवतो." झूमचे मुख्य तंत्रज्ञान अधिकारी झुएडोंग हुआंग यांनी एका ब्लॉग पोस्टमध्ये लिहिले.
या घोषणेने एक चिथावणीखोर प्रश्न उपस्थित केला ज्याने एआय निरीक्षकांना दिवसांपासून व्यस्त ठेवले आहे: व्हिडिओ कॉन्फरन्सिंग कंपनी – मोठ्या भाषेच्या मॉडेल्सचे प्रशिक्षण देण्याचा सार्वजनिक इतिहास नसलेली कंपनी – मशीनच्या बुद्धिमत्तेच्या मर्यादा मोजण्यासाठी डिझाइन केलेल्या मानकांवर अचानक Google, OpenAI आणि Anthropic ला कसे उडी मारली?
उत्तर AI कुठे जात आहे आणि झूमच्या तांत्रिक महत्त्वाकांक्षांबद्दल बरेच काही प्रकट करते. तुम्ही कोणाला विचारता यावर अवलंबून, हे एकतर व्यावहारिक अभियांत्रिकीचे चमकदार प्रदर्शन आहे किंवा इतरांच्या कामाचे श्रेय घेणारा पोकळ दावा आहे.
झूमने स्वतःच्या मॉडेलला प्रशिक्षण देण्याऐवजी एआय ट्रॅफिक कंट्रोलर कसा तयार केला
झूमने स्वतःचे मोठे भाषा मॉडेल प्रशिक्षित केले नाही. त्याऐवजी, कंपनीने विकसित केले आहे ज्याला ते म्हणतात "युनिफाइड एआय दृष्टीकोन" – एक प्रणाली जी OpenAI, Google, आणि Anthropic मधील एकाधिक विद्यमान मॉडेल्ससाठी प्रश्न मार्गी लावते, नंतर त्यांचे आउटपुट परिभाषित करण्यासाठी, एकत्रित करण्यासाठी आणि ऑप्टिमाइझ करण्यासाठी मालकीचे सॉफ्टवेअर वापरते.
या प्रणालीच्या केंद्रस्थानी ते झूम म्हणतात "झेड स्कोअरर," विविध मॉडेल्सच्या प्रतिसादांचे मूल्यमापन करणारी आणि दिलेल्या कार्यासाठी सर्वोत्तम एक निवडणारी यंत्रणा. कंपनी हे वर्णन करते त्यासह एकत्र करते "अन्वेषण, पडताळणी आणि एकत्रीकरण धोरण," एक एजंट वर्कफ्लो जो एकापेक्षा जास्त AI सिस्टीममध्ये अन्वेषणात्मक तर्क आणि सत्यापन संतुलित करतो.
"आमचा युनिफाइड दृष्टिकोन झूमच्या छोट्या भाषेच्या मॉडेल्सना प्रगत ओपन सोर्स आणि क्लोज सोर्स मॉडेल्ससह एकत्र करतो," हुआंग यांनी लिहिले. फ्रेमवर्क "द्वंद्वात्मक सहकार्याद्वारे विचार निर्माण, आव्हानात्मक आणि सुधारण्यासाठी विविध मॉडेल्सचे समन्वय साधते."
सोप्या भाषेत: झूमने एक अत्याधुनिक एआय ट्रॅफिक कंट्रोलर तयार केला आहे, एआयने नाही.
हा फरक अशा उद्योगात अत्यंत महत्वाचा आहे जिथे बढाई मारण्याचे अधिकार – आणि अब्जावधी मूल्यमापन – बहुतेकदा सर्वात सक्षम मॉडेलवर कोण दावा करू शकते यावर अवलंबून असते. मोठ्या AI लॅब्स मोठ्या कॉम्प्युटर क्लस्टर्सवर फ्रंटियर सिस्टमला प्रशिक्षित करण्यासाठी लाखो डॉलर्स खर्च करतात. याउलट, झूमची उपलब्धी त्या विद्यमान प्रणालींच्या बुद्धिमान एकत्रीकरणावर अवलंबून असल्याचे दिसते.
AI संशोधक खऱ्या नावीन्यपूर्ण गोष्टींवर का विभाजित आहेत?
एआय समुदायाचा प्रतिसाद जलद आणि तीव्रपणे विभागला गेला आहे.
मॅक्स रम्फ, एक AI अभियंता जो म्हणतो की त्याने अत्याधुनिक भाषेचे मॉडेल प्रशिक्षित केले आहेत, सोशल मीडियावर तीव्र टीका पोस्ट केली. "झूमने जेमिनी, जीपीटी, क्लॉड आणि इतरांना API कॉलचे बंडल केले आहे. आणि मानक आधारावर थोडे सुधारले जे त्यांच्या ग्राहकांना कोणतेही मूल्य देत नाही," पुस्तके "मग ते SOTA ची मागणी करतात."
रम्फने स्वतः कलात्मक दृष्टिकोन नाकारला नाही. वेगवेगळ्या कामांसाठी अनेक मॉडेल्स वापरणे ही चांगली गोष्ट असल्याचे त्यांनी नमूद केले "खरं तर खूप स्मार्ट आणि बहुतेक ॲप्सनी हे करायला हवं." या बहु-मॉडेल धोरणाची प्रभावीपणे अंमलबजावणी होत असल्याचे उदाहरण म्हणून त्यांनी सिएरा या AI-शक्तीवर चालणारी ग्राहक सेवा कंपनीकडे लक्ष वेधले.
त्याचा आक्षेप अधिक विशिष्ट होता: "त्यांनी मॉडेलला प्रशिक्षण दिले नाही, परंतु त्यांनी ट्विटमध्ये हे तथ्य अस्पष्ट केले. इतरांच्या कामाचे श्रेय घेण्याचा अन्याय लोकांच्या मनात खोलवर पसरतो."
पण इतर निरीक्षकांनी हे यश वेगळ्या पद्धतीने पाहिले. विकसक होंगचेंग झू यांनी अधिक अचूक मूल्यांकन केले: "AI मूल्यांकनात शीर्षस्थानी येण्यासाठी, तुम्हाला झूमने केलेल्या मॉडेलप्रमाणे फेडरेट करणे आवश्यक आहे. साधर्म्य असे आहे की प्रत्येक कागल स्पर्धकाला माहित आहे की स्पर्धा जिंकण्यासाठी तुम्हाला मॉडेल्स गोळा करावे लागतील."
Kaggle सोबत तुलना – एक स्पर्धात्मक डेटा सायन्स प्लॅटफॉर्म जेथे अनेक मॉडेल्स एकत्र करणे हा विजेत्या संघांमध्ये मानक सराव आहे – झूमचा दृष्टीकोन धूळ खात न ठेवता उद्योगातील सर्वोत्तम सराव म्हणून बदलतो. शैक्षणिक संशोधनाने दीर्घ काळापासून हे दाखवून दिले आहे की सामूहिक दृष्टिकोन नियमितपणे वैयक्तिक मॉडेल्सपेक्षा जास्त कामगिरी करतात.
तथापि, या चर्चेने उद्योगाची प्रगती कशी समजते यातील एक फॉल्ट लाइन उघड केली आहे. एक्सोरिया एआयचे संस्थापक रायन ब्रेहम, डिसमिसव्ह होते: "झूम फक्त दुसऱ्या LLM भोवती एक पट्टा तयार करतो आणि त्याचा अहवाल देतो. तो फक्त आवाज आहे." दुसऱ्या समालोचकाने बातमीचे आश्चर्यचकित केले: "व्हिडिओ कॉन्फरन्सिंग ॲप ZOOM SOTA मॉडेल विकसित करत आहे ज्याने 48% HLE प्राप्त केले आहे माझ्या बिंगो कार्डवर नाही."
कदाचित सर्वात स्पष्ट टीका प्राधान्यांशी संबंधित आहे. Rumpf ने असा युक्तिवाद केला की झूम त्याच्या संसाधनांना त्याच्या ग्राहकांना आधीच तोंड देत असलेल्या समस्यांकडे निर्देशित करू शकले असते. "कॉल स्क्रिप्ट पुनर्प्राप्तीची समस्या SOTA LLMs द्वारे “निराकरण” केलेली नाही;" पुस्तके "मला वाटते की झूम वापरकर्ते HLE पेक्षा जास्त काळजी घेतील."
मायक्रोसॉफ्टचे दिग्गज कलाकार वेगळ्या प्रकारच्या कृत्रिम बुद्धिमत्तेवर आपली प्रतिष्ठा पणाला लावत आहेत
जर झूमचा बेंचमार्क निकाल कोठूनही बाहेर येत नाही असे वाटत असेल तर त्याचे मुख्य तंत्रज्ञान अधिकारी तसे झाले नाहीत.
Xuedong Huang Microsoft मधून Zoom मध्ये सामील झाला, जिथे त्याने कंपनीची AI क्षमता तयार करण्यात दशके घालवली. त्यांनी 1993 मध्ये मायक्रोसॉफ्टच्या स्पीच टेक्नॉलॉजी ग्रुपची स्थापना केली आणि अशा टीम्सचे नेतृत्व केले ज्याने स्पीच रेकग्निशन, मशीन ट्रान्सलेशन, नैसर्गिक भाषा समजणे आणि कॉम्प्युटर व्हिजनमध्ये मानवी समानता म्हणून कंपनीचे वर्णन केले आहे.
हुआंग यांनी पीएच.डी. एडिनबर्ग विद्यापीठातून इलेक्ट्रिकल इंजिनिअरिंगमध्ये. ते नॅशनल ॲकॅडमी ऑफ इंजिनीअरिंग आणि अमेरिकन ॲकॅडमी ऑफ आर्ट्स अँड सायन्सेसचे निवडून आलेले सदस्य तसेच IEEE आणि ACM या दोन्हींचे फेलो आहेत. त्याचे क्रेडेन्शियल्स त्याला उद्योगातील सर्वात कुशल AI एक्झिक्युटिव्हजमध्ये स्थान देतात.
झूममध्ये त्याची उपस्थिती सूचित करते की कंपनीच्या एआय महत्त्वाकांक्षा गंभीर आहेत, जरी त्याच्या पद्धती हेडलाइन्सवर वर्चस्व असलेल्या संशोधन प्रयोगशाळांपेक्षा भिन्न असल्या तरीही. बेंचमार्क निकाल साजरा करणाऱ्या ट्विटमध्ये, हुआंगने झूमच्या रणनीतीचे प्रमाणीकरण म्हणून यश तयार केले: "आम्ही कोणत्याही एका मॉडेलच्या कार्यक्षमतेच्या मर्यादा पुढे ढकलून अधिक मजबूत मल्टी-मॉडेल अन्वेषण, अनुमान आणि सहयोग क्षमता आणल्या आहेत."
ते शेवटचे वाक्य – "कोणत्याही एका मॉडेलच्या कार्यक्षमतेची मर्यादा ओलांडणे" – सर्वात महत्वाचे असू शकते. Huang दावा करत नाही की झूमने एक चांगले मॉडेल तयार केले आहे. तो दावा करतो की झूमने फॉर्म वापरण्यासाठी एक चांगली प्रणाली तयार केली आहे.
जगातील सर्वात हुशार मशीन आश्चर्यचकित करण्यासाठी डिझाइन केलेल्या चाचणीच्या आत
या वादाच्या केंद्रस्थानी असलेले मानक, “मानवतेची अंतिम चाचणी” हे अपवादात्मकपणे कठीण बनले होते. मागील चाचण्यांच्या विपरीत ज्यामध्ये AI सिस्टीमने नमुन्यांची जुळवाजुळव करून गेम कसा खेळायचा हे शिकले, HLE समस्या सादर करते ज्यांना वास्तविक-जगातील समज, बहु-चरण तर्क आणि जटिल डोमेनमधील माहितीचे संश्लेषण आवश्यक आहे.
ही चाचणी जगभरातील तज्ज्ञांच्या प्रश्नांवर आधारित आहे, प्रगत गणितापासून तत्त्वज्ञानापर्यंतच्या विशेष वैज्ञानिक ज्ञानापर्यंत. 48.1 टक्के स्कोअर शालेय ग्रेड वक्रांची सवय असलेल्या कोणालाही अप्रभावी वाटू शकतो, परंतु HLE च्या संदर्भात, ते मशीनच्या कार्यक्षमतेसाठी वर्तमान कमाल मर्यादा दर्शवते.
"हे मानक जागतिक विषय तज्ञांद्वारे विकसित केले गेले आहे आणि आव्हानात्मक बौद्धिक कार्यांवर मानवी स्तरावरील कामगिरीच्या दिशेने AI च्या प्रगतीचे मोजमाप करण्यासाठी एक महत्त्वपूर्ण बेंचमार्क बनले आहे." झूम जाहिरात नोंदवली.
गुगलच्या मागील सर्वोत्कृष्टतेपेक्षा कंपनीची 2.3 टक्के बिंदू सुधारणा एकाकीपणात माफक वाटू शकते. परंतु स्पर्धात्मक बेंचमार्किंगमध्ये, जेथे नफा बहुतेक वेळा टक्केवारीच्या अंशांमध्ये येतो, अशा उडीकडे लक्ष वेधले जाते.
झूमचा दृष्टिकोन एंटरप्राइझ AI च्या भविष्याबद्दल काय प्रकट करतो
झूमच्या दृष्टीकोनामध्ये मानक लीडरबोर्डच्या पलीकडे विस्तारित परिणाम आहेत. कंपनी एंटरप्राइझ AI साठी एक दृष्टी दर्शवते जी OpenAI, Anthropic आणि Google द्वारे पाठपुरावा केलेल्या मॉडेल-केंद्रित धोरणांपेक्षा मूलभूतपणे भिन्न आहे.
एकल सर्वात सक्षम मॉडेल तयार करण्यावर प्रत्येक गोष्टीवर पैज लावण्याऐवजी, झूम स्वतःला ऑर्केस्ट्रेशन लेयर म्हणून स्थान देत आहे – एक अशी कंपनी जी एकाधिक प्रदात्यांकडून सर्वोत्तम क्षमता एकत्र करू शकते आणि कंपन्या आधीपासून दररोज वापरत असलेल्या उत्पादनांद्वारे त्या वितरित करू शकतात.
ही रणनीती एआय मार्केटमधील गंभीर अनिश्चिततेपासून बचाव करते: पुढच्या वर्षी कोणते मॉडेल सर्वोत्कृष्ट असेल हे कोणालाच माहीत नाही. प्रदात्यांमध्ये अदलाबदल करू शकणारी पायाभूत सुविधा तयार करून, झूम विक्रेते लॉक-इन टाळते आणि सैद्धांतिकदृष्ट्या ग्राहकांना कोणत्याही कार्यासाठी उपलब्ध सर्वोत्तम AI ऑफर करते.
दुसऱ्या दिवशी OpenAI कडून GPT-5.2 ची घोषणा या गतिशीलतेला अधोरेखित करते. OpenAI च्या स्वतःच्या कम्युनिकेशन्सने झूमला भागीदार म्हणून नाव दिले ज्याने नवीन मॉडेलच्या कामगिरीचे मूल्यमापन केले "त्यांच्या एआय वर्कलोडमध्ये आणि संपूर्ण बोर्डवर मोजता येण्याजोगे नफा मिळवला." दुसऱ्या शब्दांत, झूम हा फ्रंटियर लॅबचा ग्राहक आहे आणि आता त्यांच्या मानकांमध्ये स्पर्धक आहे – स्वतःचे तंत्रज्ञान वापरून.
ही व्यवस्था शाश्वत असू शकते. प्रमुख मॉडेल प्रदात्यांकडे API चा प्रवेश व्यापकपणे विकण्यासाठी प्रत्येक प्रोत्साहन आहे, अगदी त्यांचे आउटपुट एकत्रित करू शकतील अशा कंपन्यांनाही. झूमची ऑर्केस्ट्रेशन क्षमता ही खरी बौद्धिक संपदा आहे की फक्त अत्याधुनिक द्रुत अभियांत्रिकी ज्याची इतर प्रतिकृती बनवू शकतात हा एक अधिक मनोरंजक प्रश्न आहे.
जेव्हा झूमचे 300 दशलक्ष वापरकर्ते प्रश्न विचारू लागतात तेव्हा खरी परीक्षा येते
झूमने त्याच्या जाहिरात विभागाला उद्योग संबंधांभोवती नाव दिले आहे "सहयोगी भविष्य," हुआंगने संपूर्ण कृतज्ञतेची नोंद घेतली. "AI चे भविष्य सहयोगात्मक आहे, स्पर्धात्मक नाही" पुस्तके "संपूर्ण उद्योगातील सर्वोत्कृष्ट नवकल्पनांना आमच्या स्वतःच्या संशोधनातील प्रगतीसह एकत्रित करून, आम्ही त्यांच्या भागांच्या बेरजेपेक्षा जास्त समाधाने तयार करतो."
हे फ्रेमवर्क झूम ला एक उपयुक्त इंटिग्रेटर म्हणून स्थान देते, जे एंटरप्राइझ क्लायंटसाठी उद्योगातील सर्वोत्तम कार्य एकत्र आणते. समीक्षकांना काहीतरी वेगळं दिसतं: एक कंपनी जी एआय लॅबच्या प्रतिष्ठेचा दावा करते ती पायाभूत संशोधन न करता मिळवते.
वादाचे निराकरण लीडरबोर्डद्वारे नव्हे तर उत्पादनांद्वारे केले जाईल. जेव्हा AI Companion 3.0 येत्या काही महिन्यांत लाखो झूम वापरकर्त्यांपर्यंत पोहोचेल, तेव्हा ते स्वतःचा निर्णय घेतील — त्यांनी कधीही न ऐकलेल्या मेट्रिक्सवर नव्हे, तर मीटिंगच्या सारांशाने खरोखर काय महत्त्वाचे आहे, कृती आयटमला अर्थ दिला की नाही आणि AI ने त्यांच्यासाठी वेळ वाचवला की वाया घालवला यावर.
सरतेशेवटी, झूमचा सर्वात प्रक्षोभक दावा असा असू शकत नाही की त्याने मानक ओलांडले आहे. गर्भित युक्तिवाद असा असू शकतो की AI च्या युगात, सर्वोत्तम मॉडेल हे तुम्ही तयार केलेले नसून ते कसे वापरायचे हे तुम्हाला माहीत आहे.
















