काही आठवड्यांपूर्वी, Google ने प्रथमच ते लॉन्च केले मिथुन 3 मॉडेल, एकाधिक AI मानकांमध्ये नोंदणीकृत नेतृत्व पोझिशन्स असल्याचा दावा करते. पण टीविक्रेत्याने प्रदान केलेल्या मानकांसह आव्हान हे आहे की ते फक्त तेच आहेत जे विक्रेता प्रदान करतो.
कडून नवीन तटस्थ विक्रेता रेटिंग विपुलतथापि, मिथुन 3 ते लीडरबोर्डच्या शीर्षस्थानी ठेवते. हे शैक्षणिक मानकांच्या संचामध्ये नाही; त्याऐवजी, ते वास्तविक-जगातील वैशिष्ट्यांच्या संचावर आधारित आहे ज्याची वास्तविक वापरकर्ते आणि संस्था काळजी घेतात.
प्रोलिफिकची स्थापना ऑक्सफर्ड विद्यापीठातील संशोधकांनी केली होती. कठोर संशोधन आणि नैतिक AI च्या विकासासाठी कंपनी उच्च-गुणवत्तेचा, विश्वासार्ह मानवी डेटा प्रदान करते. “कंपनी”मानवी मानक“हा दृष्टिकोन प्रातिनिधिक मानवी नमुने आणि अंध चाचणी वापरून विविध वापरकर्त्यांच्या परिस्थितींमध्ये AI मॉडेलची अचूक तुलना करण्यासाठी लागू होतो आणि केवळ तांत्रिक कामगिरीच नाही तर वापरकर्त्याचा आत्मविश्वास, अनुकूलता आणि संप्रेषण शैली देखील मोजतो.
नवीनतम मानवी चाचणीने मॉडेलच्या अंध चाचणीमध्ये 26,000 वापरकर्त्यांचे मूल्यांकन केले. मूल्यमापनात, Gemini 3 Pro मधील आत्मविश्वास 16% वरून 69% पर्यंत वाढला, जो Prolific द्वारे नोंदवलेली सर्वोच्च टक्केवारी आहे. जेमिनी 3 आता एकूण लोकसंख्याशास्त्रीय उपसमूहांमध्ये 69% वेळा विश्वास, नैतिकता आणि सुरक्षिततेसाठी प्रथम क्रमांकावर आहे, त्याच्या पूर्ववर्ती जेमिनी 2.5 प्रोच्या तुलनेत, जे त्या वेळी फक्त 16% प्रथम क्रमांकावर होते.
एकूणच, जेमिनी 3 चार रेटिंग श्रेणींपैकी तीन श्रेणींमध्ये प्रथम क्रमांकावर आहे: कार्यप्रदर्शन आणि प्रतिबिंब, परस्परसंवाद आणि अनुकूलता आणि विश्वास आणि सुरक्षितता. हे केवळ संप्रेषण शैलीमध्ये गमावले गेले, जेथे डीपसीक V3 43% सह प्राधान्यांमध्ये अव्वल ठरला. मानवी चाचणीने हे देखील दर्शविले की जेमिनी 3 ने वय, लिंग, वंश आणि राजकीय अभिमुखता यातील फरकांसह 22 वेगवेगळ्या लोकसंख्याशास्त्रीय वापरकर्ता गटांमध्ये सातत्याने चांगली कामगिरी केली. मूल्यमापनात असेही आढळले आहे की वापरकर्ते आता हेड-टू-हेड तुलना करताना मॉडेल निवडण्याची पाचपट अधिक शक्यता आहे.
पण ऑर्डर पेक्षा कमी महत्वाची आहे का ती जिंकली.
"हे वेगवेगळ्या वापराच्या प्रकरणांच्या विस्तृत श्रेणीतील सातत्य आणि विविध प्रकारच्या वापरकर्त्यांना आकर्षित करणारे व्यक्तिमत्व आणि शैली आहे." प्रॉलिफिकचे सह-संस्थापक आणि सीईओ फेलिम ब्रॅडली यांनी व्हेंचरबीटला सांगितले. "जरी काही विशिष्ट प्रकरणांमध्ये, इतर मॉडेल्सना एकतर लहान उप-समूहांनी किंवा विशिष्ट संभाषण प्रकारावर प्राधान्य दिले जाते, परंतु विविध वापर प्रकरणे आणि प्रेक्षक प्रकारांच्या श्रेणीतील मॉडेलचे ज्ञान आणि लवचिकता ही या विशिष्ट निकषावर विजय मिळवण्याची परवानगी देते."
अंध चाचणी कशा प्रकारे शैक्षणिक मानके चुकतात हे स्पष्ट करते
HUMAINE ची कार्यपद्धती इंडस्ट्री मॉडेल्सचे मूल्यांकन कसे करते यामधील अंतर उघड करते. वापरकर्ते मल्टी-टर्न संभाषणांमध्ये एकाच वेळी दोन मॉडेलशी संवाद साधतात. प्रत्येक प्रतिसादाला कोणते विक्रेते समर्थन देतात हे त्यांना माहीत नाही. ते त्यांना स्वारस्य असलेल्या कोणत्याही विषयावर चर्चा करतात, पूर्व-निर्धारित चाचणी प्रश्नांवर नाही.
ते टीत्याने स्वतःला काय महत्त्वाचे ठरवले. वय, लिंग, वांशिकता आणि राजकीय अभिमुखता नियंत्रित करण्यासाठी, HUMAINE यूएस आणि यूके लोकसंख्येमध्ये प्रातिनिधिक नमुने वापरते. हे असे काहीतरी प्रकट करते जे स्थिर बेंचमार्क कॅप्चर करू शकत नाहीत: मॉडेल कार्यप्रदर्शन प्रेक्षकांनुसार बदलते.
"आपण एआय लीडरबोर्ड घेतल्यास, त्यापैकी बहुतेकांची अद्याप एक सुसंगत यादी असू शकते," ब्रॅडली म्हणाला. "परंतु आमच्यासाठी, तुम्ही प्रेक्षकांसाठी नियंत्रण ठेवल्यास, आम्ही यूएस आणि यूकेमध्ये डावीकडे झुकणारा नमुना पाहत असलात किंवा उजवीकडे झुकणारा नमुना पाहत असलात तरी, आम्ही थोड्या वेगळ्या लीडरबोर्डसह समाप्त करू. आणि मला वाटते की वय ही आमच्या अनुभवातील सर्वात वेगळी स्थिती होती."
विविध कर्मचारी गटांमध्ये AI तैनात करणाऱ्या संस्थांसाठी, हे महत्त्वाचे आहे. एका लोकसंख्येसाठी चांगली कामगिरी करणारे मॉडेल दुसऱ्या लोकसंख्येसाठी कमी चांगले प्रदर्शन करू शकते.
एआयचे मूल्यमापन करताना ही पद्धत एक मूलभूत प्रश्न देखील संबोधित करते: जेव्हा एआय स्वतःचे मूल्यांकन करू शकते तेव्हा मानवी न्यायाधीश का वापरावे? ब्रॅडलीने नमूद केले की त्यांची कंपनी काही वापराच्या प्रकरणांमध्ये एआय न्यायाधीशांचा वापर करते, तरीही त्यांनी यावर जोर दिला की मानवी मूल्यमापन हा अजूनही निर्णायक घटक आहे.
"आम्ही पाहतो की LLM जज डेटा आणि मानवी डेटा या दोन्हीच्या बुद्धिमान क्युरेशनचा सर्वात मोठा फायदा होतो, ज्यामध्ये सामर्थ्य आणि कमकुवतता दोन्ही आहेत आणि जे, जेव्हा हुशारीने एकत्र केले जातात तेव्हा ते एकत्र काम करतात," ब्रॅडली म्हणाला. "परंतु तरीही आमचा असा विश्वास आहे की मानवी डेटा जिथे अल्फा आहे. आम्ही खूप आशावादी आहोत की मानवी डेटा आणि मानवी बुद्धिमत्ता लूपमध्ये असणे आवश्यक आहे."
कृत्रिम बुद्धिमत्तेच्या मूल्यांकनामध्ये आत्मविश्वासाचा अर्थ काय आहे?
ट्रस्ट, एथिक्स आणि सेफ्टी वापरकर्त्याचा विश्वासार्हता, तथ्यात्मक अचूकता आणि जबाबदार वर्तन यावर विश्वास ठेवते. HUMAINE पद्धतीमध्ये, विश्वास हा विक्रेता दावा किंवा तांत्रिक मेट्रिक नाही – वापरकर्ते प्रतिस्पर्धी मॉडेल्सशी अंध संभाषणानंतर अहवाल देतात.
संख्या 69% लोकसंख्याशास्त्रीय गटांमधील संभाव्यता दर्शवते. ही सुसंगतता एकूण गुणांपेक्षा अधिक महत्त्वाची आहे कारण संस्था विविध लोकसंख्येला सेवा देऊ शकतात.
"या परिस्थितीत ते मिथुन वापरत आहेत याची जाणीव नव्हती;" ब्रॅडली म्हणाला. "तो फक्त आंधळा मल्टी-टर्न प्रतिसादावर अवलंबून होता."
हे कथित ट्रस्ट अर्जित ट्रस्टपासून वेगळे करते. वापरकर्त्यांनी फॉर्म आउटपुट कोणत्या विक्रेत्याने उत्पादित केले हे जाणून न घेता ते तपासले, Google चा ब्रँड फायदा काढून टाकला. ग्राहकासमोर असलेल्या उपयोजनांसाठी जेथे AI विक्रेता अंतिम वापरकर्त्यांसाठी अदृश्य राहतो, हा फरक महत्त्वाचा आहे.
कंपन्यांनी आता काय करावे
विविध मॉडेल्सचा विचार करताना कंपन्यांना आता करणे आवश्यक असलेली एक महत्त्वाची गोष्ट म्हणजे यशस्वी मूल्यमापन फ्रेमवर्क स्वीकारणे.
"केवळ भावनेवर आधारित मॉडेल्सचे मूल्यांकन करणे अधिक कठीण होत आहे;" ब्रॅडली म्हणाला. "मला वाटते की हे मॉडेल कसे कार्य करतात हे खरोखर समजून घेण्यासाठी आम्हाला अधिक कठोर वैज्ञानिक पद्धतींची आवश्यकता आहे."
HUMAINE डेटा यासाठी एक फ्रेमवर्क प्रदान करतो: विशिष्ट कार्यांवर केवळ उत्कृष्ट कार्यप्रदर्शनच नव्हे तर वापर प्रकरणे आणि वापरकर्ता लोकसंख्याशास्त्रामध्ये सातत्य तपासणे. ब्रँडच्या आकलनापासून मॉडेल गुणवत्ता विभक्त करण्यासाठी परीक्षकाला अंध करा. वापरकर्त्यांच्या वास्तविक संख्येशी जुळणारे प्रतिनिधी नमुने वापरा. मॉडेल बदलत असताना चालू मूल्यमापनाची योजना करा.
एआय स्केलवर तैनात करू पाहणाऱ्या संस्थांसाठी, याचा अर्थ पुढे जाणे "कोणते मॉडेल सर्वोत्तम आहे" करण्यासाठी "आमच्या विशिष्ट वापर केस, वापरकर्ता लोकसंख्याशास्त्र आणि इच्छित गुणधर्मांसाठी कोणते मॉडेल सर्वोत्तम आहे."
प्रातिनिधिक सॅम्पलिंग आणि अंध चाचणीची अचूकता हा निर्णय घेण्यासाठी आवश्यक डेटा प्रदान करते—जे काही तांत्रिक मानके आणि भावना-आधारित मूल्यमापन प्रदान करू शकत नाहीत.
















