उद्योगातील अग्रगण्य कृत्रिम बुद्धिमत्ता कव्हर करण्यासाठी नवीनतम अद्यतने आणि विशेष सामग्री मिळविण्यासाठी दररोज आणि साप्ताहिक वृत्तपत्रांमध्ये सामील व्हा. अधिक जाणून घ्या
एलएलएमएस मॉडेल “युक्तिवादाची वेळ मर्यादित करून” जटिल विचार करण्यास सक्षम आहेत, तंत्रज्ञानाचा एक गट जो उत्तरे तयार करण्याच्या तर्क दरम्यान अधिक अंकगणित संसाधने वाटप करतो. तथापि, मायक्रोसॉफ्ट रिसर्चच्या नवीन अभ्यासानुसार असे दिसून आले आहे की या स्केलिंग पद्धती सार्वत्रिक नाहीत. कार्यक्षमता मजबुतीकरण भिन्न मॉडेल्स, कार्ये आणि गुंतागुंतांद्वारे मोठ्या प्रमाणात बदलतात.
मूलभूत निष्कर्ष असा आहे की तर्क दरम्यान समस्येमध्ये फक्त अधिक खाते फेकणे चांगले किंवा अधिक कार्यक्षम परिणामांची हमी देत नाही. परिणाम मॉडेलच्या अस्थिरता आणि विश्वासार्हतेसाठी अधिक चांगल्या प्रकारे समजून घेण्यात मदत करू शकतात कारण ते त्यांच्या अनुप्रयोगांमध्ये कृत्रिम बुद्धिमत्ता अनुप्रयोगांमध्ये प्रगत विचारांना एकत्रित करण्यास उत्सुक आहेत.
चाचणीवर स्केलिंग पद्धती सेट करणे
मायक्रोसॉफ्ट रिसर्च टीमने नऊ आधुनिक संस्था मॉडेलमध्ये विस्तृत प्रयोगात्मक विश्लेषण केले. यामध्ये जीपीटी -4 ओ, क्लॉड S. So सॉनेट, मिथुन २.० प्रो आणि लामा 1.१ 4०5 बी यासारख्या दोन्ही “पारंपारिक” मॉडेल्स तसेच तर्किंगच्या वेळी स्केलिंगद्वारे विचार वाढविण्यासाठी विशेषतः जप्त केलेले मॉडेल्स समाविष्ट आहेत. यात ओपनईचे ओ 1 आणि ओ 3-मिनी, क्लॉड 3.7 सॉनेट आणि दीपसीक आर 1 यांचा समावेश आहे.
वेगळ्या निष्कर्षासाठी त्यांनी तीन थकबाकीदार दृष्टिकोनांचा वापर करून या मॉडेलचे मूल्यांकन केले:
- मानक कल्पना मालिका: मुख्य पद्धत जिथे मॉडेलला चरण -दर -चरण उत्तर देणे आवश्यक आहे.
- समांतर स्केलिंग: मॉडेल समान प्रश्नाची एकाधिक स्वतंत्र उत्तरे व्युत्पन्न करते आणि अंतिम निकालापर्यंत पोहोचण्यासाठी एक जटिल (जसे की बहुसंख्य मत किंवा उत्तम चांगले उत्तर) वापरते.
- अनुक्रमे विस्तार: मॉडेल उत्तराची वारंवारता व्युत्पन्न करते आणि त्यानंतरच्या प्रयत्नांमध्ये उत्तर सुधारण्यासाठी समीक्षकांकडून (समान मॉडेल असण्याची शक्यता आहे) प्रतिक्रियांचा वापर करते.
या पद्धतींची चाचणी आठ कठीण डेटा सेटच्या आव्हानांवर केली गेली आहे ज्यामुळे समस्या-चरण समाधानाचा फायदा होतो: गणित आणि सातत्य (एआयएम, ओम्नी-मॅथ, जीपीक्यूए), कॅलेंडर लेआउट, एनपी-हार्ड बेसिंचेस (3 एसएटी, टीएसपी), नेव्हिंग (मॅझे) (मॅझे).
बर्याच निकषांमध्ये वेगवेगळ्या अडचणी असलेल्या समस्यांचा समावेश होता, ज्यामुळे समस्यांसह समस्यांसह कसे वागावे याबद्दल अधिक अचूक समजूतदारपणा अनुमती देते.
“ओम्नी-मॅथ, टीएसपी, 3 एसएटी आणि बीए-कॅलेंडरसाठी अडचणीच्या चिन्हेची उपलब्धता आम्हाला युक्तिवादाची वेळ मर्यादित ठेवण्यात अडचण असलेल्या वापराच्या अचूकतेचे विश्लेषण आणि विशिष्ट प्रतीकांचे विश्लेषण करण्यास सक्षम करते, जे अद्याप अस्थिर दृष्टीकोन आहे,” असे संशोधकांनी त्यांचे निकाल स्पष्ट केले आहेत.
अचूकता आणि गणिताची किंमत (म्हणजे तयार केलेल्या प्रतीकांची संख्या) या दोहोंचे विश्लेषण करून संशोधकांनी बॅरिटो एलएलएम सीमेचे मूल्यांकन केले. हे मॉडेल कार्यक्षमतेने त्यांचे परिणाम कसे साध्य करीत आहेत हे निर्धारित करण्यात मदत करते.

त्यांनी “अंतरावर पारंपारिक अंतर” देखील प्रदान केले, जे विचारांच्या मॉडेलच्या सरासरी कामगिरीसाठी पारंपारिक मॉडेलच्या सर्वोत्तम संभाव्य कामगिरीची (“आदर्श एनची चांगली निवड वापरुन) तुलना करते, जे चांगल्या प्रशिक्षण किंवा सत्यापन तंत्राद्वारे मिळविल्या जाणार्या संभाव्य नफ्यांचे कौतुक करते.
अधिक खाते नेहमीच उत्तर नसते
अभ्यासाने अनेक निर्णायक कल्पना सादर केल्या ज्या युक्तिवादाची वेळ मर्यादित करण्याबद्दल सामान्य धारणांना आव्हान देतात:
फायदे मोठ्या प्रमाणात बदलतात: जरी विचार करण्यासाठी जप्त केलेले मॉडेल सामान्यत: या कार्यांमध्ये पारंपारिक मॉडेल्सला मागे टाकतात, परंतु फील्ड आणि निर्दिष्ट कार्यावर अवलंबून सुधारणेची डिग्री मोठ्या प्रमाणात बदलते. समस्येच्या वाढीव जटिलतेमुळे नफा बर्याचदा कमी होतो. उदाहरणार्थ, गणिताच्या समस्यांमधील कामगिरीतील सुधारणांचे नेहमीच वैज्ञानिक विचारांच्या कार्ये किंवा नियोजनात समान प्रमाणात भाषांतर केले गेले नाही.
कार्यक्षमता टाळा व्यापक आहे: विशिष्ट चिन्हाच्या वापरामध्ये संशोधकांना एक मोठा फरक दिसून आला आहे, अगदी समान अचूकता प्राप्त करणार्या मॉडेल्समध्ये. उदाहरणार्थ, एआयएम २०२25 गणित गणितामध्ये, जवळजवळ समान मध्यम अचूकतेसाठी क्लॉड 7.7 सॉनेटपेक्षा विशिष्ट प्रतीकांपेक्षा पाच पट जास्त पाच पट जास्त वापरा.
अधिक प्रतीकांमुळे उच्च अचूकता उद्भवत नाही: दीर्घकाळ विचार करण्याच्या साखळ्यांचा अर्थ असा आहे की अंतर्ज्ञानी कल्पनेच्या विपरीत, अभ्यासामध्ये असे आढळले की हे नेहमीच खरे नसते. “आश्चर्याची गोष्ट म्हणजे आम्ही हे देखील लक्षात घेतो की मॉडेलसाठी प्रदीर्घ पिढ्या कधीकधी संघर्षशील मॉडेल्सचे विचार सुधारण्याऐवजी संकेत असू शकतात,” पेपर म्हणतो. “त्याचप्रमाणे, भिन्न विचारांच्या मॉडेल्सची तुलना करताना, सर्वात विशिष्ट चिन्हाचा वापर नेहमीच चांगल्या अचूकतेशी संबंधित नसतो. हे परिणाम अधिक शांत आणि खर्च -प्रभावी स्केलिंग पद्धतींच्या आवश्यकतेस उत्तेजन देतात.”
नॉनडरमिनिझम किंमत: कदाचित संस्थेच्या वापरकर्त्यांसाठी सर्वात महत्त्वाचे म्हणजे, वारंवार क्वेरीस समान समस्येचे समान प्रकार अगदी विशिष्ट चिन्हाच्या वापरास आणू शकतात. याचा अर्थ असा आहे की मॉडेल सतत योग्य उत्तर प्रदान करते तरीही क्वेरी चालविण्याची किंमत अस्थिरता असू शकते.

सत्यापन यंत्रणेतील क्षमता: “परिपूर्ण सत्यापन” (सर्वोत्कृष्ट एन निकालांचा वापर करून) अनुकरण करताना सर्व मॉडेल्स आणि मानकांमध्ये स्केलिंग कार्यक्षमता सतत सुधारली जाते.
पारंपारिक मॉडेल कधीकधी विचारांच्या मॉडेल्ससारखेच असतात: युक्तिवादाचे लक्षणीय वाढ करून (काही प्रयोगांमध्ये 50x पर्यंत अधिक), जीपीटी -4 ओ सारख्या पारंपारिक मॉडेल्स कधीकधी समर्पित विचारांच्या मॉडेल्सच्या पातळीच्या जवळ येऊ शकतात, विशेषत: कमी जटिल कार्यांमध्ये. तथापि, अत्यंत जटिल सेटिंग्जमध्ये हे नफा द्रुतगतीने कमी झाले, हे दर्शविते की क्रूर शक्तीच्या मर्यादेची मर्यादा आहे.

संस्थेचा परिणाम
हे परिणाम एलएलएमएसकडून स्वीकारलेल्या विकसक आणि संस्थांचे वजन चांगले आहेत. विशेषतः “अनिर्दिष्ट खर्च” चा मुद्दा आणि अर्थसंकल्प कठीण होतो. संशोधकांनी हे देखील नमूद केले आहे, “आदर्शपणे, विकसक आणि वापरकर्ते मॉडेल्सला प्राधान्य देतात जे किंमतीतील प्रत्येक भागातील विशिष्ट चिन्हाच्या वापराभोवती मानक विचलन आहेत.”
मायक्रोसॉफ्ट रिसर्चचे मुख्य संशोधन व्यवस्थापक पिस्मेरा नुश्ची म्हणाले, “आम्ही (अभ्यास) मध्ये केलेला स्टिरिओटाइप विकसकांना समान दाव्यासाठी कमी अस्थिर मॉडेल निवडण्याचे साधन म्हणून उपयुक्त ठरू शकतो.” “आदर्शपणे, एखाद्याला असे मॉडेल निवडायचे आहे ज्याचे योग्य इनपुटसाठी कमी मानदंड विचलन आहे.”

अभ्यासामध्ये मॉडेलची अचूकता आणि प्रतिसादाची लांबी यांच्यातील संबंधात चांगली दृष्टी देखील उपलब्ध आहेत. उदाहरणार्थ, खालील आलेख दर्शवितो की विशिष्ट प्रतीक लांबीच्या सुमारे 11,000 पेक्षा जास्त गणिताच्या प्रश्नांमध्ये सुधारण्याची फारच कमी शक्यता आहे आणि या पिढ्या या टप्प्यावर थांबवाव्यात किंवा काही अनुक्रमे टिप्पण्यांसह पुन्हा सुरू केल्या पाहिजेत. तथापि, नुशीने नमूद केले आहे की या सानुकूल डिस्किंगला योग्य आणि चुकीच्या नमुन्यांमधील क्लिनर विभाजन झाल्यानंतर या सानुकूल डिस्किंगची परवानगी देणारी मॉडेल्स.

“शेवटी, मॉडेल्सचे मॉडेल अचूकता आणि नॉन -लिव्हिंग कॉस्ट कमी करण्याबद्दल विचार करण्याची जबाबदारी देखील आहेत आणि आम्ही अशी अपेक्षा करतो की यापैकी बरेच वाढत्या परिपक्वताने होईल,” नुची म्हणाली. “अनिर्दिष्ट खर्चाव्यतिरिक्त, अमर्यादित अचूकता देखील लागू होते.”
आणखी एक महत्त्वाचा परिणाम म्हणजे व्हेरिफियर्सची निश्चित कामगिरी, जी भविष्यातील कार्यासाठी एक महत्त्वपूर्ण फील्ड हायलाइट करते: मजबूत आणि व्यापकपणे लागू असलेल्या सत्यापन यंत्रणा तयार करणे.
“सर्वात शक्तिशाली पडताळणीच्या उपलब्धतेवर भिन्न प्रकारचे प्रभाव असू शकतात,” असे विचारांच्या मूलभूत प्रशिक्षण पद्धती सुधारण्यासारख्या नुची म्हणाले. “जर ते कार्यक्षमतेने वापरले गेले तर हे विचारांच्या प्रभावांना मर्यादित करू शकते.”
मजबूत सत्यापन एआय एजन्सी सोल्यूशन्सचा एक प्रमुख भाग देखील बनू शकतो. संस्थेतील बर्याच भागधारकांकडे आधीपासूनच अशा निवडी आहेत, ज्यास आपल्याला अधिक एजंट सोल्यूशन्सचा पुन्हा वापर करण्याची आवश्यकता असू शकते, जसे की एसएटी सॅटलॅव्ह, लॉजिस्टिकल वैधता ऑडिटर्स इ.
“भविष्यातील प्रश्न असे आहेत की अशी सध्याची तंत्रे एआयच्या इंटरफेससह कशी एकत्र केली जाऊ शकतात आणि कोणत्या भाषेला या दोघांना जोडले जाते.” “या दोघांना संप्रेषण करण्याची आवश्यकता या वस्तुस्थितीवरून येते की वापरकर्ते नेहमीच त्यांची चौकशी अधिकृत मार्गाने तयार करणार नाहीत, त्यांना नैसर्गिक भाषा इंटरफेस वापरण्याची इच्छा असेल आणि समान समन्वयामध्ये किंवा अंतिम प्रक्रियेमध्ये समाधानाची अपेक्षा करावी लागेल (उदाहरणार्थ, सभेला आमंत्रित करणे सुचविले).”
Source link