आपल्या इनबॉक्सची अधिक हुशार व्हिजन पाहिजे? केवळ संस्था एआय, डेटा आणि सुरक्षा नेत्यांसाठी संबंधित असलेल्या गोष्टी मिळविण्यासाठी आमच्या साप्ताहिक वृत्तपत्रांची सदस्यता घ्या. आता सदस्यता घ्या
इलिनॉय युनिव्हर्सिटी ऑफ इलिनॉय उर्बाना चॅम्बिन आणि व्हर्जिनिया विद्यापीठाच्या संशोधकांनी एक नवीन मॉडेल रचना विकसित केली आहे ज्यामुळे अत्यंत शक्तिशाली विचारांच्या क्षमतेसह कृत्रिम बुद्धिमत्तेच्या अधिक शक्तिशाली यंत्रणा होऊ शकतात.
याला ऊर्जा -आधारित ट्रान्सफॉर्मर (ईबीटी) म्हणतात आणि आर्किटेक्चर जटिल समस्यांचे निराकरण करण्यासाठी अनुमानाचा वेळ वापरण्याची एक नैसर्गिक क्षमता दर्शविते. संस्थेसाठी, हे खर्च -प्रभावी अॅम्नेस्टी आंतरराष्ट्रीय अनुप्रयोगांमध्ये भाषांतरित केले जाऊ शकते जे नवीन परिस्थितीवर प्रसारित केले जाऊ शकते जे नियंत्रित करण्यासाठी विशेष मॉडेल्सची आवश्यकता न घेता.
सिस्टम थिंकिंग चॅलेंज 2
मानसशास्त्रात, मानवी विचारांना बर्याचदा दोन स्थानांमध्ये विभागले जाते: सिस्टम 1, जे वेगवान आणि अंतर्ज्ञानी आहे आणि सिस्टम 2, जे धीमे, अभ्यासलेले आणि विश्लेषणात्मक आहे. सध्याच्या मोठ्या भाषेचे मॉडेल (एलएलएमएस) पहिल्या -शैलीतील कामांमध्ये उत्कृष्ट कामगिरी करतात, परंतु कृत्रिम बुद्धिमत्ता उद्योगाने विचार करण्याच्या सर्वात जटिल आव्हानांना सामोरे जाण्यासाठी 2 विचारांना सक्षम करण्यावर लक्ष केंद्रित केले आहे.
विचार करणारे मॉडेल कठीण समस्यांवरील कार्यक्षमता सुधारण्यासाठी तर्क करण्याच्या वेळी अनेक स्केलिंग तंत्र वापरतात. ओपनई मधील दीपसीक-आर 1 आणि ओ-मालिका मॉडेल्स सारख्या मॉडेल्समध्ये वापरल्या जाणार्या मजबुतीकरण शिक्षण (आरएल) च्या सामान्य पद्धतींपैकी एक, योग्य उत्तरापर्यंत पोहोचल्याशिवाय विशिष्ट चिन्हे तयार करण्यासाठी कृत्रिम बुद्धिमत्तेचा बोनस आहे. आणखी एक दृष्टिकोन, ज्याला बर्याचदा सर्वोत्कृष्ट एन म्हटले जाते, त्यात एकाधिक संभाव्य उत्तरे तयार करणे आणि चांगल्या निवडीसाठी सत्यापन यंत्रणा वापरणे समाविष्ट आहे.
तथापि, या पद्धतींमध्ये चांगले दोष आहेत. ते बर्याचदा गणित आणि कोडिंग सारख्या सहजपणे सत्यापित समस्यांच्या अरुंद श्रेणीपुरते मर्यादित असतात आणि सर्जनशील लेखनासारख्या इतर कार्यांमध्ये कामगिरी बिघडू शकतात. शिवाय, अलीकडील पुरावे असे सूचित करतात की आरएल शैली मॉडेल्स नवीन विचार कौशल्ये शिकवत नाहीत, त्याऐवजी त्यांना आधीपासूनच माहित असलेल्या यशस्वी विचारांचे नमुने वापरण्याची अधिक शक्यता निर्माण झाली. यामुळे वास्तविक अन्वेषण आणि प्रशिक्षण प्रणालीपेक्षा जास्त असलेल्या समस्यांचे निराकरण करण्याची त्यांची क्षमता मर्यादित करते.
उर्जा -आधारित मॉडेल्स (ईबीएम)
आर्किटेक्चर ईबीएम म्हणून ओळखल्या जाणार्या मॉडेलच्या श्रेणीवर आधारित भिन्न दृष्टिकोन प्रस्तावित करते. मूलभूत कल्पना सोपी आहे: थेट उत्तर व्युत्पन्न करण्याऐवजी, “ऊर्जा कार्य” मॉडेल हक्क म्हणून कार्य करण्यास शिकते. हे फंक्शन इनपुट घेते (जसे की राउटर) आणि उमेदवाराने त्यासाठी अंदाज लावला आणि मूल्य किंवा “ऊर्जा” सेट केले. कमी उर्जा पदवी उच्च अनुकूलता दर्शवते, ज्याचा अर्थ असा आहे की भविष्यवाणी इनपुटसाठी योग्य आहे, तर उच्च उर्जा पदवी कमकुवत सामना दर्शवते.
कृत्रिम बुद्धिमत्तेच्या तर्कशास्त्रावर हे लागू करून, संशोधकांनी एका पेपरमध्ये असे सुचवले आहे की “फायद्याच्या पडताळणीसंदर्भात सुधारणेचे उपाय म्हणून विचार करणे आवश्यक आहे, जे इनपुट आणि उमेदवाराच्या अंदाजातील एकमत (असामान्य संभाव्यता) चे मूल्यांकन करते.” प्रक्रिया यादृच्छिक पूर्वानुमानाने सुरू होते, जी हळूहळू त्याची उर्जा पदवी कमी करून आणि संभाव्य समाधानाची जागा शोधून सुधारित केली जाते जेणेकरून ते उत्तराच्या जवळ असेल. हा दृष्टिकोन एका शून्य बिंदू व्युत्पन्न करण्यापेक्षा समाधान तपासणे खूप सोपे आहे या तत्त्वावर आधारित आहे.
कृत्रिम बुद्धिमत्ता पत्त्यांच्या तर्कशास्त्रातील “केंद्रीत केंद्र ऑन” ची तीन मुख्य आव्हाने. प्रथम, हे डायनॅमिक खात्याच्या वाटपास अनुमती देते, याचा अर्थ असा आहे की मॉडेल अधिक कठीण आणि सुलभ समस्यांमधील अधिक कठीण समस्यांमधील दीर्घ काळासाठी “विचार” करू शकतात. दुसरे म्हणजे, ईबीएम वास्तविक जगाच्या समस्यांसाठी नैसर्गिकरित्या अनिश्चिततेस सामोरे जाऊ शकतात कारण तेथे कोणतेही स्पष्ट उत्तर नाही. तिसर्यांदा, ते बाह्य मॉडेल्सची आवश्यकता दूर करून त्यांचे स्वतःचे आव्हान म्हणून काम करतात.
स्वतंत्र जनरेटर आणि सत्यापन वापरणार्या इतर सिस्टमच्या विपरीत, ईबीएम दोन्ही एका युनिफॉर्म मॉडेलमध्ये एकत्र करतात. या व्यवस्थेचे एक प्रमुख वैशिष्ट्य म्हणजे एक चांगले सामान्यीकरण. वितरण (ओओडी) च्या बाहेर नवीन डेटावरील समाधान तपासणे योग्य उत्तर तयार करण्यापेक्षा बर्याचदा सोपे आहे, ईबीएम अपरिचित परिस्थितीसह अधिक चांगले व्यवहार करू शकतात.
त्यांचे वचन असूनही, ईबीएमने ऐतिहासिकदृष्ट्या विस्तारासह संघर्ष केला. हे सोडविण्यासाठी, संशोधक ईबीटी ऑफर करतात, जे या फॉर्मसाठी डिझाइन केलेले विशेष ट्रान्सफॉर्मर मॉडेल आहेत. ईबीटीएसला प्रथम संदर्भ आणि भविष्यवाणी दरम्यान सुसंगतता सत्यापित करण्यासाठी प्रशिक्षण दिले जाते, नंतर कमी उर्जा उत्पादन (सर्वात सुसंगत) सापडत नाही तोपर्यंत अंदाज सुधारित करा. ही प्रक्रिया प्रत्येक अंदाजासाठी विचार करण्याच्या प्रक्रियेचे प्रभावीपणे अनुकरण करते. संशोधकांनी दोन प्रकारचे ईबीटी विकसित केले आहे: केवळ जीपीटी स्ट्रक्चरद्वारे प्रेरित कोडिंगच्या युनिटचे युनिट आणि दोन -मार्ग मॉडेल बर्टसारखेच आहे.

ईबीटीएस रचना वेगवेगळ्या अनुमान वेळ तंत्राशी लवचिक आणि सुसंगत बनवते. इलिनॉय विद्यापीठातील पीएचडी विद्यार्थी आणि वृत्तपत्राचे लेखक अॅलेक्स ग्लेडस्टन म्हणाले, “ईबीटीएस लांब बेड्स, सेल्फ -लॉस किंवा एन (किंवा) पेक्षा चांगले तयार करू शकते (किंवा) “सर्वात चांगली गोष्ट म्हणजे या सर्व क्षमता प्रशिक्षणादरम्यान शिकल्या गेल्या.”
कामावर पर्स
संशोधकांनी ईबीटीची तुलना घाला संरचनेविरूद्ध केली: व्हिडिओ अंदाज आणि प्रतिमेचे स्पष्टीकरण (चालू असलेल्या पद्धती) यासारख्या कार्यांसाठी मजकूर तयार करण्यासाठी प्रसिद्ध ट्रान्सफॉर्मर रेसिपी आणि डीआयटी (डीआयटी). त्यांनी मुख्य निकषांमधील मॉडेल्सचे मूल्यांकन केले: “विस्तृत करण्याची क्षमता शिकणे”, किंवा त्यांच्या कार्यक्षमतेची व्याप्ती आणि “विचारांचा विचार”, जे युक्तिवादाच्या वेळी अधिक खात्यासह कामगिरी कशी सुधारित करावी हे मोजते.
प्रशिक्षणादरम्यान, ईबीटीएसने उत्कृष्ट कार्यक्षमता दर्शविली, डेटा, बॅच आकार, पॅरामीटर्स आणि खात्याद्वारे 35 % ट्रान्सफॉर्मर ++ पर्यंत उच्च स्केलिंग दर प्राप्त केला. याचा अर्थ असा की ईबीटीएसला जलद आणि अधिक परवाना प्रशिक्षण दिले जाऊ शकते.
अनुमानानुसार, ईबीटीएसने विचारांच्या कार्यांविषयी सध्याच्या मॉडेल्सनाही मागे टाकले. “दीर्घ कालावधीसाठी विचार करून” (अधिक सुधारणांच्या चरणांचा वापर करून) आणि “स्वत: ची ओळख” (अनेक उमेदवार तयार करणे आणि कमीतकमी उर्जेसह एखादे निवडणे), ईबीटीएस ट्रान्सफॉर्मर ++ पेक्षा 29 % अधिक भाषा मॉडेलिंग सुधारते. “हे आमच्या आरोपांशी संबंधित आहे की प्रगत पोषणाचे पारंपारिक ट्रान्सफॉर्मर्स प्रत्येक भविष्यवाणीसाठी अतिरिक्त खाते सानुकूलित करू शकत नाहीत म्हणून ते दीर्घ कालावधीसाठी विचार करून प्रत्येक चिन्हासाठी कामगिरी सुधारण्यास असमर्थ आहेत,” संशोधक लिहितात.
प्रतिमांना कमी करण्यासाठी, ईबीटीएसने 99 % कमी पास वापरताना डीआयटीपेक्षा चांगले परिणाम प्राप्त केले.
निर्णायकपणे, अभ्यासामध्ये असे आढळले आहे की ईबीटीएस हे इतर संरचनेपेक्षा चांगले सामान्यीकरण आहे. जरी समान कामगिरी किंवा पूर्वीपेक्षा वाईट, ईबीटीएसने क्लिनिकच्या कार्यात सध्याच्या मॉडेल्सना मागे टाकले. सिस्टम 2 च्या विचारांमधून कामगिरी नफा वितरणाच्या बाहेर असलेल्या डेटामध्ये सर्वात महत्वाचा होता (प्रशिक्षण डेटापेक्षा भिन्न), जे सूचित करते की नवीन आणि कठीण कामांचा सामना करताना ईबीटी विशेषत: मजबूत आहे.
संशोधकांनी असे सुचवले आहे की “ईबीटीएस विचारांचे फायदे सर्व डेटामध्ये एकसारखे नाहीत, परंतु ते वितरण परिवर्तनाच्या आकारासह सकारात्मकपणे विस्तृत करतात, प्रशिक्षण वितरण ओलांडण्यासाठी मजबूत सामान्यीकरणासाठी एक गंभीर यंत्रणा म्हणून विचारसरणीवर प्रकाश टाकतात.”
दोन कारणांमुळे ईबीटीएस फायदे महत्त्वपूर्ण आहेत. प्रथम, ते सूचित करतात की आज मूलभूत मॉडेल्सच्या मोठ्या श्रेणीवर, ईबीटी एलएलएममध्ये वापरल्या जाणार्या क्लासिक ट्रान्सफॉर्मर्सच्या संरचनेला मोठ्या प्रमाणात आउटफॉर्म करू शकतात. लेखक लक्षात घेतात की “1000x पेक्षा जास्त मोठ्या मॉडेलसह 1000x वर प्रशिक्षित आधुनिक मूलभूत मॉडेल्सच्या प्रमाणात, आम्ही अपेक्षा करतो की एबीटीची पूर्व -कार्यक्षमता ट्रान्सफॉर्मर ++ रेसिपीपेक्षा चांगली असेल.”
दुसरे म्हणजे, ईबीटीएस डेटा कार्यक्षमता बरेच चांगले दर्शविते. या युगातील हे एक महत्त्वाचे वैशिष्ट्य आहे ज्यात कृत्रिम बुद्धिमत्तेची व्याप्ती वाढविण्यासाठी उच्च -गुणवत्तेचे प्रशिक्षण डेटा मुख्य अडथळा बनला आहे. “जेव्हा डेटा अधिक स्केलिंगमधील मुख्य मर्यादित घटकांपैकी एक बनला, तेव्हा यामुळे ईबीटीएस विशेषतः आकर्षक बनतो,” आणि पेपरने पेपरचा निष्कर्ष काढला.
भिन्न तर्क यंत्रणा असूनही, ईबीटी रचना मोठ्या प्रमाणात अॅडॉप्टरशी सुसंगत आहे, ज्यामुळे सध्याच्या एलएलएमएसमध्ये पर्याय म्हणून त्याचा वापर करणे शक्य होते.
“ईबीटीएस सध्याच्या डिव्हाइस/अनुमानांशी अत्यंत सुसंगत आहे,” ग्लेडस्टन म्हणाले, ग्राफिक्स प्रोसेसिंग युनिट्स किंवा टीपीयू दोन्हीवर पोषण मॉडेलचा वापर करून डिकोडिंग सट्टेबाजीसह. ते असेही म्हणाले की तो एलपीयूएस आणि फ्लॅशथुथ -3 सारख्या सुधारित अल्गोरिदम सारख्या विशेष प्रवेगकांवर चालवू शकतो किंवा व्हीएलएलएम सारख्या सामान्य अनुमान पक्षांद्वारे प्रकाशित केला जाऊ शकतो.
विकसक आणि संस्थांसाठी, ईबीटीएसची शक्तिशाली आणि सामान्यीकृत विचार क्षमता त्यांना पुढील पिढी कृत्रिम बुद्धिमत्ता अनुप्रयोगांची निर्मिती करण्यासाठी एक मजबूत आणि विश्वासार्ह आधार बनवू शकते. “दीर्घ कालावधीसाठी विचार करणे जवळजवळ सर्व संस्था अनुप्रयोगांमध्ये जवळजवळ मदत करू शकते, परंतु मला वाटते की सर्वात रोमांचक असे आहे की ज्यांना निर्णय, सुरक्षा किंवा मर्यादित डेटासह अधिक महत्त्वपूर्ण अनुप्रयोगांची आवश्यकता आहे,” ग्लेडस्टोन म्हणाले.
Source link