उद्योगातील अग्रगण्य कृत्रिम बुद्धिमत्ता कव्हर करण्यासाठी नवीनतम अद्यतने आणि विशेष सामग्री मिळविण्यासाठी दररोज आणि साप्ताहिक वृत्तपत्रांमध्ये सामील व्हा. अधिक जाणून घ्या


जानेवारी 2025 ने लँडस्केप अ‍ॅम्नेस्टी इंटरनॅशनलला हादरले. ओपनई जे उघडपणे अस्वस्थ आणि मजबूत अमेरिकन तंत्रज्ञान दिग्गजांनी मोठ्या भाषेच्या मॉडेल्सच्या (एलएलएमएस) क्षेत्रातील कमकुवत लोकांना नक्कीच काय म्हणू शकतो याबद्दल धक्का बसला. दीपसीक नावाची एक चीनी कंपनी कोणाच्याही रडारवर नाही, अचानक ओपनईला आव्हान दिले. असे नाही की अमेरिकेच्या दिग्गजांच्या सर्वोत्कृष्ट मॉडेलपेक्षा दीपसीक-आर 1 चांगले होते. मानकांच्या बाबतीत थोडासा उशीर झाला होता, परंतु अचानक प्रत्येकाने उपकरणांच्या वापराच्या आणि उर्जेच्या वापराच्या दृष्टीने कार्यक्षमतेचा विचार करण्यास प्रवृत्त केले.

सर्वोत्कृष्ट प्रगत उपकरणांचा अभाव पाहता, दीपसेक कार्यक्षमतेच्या क्षेत्रात सर्जनशीलताबद्दल उत्साही असल्याचे दिसून येते, जे मोठ्या खेळाडूंसाठी कमी चिंता होती. ओपनईने असा दावा केला की त्यांच्याकडे पुरावे आहेत की दीपसेकने त्याचे प्रशिक्षण मॉडेल वापरले आहे, परंतु याला पाठिंबा देण्यासाठी आमच्याकडे कोणतेही ठोस पुरावे नाहीत. म्हणूनच, ते खरे आहे की ओपनई त्यांच्या गुंतवणूकदारांना चर्चेचा विषय पूर्ण करण्याचा प्रयत्न करते. तथापि, दीपसीकने त्यांचा व्यवसाय प्रकाशित केला आहे आणि लोकांनी सत्यापित केले आहे की निकाल कमीतकमी कमी प्रमाणात आहेत.

परंतु अमेरिकन कंपन्या करू शकत नसताना दीपसीक इतकी किंमत कशी मिळवू शकतात? लहान उत्तर सोपे आहे: त्यांना अधिक प्रेरणा मिळाली. दीर्घ उत्तरासाठी तांत्रिक स्पष्टीकरणापेक्षा थोडे अधिक आवश्यक आहे.

डीपसीक वापरा केव्ही-कॅशे सुधारित करा

जीपीयूचा एक महत्त्वाचा खर्च म्हणजे प्रत्येक एलएलएम व्याज थरात वापरल्या जाणार्‍या मुख्य मूल्याची मुख्य स्टोरेज मेमरी सुधारणे.

एलएलएमएसमध्ये ट्रान्सफॉर्मर ब्लॉक्स असतात, त्यातील प्रत्येकामध्ये नियमित व्हॅनिला चारा नेटवर्कचा समावेश असतो. संकल्पनेच्या बाबतीत सैद्धांतिक पोषण नेटवर्क मॉडेल, परंतु प्रत्यक्षात डेटाचे नमुने नेहमीच निश्चित करणे कठीण आहे. भाषेच्या मॉडेलिंगसाठी लक्ष देण्याची ही समस्या सोडवते.

मॉडेल प्रतीकांचा वापर करून मजकूरांवर प्रक्रिया करते, परंतु साधेपणासाठी आम्ही त्यास शब्द म्हणून संदर्भित करू. एलएलएममध्ये, प्रत्येक शब्द उच्च परिमाणात सेट केला जातो (उदाहरणार्थ, कित्येकांसह एक हजार). संभ्रमित, प्रत्येक परिमाण ही संकल्पना दर्शवते, जसे की गरम किंवा थंड असणे, हिरवे असणे, मऊ असणे, नाव असणे. ट्रान्समिशन या शब्दाचे प्रतिनिधित्व म्हणजे त्याचे अर्थ आणि प्रत्येक त्यानुसार मूल्ये.

तथापि, आपली भाषा इतर शब्दांना प्रत्येक शब्दाचा अर्थ सुधारित करण्यास अनुमती देते. उदाहरणार्थ, Apple पलला एक अर्थ आहे. परंतु आमच्याकडे सुधारित आवृत्ती म्हणून ग्रीन apple पल असू शकते. सुधारणेचे अधिक महत्त्वाचे उदाहरण म्हणजे आयफोनच्या संदर्भातील Apple पल कुरणाच्या संदर्भात Apple पलपेक्षा भिन्न आहे. दुसर्‍या शब्दाच्या आधारावर आपण आपल्या सिस्टमला शब्दाचा अर्थ सुधारित करण्यास कसे परवानगी देऊ? येथूनच लक्ष वेधले जाते.

लक्ष मॉडेल प्रत्येक शब्दाच्या दोन इतर वेक्टरद्वारे नियुक्त केले जाते: की आणि चौकशी. क्वेरी सुधारित केल्या जाणार्‍या शब्दाच्या अर्थाची वैशिष्ट्ये दर्शवते आणि की इतर वाक्यांशांसाठी प्रदान करू शकणार्‍या बदलांच्या प्रकारांचे प्रतिनिधित्व करते. उदाहरणार्थ, “हिरवा” हा शब्द रंग आणि हिरव्याबद्दल माहिती प्रदान करू शकतो. म्हणूनच, “ग्रीन” या शब्दाच्या कीला “हिरव्या” परिमाणांवर उच्च मूल्य असेल. दुसरीकडे, “Apple पल” हा शब्द हिरवा किंवा नाही आणि म्हणून “Apple पल” क्वेरी हेडरला हिरव्या आकाराचे उच्च मूल्य असेल. जर आम्ही “Apple पल” विषयी चौकशीसह “ग्रीन” की साठी डॉट उत्पादन घेतले तर “टेबल” कीच्या तुलनेत उत्पादन तुलनेने मोठे असणे आणि “Apple पल” बद्दल चौकशी करणे आवश्यक आहे. मग लक्ष लेयर “सफरचंद” या शब्दामध्ये “ग्रीन” या शब्दाचा एक छोटासा भाग जोडतो. अशाप्रकारे, “Apple पल” शब्दाचे मूल्य अधिक हिरवेगार म्हणून सुधारित केले आहे.

जेव्हा एलएलएम मजकूर तयार करतो, तेव्हा तो एकामागून एक शब्द करतो. जेव्हा एखादा शब्द जन्माला येतो तेव्हा पूर्वी तयार केलेले सर्व शब्द त्याच्या संदर्भाचा भाग बनतात. तथापि, या शब्दांच्या कळा आणि मूल्ये आधीच मोजली गेली आहेत. संदर्भात दुसरा शब्द जोडताना, त्याचे मूल्य त्याच्या चौकशी, की आणि मागील सर्व शब्दांच्या मूल्यांच्या आधारे अद्यतनित केले जाणे आवश्यक आहे. या कारणास्तव ही सर्व मूल्ये जीपीयूमध्ये संग्रहित आहेत. ही केव्ही कॅशे आहे.

दीपसीकने ठरविले की की आणि शब्दाचे मूल्य दुवा साधला आहे. म्हणूनच, हे स्पष्ट आहे की हिरव्या शब्दाचा अर्थ आणि हिरव्यागारांवर प्रभाव पाडण्याची त्याची क्षमता जवळून संबंधित आहे. म्हणूनच, त्या दोघांनाही एक (आणि कदाचित लहान) शीर्षलेख म्हणून दबाव आणणे आणि उपचारादरम्यान सहजपणे त्यावर दबाव रद्द करणे शक्य आहे. दीपसेकला असे आढळले आहे की त्याचा त्यांच्या मानकांवरील कामगिरीवर परिणाम होतो, परंतु हे बरेच जीपीयू प्रदान करते.

दीपसीक अॅप

मज्जातंतू नेटवर्कचे स्वरूप असे आहे की प्रत्येक क्वेरीसाठी संपूर्ण नेटवर्कचे मूल्यांकन करणे (किंवा गणना करणे) आवश्यक आहे. तथापि, हे सर्व उपयुक्त खाते नाही. जगाचे ज्ञान नेटवर्कच्या वजन किंवा पॅरामीटर्समध्ये बसते. दक्षिण अमेरिकन आदिवासींच्या इतिहासाबद्दलच्या प्रश्नांची उत्तरे देण्यासाठी आयफेल टॉवरबद्दल ज्ञान वापरू नका. सफरचंद हे एक फळ आहे हे जाणून घेणे जे सापेक्षतेच्या सामान्य सिद्धांताबद्दलच्या प्रश्नांची उत्तरे देताना उपयुक्त नाही. तथापि, जेव्हा नेटवर्कची गणना केली जाते, तेव्हा नेटवर्कच्या सर्व भागांचा विचार केला जातो. मजकूर व्युत्पन्न करताना हे मोठ्या प्रमाणात गणना खर्च करते जे उत्तम प्रकारे टाळले जाणे आवश्यक आहे. येथूनच अनुभवाच्या मिश्रणाची कल्पना येते.

एमईई मॉडेलमध्ये, मज्जातंतू नेटवर्क तज्ञ म्हणतात एकाधिक लहान नेटवर्कमध्ये विभागले गेले आहे. लक्षात घ्या की “तज्ञ” स्पष्टपणे परिभाषित केलेले नाही; प्रशिक्षण दरम्यान नेटवर्कचे परीक्षण करते. तथापि, नेटवर्क प्रत्येक क्वेरीला काही महत्त्व वाटप करतात आणि केवळ उच्च जुळणार्‍या अंशांसह भागांना उत्तेजन देतात. हे गणनामध्ये प्रचंड बचत प्रदान करते. लक्षात घ्या की काही प्रश्नांची उत्तरे एकाधिक क्षेत्रात योग्य प्रकारे दिली जावी आणि अशा प्रश्नांची आवश्यकता आहे. तथापि, डेटामधून क्षेत्रे शोधली जात असल्याने या प्रश्नांची संख्या कमी झाली आहे.

शिकण्याच्या मजबुतीकरणाचे महत्त्व

उत्तर देण्यापूर्वी विचारांचे अनुकरण करण्यासाठी तयार केलेल्या मॉडेलसह, एलएलएमला विचारांच्या मालिकेद्वारे विचार करण्यास शिकवले जाते. मॉडेलला त्याची विचारसरणी खराब करणे आवश्यक आहे (उत्तर तयार करण्यापूर्वी विचार तयार करा). मग मॉडेलचे विचार आणि उत्तर या दोहोंवर आणि मजबुतीकरण शिक्षणाचे प्रशिक्षण (योग्य सामन्याचे बक्षीस आणि प्रशिक्षण डेटासह चुकीच्या सामन्यास शिक्षा देण्याचे बक्षीस).

यासाठी विचार कोडसह महागड्या प्रशिक्षण डेटा आवश्यक आहे. सिस्टमकडून दीपसीक विनंती केवळ चिन्हे दरम्यान कल्पना तयार करते आणि आणि चिन्हे दरम्यान उत्तरे तयार करण्यासाठी आणि ? मॉडेलला मॉडेल (चिन्हांचा वापर) आणि जुळणार्‍या उत्तरांच्या आधारे बक्षीस किंवा शिक्षा दिली जाते. यासाठी कमी खर्चिक प्रशिक्षण डेटा आवश्यक आहे. आरएलच्या सुरुवातीच्या टप्प्यात, मॉडेलने थोडीशी विचार करण्याचा प्रयत्न केला, ज्यामुळे चुकीची उत्तरे मिळाली. सरतेशेवटी, मॉडेल लांब आणि सुसंगत कल्पना निर्माण करण्यास शिकते, जे दीपसेक “ए-हा” च्या क्षणाला म्हणतात. या बिंदूनंतर, उत्तरांची गुणवत्ता बरीच सुधारली.

दीपसीक अनेक अतिरिक्त सुधारित युक्त्या कार्यरत आहे. तथापि, हे खूप तंत्र आहे, म्हणून मी येथे त्यास खायला देणार नाही.

डेम्बिक आणि ग्रँड मार्केट बद्दल अंतिम कल्पना

कोणत्याही तांत्रिक संशोधनात, कार्यक्षमता सुधारण्यापूर्वी आम्हाला प्रथम काय शक्य आहे हे माहित असणे आवश्यक आहे. ही नैसर्गिक प्रगती आहे. मोठ्या प्रमाणात एलएलएम दृश्यासाठी डिब्सिकचे योगदान. ओपनएआय आउटपुटचा वापर करून प्रशिक्षित असो की शैक्षणिक योगदानाकडे दुर्लक्ष केले जाऊ शकत नाही. हे स्टार्टअप्सच्या कार्य करण्याच्या मार्गाचे रूपांतर देखील करू शकते. परंतु ओपनई किंवा इतर अमेरिकन दिग्गजांना निराश होण्याचे कोणतेही कारण नाही. हे असेच कार्य करते – इतर गटांचा एक गट शोध फायदे. Google, ओपनई आणि इतर अनेक संशोधकांनी केलेल्या मागील संशोधनातून डिब्सिकला नक्कीच फायदा झाला.

तथापि, ओपनई आता एलएलएम वर्ल्डवर अनिश्चित काळासाठी वर्चस्व गाजवेल ही कल्पना फारच संभव नाही. संघटनात्मक दबाव किंवा बोटांच्या तयारीची कोणतीही डिग्री होणार नाही. हे तंत्रज्ञान बर्‍याच आणि त्याच्या बाहेर उघड्यावर आहे, ज्यामुळे त्याची प्रगती अस्वस्थ होते. ओपनई मधील गुंतवणूकदारांसाठी ही थोडीशी डोकेदुखी असू शकते, परंतु अखेरीस ते आपला विश्रांती जिंकते. भविष्य बर्‍याच जणांचे आहे, आम्ही Google आणि ओपनएआय सारख्या पहिल्या भागधारकांचे नेहमीच आभारी आहोत.

डेबेशिश रे चावधुरी हे टेलनेटिकामधील पहिले मुख्य अभियंता आहेत?


Source link