उद्योगातील अग्रगण्य कृत्रिम बुद्धिमत्ता कव्हर करण्यासाठी नवीनतम अद्यतने आणि विशेष सामग्री मिळविण्यासाठी दररोज आणि साप्ताहिक वृत्तपत्रांमध्ये सामील व्हा. अधिक जाणून घ्या
यूसीएलए आणि मेटा एआयच्या संशोधकांनी डी 1 ची ओळख करुन दिली, एक नवीन फ्रेमवर्क जी मोठ्या -आधारित भाषा मॉडेल्स (डीएलएम) साठी विचार करण्याची क्षमता मोठ्या प्रमाणात वाढविण्यासाठी मजबुतीकरण शिक्षण (आरएल) वापरते. जीपीटी सारख्या स्वयंचलित उतार मॉडेल्सवर लक्ष केंद्रित करणारे बहुतेक लक्ष, डीएलएमएस अद्वितीय फायदे देते. त्यांना मजबूत विचारांची कौशल्ये दिल्यास संस्थांसाठी नवीन क्षमता आणि अनुप्रयोग उघडू शकतात.
डीएलएम मानक स्वयंचलित उतार मॉडेलच्या तुलनेत मजकूर व्युत्पन्न करण्यासाठी एक वेगळा दृष्टीकोन दर्शवितो आणि कार्यक्षमता आणि माहिती प्रक्रिया फायदे प्रदान करू शकतात, जे वास्तविक जगातील विविध अनुप्रयोगांसाठी मौल्यवान असू शकतात.
प्रसाराच्या भाषेचे मॉडेल समजून घेणे
जीपीटी -4 ओ आणि लामा सारख्या बर्याच एलएलएम मॉडेल्स ऑटोरेगेज्ड (एआर) आहेत. हे मजकूर अनुक्रमे व्युत्पन्न करते आणि पुढील प्रतीक केवळ त्यापूर्वी आलेल्या प्रतीकांवर आधारित आहे.
Dlments वेगळ्या प्रकारे कार्य करते. डल-ई 2 आणि मिडजॉर्नी आणि स्थिर प्रसार यासारख्या फोटो निर्मितीच्या मॉडेल्समध्ये प्रारंभी प्रसार मॉडेल वापरले गेले. मूलभूत कल्पनेत निश्चित करण्यासाठी चित्रात आवाज जोडणे, नंतर या प्रक्रियेस अचूकपणे उलट करण्यासाठी मॉडेलचे प्रशिक्षण देणे, आवाजाने प्रारंभ करणे आणि हळूहळू सुसंगत प्रतिमेमध्ये सुधारणे समाविष्ट आहे.
या संकल्पनेचे थेट भाषेशी जुळवून घेणे कठीण होते कारण मजकूर प्रतिमांमधील सतत पिक्सेल मूल्यांच्या विपरीत, स्वतंत्र युनिट्स (विशिष्ट चिन्हे) बनलेला आहे. संशोधकांनी विश्वासार्ह प्रसार भाषेचे मॉडेल विकसित करून यावर मात केली. चालू आवाज जोडण्याऐवजी ही मॉडेल्स अनुक्रमात यादृच्छिकपणे चिन्हे लपवून आणि मूळ प्रतीकांचा अंदाज लावण्यासाठी मॉडेलला प्रशिक्षण देऊन कार्य करतात.
यामुळे स्वयंचलित उतार मॉडेलच्या तुलनेत भिन्न पिढी प्रक्रिया होते. डीएलएमएस एंट्री टेक्स्टच्या मोठ्या प्रकाशनासह प्रारंभ होते आणि सुसंगत अंतिम आउटपुट येईपर्यंत हळूहळू “शोधणे” किंवा कित्येक चरणांमध्ये पॉलिश करते. ही पिढी “कॅबिनेटला खडबडीत” केवळ पुढील चिन्हावर लक्ष केंद्रित करण्याऐवजी प्रत्येक चरणात एकाच वेळी संपूर्ण संदर्भ विचार करण्यास सक्षम करते.
हा फरक संभाव्य डीएलएमएस फायदे देते, जसे की पिढी दरम्यान समांतर उपचार सुधारणे, ज्यामुळे वेगवान निष्कर्ष होऊ शकतो, विशेषत: प्रदीर्घ क्रमासाठी. या प्रकारच्या ओपन सोर्स ल्लाडा आणि इनसेप्शन लॅबचा बंद स्त्रोत पारा फॉर्मची उदाहरणे.
“एलएलएमएस ऑटोरेग्रेस गुणवत्तेत विचारसरणीचा वापर करू शकते, तर ही सुधारणा लॉजिकल एलएलएमएस सीमेसह तीव्र गणिताच्या किंमतीवर येते जी एक प्रतिसाद निर्माण करण्यासाठी 30 सेकंदांपेक्षा जास्त वेळ लागली आहे.” “उलटपक्षी, डीएलएमएसचा मुख्य फायदा म्हणजे त्याची गणिताची कार्यक्षमता. उदाहरणार्थ, बुध सारख्या डीएलएमएस वापरकर्त्याच्या उत्पादकतेमध्ये 10x द्वारे फ्रंटियर लॅबमधून उत्कृष्ट स्वयंचलित एलएलएमएसपेक्षा उत्कृष्ट स्वयंचलित एलएलएमएसमध्ये उत्कृष्ट कामगिरी करू शकतात.”
डीएलएमएससाठी शिक्षणास मजबुतीकरण करा
त्याचे फायदे असूनही, डीएलएम अजूनही विचार करण्याच्या क्षमतेत उत्स्फूर्त मॉडेलमध्ये अपयशी ठरतात. जटिल विचार कौशल्य एलएलएम शिकविण्यासाठी मजबुतीकरण शिक्षण खूप महत्वाचे झाले आहे. बोनस -आधारित प्रशिक्षण मॉडेल्सद्वारे (मुख्यत: योग्य विचारांच्या चरण किंवा अंतिम उत्तरांसाठी बक्षीस), आरएल एलएलएमएसने चांगल्या फॉलो -अप आणि सूचनांकडे ढकलले आहे.
जवळपासचे पॉलिसी (पीपीओ) सुधारणे आणि सर्वात आधुनिक गटाचे सापेक्ष धोरण (जीआरपीओ) सुधारणे यासारख्या अल्गोरिदम स्वयंचलित उतार मॉडेलसाठी आरएल अनुप्रयोगासाठी प्रभावीपणे आवश्यक आहेत. या पद्धती सहसा मॉडेलच्या सध्याच्या धोरणामध्ये शिकण्याच्या प्रक्रियेस निर्देशित करण्यासाठी तयार केलेल्या मजकूराच्या अनुक्रमांच्या संभाव्यतेच्या खर्चावर (किंवा रेकॉर्डची शक्यता) अवलंबून असतात.
हे खाते त्याच्या विशिष्ट सीरियल पिढीमुळे स्वयंचलित घसरण फॉर्मचे स्पष्ट आणि थेट आहे. तथापि, डीएलएमएससाठी, नॉन -सिरियल पुनरावृत्ती निर्मिती प्रक्रियेसह, संगणकात ही संधी कठीण आणि महाग आहे. डीएलएलएमचा विचार सुधारण्यासाठी आरएल तंत्र लागू करण्यासाठी हा एक मोठा अडथळा होता.
डी 1 फ्रेम दोन टप्प्यात पोस्ट -ट्रेडिंग प्रक्रियेद्वारे या आव्हानासंदर्भात विशेषत: डीएलएमला खात्री पटविण्यासाठी डिझाइन केलेले आहे:
- सेवा पर्यवेक्षणाच्या अधीन आहे (एसएफटी): प्रथम, प्रशिक्षित डीएलएलएम आधीपासूनच उच्च -गुणवत्तेच्या विचारांच्या डेटाच्या सेटवर समायोजित केले आहे. पेपरमध्ये “एस 1 के” डेटा संग्रह वापरला जातो, ज्यामध्ये तपशीलवार चरण -स्टेप सोल्यूशन्स आहेत, ज्यात त्रुटी उद्भवतात तेव्हा स्वत: ची कारणे आणि घट होण्याच्या उदाहरणांसह. या टप्प्यात मॉडेलमध्ये फाउंडेशन विचारांचे नमुने आणि वर्तन स्थापित करणे हे आहे.
- डिफू-जीआरपीओ वापरुन शिक्षण पुन्हा स्थापित करा: एसएफटी नंतर, मॉडेल डीईएफयू-जीआरपीओ नावाच्या नवीन अल्गोरिदमचा वापर करून आरएल प्रशिक्षणाच्या अधीन आहे. हे अल्गोरिदम डीएलएमएससह जीआरपीओ तत्त्वांशी जुळवून घेते. पूर्वी आवश्यक असलेल्या महागड्या खाती टाळत असताना रेकॉर्डच्या नोंदींचा अंदाज लावण्याचा एक प्रभावी मार्ग प्रदान करतो. यात “लपविणे यादृच्छिक हक्क” नावाचे स्मार्ट तंत्रज्ञान देखील समाविष्ट आहे.
आरएल प्रशिक्षण दरम्यान, प्रत्येक अद्यतन चरणात इनपुट राउटरचे भाग यादृच्छिकपणे वाढविले जातात. हा नियमन आणि डेटा वाढीचा एक प्रकार आहे, ज्यामुळे मॉडेलला डेटाच्या प्रत्येक गटातून अधिक प्रभावीपणे ओळखता येते.
वास्तविक जगातील अनुप्रयोगांमध्ये डी 1
संशोधकांनी डी 1 फ्रेम एललाडा -8 बी-इन्स्ट्रक्टवर लागू केली, जी ओपन सोर्स डीएलएम आहे. त्यांनी एसएफटीसाठी एस 1 के थिंकिंग कलेक्शनचा वापर करून त्याला नियुक्त केले. मग त्यांनी बर्याच आवृत्त्यांची तुलना केली: मूलभूत ल्लाडा मॉडेल, एसएफटी सह ल्लाडा, ल्लाडा केवळ डिफू-जीआरपीओ आणि पूर्ण डी 1-एलएलएडी (एसएफटी त्यानंतर डिफू-जीआरपीओ).
या मॉडेल्सची चाचणी क्रीडा विचारांच्या मानकांवर (जीएसएम 8 के, मॅथ 500) आणि तार्किक विचारसरणी कार्ये (4 x 4 सुडोकू, काउंटडाउन गेम) वर केली जाते.
परिणामांनी हे सिद्ध केले की संपूर्ण डी 1-एलएएडीएने सर्व कार्यांमध्ये उत्कृष्ट कामगिरी केली आहे. डिफू-जीआरपीओ, जे मोठ्या प्रमाणात एसएफटी आणि फाउंडेशन मॉडेलवर लागू केले गेले.

“डी 1 संस्थांच्या कामाच्या ओझ्याकडे अनेक प्रकारचे एजंट्स खायला देऊ शकते,” गोव्हर म्हणाले. “यामध्ये इन्स्टंट सॉफ्टवेअर अभियांत्रिकीसाठी कोडिंग घटक, तसेच वास्तविक वेळ धोरण आणि सल्लामसलत यांचे खूप खोल संशोधन समाविष्ट आहे … डी 1 एजंट्ससह, दररोज डिजिटल वर्कफ्लो मिशन स्वयंचलित आणि एकाच वेळी गती वाढवू शकते.”
विशेष म्हणजे, संशोधकांना गुणात्मक सुधारणा लक्षात आली, विशेषत: जास्त प्रतिसाद देताना. मॉडेल्सने “एएचएचे क्षण” दर्शविण्यास सुरुवात केली, जी एस 1 के डेटा संकलनातील उदाहरणांमधून शिकलेल्या स्व -कारवाई आणि वर्तन कमी करते. हे सूचित करते की मॉडेल केवळ उत्तरेच लक्षात ठेवत नाही तर समस्यांचे निराकरण करण्यासाठी अधिक शक्तिशाली रणनीती शिकण्यासाठी.
स्वयंचलित घट मॉडेलमध्ये दत्तक घेण्याच्या बाबतीत प्रथम इंजिन वैशिष्ट्य आहे. तथापि, आलेखाचा असा विश्वास आहे की डीएलएमएसमधील प्रगती स्टेडियमची गतिशीलता बदलू शकते. संस्थेसाठी, दोन बनविण्याचा एक मार्ग म्हणजे जिरे किंवा खर्चाच्या निर्बंधामुळे त्यांचा अर्ज सध्या बाटलीची तपासणी करण्यापासून आहे.
ग्रोव्हरच्या मते, डीएलएम दोन पूरक एक पद्धतींसह डी 1 सारख्या तर्कशास्त्रासह मजबूत करणार्या कार्यकर्त्यास मदत करू शकतात:
- जर फाउंडेशन सध्या स्वयंचलित उतारावर आधारित विचारांच्या मॉडेलकडे जाण्यास असमर्थ असेल तर विचारांचे वर्धित डीएलएम वितरण आणि रोजगारास पर्याय प्रदान करतात ज्यामुळे संस्थांना अखंडित डीएलएलएम मॉडेलसह विचारसरणीच्या उत्कृष्ट गुणवत्तेचा अनुभव घेण्यास अनुमती देते.
- जर फाउंडेशनचा अनुप्रयोग मोठ्या आणि महागड्या स्पष्टतेच्या बजेटला परवानगी देत असेल तर डी 1 समान बजेटचा वापर करून दीर्घ विचारांचे प्रभाव तयार करू शकतो आणि गुणवत्ता सुधारू शकतो.
“दुस words ्या शब्दांत, डी 1 लिक गुणवत्ता, वेग आणि किंमतीच्या अक्षांवर स्वयंचलित एलएलएमचा अवलंब करू शकते,” गोव्हर्स म्हणाले.
Source link