Google चे ‘अंतर्गत RL’ दीर्घकालीन AI ग्राहकांना कसे अनलॉक करू शकते

16 जानेवारी 2026

Google मधील संशोधकांनी तंत्रज्ञान विकसित केले आहे जे AI मॉडेल्सना जटिल विचार करणारी कार्ये शिकणे सोपे करते ज्यामुळे सामान्यत: MBA विद्यार्थी भ्रमित होतात किंवा कोलमडतात. पुढील चिन्हाचा अंदाज घेऊन एलएलएमला प्रशिक्षण देण्याऐवजी त्यांचे तंत्र बोलावण्यात आले अंतर्गत मजबुतीकरण शिक्षण (Inner RL), इनपुट समस्येचे उच्च-स्तरीय चरण-दर-चरण समाधान विकसित करण्याच्या दिशेने मॉडेलच्या अंतर्गत सक्रियतेला निर्देशित करते.

शेवटी, हे स्वायत्त एजंट तयार करण्यासाठी एक स्केलेबल मार्ग प्रदान करू शकते जे सतत मॅन्युअल मार्गदर्शनाची आवश्यकता न घेता जटिल विचार आणि वास्तविक-जगातील रोबोटिक्स हाताळू शकतात.

पुढील कोड अंदाज मर्यादा

शिक्षण वाढवा प्रशिक्षणोत्तर एलएलएममध्ये, विशेषत: दीर्घकालीन नियोजनाची आवश्यकता असलेल्या जटिल तर्कसंगत कार्यांसाठी ते मुख्य भूमिका बजावते. परंतु समस्या या मॉडेल्सच्या संरचनेत आहे. LLMs ऑटोरिग्रेसिव्ह असतात, म्हणजे ते एकावेळी टोकन अनुक्रम तयार करतात. जेव्हा हे मॉडेल प्रशिक्षणादरम्यान नवीन धोरणे शोधतात, तेव्हा ते पुढील टोकन किंवा कृतीमध्ये लहान यादृच्छिक बदल करून तसे करतात. हे एक सखोल मर्यादा प्रकट करते: पुढील कोडचा अंदाज लावणे मॉडेलला अमूर्ततेच्या चुकीच्या पातळीवर उपाय शोधण्यास भाग पाडते, मॉडेलला काय करावे हे “माहित” असतानाही दीर्घकालीन विचार करणे अप्रभावी बनवते.

हा टोकनायझेशन दृष्टीकोन मूलभूत भाषेच्या मॉडेलिंगसाठी चांगले कार्य करतो परंतु दीर्घकालीन कार्यांमध्ये खंडित होतो जेथे बक्षिसे कमी आहेत. जर मॉडेल फक्त कोड स्तरावर यादृच्छिक नमुन्यांवर अवलंबून असेल, तर योग्य मल्टी-स्टेप सोल्यूशनवर अडखळण्याची शक्यता फारच कमी आहे. "लाखातील एकाच्या ऑर्डरवर," संशोधकांच्या मते.

समस्या फक्त अशी नाही की मॉडेल्स गोंधळून जातात; त्यांना चुकीच्या पातळीवर दडपल्यासारखे वाटते. VentureBeat ला दिलेल्या टिप्पण्यांमध्ये, पेपरचे सह-लेखक Yannick Schimpf यांनी नमूद केले आहे की, 20-चरण टास्कमध्ये, एजंट एका टप्प्याच्या मिनिटात हरवू शकतो किंवा एकूण ध्येयाचा मागोवा गमावू शकतो.

"आम्ही म्हणतो की जेव्हा एखाद्या अमूर्त संरचनेची समस्या येते तेव्हा… (लक्ष्य-निर्देशित अन्वेषण) तुम्हाला हवे असते," शिम्पफ म्हणाले. प्रथम अमूर्त स्तरावर समस्येचे निराकरण करून, एजंट मार्गासाठी वचनबद्ध करतो आणि याची खात्री करतो की ते तसे होत नाही "विचाराच्या एका चरणात हरवून जा" आणि व्यापक कार्यप्रवाह पूर्ण करण्यात अयशस्वी.

या समस्येचे निराकरण करण्यासाठी, क्षेत्राने श्रेणीबद्ध मजबुतीकरण शिक्षणाकडे पाहिले आहे. एचआरएल टोकन्सच्या मालिकेप्रमाणे कार्य व्यवस्थापित करण्याऐवजी तात्पुरत्या अमूर्त क्रियांच्या (उच्च-स्तरीय सबरूटीन्सचे निराकरण करण्याच्या विविध टप्प्यांचे प्रतिनिधित्व करणाऱ्या) श्रेणीमध्ये विघटित करून जटिल समस्यांचे निराकरण करण्याचा प्रयत्न करते.

तथापि, या योग्य सबरूटीन शोधणे हे दीर्घकालीन आव्हान आहे. विद्यमान HRL पद्धती अनेकदा योग्य धोरणे शोधण्यात अयशस्वी ठरतात "पर्याय बिघडवणे converging" जे अर्थपूर्ण वर्तन दर्शवत नाहीत. अगदी आधुनिक अत्याधुनिक पद्धती जसे की GRPO (विरळ रिवॉर्डसह कार्यांमध्ये वापरले जाणारे लोकप्रिय RL अल्गोरिदम) जटिल वातावरणात अपयशी ठरतात कारण ते निम्न-स्तरीय अंमलबजावणी आणि उच्च-स्तरीय नियोजन यांच्यातील अंतर प्रभावीपणे भरून काढू शकत नाहीत.

LLM च्या अंतर्गत कल्पनांचे चॅनेलिंग

या मर्यादांवर मात करण्यासाठी, Google टीमने अंतर्गत RL प्रस्तावित केले. ऑटोरेग्रेसिव्ह मॉडेल आधीच विकसित केले आहेत "त्याला माहीत आहे" जटिल, बहु-चरण कार्ये आंतरिकरित्या कशी करावीत, जरी त्यांना तसे करण्यासाठी स्पष्टपणे प्रशिक्षित केले गेले नसले तरीही.

कारण ही जटिल वर्तणूक मॉडेलच्या अवशिष्ट प्रवाहामध्ये लपलेली आहे (म्हणजे नेटवर्क स्तरांवर माहिती वाहून नेणारी संख्यात्मक मूल्ये), संशोधकांनी एक पद्धत सादर केली "अंतर्गत न्यूरल नेटवर्क कंट्रोलर," किंवा मेटा-कंट्रोलर. आउटपुट कोडचे निरीक्षण आणि बदल करण्याऐवजी, मेटा-कंट्रोलर मॉडेलच्या अंतर्गत सक्रियतेमध्ये बदल लागू करून मॉडेलचे वर्तन नियंत्रित करतो.

हे पुश मॉडेलला विशिष्ट उपयुक्त स्थितीकडे निर्देशित करते. बेस मॉडेल नंतर ते उद्दिष्ट साध्य करण्यासाठी आवश्यक असलेल्या वैयक्तिक पायऱ्यांचा क्रम आपोआप निर्माण करतो कारण सुरुवातीच्या प्री-ट्रेनिंग दरम्यान त्याने ते नमुने आधीच पाहिले आहेत.

मेटा-कंट्रोलर पर्यवेक्षित नसलेल्या शिक्षणाद्वारे कार्य करते आणि त्याला मानवी-लेबल केलेल्या प्रशिक्षण उदाहरणांची आवश्यकता नसते. त्याऐवजी, संशोधक स्वयं-पर्यवेक्षित फ्रेमवर्क वापरतात ज्यामध्ये मॉडेल वर्तनाच्या संपूर्ण क्रमाचे विश्लेषण करते आणि उच्च-स्तरीय लपविलेल्या हेतूचा निष्कर्ष काढण्यासाठी मागे कार्य करते जे क्रियांचे उत्कृष्ट स्पष्टीकरण देते.

अंतर्गत RL टप्प्यादरम्यान, मेटा-कंट्रोलरवर अपडेट्स लागू केले जातात, जे प्रशिक्षण पुढील कोडचा अंदाज लावण्यापासून ते उच्च-स्तरीय क्रिया शिकण्याकडे हलवते ज्यामुळे निराकरण होऊ शकते.

याचे व्यावहारिक मूल्य समजून घेण्यासाठी, कोड तयार करण्याचे काम एंटरप्राइझ एजंटचा विचार करा. आज, एक कठीण व्यापार बंद आहे: आपल्याला आवश्यक आहे "कमी तापमान" (अंदाज योग्यता) सिंटॅक्स योग्य करण्यासाठी, तथापि "उच्च तापमान" (सर्जनशीलता) तार्किक कोडे सोडवण्यासाठी.

"अंतर्गत RL मॉडेलला अमूर्त क्रियांची जागा एक्सप्लोर करण्याची परवानगी देऊन हे सुलभ करू शकते, म्हणजे स्ट्रक्चरिंग लॉजिक आणि मेथड कॉल्स, टोकन स्तरावर त्या क्रियांची पूर्तता अंतर्निहित मॉडेलच्या मजबूत, कमी-तापमान वितरणाकडे सोपवून," शिम्पफ म्हणाले. एजंट वाक्यरचना न मोडता उपाय शोधतो.

संशोधकांनी या नियंत्रकाची अंमलबजावणी करण्याचे दोन मार्ग तपासले. प्रथम, मूलभूत ऑटोरेग्रेसिव्ह मॉडेलला वर्तणूक डेटासेटवर पूर्व-प्रशिक्षित केले जाते आणि नंतर गोठवले जाते, तर मेटा-कंट्रोलरला गोठलेल्या मॉडेलचा अवशिष्ट प्रवाह निर्देशित करण्यासाठी प्रशिक्षित केले जाते. दुसऱ्यामध्ये, मेटा-कंट्रोलर आणि मूलभूत मॉडेल एकत्रितपणे ऑप्टिमाइझ केले जातात, दोन्ही नेटवर्कचे पॅरामीटर्स एकाच वेळी अद्यतनित केले जातात.

RL प्रक्रिया कृतीत आहे

इनडोअर सखोल शिक्षणाच्या प्रभावीतेचे मूल्यमापन करण्यासाठी, संशोधकांनी पारंपारिक विद्यार्थ्यांना प्रभावित करण्यासाठी डिझाइन केलेले श्रेणीबद्ध वातावरणात प्रयोग केले. यामध्ये एक स्वतंत्र ग्रिड जग आणि एक सतत नियंत्रण मोहीम समाविष्ट आहे जिथे तो चतुष्पाद आहे "मुंगी" रोबोटने संयुक्त हालचालींचे समन्वय साधले पाहिजे. दोन्ही वातावरणाने खूप लांब क्रिया अनुक्रमांसह विरळ पुरस्कार वापरले.

GRPO आणि CompILE सारख्या बेसलाइन दीर्घ कालावधीत क्रेडिट्स वाटप करण्यात अडचण आल्याने दशलक्ष भागांमध्ये कार्ये शिकण्यात अयशस्वी होत असताना, इन-हाउस RL ने थोड्या प्रशिक्षण भागांसह उच्च यश दर प्राप्त केले आहेत. लहान पायऱ्यांऐवजी उच्च-स्तरीय लक्ष्य निवडून, मेटा-कंट्रोलरने शोध जागा मोठ्या प्रमाणात कमी केली. यामुळे मॉडेलला उच्च-स्तरीय निर्णय ओळखण्याची परवानगी मिळाली ज्यामुळे यश मिळाले, ज्यामुळे विरळ बक्षीस समस्येचे निराकरण करण्यासाठी क्रेडिट वाटप पुरेसे कार्यक्षम बनले.

हे लक्षात घेण्यासारखे आहे की संशोधकांना असे आढळले आहे "गोठलेले" दृष्टीकोन श्रेष्ठ होता. जेव्हा मूलभूत मॉडेल आणि मेटा-कंट्रोलरला सुरवातीपासून संयुक्तपणे प्रशिक्षित केले गेले तेव्हा सिस्टम अर्थपूर्ण अमूर्तता विकसित करण्यात अयशस्वी ठरली. तथापि, गोठवलेल्या मॉडेलवर लागू केल्यावर, मेटा-कंट्रोलरने कोणत्याही मानवी लेबलांशिवाय प्रमुख चेकपॉईंट्स यशस्वीरित्या शोधले, जेव्हा एजंटने एक उपगोल पूर्ण केला आणि दुसरे सुरू केले तेव्हा त्याच्या अंतर्गत स्विचिंग यंत्रणेला ग्राउंड-ट्रुथ क्षणांसह अचूकपणे संरेखित केले.

कारण उद्योग सध्या शब्दशः भाषण तयार करणाऱ्या अनुमान मॉडेलवर लक्ष केंद्रित करत आहे "विचारांच्या साखळ्या" समस्यांचे निराकरण करण्यासाठी, Google संशोधन वेगळ्या, आणि कदाचित अधिक कार्यक्षम, भविष्याकडे निर्देश करते.

"आमचा अभ्यास कार्याच्या वाढत्या भागामध्ये सामील होतो जे सूचित करते की “अंतर्गत ह्युरिस्टिक्स” केवळ शक्य नाही, परंतु प्रतीकात्मक-आधारित दृष्टिकोनांपेक्षा संभाव्यतः अधिक कार्यक्षम आहेत." तो लाजत म्हणाला. "शिवाय, हे मूक “विचार” विशिष्ट इनपुट पद्धतींपासून वेगळे केले जाऊ शकतात, अशी मालमत्ता जी मल्टीमोडल एआयच्या भविष्याशी विशेषतः संबंधित असू शकते."

जर आऊटसोर्स न करता अंतर्गत विचारांचे मार्गदर्शन केले जाऊ शकते, तर AI एजंट्सचे भवितव्य प्रेरक धोरणांवर कमी आणि ते अंतर्गत प्रतिनिधित्व करत असलेल्या मॉडेल्समध्ये आपण किती चांगल्या प्रकारे प्रवेश करू शकतो आणि मार्गदर्शन करू शकतो यावर अधिक अवलंबून असू शकते. ज्या कंपन्या स्वायत्त प्रणालींवर पैज लावत आहेत ज्यांनी दीर्घ क्षितिजांवर योजना आखणे, जुळवून घेणे आणि कार्य करणे आवश्यक आहे, हे बदल कोणत्याही नवीन विचारांच्या मानकांपेक्षा अधिक महत्त्वाचे असू शकतात.

Source link

Google चे ‘अंतर्गत RL’ दीर्घकालीन AI ग्राहकांना कसे अनलॉक करू शकते

पुढील कोड अंदाज मर्यादा

LLM च्या अंतर्गत कल्पनांचे चॅनेलिंग

RL प्रक्रिया कृतीत आहे

नवीनतम बातम्या

क्युबाने अमेरिकेच्या बोटीवर गोळीबार केल्याप्रकरणी संशयितांवर दहशतवादाचे गुन्हे दाखल केले आहेत

स्काय स्पोर्ट्सने 2026 कव्हरेज योजनेचे अनावरण केले आणि टेट मॅकरेच्या ‘जस्ट...

लाइट थेरपी तुम्हाला डेलाइट सेव्हिंग टाईम जगण्यात कशी मदत करू शकते

जेसन टाटमचे पुनरागमन आता आदर्शापेक्षा अधिक असेल. ती चांगली गोष्ट आहे...

IPL 2026: प्री-सीझन प्रशिक्षण शिबिराच्या तारखा आणि नवीन हंगामापूर्वी 10 संघांसाठी...

Apple ने MacBook Neo ची घोषणा केली आहे, जो आतापर्यंतचा सर्वात...

PM Skerrit: CARICOM क्युबाला पाठिंबा देण्यासाठी मेक्सिकोसोबत सैन्यात सामील होईल

टायरिक हिलने तुटलेल्या पायावर NFL स्टारवर खटला दाखल करणाऱ्या ओन्लीफॅन्स मॉडेलविरुद्धच्या...

स्पॅनिश पंतप्रधान म्हणतात की ट्रम्प लाखो लोकांच्या जीवनाशी ‘रशियन रूले’ खेळत...

‘दुर्दैवी’: NHL च्या बेटमॅनने ऑलिम्पिकमध्ये यूएसए हॉकी वादाला संबोधित केले

नासाचे माजी प्रमुख आर्टेमिसमधील बदलांचे समर्थन करतात, कठीण भाग सोडून देतात...

2026 वर्ल्ड बेसबॉल क्लासिक ऑड्स: बॅक जुआन सोटो, डब्ल्यूबीसी फॉरवर्ड डीआर

SA विरुद्ध NZ, T20 विश्वचषक 2026 उपांत्य फेरी: दक्षिण आफ्रिकेसाठी मार्को...

श्रेणी