Home बातम्या सखोल प्रतिनिधित्वाशिवाय मजबुतीकरण शिक्षण अपरिवर्तनीय का आहे (आणि NeurIPS 2025 मधील इतर...

बातम्या

सखोल प्रतिनिधित्वाशिवाय मजबुतीकरण शिक्षण अपरिवर्तनीय का आहे (आणि NeurIPS 2025 मधील इतर महत्त्वाचे मुद्दे)

17 जानेवारी 2026

दरवर्षी, NeurIPS शेकडो प्रभावी शोधनिबंध तयार करते आणि मोजमाप, मूल्यमापन आणि सिस्टीम डिझाइनबद्दल अभ्यासकांचा विचार करण्याच्या पद्धती सूक्ष्मपणे रीसेट करतात. 2025 मध्ये, सर्वात महत्त्वाचे व्यवसाय एकाच यशस्वी मॉडेलभोवती फिरत नाहीत. त्याऐवजी, त्यांनी मूलभूत गृहितकांना आव्हान दिले ज्यावर शैक्षणिक आणि कंपन्या शांतपणे अवलंबून आहेत: मोठ्या मॉडेल्सचा अर्थ चांगला विचार करणे, ज्ञान नवीन क्षमता निर्माण करते, स्वारस्य निराकरण होते आणि जनरेटिव्ह मॉडेल अपरिहार्यपणे बचत करतात.

वर्षाचे शीर्ष संशोधन पेपर एकत्रितपणे एका सखोल बदलाकडे निर्देश करतात: एआय प्रगती आता कच्च्या मॉडेलच्या सामर्थ्याने कमी आणि आर्किटेक्चर, प्रशिक्षण गतिशीलता आणि मूल्यमापन धोरणामुळे अधिक मर्यादित आहे.

NeurIPS 2025 मधील पाच सर्वात प्रभावशाली पेपर्सचा सखोल तांत्रिक दृष्टीकोन येथे आहे — आणि वास्तविक-जागतिक AI प्रणाली तयार करणाऱ्या प्रत्येकासाठी त्यांचा काय अर्थ आहे.

1. एमबीएचे विद्यार्थी एकत्र येत आहेत, आणि शेवटी आमच्याकडे ते मोजण्याचा एक मार्ग आहे

कागद: द आर्टिफिशियल आर्टिफिशियल माइंड: द ओपन होमोजेनायझेशन ऑफ लँग्वेज मॉडेल्स

अनेक वर्षांपासून, एलएलएम मूल्यांकन आरोग्यावर केंद्रित आहे. परंतु विचारमंथन, कल्पनाशक्ती किंवा सर्जनशील संश्लेषण यासारख्या खुल्या किंवा अस्पष्ट कार्यांमध्ये, हे सहसा असते एकच बरोबर उत्तर नाही. धोका त्याऐवजी एकजिनसीपणामध्ये आहे: मॉडेल समान उच्च-संभाव्यता “सुरक्षित” प्रतिसाद देतात.

हा पेपर सादर करतो अनंत गप्पा, हे एक मानक आहे जे खुल्या पिढीतील विविधता आणि बहुलता मोजण्यासाठी स्पष्टपणे डिझाइन केलेले आहे. उत्तरे खरी किंवा खोटी म्हणून स्कोअर करण्याऐवजी, ते मोजते:

अंतर्गत मॉडेलचे संकुचित: समान नमुना किती वेळा पुनरावृत्ती होतो?
मॉडेल्समधील एकसंधता: विविध मॉडेल्सचे आउटपुट किती समान आहेत

परिणाम गैरसोयीचा आहे परंतु महत्त्वाचा आहे: पायाभूत सुविधा आणि सेवा प्रदात्यांमध्ये, मॉडेल्स समान आउटपुटभोवती वाढत्या प्रमाणात एकत्रित होतात – जरी अनेक वैध उत्तरे असली तरीही.

सराव मध्ये हे महत्वाचे का आहे?

कंपन्यांसाठी, हे ट्रेड-ऑफ म्हणून “संरेखन” चे रीफ्रेम करते. प्राधान्ये आणि सुरक्षितता मर्यादा समायोजित केल्याने विविधता शांतपणे कमी होऊ शकते, सहाय्यकांना खूप सुरक्षित, अंदाज लावता येण्याजोगे किंवा प्रबळ दृष्टिकोनाकडे पक्षपाती वाटू शकते.

टेकअवे: तुमचे उत्पादन क्रिएटिव्ह किंवा एक्सप्लोरेटरी आउटपुटवर आधारित असल्यास, विविधता मेट्रिक्स हे प्रथम श्रेणीचे नागरिक असले पाहिजेत.

2. स्वारस्य अद्याप संपलेले नाही – एक साधे पोर्टल सर्वकाही बदलते

कागद: मोठ्या भाषेच्या मॉडेल्सकडे लक्ष वेधले

ट्रान्सफॉर्मरचे स्वारस्य एक स्थिर वास्तुकला म्हणून मानले गेले आहे. असे नाही हे या पेपरने सिद्ध केले आहे.

लेखक एक लहान वास्तुशास्त्रीय बदल सादर करतात: प्रत्येक लक्ष शिरोबिंदूसाठी बिंदू उत्पादनाद्वारे लक्ष पातळी मोजल्यानंतर क्वेरी-चालित सिग्मॉइड गेट लागू करणे. बस्स. कोणतेही विचित्र मणी नाहीत, भारी पेलोड नाही.

एडझनभर मोठ्या प्रमाणावरील प्रशिक्षणांमध्ये – ट्रिलियन टोकन्सवर प्रशिक्षित दाट आणि मिश्रित-तज्ञ (MoE) मॉडेल्ससह – हा गेट केलेला पर्याय:

स्थिरता सुधारा
कमी “लक्ष कमी”
वर्धित दीर्घ संदर्भ कार्यप्रदर्शन
सातत्याने व्हॅनिला आवडीपेक्षा जास्त कामगिरी केली

ते का काम करते

पोर्टल ऑफर करते:

नॉनलाइनरिटी व्याज परिणाम मध्ये
अव्यक्त विरलतापॅथॉलॉजिकल रीएक्टिव्हेशनचे दडपशाही

लक्षवेधक अपयश केवळ डेटा किंवा ऑप्टिमायझेशन समस्या आहेत या गृहितकाला हे आव्हान देते.

टेकअवे: LLM च्या काही सर्वात मोठ्या विश्वासार्हतेच्या समस्या आर्किटेक्चरल असू शकतात – अल्गोरिदमिक नाही – आणि आश्चर्यकारकपणे लहान बदलांसह सोडवण्यायोग्य असू शकतात.

3. RL स्केल करू शकते — जर तुम्ही फक्त डेटाच नव्हे तर सखोलतेने मोजले तर

कागद: स्वयं-पर्यवेक्षित मजबुतीकरण शिक्षणासाठी 1000-स्तर नेटवर्कg

पारंपारिक शहाणपण सांगते की बक्षिसे किंवा भारी डेमोशिवाय RL चांगले मोजत नाही. हे गृहितक अपूर्ण असल्याचे या पेपरवरून दिसून येते.

सामान्य 2 ते 5 स्तरांवरून नेटवर्कची खोली आक्रमकपणे 1000 स्तरांपर्यंत वाढवून, लेखकांनी 2X ते 50X पर्यंत कार्यप्रदर्शन सुधारणांसह, स्वयं-पर्यवेक्षित आणि लक्ष्य-अनुकूलित RL मध्ये नाट्यमय नफ्याचे प्रदर्शन केले.

मुख्य म्हणजे क्रूर शक्ती नाही. हे खोली, भिन्न लक्ष्ये, स्थिर ऑप्टिमायझेशन सिस्टम आणि लक्ष्य-कंडिशन्ड प्रतिनिधित्व एकत्र करते

रोबोटिक्सच्या बाहेर हे महत्त्वाचे का आहे?

एजंटिव्ह सिस्टम आणि स्वायत्त कार्यप्रवाहांसाठी, हे सूचित करते की प्रतिनिधित्वाची खोली-केवळ डेटा किंवा बक्षीस आकार देणे नव्हे-सामान्यीकरण आणि अन्वेषणाचे एक महत्त्वपूर्ण साधन असू शकते.

टेकअवे: RL ची स्केलिंग मर्यादा मूलभूत ऐवजी आर्किटेक्चरल असू शकते.

4. प्रसाराचे मॉडेल संवर्धनाऐवजी सामान्यीकरण का करतात?

कागद: डिफ्यूजन मॉडेल्स का लक्षात ठेवत नाहीत: प्रशिक्षणात अंतर्निहित डायनॅमिक संस्थेची भूमिका

डिफ्यूजन मॉडेल्स अत्यंत ओव्हरपॅरामीटराइज्ड आहेत, परंतु ते बऱ्याचदा चांगले सामान्यीकरण करतात. हा पेपर का स्पष्ट करतो.

लेखक दोन वेगळ्या प्रशिक्षण वेळापत्रकांची रूपरेषा देतात:

अशी जागा जिथे उत्पादन गुणवत्ता वेगाने सुधारते
आणखी एक मार्ग आहे – खूप हळू – जिथे संवर्धन दिसून येते

महत्त्वाची गोष्ट म्हणजे, डेटासेटच्या आकारानुसार प्रिझर्व्हेशन टाइमलाइन रेषीयपणे वाढते, एक सतत रुंद होत जाणारी विंडो तयार करते ज्यामध्ये मॉडेल ओव्हरफिटिंगशिवाय सुधारतात.

व्यावहारिक परिणाम

हे लवकर थांबण्यासाठी आणि डेटा सेटचा विस्तार करण्यासाठी धोरणे रीफ्रेम करते. जतन करणे अपरिहार्य नाही, उलट अपेक्षित आणि विलंबित आहे.

टेकअवे: उपयोजन प्रशिक्षणासाठी, डेटासेटचा आकार केवळ गुणवत्ता सुधारत नाही तर सानुकूलित प्रक्रियेस प्रभावीपणे विलंब देखील करतो.

5. RL विचारशक्ती सुधारते, तर्क करण्याची क्षमता नाही

कागद: वर्धित शिक्षण खरोखर एमबीए विचारांना उत्तेजन देते का?

कदाचित NeurIPS 2025 चा सर्वात रणनीतिकदृष्ट्या महत्त्वाचा परिणाम देखील सर्वात वास्तववादी आहे.

हे पेपर वेरिफायेबल रिवॉर्ड्स (RLVR) सह मजबुतीकरण शिक्षण प्रत्यक्षात कार्य करते की नाही याची कठोरपणे चाचणी करते निर्माण करते MBA मध्ये नवीन विचार क्षमता – किंवा फक्त विद्यमान क्षमतांचा आकार बदलणे.

त्यांचा निष्कर्ष: RLVR प्रामुख्याने सॅम्पलिंग कार्यक्षमता सुधारते, तर्क करण्याची क्षमता नाही. मोठ्या नमुन्याच्या आकारात, अंतर्निहित मॉडेलमध्ये बऱ्याचदा तर्काच्या योग्य ट्रेन्स असतात.

LLM प्रशिक्षण पाइपलाइनसाठी याचा अर्थ काय आहे

खालीलप्रमाणे आरएल उत्तम प्रकारे समजले जाते:

वितरण आकार देणारी यंत्रणा
हे मूलभूतपणे नवीन क्षमतेचे जनरेटर नाही

टेकअवे: तर्क करण्याच्या क्षमतेचा खऱ्या अर्थाने विस्तार करण्यासाठी, RL ला बहुधा वैशिष्ठ्य डिस्टिलेशन किंवा आर्किटेक्चरल बदल यासारख्या यंत्रणेसह जोडणे आवश्यक आहे – अलगावमध्ये वापरले जात नाही.

मोठे चित्र: एआय प्रगती प्रणालीद्वारे मर्यादित आहे

एकत्रितपणे, हे पेपर्स एका सामान्य थीमकडे निर्देश करतात:

आधुनिक AI मधील अडथळे यापुढे प्रोटोटाइपचा आकार नसून प्रणालीची रचना आहे.

विविधतेच्या संकुचिततेसाठी नवीन मूल्यांकन मेट्रिक्स आवश्यक आहेत
लक्ष अयशस्वी करण्यासाठी आर्किटेक्चरल निराकरणे आवश्यक आहेत
आरएल स्केलिंग खोली आणि प्रतिनिधित्वावर आधारित आहे
स्मरणशक्ती प्रशिक्षणाच्या गतिशीलतेवर अवलंबून असते, पॅरामीटर्सच्या संख्येवर नाही
अनुमानातील नफा केवळ त्या सुधारण्यावर अवलंबून नसून वितरण कसे आकारले जातात यावर अवलंबून असतात

बांधकाम कंपन्यांसाठी, संदेश स्पष्ट आहे: स्पर्धात्मक फायदा “ज्याकडे सर्वात मोठे मॉडेल आहे” ते “सिस्टम कोणाला समजते” कडे सरकत आहे.

मैत्रेयी चॅटर्जी एक सॉफ्टवेअर इंजिनिअर आहे.

देवांश अग्रवाल सध्या FAANG मध्ये मशीन लर्निंग इंजिनीअर म्हणून कार्यरत आहेत.

Source link

सखोल प्रतिनिधित्वाशिवाय मजबुतीकरण शिक्षण अपरिवर्तनीय का आहे (आणि NeurIPS 2025 मधील इतर महत्त्वाचे मुद्दे)

1. एमबीएचे विद्यार्थी एकत्र येत आहेत, आणि शेवटी आमच्याकडे ते मोजण्याचा एक मार्ग आहे

सराव मध्ये हे महत्वाचे का आहे?

2. स्वारस्य अद्याप संपलेले नाही – एक साधे पोर्टल सर्वकाही बदलते

ते का काम करते

3. RL स्केल करू शकते — जर तुम्ही फक्त डेटाच नव्हे तर सखोलतेने मोजले तर

रोबोटिक्सच्या बाहेर हे महत्त्वाचे का आहे?

4. प्रसाराचे मॉडेल संवर्धनाऐवजी सामान्यीकरण का करतात?

व्यावहारिक परिणाम

5. RL विचारशक्ती सुधारते, तर्क करण्याची क्षमता नाही

LLM प्रशिक्षण पाइपलाइनसाठी याचा अर्थ काय आहे

मोठे चित्र: एआय प्रगती प्रणालीद्वारे मर्यादित आहे

नवीनतम बातम्या

मिनाब शाळेतील प्राणघातक बॉम्बस्फोटासाठी अमेरिका जबाबदार नसल्याच्या ट्रम्प यांच्या दाव्याचे व्हिडिओ...

केनेथ वॉकर तिसरा: कॅन्सस सिटी चीफ्स सुपर बाउल एमव्हीपीवर स्वाक्षरी करण्यास...

24 वर्षीय शाहजेब भाटीने खेळ सोडला, भ्रष्टाचाराचा आरोप: ‘मी पाकिस्तान क्रिकेट...

Gonzaga’s Ike, Few हे सीझननंतरच्या ऑनर रोलसाठी आमच्या निवडींमध्ये आघाडीवर आहेत

जॉर्जियाच्या शाळेतील शिक्षकाने चुकीच्या प्रँकमध्ये विद्यार्थ्यांना मारले

$120 दशलक्ष करारामध्ये कॅरोलिना पँथर्समध्ये सामील होण्यासाठी निघालेल्या जयलेन फिलिप्सने फिलाडेल्फिया...

स्मार्ट लेगो ब्लॉक्स शेल्फ्स मारत आहेत. तुमचे कसे मिळवायचे ते येथे...

WBC अहवाल: ऑस्ट्रेलियाला हरवून दक्षिण कोरियाने जपानसोबत उपांत्यपूर्व फेरीत प्रवेश केला

दिवंगत ‘घोस्टबस्टर’ अभिनेत्री जेनिफर रुनियोनचे कर्करोगाशी 6 महिन्यांच्या लढाईनंतर निधन झाले.

सॅन कार्लोस हॉटेलच्या एका प्रख्यात मालकावर त्याच्या घरी चाकूहल्ला करण्यात आला...

अमेरिकेच्या नेतृत्वाखालील संघर्षाने इंधनाच्या किमती विक्रमी उंचावल्या जातील या भीतीने इराण...

शास्त्रज्ञांनी 1,000 टिंडर प्रोफाइलचे विश्लेषण केले – एक फोटो प्रकार सर्वात...

श्रेणी