दरवर्षी, NeurIPS शेकडो प्रभावी शोधनिबंध तयार करते आणि मोजमाप, मूल्यमापन आणि सिस्टीम डिझाइनबद्दल अभ्यासकांचा विचार करण्याच्या पद्धती सूक्ष्मपणे रीसेट करतात. 2025 मध्ये, सर्वात महत्त्वाचे व्यवसाय एकाच यशस्वी मॉडेलभोवती फिरत नाहीत. त्याऐवजी, त्यांनी मूलभूत गृहितकांना आव्हान दिले ज्यावर शैक्षणिक आणि कंपन्या शांतपणे अवलंबून आहेत: मोठ्या मॉडेल्सचा अर्थ चांगला विचार करणे, ज्ञान नवीन क्षमता निर्माण करते, स्वारस्य निराकरण होते आणि जनरेटिव्ह मॉडेल अपरिहार्यपणे बचत करतात.

वर्षाचे शीर्ष संशोधन पेपर एकत्रितपणे एका सखोल बदलाकडे निर्देश करतात: एआय प्रगती आता कच्च्या मॉडेलच्या सामर्थ्याने कमी आणि आर्किटेक्चर, प्रशिक्षण गतिशीलता आणि मूल्यमापन धोरणामुळे अधिक मर्यादित आहे.

NeurIPS 2025 मधील पाच सर्वात प्रभावशाली पेपर्सचा सखोल तांत्रिक दृष्टीकोन येथे आहे — आणि वास्तविक-जागतिक AI प्रणाली तयार करणाऱ्या प्रत्येकासाठी त्यांचा काय अर्थ आहे.

1. एमबीएचे विद्यार्थी एकत्र येत आहेत, आणि शेवटी आमच्याकडे ते मोजण्याचा एक मार्ग आहे

कागद: द आर्टिफिशियल आर्टिफिशियल माइंड: द ओपन होमोजेनायझेशन ऑफ लँग्वेज मॉडेल्स

अनेक वर्षांपासून, एलएलएम मूल्यांकन आरोग्यावर केंद्रित आहे. परंतु विचारमंथन, कल्पनाशक्ती किंवा सर्जनशील संश्लेषण यासारख्या खुल्या किंवा अस्पष्ट कार्यांमध्ये, हे सहसा असते एकच बरोबर उत्तर नाही. धोका त्याऐवजी एकजिनसीपणामध्ये आहे: मॉडेल समान उच्च-संभाव्यता “सुरक्षित” प्रतिसाद देतात.

हा पेपर सादर करतो अनंत गप्पा, हे एक मानक आहे जे खुल्या पिढीतील विविधता आणि बहुलता मोजण्यासाठी स्पष्टपणे डिझाइन केलेले आहे. उत्तरे खरी किंवा खोटी म्हणून स्कोअर करण्याऐवजी, ते मोजते:

  • अंतर्गत मॉडेलचे संकुचित: समान नमुना किती वेळा पुनरावृत्ती होतो?

  • मॉडेल्समधील एकसंधता: विविध मॉडेल्सचे आउटपुट किती समान आहेत

परिणाम गैरसोयीचा आहे परंतु महत्त्वाचा आहे: पायाभूत सुविधा आणि सेवा प्रदात्यांमध्ये, मॉडेल्स समान आउटपुटभोवती वाढत्या प्रमाणात एकत्रित होतात – जरी अनेक वैध उत्तरे असली तरीही.

सराव मध्ये हे महत्वाचे का आहे?

कंपन्यांसाठी, हे ट्रेड-ऑफ म्हणून “संरेखन” चे रीफ्रेम करते. प्राधान्ये आणि सुरक्षितता मर्यादा समायोजित केल्याने विविधता शांतपणे कमी होऊ शकते, सहाय्यकांना खूप सुरक्षित, अंदाज लावता येण्याजोगे किंवा प्रबळ दृष्टिकोनाकडे पक्षपाती वाटू शकते.

टेकअवे: तुमचे उत्पादन क्रिएटिव्ह किंवा एक्सप्लोरेटरी आउटपुटवर आधारित असल्यास, विविधता मेट्रिक्स हे प्रथम श्रेणीचे नागरिक असले पाहिजेत.

2. स्वारस्य अद्याप संपलेले नाही – एक साधे पोर्टल सर्वकाही बदलते

कागद: मोठ्या भाषेच्या मॉडेल्सकडे लक्ष वेधले

ट्रान्सफॉर्मरचे स्वारस्य एक स्थिर वास्तुकला म्हणून मानले गेले आहे. असे नाही हे या पेपरने सिद्ध केले आहे.

लेखक एक लहान वास्तुशास्त्रीय बदल सादर करतात: प्रत्येक लक्ष शिरोबिंदूसाठी बिंदू उत्पादनाद्वारे लक्ष पातळी मोजल्यानंतर क्वेरी-चालित सिग्मॉइड गेट लागू करणे. बस्स. कोणतेही विचित्र मणी नाहीत, भारी पेलोड नाही.

डझनभर मोठ्या प्रमाणावरील प्रशिक्षणांमध्ये – ट्रिलियन टोकन्सवर प्रशिक्षित दाट आणि मिश्रित-तज्ञ (MoE) मॉडेल्ससह – हा गेट केलेला पर्याय:

  • स्थिरता सुधारा

  • कमी “लक्ष कमी”

  • वर्धित दीर्घ संदर्भ कार्यप्रदर्शन

  • सातत्याने व्हॅनिला आवडीपेक्षा जास्त कामगिरी केली

ते का काम करते

पोर्टल ऑफर करते:

  • नॉनलाइनरिटी व्याज परिणाम मध्ये

  • अव्यक्त विरलतापॅथॉलॉजिकल रीएक्टिव्हेशनचे दडपशाही

लक्षवेधक अपयश केवळ डेटा किंवा ऑप्टिमायझेशन समस्या आहेत या गृहितकाला हे आव्हान देते.

टेकअवे: LLM च्या काही सर्वात मोठ्या विश्वासार्हतेच्या समस्या आर्किटेक्चरल असू शकतात – अल्गोरिदमिक नाही – आणि आश्चर्यकारकपणे लहान बदलांसह सोडवण्यायोग्य असू शकतात.

3. RL स्केल करू शकते — जर तुम्ही फक्त डेटाच नव्हे तर सखोलतेने मोजले तर

कागद: स्वयं-पर्यवेक्षित मजबुतीकरण शिक्षणासाठी 1000-स्तर नेटवर्कg

पारंपारिक शहाणपण सांगते की बक्षिसे किंवा भारी डेमोशिवाय RL चांगले मोजत नाही. हे गृहितक अपूर्ण असल्याचे या पेपरवरून दिसून येते.

सामान्य 2 ते 5 स्तरांवरून नेटवर्कची खोली आक्रमकपणे 1000 स्तरांपर्यंत वाढवून, लेखकांनी 2X ते 50X पर्यंत कार्यप्रदर्शन सुधारणांसह, स्वयं-पर्यवेक्षित आणि लक्ष्य-अनुकूलित RL मध्ये नाट्यमय नफ्याचे प्रदर्शन केले.

मुख्य म्हणजे क्रूर शक्ती नाही. हे खोली, भिन्न लक्ष्ये, स्थिर ऑप्टिमायझेशन सिस्टम आणि लक्ष्य-कंडिशन्ड प्रतिनिधित्व एकत्र करते

रोबोटिक्सच्या बाहेर हे महत्त्वाचे का आहे?

एजंटिव्ह सिस्टम आणि स्वायत्त कार्यप्रवाहांसाठी, हे सूचित करते की प्रतिनिधित्वाची खोली-केवळ डेटा किंवा बक्षीस आकार देणे नव्हे-सामान्यीकरण आणि अन्वेषणाचे एक महत्त्वपूर्ण साधन असू शकते.

टेकअवे: RL ची स्केलिंग मर्यादा मूलभूत ऐवजी आर्किटेक्चरल असू शकते.

4. प्रसाराचे मॉडेल संवर्धनाऐवजी सामान्यीकरण का करतात?

कागद: डिफ्यूजन मॉडेल्स का लक्षात ठेवत नाहीत: प्रशिक्षणात अंतर्निहित डायनॅमिक संस्थेची भूमिका

डिफ्यूजन मॉडेल्स अत्यंत ओव्हरपॅरामीटराइज्ड आहेत, परंतु ते बऱ्याचदा चांगले सामान्यीकरण करतात. हा पेपर का स्पष्ट करतो.

लेखक दोन वेगळ्या प्रशिक्षण वेळापत्रकांची रूपरेषा देतात:

  • अशी जागा जिथे उत्पादन गुणवत्ता वेगाने सुधारते

  • आणखी एक मार्ग आहे – खूप हळू – जिथे संवर्धन दिसून येते

महत्त्वाची गोष्ट म्हणजे, डेटासेटच्या आकारानुसार प्रिझर्व्हेशन टाइमलाइन रेषीयपणे वाढते, एक सतत रुंद होत जाणारी विंडो तयार करते ज्यामध्ये मॉडेल ओव्हरफिटिंगशिवाय सुधारतात.

व्यावहारिक परिणाम

हे लवकर थांबण्यासाठी आणि डेटा सेटचा विस्तार करण्यासाठी धोरणे रीफ्रेम करते. जतन करणे अपरिहार्य नाही, उलट अपेक्षित आणि विलंबित आहे.

टेकअवे: उपयोजन प्रशिक्षणासाठी, डेटासेटचा आकार केवळ गुणवत्ता सुधारत नाही तर सानुकूलित प्रक्रियेस प्रभावीपणे विलंब देखील करतो.

5. RL विचारशक्ती सुधारते, तर्क करण्याची क्षमता नाही

कागद: वर्धित शिक्षण खरोखर एमबीए विचारांना उत्तेजन देते का?

कदाचित NeurIPS 2025 चा सर्वात रणनीतिकदृष्ट्या महत्त्वाचा परिणाम देखील सर्वात वास्तववादी आहे.

हे पेपर वेरिफायेबल रिवॉर्ड्स (RLVR) सह मजबुतीकरण शिक्षण प्रत्यक्षात कार्य करते की नाही याची कठोरपणे चाचणी करते निर्माण करते MBA मध्ये नवीन विचार क्षमता – किंवा फक्त विद्यमान क्षमतांचा आकार बदलणे.

त्यांचा निष्कर्ष: RLVR प्रामुख्याने सॅम्पलिंग कार्यक्षमता सुधारते, तर्क करण्याची क्षमता नाही. मोठ्या नमुन्याच्या आकारात, अंतर्निहित मॉडेलमध्ये बऱ्याचदा तर्काच्या योग्य ट्रेन्स असतात.

LLM प्रशिक्षण पाइपलाइनसाठी याचा अर्थ काय आहे

खालीलप्रमाणे आरएल उत्तम प्रकारे समजले जाते:

  • वितरण आकार देणारी यंत्रणा

  • हे मूलभूतपणे नवीन क्षमतेचे जनरेटर नाही

टेकअवे: तर्क करण्याच्या क्षमतेचा खऱ्या अर्थाने विस्तार करण्यासाठी, RL ला बहुधा वैशिष्ठ्य डिस्टिलेशन किंवा आर्किटेक्चरल बदल यासारख्या यंत्रणेसह जोडणे आवश्यक आहे – अलगावमध्ये वापरले जात नाही.

मोठे चित्र: एआय प्रगती प्रणालीद्वारे मर्यादित आहे

एकत्रितपणे, हे पेपर्स एका सामान्य थीमकडे निर्देश करतात:

आधुनिक AI मधील अडथळे यापुढे प्रोटोटाइपचा आकार नसून प्रणालीची रचना आहे.

  • विविधतेच्या संकुचिततेसाठी नवीन मूल्यांकन मेट्रिक्स आवश्यक आहेत

  • लक्ष अयशस्वी करण्यासाठी आर्किटेक्चरल निराकरणे आवश्यक आहेत

  • आरएल स्केलिंग खोली आणि प्रतिनिधित्वावर आधारित आहे

  • स्मरणशक्ती प्रशिक्षणाच्या गतिशीलतेवर अवलंबून असते, पॅरामीटर्सच्या संख्येवर नाही

  • अनुमानातील नफा केवळ त्या सुधारण्यावर अवलंबून नसून वितरण कसे आकारले जातात यावर अवलंबून असतात

बांधकाम कंपन्यांसाठी, संदेश स्पष्ट आहे: स्पर्धात्मक फायदा “ज्याकडे सर्वात मोठे मॉडेल आहे” ते “सिस्टम कोणाला समजते” कडे सरकत आहे.

मैत्रेयी चॅटर्जी एक सॉफ्टवेअर इंजिनिअर आहे.

देवांश अग्रवाल सध्या FAANG मध्ये मशीन लर्निंग इंजिनीअर म्हणून कार्यरत आहेत.

Source link