मिला येथील संशोधकांनी एक नवीन तंत्र प्रस्तावित केले आहे जे जटिल अनुमान काढताना मोठ्या भाषिक मॉडेल्स (LLMs) अधिक कार्यक्षम बनवते. नाव दिले मार्कोव्हियन विचारसरणी,हा दृष्टीकोन LLM ला प्रतिबंधात्मक संगणकीय खर्च न करता दीर्घकाळ तर्कामध्ये व्यस्त राहू देतो जे सध्या अशा कार्यांना मर्यादित करते.
टीमची अंमलबजावणी, डेलेथिंक नावाचे वातावरण, निष्कर्ष साखळी निश्चित आकाराच्या भागांमध्ये तयार करते, स्केलिंग समस्येला तोडते ज्यामुळे खूप लांब LLM प्रतिसादांना त्रास होतो. प्राथमिक अंदाज दर्शविते की 1.5B पॅरामीटर मॉडेलसाठी, ही पद्धत मानक पद्धतींच्या तुलनेत दोन-तृतीयांशपेक्षा जास्त प्रशिक्षण खर्च कमी करू शकते.
लांब-स्ट्रिंग अनुमानाचा चतुर्भुज शाप
एक जटिल समस्या सोडवण्यासाठी LLM साठी, तुम्हाला अनेकदा इंटरमीडिएट “विचार” टोकन्सची एक लांब साखळी तयार करावी लागते, ज्याला सहसा तर्क साखळी (CoT) म्हणून संबोधले जाते. अलिकडच्या वर्षांत, संशोधकांनी शोधून काढले आहे की वापर… मजबुतीकरण शिक्षण (RL) लांब CoTs (कधीकधी LongCoT म्हणून संबोधले जाते) तयार करण्यासाठी मॉडेल्सना प्रशिक्षित करण्यासाठी ज्याने त्यांच्या तर्क क्षमतांमध्ये मोठ्या प्रमाणात सुधारणा केली.
तथापि, हे करण्याच्या मानक पद्धतीमध्ये एक गंभीर त्रुटी आहे: कृत्रिम बुद्धिमत्ता "राज्य" (वेक्टर आणि त्याच्या प्रक्रियेत आतापर्यंत व्युत्पन्न केलेले सर्व लॉजिकल कोड) प्रत्येक नवीन लॉजिकल कोडसह वाढतात. बोलणे ट्रान्सफॉर्मर-आधारित मॉडेलयाचा अर्थ असा की तर्क साखळी लांबल्यामुळे संगणकीय खर्च चतुर्भुज होतो, ज्यामुळे मॉडेल्सना अतिशय गुंतागुंतीच्या कामांवर प्रशिक्षण देणे अत्यंत महाग होते.
हा खर्च व्यवस्थापित करण्याचे सध्याचे बरेच प्रयत्न मॉडेलच्या विचारांचे प्रमाण मर्यादित करण्यावर लक्ष केंद्रित करतात, स्पष्टपणे लहान उपायांना प्राधान्य देतात किंवा प्रक्रिया लवकर समाप्त करतात. या पद्धतींमुळे थोडासा दिलासा मिळत असला तरी, MILAA संशोधक अजूनही LongCoT फ्रेमवर्कमध्ये काम करत आहेत आणि त्यामुळे मूलत: त्याच्या चतुर्भुज स्वरूपासाठी वचनबद्ध आहेत.
अंकगणित वाढ नियंत्रित करण्याचा प्रयत्न करण्याऐवजी, मिला एक RL वातावरण तयार करते जे चतुर्भुज समस्या पूर्णपणे टाळते. सह-लेखक अमीर होसेन काझेमीनेजाद यांनी स्पष्ट केल्याप्रमाणे, अनेक आठवडे विचार आणि वैज्ञानिक शोध यासारख्या क्षमता सक्षम करणे हे ध्येय आहे. "ही प्रणाली (आणि अशा क्षमता सक्षम करण्यासाठी आवश्यक RL) सध्याच्या LongCoT मॉडेलद्वारे समर्थित नाही, चतुर्भुज संगणनाच्या खर्चामुळे," तो म्हणाला.
Delethink सह भागांमध्ये विचार करा
संशोधकांनी जे उपाय शोधले ते एक मॉडेल आहे ज्याला ते म्हणतात "मार्कोव्हियन विचारवंत" मॉडेल कारण त्याच्या अनुमान संदर्भ विंडोचा आकार स्थिर ठेवतो. वर्गाची आरएल सेटिंग बदलणे ही मूळ कल्पना आहे "मॉडेल किती काळ विचार करते?" पासून "प्रक्रिया करणे आवश्यक असलेल्या संदर्भाचे प्रमाण." योग्यरित्या केले असल्यास, मार्कोव्हियन रिजनर चतुर्भुज वाढीच्या समस्येचे रूपांतर एका रेखीय गणनेत आणि LLM अनुमानासाठी सतत मेमरी आवश्यकतांमध्ये करेल.
संशोधकांनी हे मॉडेल डेलेथिंकद्वारे व्यवहारात आणले, जे मॉडेलला एका वेळी 8,000 टोकन्स सारख्या निश्चित आकाराच्या भागांची मालिका विचारात घेण्यास भाग पाडते. प्रत्येक भागामध्ये, मॉडेल शास्त्रीय लक्ष देण्याच्या यंत्रणेचा वापर करून, सामान्यपणे जसे निष्कर्ष काढते. परंतु जेव्हा ते कमाल भागापर्यंत पोहोचते, तेव्हा वातावरण संदर्भ रीसेट करते, एक नवीन प्रॉम्प्ट तयार करते ज्यामध्ये मूळ क्वेरी आणि एक लहान विनंती समाविष्ट असते "वाहून नेणे" मागील तुकड्यातून. उदाहरणार्थ, रिले हे CoT च्या मागील भागाचे शेवटचे काही कोड किंवा सर्वात महत्वाच्या परिणामांचा सारांश असू शकतो.
समस्येची ही पुनर्रचना मॉडेलला त्याच्या प्रगतीचा सारांश कसा समाविष्ट करायचा हे शिकण्यास भाग पाडते, किंवा "मजकूर मार्कोव्हियन राज्य," या टप्प्यावर पुढील भागाचा विचार सुरू ठेवण्यासाठी. हे मॉडेल मागील चरणांमधील महत्त्वाचे तपशील लक्षात ठेवू शकते की नाही या सामान्य चिंतेचे निराकरण करते.
काझेमनेजादच्या मते, मॉडेलने काय लक्षात ठेवले पाहिजे हे शिकते. "प्रशिक्षणासह…मॉडेलला मिशन-गंभीर परिस्थितीत कसे पुढे जायचे हे शिकण्यास भाग पाडले जाते," त्यांनी स्पष्ट केले. त्यांनी व्यावहारिक वापरासाठी एक गंभीर स्पष्टीकरण जोडले: मूळ इनपुट व्हेक्टर, त्यात जोडलेले दस्तऐवज किंवा संदर्भित डेटासह, सुधारित केलेले नाही. “आमचा दृष्टीकोन अनुमान टप्प्याला लक्ष्य करतो आणि वेक्टरमध्ये बदल करत नाही." तो म्हणाला.
कामाचा विचार हटवा
त्यांच्या दृष्टिकोनाची चाचणी घेण्यासाठी, संशोधकांनी R1-Distill-1.5B ला डिलेथिंकसह स्पर्धा-स्तरीय गणितीय समस्यांच्या डेटासेटवर प्रशिक्षित केले, त्यानंतर अनेक बेंचमार्कच्या विरूद्ध त्याचे मूल्यमापन केले. मॉडेलला 24,000 टोकन पर्यंत विचार करण्यासाठी प्रशिक्षित केले जाते परंतु 8,000 टोकनच्या निश्चित कटऑफसह.
संशोधक मानक LongCoT-RL पद्धत वापरून प्रशिक्षित मॉडेलशी याची तुलना करा. त्यांचे निष्कर्ष सूचित करतात की डेलेथिंक सह प्रशिक्षित मॉडेल 24,000 टोकन्सचे विश्लेषण करू शकते, गणित बेंचमार्कद्वारे 24,000 टोकनच्या समान बजेटसह प्रशिक्षित लाँगकोटी मॉडेलशी जुळणारे किंवा त्यापेक्षा जास्त. प्रोग्रामिंग आणि पीएचडी स्तरावरील प्रश्नांसारख्या इतर कार्यांमध्ये, डिलेथिंकने लाँगकोटीशी देखील जुळवले किंवा किंचित हरवले. “एकूणच, हे परिणाम सूचित करतात की डिलेथिंक कमी गणनेसह लाँगकोटी-आरएल प्रमाणे प्रभावीपणे त्याचे तर्क कोड वापरते,” संशोधकांनी लिहिले.
प्रशिक्षण बजेटच्या पलीकडे विस्तार करताना फायदे अधिक स्पष्ट होतात. LongCoT सह प्रशिक्षित मॉडेल त्वरीत त्यांच्या प्रशिक्षण मर्यादा गाठत असताना, Delethink सह प्रशिक्षित मॉडेलने त्याचे कार्यप्रदर्शन सुधारणे सुरू ठेवले. उदाहरणार्थ, मॉडेलने 140,000 चिन्हे पार्स करेपर्यंत काही गणितीय समस्या सोडवल्या गेल्या नाहीत, जे 24,000 चिन्हांच्या प्रशिक्षण बजेटपेक्षा कितीतरी जास्त आहे. लीनियर कॉम्प्युटिंगचे हे वैशिष्ट्य एंटरप्राइझ ऍप्लिकेशन्ससाठी उत्तम आहे. संशोधकांचा असा अंदाज आहे की मॉडेलला 96,000 प्रतीकांच्या सरासरी विचार लांबीवर प्रशिक्षण देण्यासाठी LongCoT सह H100-GPU ची 27 महिने आवश्यक आहे, विरुद्ध Delethink सह फक्त 7.
ही कार्यक्षमता थेट अनुमानापर्यंत विस्तारते, जी बहुतेक संस्थांसाठी प्राथमिक परिचालन खर्च आहे. "मार्कोव्हियन तर्काने प्रशिक्षित मॉडेल्स चाचणीच्या वेळी समान ह्युरिस्टिक्स (ट्रॅकिंग हटवा) वापरतात, जे प्रशिक्षणानंतर रेखीय अंकगणित आणि सतत स्मरणशक्तीचे समान फायदे प्रदान करतात." काझेमनेजाद म्हणाले. त्याने एक व्यावहारिक उदाहरण दिले: एआय एजंट हे करू शकतो "एक मोठा कोड बेस डीबग करा आणि बराच काळ विचार करा…जे अर्थातच पारंपारिक LongCoT दृष्टिकोनाच्या तुलनेत खर्च लक्षणीयरीत्या कमी करते."
विशेष म्हणजे, संशोधकांना असे आढळले की ऑफ-द-शेल्फ अनुमान मॉडेल, अगदी कोणत्याही विशिष्ट प्रशिक्षणाशिवाय, प्रत्यक्षात मार्कोव्हियन पद्धतीने तर्क करण्याची क्षमता दर्शवतात. या शोधाचा विकासकांसाठी तत्काळ व्यावहारिक परिणाम होतो. "व्यवहारात, याचा अर्थ असा आहे की – Delethink-RL शिवाय – ही मॉडेल्स प्रत्यक्षात delethink ट्रॅकिंग लिफाफा चालवू शकतात आणि आमच्या बेंचमार्क टास्कवर LongCoT सह स्पर्धात्मक कामगिरी करू शकतात," काझेमनेजाद म्हणाले.
यांसारख्या मोठ्या मॉडेलसह त्यांचे अनुभव GBT-OSS 120B डिलेथिंकसह अनेक जटिल कार्यांमध्ये मजबूत कार्यप्रदर्शन प्रदर्शित करा. ही अंतर्निहित क्षमता RL प्रशिक्षणासाठी एक मजबूत प्रारंभिक बिंदू प्रदान करते, जी पद्धत इतकी प्रभावी का आहे हे स्पष्ट करण्यात मदत करते. “एकत्र घेतल्यास, हे परिणाम सूचित करतात की Delethink अत्याधुनिक मॉडेलशी सुसंगत आणि सुसंगत आहे,” संशोधकांनी निष्कर्ष काढला.
मार्कोव्हियन विचारसरणीच्या यशावरून असे दिसून येते की हे करणे शक्य आहे "लाखो प्रतीकांमध्ये विचार करण्यासाठी पुढील पिढीचे विचार मॉडेल," संशोधकांनी लक्षात ठेवा. हे सध्याच्या मर्यादांच्या पलीकडे जाऊन मूलभूतपणे नवीन AI क्षमतेचे दरवाजे उघडते.
"मार्कोव्हियन विचारसरणी… खूप लांब क्षितिजांवर “विचार” करू शकणाऱ्या मॉडेल्सचा मार्ग मोकळा करतो, ज्याला आम्ही अंतिम वैज्ञानिक शोधाच्या दिशेने एक आवश्यक पाऊल मानतो," काझेमनेजाद म्हणाले. "आमचा दृष्टीकोन एक मोठी अडचण दूर करतो आणि पुढच्या पिढीच्या क्षमतांना सक्षम करून जास्त लांब क्षितिज मोहिमांसाठी प्रशिक्षण देऊ शकतो."