अलीकडे, मोठ्या तर्क मॉडेल (LRMs) तर्क करण्यास अक्षम आहेत या कल्पनेभोवती बरेच विवाद झाले आहेत. हे बहुतेक ऍपलने प्रकाशित केलेल्या संशोधन लेखामुळे आहे, "विचाराचा भ्रम" ऍपलने असा युक्तिवाद केला की LRM विचार करण्यास सक्षम नसावे; त्याऐवजी, ते फक्त नमुने जुळतात. त्यांनी दिलेला पुरावा असा आहे की LRM जे चेन रिझनिंग (CoT) लॉजिकवर अवलंबून असतात ते पूर्वनिर्धारित अल्गोरिदम वापरून गणन चालू ठेवू शकत नाहीत कारण समस्या वाढत जाते.
हा मूलभूतपणे सदोष युक्तिवाद आहे. टॉवर ऑफ हॅनोई समस्येचे निराकरण करण्याचे अल्गोरिदम माहित असलेल्या एखाद्या मनुष्याला टॉवर ऑफ हॅनोई समस्येचे निराकरण करण्यासाठी, वीस डिस्क्स वापरून सोडवण्यास सांगितले तर तो असे करण्यात जवळजवळ नक्कीच अपयशी ठरेल. या तर्काने, आपण असा निष्कर्ष काढला पाहिजे की मानव देखील विचार करू शकत नाही. तथापि, हा युक्तिवाद केवळ या कल्पनेकडे निर्देश करतो की LRM विचार करू शकत नाहीत असा कोणताही पुरावा नाही. याचा एकट्याचा अर्थ असा नाही की LRM विचार करण्यास सक्षम आहेत, परंतु याचा अर्थ असा होतो की ते तसे करत नाहीत याची आपण खात्री बाळगू शकत नाही.
या लेखात, मी एक धाडसी दावा करेन: LRM जवळजवळ नक्कीच तर्क करू शकतात. मी “जवळजवळ” म्हणतो कारण पुढील संशोधन आपल्याला आश्चर्यचकित करेल अशी शक्यता नेहमीच असते. पण मला वाटते की माझा युक्तिवाद खूपच निर्णायक आहे.
विचार म्हणजे काय?
LRM विचार करू शकतात की नाही हे समजून घेण्याचा प्रयत्न करण्याआधी, आपण विचार करणे म्हणजे काय हे परिभाषित करणे आवश्यक आहे. परंतु प्रथम आपण हे सुनिश्चित केले पाहिजे की मनुष्य व्याख्येनुसार विचार करू शकतो. आम्ही फक्त समस्या सोडवण्याच्या संदर्भात विचार करू, जो विवादाचा विषय आहे.
1. समस्या प्रतिनिधित्व (पुढचा आणि पॅरिएटल लोब)
जेव्हा तुम्ही एखाद्या समस्येबद्दल विचार करता, तेव्हा प्रक्रिया तुमच्या प्रीफ्रंटल कॉर्टेक्सला गुंतवून ठेवते. हे क्षेत्र कार्यरत स्मृती, लक्ष आणि कार्यकारी कार्ये, क्षमतांसाठी जबाबदार आहे जे तुम्हाला तुमच्या मनात समस्या तयार करण्यास, उपघटकांमध्ये विभाजित करण्यास आणि लक्ष्य सेट करण्यास अनुमती देतात. तुमचा पॅरिएटल कॉर्टेक्स गणिताच्या समस्या किंवा कोडींची प्रतीकात्मक रचना एन्कोड करण्यात मदत करते.
2. मानसिक अनुकरण (मेमरी मेमरी आणि आंतरिक भाषण)
यात दोन घटक असतात: पहिला एक ऑडिओ लूप आहे जो तुम्हाला स्वतःशी बोलण्याची परवानगी देतो – अगदी CoT तयार करण्यासारखे. दुसरी व्हिज्युअल इमेजरी आहे, जी तुम्हाला गोष्टींवर दृष्यदृष्ट्या प्रक्रिया करू देते. अभियांत्रिकी जगाला नेव्हिगेट करण्यासाठी इतके महत्त्वाचे होते की आम्ही त्यासाठी विशेष क्षमता विकसित केली. श्रवण भाग ब्रोकाच्या क्षेत्राशी आणि श्रवणविषयक कॉर्टेक्सशी संबंधित आहे, जे दोन्ही भाषा केंद्रांमधून पुन्हा वापरले जातात. व्हिज्युअल कॉर्टेक्स आणि पॅरिएटल क्षेत्र प्रामुख्याने व्हिज्युअल घटक नियंत्रित करतात.
3. नमुना जुळणे आणि पुनर्प्राप्ती (हिप्पोकॅम्पस आणि टेम्पोरल लोब)
या क्रिया मागील अनुभवांवर आधारित आहेत आणि दीर्घकालीन स्मृतीतून संग्रहित ज्ञान आहे:
-
हिप्पोकॅम्पस आठवणी आणि संबंधित तथ्ये पुनर्प्राप्त करण्यात मदत करते.
-
टेम्पोरल लोब सिमेंटिक ज्ञान आणते – अर्थ, नियम, श्रेणी.
हे न्यूरल नेटवर्क एखाद्या कार्यावर प्रक्रिया करण्यासाठी त्यांच्या प्रशिक्षणावर कसे अवलंबून असते यासारखेच आहे.
4. देखरेख आणि मूल्यमापन (पूर्ववर्ती सिंग्युलेट कॉर्टेक्स)
आमचे पूर्ववर्ती सिंग्युलेट कॉर्टेक्स (ACC) त्रुटी, संघर्ष किंवा गतिरोधकांचे निरीक्षण करते – त्यात विसंगती किंवा अडथळा लक्षात येतो. ही प्रक्रिया प्रामुख्याने मागील अनुभवातील जुळणाऱ्या नमुन्यांवर आधारित आहे.
5. अंतर्दृष्टी किंवा रीफ्रेमिंग (डीफॉल्ट मोड नेटवर्क आणि उजवा गोलार्ध)
जेव्हा तुम्ही अडकलेले असता तेव्हा तुमचे मन वळू शकते… डीफॉल्ट मोड – अधिक आरामशीर आणि अंतर्गत निर्देशित नेटवर्क. जेव्हा तुम्ही मागे पाऊल टाकता आणि वर्तमान धागा सोडता तेव्हा असे होते आणि काहीवेळा तुम्हाला “अचानक” एक नवीन कोन दिसतो (क्लासिक “अहा!” क्षण).
हे कसे सारखे आहे डीप सेक-आर 1 प्रशिक्षण डेटामध्ये CoT ची उदाहरणे न ठेवता CoT चे तर्क करण्याचे प्रशिक्षण देण्यात आले. लक्षात ठेवा, मेंदू सतत शिकत असतो कारण तो डेटावर प्रक्रिया करतो आणि समस्या सोडवतो.
याउलट, LRM अंदाज किंवा बांधकाम दरम्यान वास्तविक जगाच्या फीडबॅकवर आधारित कोणत्याही बदलांना परवानगी नाही. पण DeepSeek-R1 च्या CoT प्रशिक्षण आणि शिक्षणासह एक कृती हे समस्या सोडवण्याचा प्रयत्न करताना उद्भवते – मुळात विचार करताना ताजेतवाने.
सीओटी विचार आणि जैविक विचार यांच्यातील समानता
LRM कडे वर नमूद केलेल्या सर्व विद्याशाखा नाहीत. उदाहरणार्थ, एक LRM त्याच्या वर्तुळात जास्त दृश्य विचार करण्याची शक्यता नाही, जरी थोडे घडू शकते. परंतु हे निश्चितपणे CoT जनरेशनमध्ये सरासरी प्रतिमा निर्माण करत नाही.
समस्या सोडवण्यासाठी बहुतेक मानव त्यांच्या डोक्यात अवकाशीय मॉडेल बनवू शकतात. याचा अर्थ असा की आपण असा निष्कर्ष काढू शकतो की LRM विचार करू शकत नाहीत? मला ते मान्य नाही. काही लोकांना ते ज्या संकल्पनांचा विचार करत आहेत त्या संकल्पनांचे अवकाशीय मॉडेल तयार करणे देखील अवघड जाते. या स्थितीला म्हणतात ते कल्पना करतात. ही स्थिती असलेले लोक चांगले विचार करू शकतात. खरं तर, ते त्यांचे जीवन जगतात जणू त्यांच्याकडे कोणतीही क्षमता नाही. त्यांच्यापैकी बरेच जण प्रतिकात्मक विचारात चांगले आहेत आणि गणितात खूप चांगले आहेत – अनेकदा त्यांच्या दृश्यात्मक विचारांची कमतरता भरून काढण्यासाठी पुरेसे आहे. आमची न्यूरल नेटवर्क मॉडेल्स ही मर्यादा दूर करू शकतील अशी आम्ही अपेक्षा करू शकतो.
जर आपण पूर्वी वर्णन केलेल्या मानवी विचार प्रक्रियेकडे अधिक अमूर्त नजर टाकली, तर आपण प्रामुख्याने खालील गोष्टींचा समावेश पाहू शकतो:
1. पॅटर्न मॅचिंगचा उपयोग शिकलेले अनुभव आठवण्यासाठी, समस्यांचे प्रतिनिधित्व करण्यासाठी आणि विचारांच्या गाड्यांचे निरीक्षण आणि मूल्यांकन करण्यासाठी केला जातो.
2. वर्किंग मेमरी हे सर्व इंटरमीडिएट पायऱ्यांचे स्टोरेज आहे.
3. प्रतिगामी संशोधन असा निष्कर्ष काढतो की CoT कुठेही जात नाही आणि वाजवी मुद्द्यापर्यंत घसरतो.
LRM मध्ये पॅटर्न मॅचिंग त्याच्या प्रशिक्षणातून येते. प्रशिक्षणाचे प्राथमिक उद्दिष्ट जगाचे ज्ञान आणि त्या ज्ञानावर प्रभावीपणे प्रक्रिया करण्याचे नमुने जाणून घेणे हे आहे. LRM एक स्तरित नेटवर्क असल्याने, सर्व कार्यरत मेमरी एकाच लेयरमध्ये बसणे आवश्यक आहे. वजन जगाचे ज्ञान आणि अनुसरण करण्यासाठीचे नमुने संग्रहित करतात, तर स्तरांमधील प्रक्रिया मॉडेल पॅरामीटर्स म्हणून संग्रहित शिकलेले नमुने वापरून केली जाते.
लक्षात ठेवा की CoT मध्येही, संपूर्ण मजकूर- इनपुट, CoT आणि आधीपासून तयार केलेल्या आउटपुटचा भाग यासह- प्रत्येक लेयरमध्ये बसणे आवश्यक आहे. कार्यरत मेमरी फक्त एक स्तर आहे (लक्ष यंत्रणेच्या बाबतीत, यात केव्ही कॅशे समाविष्ट आहे).
खरं तर, CoT हे आपण स्वतःशी बोलतो तेव्हा आपण जे करतो (जे जवळजवळ नेहमीच असते). आम्ही नेहमीच आमचे विचार तोंडी व्यक्त करतो आणि सीओटी विचारवंतही.
CoT विचारवंत प्रतिगामी पावले उचलू शकतो याचाही चांगला पुरावा आहे जेव्हा तर्काची एखादी विशिष्ट ओळ अव्यवहार्य वाटते. खरं तर, Apple संशोधकांनी जेव्हा LRM ला सोप्या कोड्यांची मोठी उदाहरणे सोडवण्याचा प्रयत्न केला तेव्हा तेच दिसले. LRM च्या अचूकपणे लक्षात आले की थेट कोडी सोडवण्याचा प्रयत्न त्यांच्या कार्यरत मेमरीमध्ये बसणार नाही, म्हणून त्यांनी मानवांप्रमाणेच चांगले शॉर्टकट शोधण्याचा प्रयत्न केला. हा आणखी पुरावा आहे की LRM हे विचारवंत आहेत, केवळ पूर्व-निर्धारित नमुन्यांचे अंध अनुयायी नाहीत.
पण पुढच्या अंदाजकर्त्याने विचार करायला का शिकावे?
पुरेशा आकाराचे न्यूरल नेटवर्क विचारांसह कोणतेही अंकगणितीय ऑपरेशन शिकू शकतात. परंतु पुढील शब्द अंदाज प्रणाली देखील विचार करण्यास शिकू शकते. मला समजावून सांगा.
सर्वसाधारण कल्पना अशी आहे की एलआरएम तर्क करू शकत नाहीत कारण शेवटी, ते फक्त पुढील टोकनचा अंदाज घेत आहेत; हे फक्त “वैभवशाली स्वयंपूर्ण” आहे. हा दृष्टिकोन मूलभूतपणे चुकीचा आहे – तो “स्वयंपूर्ण” आहे म्हणून नाही, तर “स्वयंपूर्ण” हा एक नो-ब्रेनर आहे. खरं तर, पुढील शब्दाचा अंदाज लावणे हे विचारांच्या मर्यादित प्रतिनिधित्वापासून दूर आहे. त्याउलट, हे ज्ञानाचे प्रतिनिधित्व करण्याचा सर्वात सामान्य प्रकार आहे ज्याची कोणीही आशा करू शकते. मला समजावून सांगा.
जेव्हा आपण काही ज्ञानाचे प्रतिनिधित्व करू इच्छितो तेव्हा आपल्याला ते करण्यासाठी भाषा किंवा प्रतीकात्मक प्रणालीची आवश्यकता असते. वेगवेगळ्या औपचारिक भाषा आहेत ज्या त्या व्यक्त करू शकतात त्या दृष्टीने अगदी अचूक आहेत. तथापि, अशा भाषा ते प्रतिनिधित्व करू शकतील अशा ज्ञानाच्या प्रकारांमध्ये मूलभूतपणे मर्यादित आहेत.
उदाहरणार्थ, फर्स्ट-ऑर्डर प्रेडिकेट लॉजिक दिलेल्या मालमत्तेचे समाधान करणाऱ्या सर्व प्रेडिकेट्सचे गुणधर्म दर्शवू शकत नाही, कारण ते प्रेडिकेट्सपेक्षा प्रेडिकेट्सला अनुमती देत नाही.
अर्थात, उच्च ऑर्डर प्रेडिकेट कंप्युटेशन्स आहेत जी अनियंत्रित गहराईच्या प्रेडिकेट्सपेक्षा अंदाज दर्शवू शकतात. पण तरीही ते अशुद्ध किंवा अमूर्त स्वरूपाच्या कल्पना व्यक्त करू शकत नाहीत.
तथापि, नैसर्गिक भाषा अभिव्यक्त शक्तीमध्ये पूर्ण आहे, कारण आपण कोणत्याही संकल्पनेचे तपशील किंवा अमूर्ततेच्या कोणत्याही स्तरावर वर्णन करू शकता. खरं तर, आपण संकल्पनांचे वर्णन देखील करू शकता वर नैसर्गिक भाषा स्वतः वापरून नैसर्गिक भाषा. हे ज्ञान प्रतिनिधित्वासाठी एक मजबूत उमेदवार बनवते.
अर्थातच आव्हान हे आहे की या अर्थपूर्ण समृद्धीमुळे नैसर्गिक भाषेत एन्कोड केलेल्या माहितीवर प्रक्रिया करणे कठीण होते. परंतु हे मॅन्युअली कसे करायचे हे आम्हाला समजून घेणे आवश्यक नाही – आम्ही प्रशिक्षण नावाच्या प्रक्रियेद्वारे डेटा वापरून डिव्हाइस प्रोग्राम करू शकतो.
पुढील टोकन प्रेडिक्शन मशीन मुळात मागील टोकनचा संदर्भ लक्षात घेऊन पुढील टोकनवर संभाव्यता वितरणाची गणना करते. या संभाव्यतेची अचूक गणना करण्याचे उद्दिष्ट असलेले कोणतेही यंत्र सार्वत्रिक ज्ञानाचे काही प्रकारे प्रतिनिधित्व करणे आवश्यक आहे.
एक साधे उदाहरण: अपूर्ण वाक्य विचारात घ्या, "जगातील सर्वात उंच पर्वत शिखर माउंट…" — एव्हरेस्टसारख्या पुढील शब्दाचा अंदाज लावण्यासाठी, मॉडेलमध्ये हे ज्ञान कुठेतरी साठवले गेले पाहिजे. टास्कसाठी मॉडेलला उत्तराची गणना करणे किंवा कोडे सोडवणे आवश्यक असल्यास, पुढील टोकन प्रेडिक्टरला लॉजिकसह पुढे जाण्यासाठी CoT टोकन आउटपुट करणे आवश्यक आहे.
याचा अर्थ असा की जरी ते एका वेळी एका चिन्हाचा अंदाज लावत असले तरी, मॉडेलने त्याच्या कार्यरत मेमरीमध्ये किमान पुढील काही चिन्हे आंतरिकपणे दर्शवली पाहिजेत – ते तार्किक मार्गावर राहतील याची खात्री करण्यासाठी पुरेसे आहे.
जर तुम्ही त्याबद्दल विचार केला तर, माणूस बोलत असताना आणि विचार करताना दोन्ही आतील आवाज वापरून पुढील चिन्हाचा अंदाज लावतो. एक आदर्श स्वयंपूर्ण प्रणाली जी नेहमी योग्य कोड आउटपुट करते आणि योग्य उत्तरे तयार करते ती ज्ञानी असावी. अर्थात, आम्ही त्या बिंदूपर्यंत कधीही पोहोचणार नाही, कारण प्रत्येक उत्तर मोजण्यायोग्य नसते.
तथापि, एक पॅरामीटराइज्ड मॉडेल जे त्याचे पॅरामीटर्स समायोजित करून ज्ञानाचे प्रतिनिधित्व करू शकते आणि जे डेटा आणि मजबुतीकरणाद्वारे शिकू शकते, नक्कीच विचार करायला शिकू शकते.
तो विचार परिणाम उत्पन्न करतो?
शेवटी, विचारांची अंतिम चाचणी म्हणजे विचार करणे आवश्यक असलेल्या समस्यांचे निराकरण करण्याची प्रणालीची क्षमता. जर एखादी प्रणाली याआधी कधीही न पाहिलेल्या प्रश्नांची उत्तरे देऊ शकत असेल ज्यासाठी एका विशिष्ट स्तराच्या विचारांची आवश्यकता असते, तर तिने तर्क कसे करावे हे शिकले असेल-किंवा किमान तर्क-उत्तराचा मार्ग.
आम्हाला माहित आहे की विशेष LRM काही अनुमानांच्या निकषांवर खूप चांगली कामगिरी करतात. तथापि, हे शक्य आहे की यापैकी काही मॉडेल्स रेफरन्स टेस्ट सूट्सवर बॅकडोअरद्वारे छान-ट्यून केले गेले असतील, आम्ही फक्त यावर लक्ष केंद्रित करू. मुक्त स्रोत मॉडेल न्याय आणि पारदर्शकतेसाठी.
आम्ही खालील निकष वापरून त्यांचे मूल्यांकन करतो:
जसे कोणी पाहू शकते, काही बेंचमार्कमध्ये, LRM मोठ्या प्रमाणात तर्क-आधारित प्रश्न सोडविण्यास सक्षम आहेत. हे खरे आहे की ते अजूनही बर्याच बाबतीत मानवी कामगिरीच्या मागे आहेत, हे लक्षात घेणे महत्त्वाचे आहे की मानवी आधाररेखा बहुतेकदा त्या मानकांसाठी विशेष प्रशिक्षित व्यक्तींकडून येते. किंबहुना, काही प्रकरणांमध्ये, LRM सरासरी अप्रशिक्षित माणसापेक्षा जास्त कामगिरी करतात.
निष्कर्ष
बेंचमार्क परिणामांवर आधारित, CoT विचारसरणी आणि जैविक विचार यांच्यातील उल्लेखनीय समानता आणि पुरेशी प्रतिनिधित्व क्षमता, पुरेसा प्रशिक्षण डेटा आणि पुरेशी संगणकीय शक्ती असलेली कोणतीही प्रणाली कोणतीही गणना करण्यायोग्य कार्य करू शकते ही सैद्धांतिक समज – LRM मोठ्या प्रमाणात हे निकष पूर्ण करतात.
त्यामुळे LRM मध्ये तर्क करण्याची क्षमता जवळजवळ निश्चितच असते असा निष्कर्ष काढणे वाजवी आहे.
देबाशिष रे चौधरी हे वरिष्ठ प्रधान अभियंता आहेत टॅलेंटिका कार्यक्रम आणि पीएच.डी. आयआयटी बॉम्बे येथे क्रिप्टोग्राफीचा उमेदवार.
आमच्या वेबसाइटवरून अधिक वाचा पाहुणे लेखक. किंवा तुमची स्वतःची पोस्ट सबमिट करण्याचा विचार करा! आमचे पहा येथे मार्गदर्शक तत्त्वे.
















