स्टॅनफोर्ड युनिव्हर्सिटी, एनव्हीडिया आणि टुगेदर एआय मधील संशोधकांनी एक नवीन तंत्रज्ञान विकसित केले आहे जे अतिशय जटिल समस्यांवर नवीन उपाय शोधू शकते. उदाहरणार्थ, मानवी तज्ञांनी लिहिलेल्या पूर्वीच्या अत्याधुनिक तंत्रज्ञानापेक्षा दुप्पट वेगाने धावण्यासाठी ते गंभीर GPU कोर ऑप्टिमाइझ करण्यात सक्षम होते.
त्यांच्या तंत्रज्ञानाला “शोधासाठी चाचणीच्या वेळी प्रशिक्षण“(TTT-Discover), तार्किक समस्या सोडवण्यासाठी मॉडेलला ‘दीर्घकाळ विचार करण्याची’ परवानगी देण्याच्या सध्याच्या प्रतिमानाला आव्हान देते. TTT-Discover मॉडेलला अनुमान प्रक्रियेदरम्यान प्रशिक्षण सुरू ठेवण्यास आणि हातातील समस्येसाठी त्याचे वजन अद्यतनित करण्यास अनुमती देते.
“फ्रोझन” तर्काच्या मर्यादा.
वर्तमान कॉर्पोरेट AI धोरणे अनेकदा यावर आधारित असतात… "गोठलेले" मॉडेल्स. तुम्ही क्लोज्ड किंवा ओपन लॉजिक मॉडेल वापरत असलात तरी, मॉडेल पॅरामीटर्स स्थिर असतात. जेव्हा या मॉडेल्सना सूचित केले जाते, तेव्हा ते त्यांच्या प्रशिक्षण डेटाच्या निश्चित मॅनिफोल्डमध्ये उत्तरे शोधतात. हे मॉडेलने आधी पाहिलेल्या समस्यांप्रमाणेच काम करते.
तथापि, वास्तविक शोध समस्या, जसे की नवीन अल्गोरिदम शोधणे किंवा नवीन गणितीय प्रमेय सिद्ध करणे, व्याख्यानुसार वितरणाच्या बाहेर आहेत. जर सोल्यूशनला लॉजिक जंप आवश्यक असेल जे प्रशिक्षण सेटमध्ये नसेल, तर फ्रोझन मॉडेल कदाचित अयशस्वी होईल, तुम्ही अनुमान काढताना कितीही गणनेचा वापर केला तरीही.
व्हेंचरबीटला दिलेल्या त्यांच्या टिप्पण्यांमध्ये, पेपरचे सह-लेखक आणि स्टॅनफोर्ड विद्यापीठातील डॉक्टरेट विद्यार्थी, मेर्ट युक्सेकनुल यांनी प्रसिद्ध गणितीय हॅक वापरून हा फरक स्पष्ट केला:
"माझा विश्वास आहे की तर्क मॉडेल सिद्ध करू शकणार नाहीत, म्हणा, P != NP, चाचणीच्या वेळी प्रशिक्षण घेतल्याशिवाय, ज्याप्रमाणे अँड्र्यू वाइल्सला सात वर्षे एकाकीपणात या समस्येचा पाठपुरावा करण्यात आणि त्याच्या अपयशातून सतत शिकल्याशिवाय Fermat चे अंतिम प्रमेय सिद्ध करता आले नसते."
TTT-Discover चाचणीच्या समस्येकडे उत्तर देण्याच्या प्रश्नाप्रमाणे नाही, तर त्यात प्रभुत्व मिळवण्यासाठी एक वातावरण आहे. जेव्हा मॉडेल समस्येचे निराकरण करण्याचा प्रयत्न करते, तेव्हा ते विविध प्रकारचे डेटा व्युत्पन्न करते: अपयश, आंशिक यश आणि त्रुटी. हा डेटा फेकून देण्याऐवजी, TTT-Discover रीअल-टाइममध्ये मॉडेलचे वजन अद्यतनित करण्यासाठी त्याचा वापर करते, प्रभावीपणे मॉडेलला सामान्य समस्या-निराकरण फ्रेमवर्क विकसित करण्याऐवजी त्या विशिष्ट आव्हानावर लेझर फोकस करण्यास अनुमती देते.
शिक्षण वाढविण्यासाठी एक वेगळा दृष्टीकोन
TTT-Discover हे अनुमान मॉडेल कसे प्रशिक्षित केले जातात त्यामध्ये मूलभूत बदल प्रदान करते. स्टँडर्ड रीइन्फोर्समेंट लर्निंग (RL) प्रशिक्षणामध्ये, अनेक कार्यांमध्ये सरासरी चांगली कामगिरी करणाऱ्या सामान्य धोरणाचे पालन करणे हे ध्येय आहे. TTT-Discover मधील उद्दिष्ट एखाद्या विशिष्ट समस्येवर सर्वोत्तम उपाय शोधणे हे आहे आणि लेखकांच्या मते धोरण हे “त्यासाठी एक साधन” आहे. एकदा मॉडेलने आर्टिफॅक्ट (म्हणजे इष्टतम कोड, पुरावा किंवा रेणू) शोधल्यानंतर ते तयार केलेले न्यूरल नेटवर्क टाकून दिले जाऊ शकते.
हे साध्य करण्यासाठी, संशोधकांनी दोन विशिष्ट घटक तयार केले जे मानक मजबुतीकरण शिक्षणापासून TTT-Discover वेगळे करतात:
-
लक्ष्य एन्ट्रॉपी: मानक RL सरासरी अपेक्षित रिवॉर्डसाठी ऑप्टिमाइझ केले आहे. मॉडेल धोकादायक मार्गाचा अवलंब करण्याचा प्रयत्न करत असल्यास आणि अयशस्वी झाल्यास, मानक RL त्यास दंड करते. TTT-डिस्कव्हर हे उलट करते. वापरले जाते "लक्ष्य एन्ट्रॉपी" जे अत्यंत फायद्याचे परिणामांवर खूप वजन करते. हे मॉडेलकडे दुर्लक्ष करण्यास भाग पाडते "सुरक्षा," सरासरी उत्तरे आणि जोरदार शोधा "युरेका" आउटलियर्स, जे असे उपाय आहेत ज्यात सापडण्याची शक्यता कमी आहे परंतु ते खूप मोठे बक्षीस देतात.
-
PUCT शोध: प्रणाली PUCT, द्वारे प्रेरित वृक्ष शोध अल्गोरिदम सादर करते अल्फा शून्य. हे विविध उपाय मार्ग एक्सप्लोर करते आणि प्रयत्नांचा डेटासेट तयार करते. त्यानंतर मॉडेलला रिअल टाइममध्ये सेट केलेल्या या डेटावर प्रशिक्षित केले जाते, आंशिक पायऱ्या ओळखण्यास शिकतात ज्यामुळे अत्यंत फायद्याचे परिणाम होतात.
महत्त्वाचे म्हणजे, ही पद्धत सतत रिवॉर्ड सिग्नल असलेल्या समस्यांवर सर्वोत्तम कार्य करते. प्रणालीला वाढीव प्रगती मोजण्यासाठी एक मार्ग आवश्यक आहे उदा "मायक्रोसेकंदमध्ये रन टाइम" किंवा "त्रुटी दर" बायनरी ऐवजी "यश/अपयश" सिग्नल हे मॉडेलला इष्टतम समाधानाच्या दिशेने हळूहळू सुधारणा करण्यास अनुमती देते.
“हेवी ह्युरिस्टिक्स” चे अर्थशास्त्र
एपीआय कॉलवर एक टक्के अपूर्णांक भरण्याची सवय असलेल्या संस्थांसाठी, TTT-Discover च्या किमती प्रोफाइलला मानसिकतेत बदल आवश्यक आहे. त्यांच्या प्रयोगांमध्ये, संशोधकांनी नोंदवले की एका शोध प्रक्रियेत अंदाजे 50 प्रशिक्षण टप्पे आणि हजारो उपयोजनांचा समावेश होतो, प्रत्येक समस्येसाठी अंदाजे $500 खर्च येतो.
TTT-Discover क्षुल्लक आणि पुनरावृत्ती समस्यांऐवजी “उच्च मूल्य निश्चित मालमत्तेसाठी” असू शकते ज्याचे विद्यमान मॉडेल आणि पद्धती वापरून निराकरण केले जाऊ शकते.
डेटा पाइपलाइन चालवणाऱ्या क्लाउड-नेटिव्ह संस्थेचा विचार करा जी प्रत्येक रात्री माहितीच्या पेटाबाइट्सवर प्रक्रिया करते. जर ही पाइपलाइन विशिष्ट SQL क्वेरी किंवा GPU कोरवर अवलंबून असेल, तर हा कोड फक्त 1% ने सुधारल्याने वार्षिक गणना खर्चात लाखो डॉलर्सची बचत होऊ शकते. या संदर्भात, 50% वेगवान कर्नल शोधण्यासाठी $500 खर्च करणे हे तत्काळ ROI सह क्षुल्लक खर्च आहे.
"हे कमी-फ्रिक्वेंसी, उच्च-प्रभावी निर्णयांसाठी सर्वात वाजवी आहे जेथे वैयक्तिक ऑप्टिमायझेशन संगणकीय खर्चापेक्षा खूप जास्त आहे." Yoxygonul म्हणाले. "पुरवठा साखळी दिशा, औषध रचना आणि साहित्य शोध पात्र आहेत. या सेटिंग्जमध्ये, एकाच शोध चरणावर शेकडो डॉलर्स खर्च करणे सहजपणे स्वतःसाठी पैसे देऊ शकते."
अंमलबजावणी विचार
एंटरप्राइझ दत्तक घेण्यासंबंधी सर्वात महत्त्वाच्या निष्कर्षांपैकी एक म्हणजे TTT-Discover ला विशेष पॅरामेट्रिक मॉडेलची आवश्यकता नाही. वापरून संशोधक नवीनतम परिणाम गाठले gpt-oss-120b,खुल्या वजनासाठी ओपनएआय मॉडेल. संशोधकांकडे आहे कोड लाँच करा TTT-Discover साठी संशोधक आणि विकसकांना ते त्यांच्या स्वतःच्या मॉडेलसाठी वापरण्यास सक्षम करण्यासाठी.
हे तंत्रज्ञान खुल्या मॉडेलसह काम करत असल्याने कंपन्या ते ऑपरेट करू शकतात "शोध रिंग" संपूर्णपणे त्यांच्या स्वतःच्या सुरक्षित VPCs किंवा ऑन-प्रिमाइसेस H100 क्लस्टर्समध्ये त्यांचा मालकीचा डेटा बाह्य सर्व्हरला न पाठवता.
“जर कंपनी आधीच मजबुतीकरण शिक्षण चालवत असेल, तर अतिरिक्त पायाभूत सुविधांची गरज भासणार नाही,” युक्सिगोनुल म्हणाले. “TTT-Discover समान प्रशिक्षण स्टॅक (GPUs, रोलआउट्स, ऑप्टिमायझर आणि चेकपॉइंटर्स) वापरते.”
जर ते आधीपासून RL चालवत नसतील, तर त्यांना ती पायाभूत सुविधा तयार करावी लागेल. परंतु प्रक्रियेची जटिलता कमी करण्यासाठी कंपन्या विद्यमान उपाय देखील वापरू शकतात. वापरून संशोधकांनी ही प्रशिक्षण सत्रे आयोजित केली छेडछाड API थिंकिंग मशीन्सद्वारे समर्थित, एक ऍप्लिकेशन प्रोग्रामिंग इंटरफेस (API) जो वितरित प्रशिक्षण आणि अनुमानांची जटिलता व्यवस्थापित करतो.
“टिंकर (आणि ओपन व्हेरियंट्स, उदा. ओपन टिंकर) सारखी साधने सेटअपची किंमत कमी करतात आणि वेळोवेळी श्रम आणि गणना खर्च कमी होण्याची शक्यता असते,” तो म्हणाला.
वास्तविक-जगातील वापर प्रकरणे
संशोधकांनी TTT-Discover चार भिन्न तांत्रिक क्षेत्रांमध्ये तैनात केले आहे: सिस्टम इंजिनियरिंग, अल्गोरिदम डिझाइन, जीवशास्त्र आणि गणित. जवळजवळ प्रत्येक बाबतीत, पद्धत प्रगतीची नवीन स्थिती ओळखते.
एका प्रयोगात, मॉडेलने मॅट्रिक्स गुणाकारासाठी GPU कोर ऑप्टिमाइझ केला (यासह "त्रिमूल" मध्ये वापरलेले कर्नल अल्फा फोल्ड), अंमलबजावणीची गती मागील अत्याधुनिक पेक्षा 2x पर्यंत जलद गाठणे आणि लीडरबोर्डवरील सर्वोत्कृष्ट मानवी-लिखित कर्नलपेक्षा जास्त कामगिरी करणे.
स्पर्धात्मक प्रोग्रामिंग परिस्थितीत (विकोडर), याने अग्रेसर मानवी तज्ञ आणि पूर्वीच्या AI बेसलाइन्सपेक्षा गुंतागुंतीच्या ह्युरिस्टिक समस्यांचे निराकरण केले (उदा. मासेमारीच्या जाळ्यांच्या भौमितिक मर्यादांना अनुकूल करणे).
एखाद्या कंपनीसाठी, या शैक्षणिक मानकांपासून व्यावसायिक मूल्याकडे जाणे एका विशिष्ट बंधनावर अवलंबून असते: सत्यापित संख्यात्मक सिग्नलची उपस्थिती. मजकूर व्युत्पन्न करणाऱ्या चॅटबॉटच्या विपरीत, TTT-Discover ला ऑप्टिमाइझ करण्यासाठी निश्चित मेट्रिक (उदा. अपटाइम, त्रुटी दर किंवा नफा मार्जिन) आवश्यक आहे.
ही आवश्यकता हे तंत्रज्ञान कोठे वापरावे आणि कुठे वापरले जाऊ नये यामधील स्पष्ट रेषा रेखाटते, युक्सिगोनुल म्हणाले. "सध्या, मूलभूत आवश्यकता अशी आहे की प्रगतीचा एक विश्वासार्ह संख्यात्मक सिग्नल आहे – किंमत, त्रुटी आणि आण्विक गुणधर्म – ज्याच्या विरूद्ध सिस्टम ऑप्टिमाइझ करू शकते," तो म्हणाला.
हे संस्थेच्या अधिस्वीकृतीकडे निर्देशित करते "अवघड" लॉजिस्टिक्स, सप्लाय चेन आणि रिसोर्स मॅनेजमेंट यासारखी अभियांत्रिकी आणि ऑपरेशन्सची आव्हाने, जिथे फ्लीट रूटिंग किंवा क्रू शेड्युलिंग यासारख्या समस्या बऱ्याचदा स्टॅटिक हेरिस्टिक्सवर अवलंबून असतात. TTT-Discover या वातावरणांना ऑप्टिमायझेशन वातावरण मानू शकते, रोजच्या इंधनाच्या खर्चावर 5% बचत करणारी मार्ग रचना शोधण्यासाठी तास घालवतात.
स्पष्ट सत्यापन संस्थांची आवश्यकता विशिष्ट कार्ये रद्द करते उदा "एक उत्तम विपणन धोरण लिहिणे," पडताळणी व्यक्तिपरक आणि आवाजाला संवेदनाक्षम आहे.
"”समस्या अद्याप एक खुला प्रश्न आहे हे सत्यापित करणे कठीण आहे,” युक्सिगोनुल म्हणाले.
सध्याच्या तंत्रज्ञानासह, व्हेरिफायर डिझाइन करण्याचा प्रयत्न करणे हा सर्वात चांगला मार्ग आहे, परंतु “हे व्हेरिफायर मजबूत करणे आणि हाताळणे कठीण आहे आणि आमच्याकडे अद्याप चांगला उपाय नाही.”" तो जोडला.
अनुमानापासून आविष्कारापर्यंत
याचा व्यापक अर्थ असा आहे की या प्रकारच्या प्रति-समस्या शिक्षणास समर्थन देण्यासाठी एंटरप्राइझ AI स्टॅक विकसित करणे आवश्यक असू शकते.
“फ्रोझन मॉडेलच्या आसपास तयार केलेल्या प्रणालींना प्रत्येक समस्येसाठी (किंवा डोमेन) अनुकूलनास समर्थन देणे आवश्यक आहे, आणि संस्थांना चाचणी प्रभावी करताना शिकण्यासाठी अधिक चांगल्या समस्या वैशिष्ट्यांची आणि अंतर्गत अभिप्राय सिग्नलची आवश्यकता असेल,” युक्सिगोनुल म्हणाले. “जर प्रशिक्षण खाजगी VPC मध्ये आयोजित केले गेले असेल, तर प्रशिक्षण लूप केवळ केंद्रीय प्रयोगशाळा पाइपलाइनच नव्हे तर अधिक अंतर्गत कंपनी वातावरणासह देखील एकत्रित केले जाऊ शकते.”
संस्थेसाठी, मूल्य ओळख मध्ये lies "”दशलक्ष-डॉलर समस्या”, सुधारणा आव्हाने जेथे पडताळणीयोग्य उपाय आहे, परंतु मानवी प्रगती कमी झाली आहे. हे TTT-Discover साठी उमेदवार आहेत. विशिष्ट प्रश्नांसाठी उच्च विलंब आणि किंमत स्वीकारून, संस्था त्यांचे अनुमान गणना स्वयंचलित R&D प्रयोगशाळेत रूपांतरित करू शकतात, ज्या उपायांचा शोध पूर्वी मानवांच्या आवाक्याबाहेर होता आणि AI मॉडेल्स गोठवू शकतात.
















