मिरोमाइंड एआय आणि अनेक चीनी विद्यापीठांच्या संशोधकांनी ते प्रसिद्ध केले आहे OpenMMreasonerएक नवीन प्रशिक्षण फ्रेमवर्क जे मल्टीमोडल तर्कामध्ये भाषिक मॉडेल्सच्या क्षमता सुधारते.
फ्रेमवर्क दोन-चरण प्रक्रिया वापरते. हे प्रथम पर्यवेक्षित फाइन-ट्यूनिंग (SFT) टप्प्यात क्युरेटेड डेटासेट वापरून बेस मॉडेल सुधारते. पुढे, मजकूर आणि व्हिज्युअल डेटाचा समावेश असलेल्या कार्यांवर अधिक प्रभावीपणे तर्क करण्यासाठी मजबुतीकरण शिक्षण (RL) फेज मॉडेलला मार्गदर्शन करते.
प्रयोग दर्शवितात की OpenMMReasoner सह प्रशिक्षित मॉडेल इतर आघाडीच्या व्हिज्युअल अनुमान मॉडेलपेक्षा जास्त कामगिरी करतात, अनेकदा लहान, उच्च-गुणवत्तेच्या डेटासेटवर प्रशिक्षित असताना. फ्रेमवर्क आणि त्याची सर्व मालमत्ता, प्रशिक्षित 7B मॉडेलसह, पूर्णपणे मुक्त स्रोत आहेत, ज्या अनुप्रयोग तयार करण्यासाठी विश्वासार्ह पाया प्रदान करतात ज्यांना ट्रेसिबिलिटी आणि मजबूतपणा आवश्यक आहे.
नवीन दृष्टिकोनाची रूपरेषा सांगणाऱ्या एका पेपरचे सह-लेखक Caixin Zhang यांच्या मते, OpenMMReasoner मोठ्या, बंद प्रणालींच्या पलीकडे पाहणाऱ्या कंपन्यांना महत्त्वपूर्ण फायदे देते. "लहान, मुक्त स्रोत अनुमान मॉडेलचे व्यावहारिक फायदे आहेत: संस्था स्थानिक पातळीवर ते उपयोजित करू शकतात, विलंब कमी करू शकतात, दीर्घ तर्क साखळींशी संबंधित टोकन खर्च कमी करू शकतात, त्यांच्या डेटावर पूर्ण नियंत्रण ठेवू शकतात आणि (ते) त्यांच्या विशिष्ट एंड-टू-एंड कार्याशी जुळवून घेण्यास योग्य आहे." त्यांनी व्हेंचरबीटला सांगितले.
पारदर्शक, बहुविध विचारांचे आव्हान
व्हेरिफायेबल रिवॉर्ड्स (RLVR) सह मजबुतीकरण शिक्षणातील अलीकडील प्रगतीने मोठ्या भाषा मॉडेल्स (LLM) च्या अनुमान क्षमतांमध्ये मोठ्या प्रमाणात सुधारणा केली आहे. RLVR बांधकामातील LLM ला प्रशिक्षण देते कल्पनांची मालिका (CoT) (जे मानवाने वापरलेल्या विचार प्रक्रियेची नक्कल करते) अंतिम उत्तर तयार करण्यापूर्वी. हे गणित आणि प्रोग्रामिंग सारख्या जटिल विचार कार्ये सोडवण्याची मॉडेलची क्षमता सुधारते.
या यशाने प्रेरित होऊन, संशोधकांनी समान आरएल-आधारित पद्धती लागू केल्या आहेत मोठे मल्टीमीडिया मॉडेल (LMMs), दृश्य आकलन सुधारण्यासाठी आणि विविध पद्धतींमध्ये समस्या सोडवण्यासाठी फायदे मजकूराच्या पलीकडे वाढू शकतात हे दाखवून देतात.
मात्र, प्रशिक्षण प्रक्रियेत पारदर्शकतेचा अभाव हा मोठा अडथळा होता. मल्टिमोडल निष्कर्षावरील अनेक अभ्यास डेटा संस्था आणि प्रशिक्षण प्रक्रियेबद्दल तपशीलवार माहिती प्रदान करत नाहीत, ज्यामुळे त्यांचे परिणाम पुनरुत्पादित करणे किंवा ही मॉडेल्स का कार्य करतात याची कारणे समजणे कठीण होते.
“मोकळेपणाचा अभाव पुनरुत्पादनक्षमतेवर मर्यादा घालतो आणि तर्क-सक्षम LMM कसे तयार केले जातात आणि त्यांचे प्रशिक्षण गतिशीलता कसे विकसित होते याबद्दल सखोल समज अस्पष्ट करते,” संशोधकांनी नोंदवले.
OpenMMReasoner रेसिपी
OpenMMReasoner हे अंतर ओपन सोर्स LMM वर तयार केलेल्या पूर्णपणे पारदर्शक आणि स्केलेबल ट्रेनिंग रेसिपीने भरून काढते. संशोधकांना असे आढळले की डेटाच्या विविधतेचा विस्तार करून उच्च-गुणवत्तेचा डेटासेट तयार करणे आवश्यक आहे. विविध डेटा स्रोत वापरणे महत्त्वाचे असले तरी, समान प्रश्नाच्या अचूक उत्तरांची विविधता वाढवणे हे सुधारणेचे मुख्य लक्ष होते.
रेसिपीचा पहिला टप्पा म्हणजे तीन-चरण फाइन-ट्यूनिंग पाइपलाइन (SFT). याची सुरुवात डेटा स्रोतांपासून होते, जिथे टीमने सार्वजनिक डेटासेटमधून साधारण व्हिज्युअल प्रश्नोत्तरे आणि लॉजिक टास्क समाविष्ट करून सुमारे 103,000 कच्च्या प्रश्नोत्तरांच्या जोड्या गोळा केल्या. पुढे, त्यांनी डेटा जोडला ऊर्धपातन पायरीएक मजबूत मॉडेल वापरणे (Qwen3-VL-235B-मार्गदर्शन) निवडलेल्या प्रश्नांसाठी नवीन, उच्च दर्जाचे विचार मार्ग तयार करण्यासाठी. (नंतर डेटाचा वापर लहान मॉडेलला प्रशिक्षित करण्यासाठी केला जाईल.)
उत्तरांची विविधता वाढवण्यासाठी, टीमने प्रत्येक प्रश्नासाठी अनेक सत्यापित तार्किक परिणाम तयार केले. यामुळे डेटासेटचा 583,000 नमुन्यांपर्यंत विस्तार झाला. शेवटी, त्यांनी “डोमेन शफलिंग” टप्पा पार पाडला, मॉडेलची सामान्यीकरण क्षमता वाढवण्यासाठी गणितीय अनुमान डोमेनमधील डेटा जोडला, परिणामी 874,000 उदाहरणांचा अंतिम SFT डेटासेट तयार झाला.
दुसरा टप्पा म्हणजे RL रेसिपी जी विज्ञान, गणित आणि कोडी यांसारख्या डोमेनमधील 74,000 क्युरेट केलेल्या नमुन्यांचा एक छोटा डेटासेट वापरते. मॉडेलला कंपाऊंड रिवॉर्ड फंक्शन वापरून प्रशिक्षित केले जाते जे अंतिम उत्तराची अचूकता आणि आउटपुट फॉरमॅटची सुसंगतता लक्षात घेते. कार्यक्षमता सुधारण्यासाठी, प्रक्रियेमध्ये दंड समाविष्ट आहे "जास्त विचार करणे," जास्त लांब उत्तरे तयार करण्यापासून मॉडेलला परावृत्त करा (RL द्वारे प्रशिक्षित केलेल्या अनेक अनुमान मॉडेल्सची समस्या, जी चुकून जास्त लांब तर्क क्रम तयार करण्यास शिकतात, ज्यामुळे ओव्हरहेड आणि हळू उत्तरे मिळतात).
ही रेसिपी त्यांच्या स्वतःच्या मॉडेल्सचे प्रशिक्षण देणाऱ्या कंपन्यांसाठी ब्लूप्रिंट देऊ शकते. "मर्यादित डोमेन-विशिष्ट डेटा असलेल्या कंपन्यांसाठी, संभाव्य धोरण म्हणजे प्रथम त्यांच्या विद्यमान डेटा सेटची प्रतिसाद विविधता वाढवणे आणि नंतर डोमेन डेटा आमच्यासारख्या सामान्य तर्क कृतीमध्ये एकत्रित करण्यासाठी डोमेन शफलिंग वापरणे," झांग यांनी स्पष्ट केले. "हे मॉडेलला लाखो नमुन्यांची गरज न घेता, उद्योग-विशिष्ट कार्यांशी जुळवून घेताना मजबूत सामान्य-उद्देश तर्क कौशल्य प्राप्त करण्यास अनुमती देते."
अधिक कार्यक्षम आणि सक्षम विचार मॉडेल
झांगच्या मते, चरण-दर-चरण प्रक्रिया मॉडेलच्या आउटपुटची विश्वासार्हता मूलभूतपणे बदलते. "पारंपारिक मॉडेल सहसा उत्तराकडे “उडी” मारतात, याचा अर्थ ते विचार करण्याच्या जागेचा फक्त एक अरुंद भाग शोधतात," तो म्हणाला. "याउलट, एक अनुमान-प्रथम दृष्टीकोन मॉडेलला अनेक मध्यवर्ती पायऱ्यांचे स्पष्टपणे परीक्षण करण्यास भाग पाडते… (त्याला परवानगी देऊन) खूप खोल मार्गांवर जाण्यासाठी आणि अधिक आंतरिक सुसंगततेसह उत्तरे गाठण्यासाठी."
संशोधकांनी ओपन सोर्स व्हिजन लँग्वेज मॉडेल Qwen2.5-VL-7B-Instruct ट्यूनिंगसाठी डेटा व्युत्पन्न करण्यासाठी OpenMMReasoner रेसिपी वापरली. परिणाम म्हणजे एक अत्यंत सक्षम LMM जो सातत्याने अत्याधुनिक पद्धतींना मागे टाकतो, उदा. खुल्या दृष्टीचे कारण (OVR), मल्टीमॉडल अनुमान निकषांच्या विस्तृत श्रेणीमध्ये. एकटा SFT टप्पा एक मजबूत बेसलाइन मॉडेल तयार करतो जो इतर SFT दृष्टिकोनांच्या तुलनेत उत्कृष्ट कामगिरी आणि डेटा कार्यक्षमता प्राप्त करतो, अगदी लहान प्रशिक्षण डेटासेट वापरूनही.
त्यानंतरचा RL टप्पा या क्षमतांना तीक्ष्ण आणि स्थिर करतो, ज्यामुळे अधिक सुसंगत आणि सुधारित कार्यप्रदर्शन होते. RL चे अनुसरण करून, अंतिम मॉडेल WeMath, MathVerse आणि MathVista यासह अनेक बेंचमार्कवर अत्याधुनिक परिणाम प्राप्त करते.
एक महत्त्वाचा शोध असा होता की जसे मॉडेल मल्टीमोडल अनुमानात सुधारले, तसेच ते देखील दर्शवले "मल्टिमोडलपासून पूर्णपणे भाषिक डोमेनमध्ये तर्कशक्तीचे हस्तांतरण दर्शविणारे मजकूर तर्क वर्तणुकीचा हळूहळू उदय," संशोधकांनी लक्षात ठेवा. हे सूचित करते की एका पद्धतीमध्ये शिकलेली कौशल्ये दुसर्या पद्धतीमध्ये कामगिरी वाढवू शकतात.
"आमचे परिणाम दर्शवितात की मल्टीमोडल तर्कशक्ती वाढवण्यामुळे केवळ मजकूर-गणितीय कौशल्ये सुधारू शकतात, जे मूलभूत तर्क क्षमता विविध पद्धतींमध्ये हस्तांतरित करू शकतात याचा पुरावा आहे." झांग म्हणाले. "भविष्याकडे पाहताना, आम्ही या दृष्टिकोनांचा व्हिडिओ आणि ऑडिओपर्यंत विस्तार करण्याची अपेक्षा करतो."
संशोधकांना असेही आढळले की टोकन कार्यक्षमता महत्त्वपूर्ण आहे. मॉडेलला दीर्घ तर्कशुद्ध पायऱ्या निर्माण करण्याची परवानगी देताना कार्यप्रदर्शन सुधारू शकते, जास्त टोकन कार्यक्षमता कमी करतात. त्यांचे परिणाम दर्शवतात की सेटिंग लहान आहे "तार्किक बजेट" हे तुलनात्मक किंवा त्याहूनही चांगली अचूकता प्राप्त करू शकते, जे किफायतशीर एंटरप्राइझ अनुप्रयोग तैनात करण्यासाठी एक महत्त्वाचा विचार आहे.
द्वारे सर्व घटकांसाठी मुक्त स्रोत त्यांच्या कार्यप्रवाहासाठी, संशोधक संपूर्ण प्रक्रियेचे पुनरुत्पादन करण्यायोग्य दृश्य प्रदान करतात. एंटरप्राइझ संघांसाठी, ही पारदर्शकता अमूल्य आहे. "विक्रेता लॉक-इन, लपविलेले पूर्वाग्रह किंवा अस्पष्ट डेटा स्त्रोतांबद्दल संबंधित व्यावसायिक नेत्यांसाठी, पारदर्शकतेची ही पातळी आवश्यक आहे." झांग यांनी नमूद केले. "हे टीम्सना डेटा सत्यापित करण्यास, नवीन डोमेनवर प्रवाह सानुकूलित करण्यास आणि कोणत्याही एक प्रदात्याकडून दीर्घकालीन स्वातंत्र्य राखण्यास सक्षम करते."
















