ॲलन इन्स्टिट्यूट फॉर आर्टिफिशियल इंटेलिजेंस (Ai2) ने अलीकडेच प्रसिद्ध केले जे त्याचे सर्वात शक्तिशाली म्हणून वर्णन करते आजपर्यंतच्या मॉडेल्सचे कुटुंब, Olmo 3. परंतु कंपनीने मॉडेल्सची पुनरावृत्ती करणे सुरू ठेवले आणि ओल्मो 3.1 तयार करण्यासाठी त्याच्या रीइन्फोर्समेंट लर्निंग (RL) प्रक्रियेचा विस्तार केला.

नवीन Olmo 3.1 मॉडेल संस्थांसाठी कार्यक्षमता, पारदर्शकता आणि नियंत्रण यावर लक्ष केंद्रित करतात.

Ai2 ने Olmo 2 च्या तीनपैकी दोन आवृत्त्या अपडेट केल्या आहेत: Olmo 3.1 Think 32B, प्रगत संशोधनासाठी सुधारित केलेला मुख्य फॉर्म आणि Olmo 3.1 Instruct 32B, खालील सूचना, मल्टी-टर्न डायलॉग आणि टूल्स वापरण्यासाठी डिझाइन केलेले आहे.

ओल्मो 3 ची तिसरी आवृत्ती आहे, ओल्मो 3-बेस फॉर प्रोग्रामिंग, कॉम्प्रिहेन्शन आणि मॅथ. हे सतत फाइन-ट्यूनिंगसाठी देखील चांगले कार्य करते.

Ai2 ने सांगितले की, Olmo 3 Think 32B ला Olmo 3.1 वर श्रेणीसुधारित करण्यासाठी, त्याच्या संशोधकांनी त्यांचे सर्वोत्तम RL ऑपरेशन दीर्घ प्रशिक्षण वेळापत्रकासह वाढवले.

“मूळ Olmo 3 लाँच झाल्यानंतर, आम्ही Olmo 3 32B Think साठी आमचे RL प्रशिक्षण रन पुन्हा सुरू केले, आमच्या Dolci-Think-RL डेटासेटवर अतिरिक्त धावांसह 224 GPU वर अतिरिक्त 21 दिवसांचे प्रशिक्षण,” Ai2 ने एका प्रेस रिलीजमध्ये म्हटले आहे. ब्लॉग पोस्ट. “यामुळे ओल्मो 3.1 32B थिंक झाला, ज्याने संपूर्ण गणित, तर्क आणि सूचना फॉलो-अप बेंचमार्कमध्ये लक्षणीय नफा मिळवला: AIME वर 5 पेक्षा जास्त गुणांची सुधारणा, ZebraLogic वर 4 पेक्षा जास्त गुण, IFEval वर 4 पेक्षा जास्त गुण, आणि IFB- मजबूत कार्यप्रदर्शनासह 20 पेक्षा जास्त गुण, IFB-मल्टी-कॉम्प्लेक्स प्रोग्राम सोबत.”

ओल्मो 3.1 इंस्ट्रक्टवर पोहोचण्यासाठी, एआय2 ने सांगितले की, संशोधकांनी लहान इंस्ट्रक्ट साईज, 7B, च्या मागे रेसिपी मोठ्या मॉडेलवर लागू केली आहे.

Olmo 3.1 सूचना 32B आहे "हे चॅट, टूल वापर आणि मल्टी-टर्न डायलॉगसाठी ऑप्टिमाइझ केले आहे – ते Olmo 3 Instruct 7B चे अधिक उच्च-कार्यक्षमता असलेले आणि वास्तविक-जगातील अनुप्रयोगांसाठी तयार आहे. X वर शेअर करा.

आत्तासाठी, नवीन चेकपॉईंट Ai2 प्लेग्राउंड किंवा हगिंग फेसवर उपलब्ध आहेत, API ऍक्सेस लवकरच येत आहेत.

बेंचमार्कवर चांगली कामगिरी

ओल्मो 3.1 मॉडेल्सने बेंचमार्क चाचण्यांमध्ये चांगली कामगिरी केली, अंदाजानुसार ओल्मो 3 मॉडेल्सपेक्षा जास्त कामगिरी केली.

Olmo 3.1 Think ने AIME 2025 बेंचमार्क मधील Qwen 3 32B मॉडेलला मागे टाकले आणि Gemma 27B च्या जवळ कामगिरी केली.

Olmo 3.1 Instruct ने त्याच्या ओपन सोर्स समकक्षांच्या तुलनेत जोरदार कामगिरी केली, अगदी गणिताच्या बेंचमार्कमध्ये Gemma 3 सारख्या मॉडेललाही मात दिली.

“Olmo 3.1 32B Instruct हे चॅट, टूल वापर आणि मल्टी-टर्न डायलॉगसाठी डिझाइन केलेले एक विस्तृत-श्रेणीचे निर्देश मॉडेल आहे. Olmo 3.1 32B इंस्ट्रक्ट हे आजपर्यंतचे सर्वात सक्षम पूर्णपणे ओपन चॅट मॉडेल आहे आणि – आमच्या मूल्यमापनानुसार – 32B श्रेणीतील सर्वात शक्तिशाली पूर्णपणे ओपन इंस्ट्रक्शन मॉडेल,” कंपनीने म्हटले आहे.

Ai2 ने त्याचे RL-Zero 7B मॉडेल देखील गणित आणि प्रोग्रामिंगसाठी अपग्रेड केले आहेत. X मध्ये, कंपनीने सांगितले की दोन्ही मॉडेल्सना दीर्घ, अधिक स्थिर प्रशिक्षण कालावधीचा फायदा झाला.

पारदर्शकता आणि मुक्त स्रोतासाठी वचनबद्धता

Ai2 ने यापूर्वी VentureBeat ला सांगितले होते की त्यांनी संघटना आणि संशोधन प्रयोगशाळांना अधिक नियंत्रण आणि मॉडेलमध्ये जाणारा डेटा आणि प्रशिक्षण समजून देण्यासाठी Olmo 3 मॉडेल संच डिझाइन केले आहे.

संस्था मॉडेल डेटा मिक्समध्ये जोडू शकतात आणि काय जोडले गेले आहे ते शिकण्यासाठी ते पुन्हा प्रशिक्षित करू शकतात.

ही Ai2 ची दीर्घकाळापासूनची वचनबद्धता आहे, जी वितरित देखील करते OlmoTrace नावाचे साधन LLM चे आउटपुट त्याच्या प्रशिक्षण डेटाशी किती चांगले जुळते याचा मागोवा घेते.

“एकत्रितपणे, Olmo 3.1 Think 32B आणि Olmo 3.1 Instruct 32B दाखवतात की मोकळेपणा आणि कार्यप्रदर्शन एकत्र प्रगती करू शकतात. समान मॉडेल प्रवाह वाढवून, आम्ही डेटा, कोड आणि प्रशिक्षण निर्णयांबाबत एंड-टू-एंड पारदर्शकता राखून क्षमता सुधारणे सुरू ठेवतो,” Ai2 म्हणाले.

Source link