उद्योगातील अग्रगण्य कृत्रिम बुद्धिमत्ता कव्हर करण्यासाठी नवीनतम अद्यतने आणि विशेष सामग्री मिळविण्यासाठी दररोज आणि साप्ताहिक वृत्तपत्रांमध्ये सामील व्हा. अधिक जाणून घ्या
चायनीज ई -कॉमर्स आणि वेब स्पेसिफिकेशन्सच्या क्वेन टीमने क्यूडब्ल्यूईएन 3 म्हणून ओळखल्या जाणार्या मल्टीमीडिया ओपन सोर्स स्त्रोतांची एक नवीन मालिका सुरू केली, जी ओपन मॉडेल्समधील नवीनतम दिसणारी आणि ओपनई आणि गूगल सारख्या रॉयल मॉडेल्ससाठी कामगिरी करत आहे.
क्वेन 3 मालिकेत एकूण आठ नवीन मॉडेल्स (!) साठी “अनुभवाचे मिश्रण” आणि सहा दाट मॉडेल्स आहेत. “बाह्य तज्ञ” पध्दतीमध्ये एकामध्ये अनेक प्रकारच्या विशिष्ट मॉडेल्सची उपस्थिती समाविष्ट आहे, केवळ मॉडेलच्या अंतर्गत सेटिंग्जमध्ये आवश्यक असल्यास सक्रिय केलेल्या कार्यासाठी (पॅरामीटर्स म्हणून ओळखले जाते) केवळ या संबंधित मॉडेल्स सक्रिय करताना. हे ओपन सोर्स फ्रेंच एआय स्टार्टअप मिस्त्राल यांनी प्रसारित केले आहे.
टीमच्या म्हणण्यानुसार, क्वेन 3 मधील ए 22 बी मधील 235 अब्ज लोकांचे शिक्षक अरेनहँड (सॉफ्टवेअर आणि गणित अभियांत्रिकीमधील 500 वापरकर्ता प्रश्नांसह) आणि Google Google New new new -proinis च्या प्रॉक्सिमिटीसह डीपसीक आणि ओपनईच्या ओपेरिटरी ओ 1 च्या खुल्या कामगिरीपेक्षा अधिक आहेत.
सर्वसाधारणपणे, मानक डेटा क्वेन 3-23 बी-ए 22 बी लोकांसाठी उपलब्ध असलेल्या सर्वात शक्तिशाली मॉडेलपैकी एक म्हणून स्थान आहे, मुख्य उद्योग शोसाठी समानता किंवा उत्कृष्टता प्राप्त करते.
संकरित सिद्धांत (विचार)
विज्ञान, क्रीडा आणि इतर अभियांत्रिकीमध्ये सर्वात कठीण जाण्यासाठी सर्वात कठीण आणि वेळ आणि तीव्र प्रतिक्रिया आणि अधिक चरणांमध्ये आणि अधिक चरणांमध्ये बदलू शकतील अशा विज्ञान, खेळ आणि इतर अभियांत्रिकीमधील सर्वात कठीण. नॉस रिसर्च आणि इतर स्टार्टअप्स आणि कृत्रिम बुद्धिमत्तेच्या संशोधन मेळाव्यांद्वारे हा एक अग्रगण्य दृष्टीकोन आहे.
क्वेन 3 सह, वापरकर्ते क्वेन चॅटवर या मार्गावर निर्दिष्ट बटणाचा वापर करून किंवा विशिष्ट दाव्यांचा समावेश करून सर्वात तीव्र “विचार मोडमध्ये” व्यस्त राहू शकतात जसे की जसे की /think
किंवा /no_think
स्थानिक किंवा अनुप्रयोग प्रोग्रामिंग इंटरफेसद्वारे मॉडेल प्रकाशित करताना, टास्कच्या जटिलतेवर अवलंबून लवचिक वापरास अनुमती देते.
वापरकर्ते आता या मॉडेल्समध्ये प्रवेश आणि प्रकाशित करू शकतात जसे की मिठी, मॉडेलस्कोप, कागे आणि गीथब यासारख्या प्लॅटफॉर्मद्वारे तसेच त्यांच्याशी थेट क्वेन चॅट आणि मोबाइल अनुप्रयोगांद्वारे त्यांच्याशी संवाद साधू शकतात. आवृत्तीमध्ये तज्ञ (एमईई) आणि दाट मॉडेलचे मिश्रण दोन्ही समाविष्ट आहेत, हे सर्व ओपन सोर्स अपाचे 2.0 परवान्याअंतर्गत उपलब्ध आहेत.
माझ्या क्वेन चॅटच्या माझ्या थोडक्यात वापरामध्ये, तो तुलनेने वेगवान प्रतिमा तयार करण्यास आणि द्रुतगतीने जुळवून घेण्यास सक्षम होता – विशेषत: जेव्हा शैलीशी जुळत असताना मजकूर आधीच एकत्र केला गेला होता. तथापि, यामुळे मला बर्याचदा लॉग इन करण्यास आणि नेहमीच्या चिनी सामग्री निर्बंध (जसे की टियानॅनमेन स्क्वेअर निषेधांशी संबंधित दावे किंवा प्रतिसादांवर बंदी घालण्यास प्रवृत्त केले) नेले.

एमईई ऑफर व्यतिरिक्त, क्वेन 3 मध्ये भिन्न मानकांवर दाट मॉडेल समाविष्ट आहेत: क्यूवेन 3-32 बी, क्वेन 3-14 बी, क्वेन 3-8 बी, क्वेन 3-4 बी, क्वेन 3-1.7 बी आणि क्वेन 3-0.6 बी.
हे मॉडेल आकार आणि आर्किटेक्चरमध्ये भिन्न आहेत, कारण विविध गरजा आणि गणिताच्या बजेटनुसार वापरकर्ता पर्याय ऑफर केले जातात.
क्वेन 3 मॉडेल्स बहु -भाषेच्या समर्थनाचा मोठ्या प्रमाणात विस्तार करीत आहेत, ज्यात आता 119 भाषा आणि मुख्य भाषा कुटुंबांमध्ये टोन समाविष्ट आहेत. हे जागतिक स्तरावर मॉडेल्सच्या संभाव्य अनुप्रयोगांचा विस्तार करते, भाषिक संदर्भांच्या विस्तृत श्रेणीमध्ये संशोधन आणि प्रकाशन सुलभ करते.
प्रशिक्षण मॉडेल आणि आर्किटेक्चर
ठराविक प्रशिक्षणाच्या बाबतीत, QWEN3 त्याच्या पूर्ववर्ती, Qwen2.5 पासून एक मोठे चरण दर्शविते. प्रीमॅन्स्ट्रुअल डेटाची मात्रा सुमारे 36 ट्रिलियन प्रतीकात दुप्पट होते.
डेटा स्रोतांमध्ये वेब क्रॉल्स, पीडीएफ -सारखी दस्तऐवज आणि गणित आणि कोडिंगवर लक्ष केंद्रित करणार्या मागील क्यूएनई मॉडेल्सचा वापर करून तयार केलेली कृत्रिम सामग्री समाविष्ट आहे.
प्रशिक्षण पाईपलाईनमध्ये तीन -स्टेज प्रशिक्षण प्रक्रिया असते, त्यानंतर संकरित क्षमता सक्षम करण्यासाठी आणि विचार न करता चार -स्टेज पोस्ट -ट्रेडिंग पुनरावृत्ती होते. QWEN3 च्या दाट मूलभूत मॉडेल्समधील प्रशिक्षण सुधारणांमुळे QWEN2.5 मॉडेल्सच्या कार्यक्षमतेस एकसारखे किंवा ओलांडण्यास अनुमती देते.
मल्टी -वापर प्रकाशन पर्याय. वापरकर्ते एसजीएलएंग आणि व्हीएलएम सारख्या फ्रेमवर्कचा वापर करून QWEN3 मॉडेल समाकलित करू शकतात, जे दोन्ही एंड -अप -टूई प्रदान करतात.
स्थानिक वापरासाठी, याची शिफारस ओलामा, एलएमएसटीयूडीओ, एमएलएक्स, लामा. सीपीपी आणि केट्रान्सफॉर्मर्स सारख्या पर्यायांद्वारे केली जाते. याव्यतिरिक्त, एजंटच्या मॉडेल्सच्या क्षमतेत रस असलेल्या वापरकर्त्यांना क्यूवेन-एजंट टूल्स ग्रुप एक्सप्लोर करण्यास प्रोत्साहित केले जाते, जे साधने सुलभ करते.
क्वेन टीमचे सदस्य जुन्यांग लिन यांनी एक्सवर भाष्य केले की क्यूएनई 3 च्या बांधकामात गंभीर तांत्रिक आव्हानांचा सामना करावा लागला आहे परंतु स्केलिंग मजबुतीकरण, मल्टी -फील्ड डेटा बजेट, उच्च -गुणवत्तेच्या बलिदानाशिवाय बहु -भाषेच्या कामगिरीचा विस्तार यासारख्या सर्वात कमी मोहक गोष्टींचा समावेश आहे.
लिन यांनी असेही निदर्शनास आणून दिले की कार्यसंघ वास्तविक जगातील कार्यांवर दीर्घ विचार करण्यास सक्षम असलेल्या प्रशिक्षण एजंट्सकडे लक्ष केंद्रित करते.
संस्थेच्या निर्णय निर्मात्यांसाठी याचा अर्थ काय आहे?
अभियांत्रिकी कार्यसंघ आठवड्यांऐवजी काही तासांत नवीन मॉडेलला अंतिम -सुसंगत ओपनई -सुसंगत बिंदू निर्देशित करू शकतात. एमईई (सक्रिय 22 बी असलेले 235 बी प्रवासी, 3 बी कार्यकर्त्यासह 30 बी) जाड मॉडेल 20-30 बीसाठी अंदाजे जीपीयू मेमरी कॉस्टमध्ये जीपीटी -4 श्रेणी ऑफर करते.
अधिकृत एलओआरए आणि क्यूएलओआरए हुक तृतीय पक्षाच्या विक्रेत्यास मालकीचा डेटा न पाठविल्याशिवाय खाजगी दबावाची परवानगी देतो.
0.6 बी ते 32 बी पर्यंत दाट व्हेरिएबल्स बनवा लॅपटॉपवरील प्रारंभिक मॉडेलवर आणि पुनर्लेखन दाव्यांशिवाय त्यांची श्रेणी एकाधिक जीपीयू गटांमध्ये विस्तारित करते.
अंतर्गत वजनाच्या ऑपरेशनचा अर्थ असा आहे की सर्व दावे आणि आउटपुट रेकॉर्ड आणि शोधले जाऊ शकतात. एमओई स्पार्सिटी प्रत्येक कॉलसाठी सक्रिय पॅरामीटर्सची संख्या कमी करते आणि अनुमान हल्ल्याची पृष्ठभाग कापते.
अपाचे-2.0 परवाना वापराच्या आधारे कायदेशीर अडथळे दूर करते, जरी चीन-आधारित विक्रेत्याने प्रशिक्षित मॉडेल वापरण्यासाठी संस्थांना निर्यात आणि प्रशासनाच्या परिणामाचा आढावा घ्यावा लागतो.
तथापि, त्याच वेळी, हे दीपसीक, टेंन्सेंट, बायडेन्स – तसेच ओपनई, गूगल, मायक्रोसॉफ्ट, मिच्रोफ, Amazon मेझॉन, मेटा आणि इतर यासारख्या उत्तर अमेरिकन मॉडेल्सची संख्या आणि वाढती संख्या यासह इतर चिनी खेळाडूंना लागू पर्याय देखील प्रदान करते. परवानगीयोग्य अपाचे २.० परवाना – जो अमर्यादित व्यावसायिक वापरास अनुमती देतो – मेटा सारख्या इतर मुक्त स्त्रोत खेळाडूंवर एक चांगला फायदा आहे, ज्यांचे परवाने अधिक प्रतिबंधित आहेत.
शिवाय, शक्तिशाली आणि प्रवेशयोग्य मॉडेल्स प्रदान करण्यासाठी कृत्रिम बुद्धिमत्ता प्रदात्यांमधील शर्यत अद्याप खूप स्पर्धात्मक आहे आणि कृत्रिम बुद्धिमत्ता एजंट्स आणि कार्य प्रगतीच्या नवीन मॉडेल्सचे मूल्यांकन करण्यासाठी खर्च कमी करण्याच्या दृष्टीने स्मार्ट संस्था लवचिक आणि खुली राहिली पाहिजेत.
आम्ही पुढे पाहतो
क्वेन टीम केवळ हळूहळू सुधारणा म्हणूनच नाही तर कृत्रिम जनरल इंटेलिजेंस (एजीआय) आणि कृत्रिम तज्ञ (एएसआय) मधील भविष्यातील उद्दीष्टांच्या दिशेने एक महत्त्वाचे पाऊल म्हणून, कृत्रिम बुद्धिमत्ता मानवांपेक्षा बुद्धिमान आहे.
खालील क्यूवेन योजनांमध्ये स्केलिंग डेटा आणि मॉडेल आकार अधिक, संदर्भ लांबी विस्तृत करणे, पद्धत समर्थन वाढविणे, पर्यावरणीय अभिप्राय यंत्रणेसह मजबुतीकरण शिक्षण वाढविणे समाविष्ट आहे.
मोठ्या प्रमाणात कृत्रिम बुद्धिमत्ता संशोधनाच्या नैसर्गिक देखाव्याच्या निरंतर विकासासह, प्रवेशयोग्य परवान्याअंतर्गत वजनाची क्यूएन 3 आवृत्ती आणखी एक महत्त्वाचा टप्पा दर्शवते, ज्यामुळे संशोधक, विकसक आणि संस्था ज्या ताज्या मॉडेलवर एलएलएमसह नाविन्यपूर्ण आहेत त्यांना वाटप केलेले अडथळे कमी करतात.
Source link