यूएस AI क्षेत्रातील राजकीय गडबड असूनही, चीनची AI प्रगती कोणत्याही अडथळ्याशिवाय वेगाने सुरू आहे.
आजच्या सुरुवातीला, ई-कॉमर्स दिग्गज अलीबाबाच्या AI संशोधकांच्या क्वेन टीमने, जे प्रामुख्याने शक्तिशाली आणि सक्षम मुक्त स्रोत क्वेन भाषा आणि मल्टीमॉडल एआय मॉडेल्सच्या वाढत्या कुटुंबाचा विकास आणि प्रकाशन करण्यावर लक्ष केंद्रित करते, त्यांच्या नवीनतम बॅचचे अनावरण केले, Qwen3.5 Small Model Series, ज्यामध्ये हे समाविष्ट आहे:
-
Qwen3.5-0.8B आणि 2B: दोन मॉडेल्स, दोन्हीसाठी ऑप्टिमाइझ केलेले "आकाराने लहान" आणि "जलद" कार्यप्रदर्शन, उच्च-एंड डिव्हाइसेसवर प्रोटोटाइपिंग आणि उपयोजनासाठी हेतू आहे जेथे बॅटरी आयुष्य गंभीर आहे.
-
Qwen3.5-4B: लाइटवेट एजंट्ससाठी एक शक्तिशाली मल्टीमॉडल बेस, 262,144 टोकन कॉन्टेक्स्ट विंडोला मुळात समर्थन देत आहे.
-
Qwen3.5-9B एक कॉम्पॅक्ट रिझनिंग मॉडेल जे त्याच्या मोठ्या यूएस स्पर्धकाला १३.५ पटीने मागे टाकते, OpenAI चे ओपन सोर्स gpt-oss-120B हे बहुभाषिक ज्ञान आणि पदवी-स्तरीय तर्कासह प्रमुख तृतीय-पक्ष बेंचमार्कवर
या दृष्टीकोनातून सांगायचे तर, ही मॉडेल्स जगभरातील कोणत्याही प्रयोगशाळेद्वारे अलीकडे पाठवलेल्या सर्वात लहान सामान्य-उद्देशीय मॉडेल्सच्या क्रमानुसार आहेत आणि MIT च्या LiquidAI च्या LFM2 मालिकेशी अधिक तुलना करता येतील, ज्यात ट्रिलियन अंदाजित पॅरामीटर्स (मॉडेल सेटिंग्ज) पेक्षा जास्त आहेत, ज्यात ट्रिलियन अंदाजित पॅरामीटर्स (मॉडेल सेटिंग्ज) आहेत ज्यांचा वापर केला जातो. मालिका
Apache 2.0 परवान्यांतर्गत मॉडेलचे वजन आता जागतिक स्तरावर उपलब्ध आहे – हगिंग फेस आणि मॉडेलस्कोपवर – आवश्यकतेनुसार सानुकूलनासह – एंटरप्राइझ आणि व्यावसायिक वापरासाठी आदर्श.
तंत्रज्ञान: हायब्रिड कार्यक्षमता आणि मूळ मल्टीमीडिया
Qwen3.5 मायक्रो-सीरीजचा तांत्रिक आधार मानक स्विच आर्किटेक्चर्समधून निघणे आहे. अलीबाबा एका कार्यक्षम हायब्रिड आर्किटेक्चरकडे वळले आहे जे तज्ञांच्या विरळ मिश्रणासह (MoE) गेटेड डेल्टा नेटवर्क (रेषीय लक्षाचा एक प्रकार) एकत्र करते.
हे संकरित दृष्टिकोनाला संबोधित करते "मेमरी भिंत" हे सहसा लहान मॉडेल मर्यादित करते; Gated Delta Networks वापरून, मॉडेल्स उच्च थ्रुपुट मिळवतात आणि अनुमानादरम्यान लक्षणीयपणे कमी विलंबता प्राप्त करतात.
शिवाय, हे मॉडेल मूळचे मल्टीमोडल आहेत. मागील पिढ्यांपेक्षा वेगळे "वर माघार घ्या" Qwen3.5, एक मजकूर मॉडेल व्हिजन एन्कोडर, मल्टीमोडल टोकन्सवर प्रारंभिक एम्बेडिंग वापरून प्रशिक्षित केले गेले. हे मॉडेल 4B आणि 9B ला व्हिज्युअल समज – जसे की वापरकर्ता इंटरफेस घटक वाचणे किंवा व्हिडिओमध्ये ऑब्जेक्ट्स मोजणे – ज्यासाठी पूर्वी मॉडेल्सना त्यांच्या आकाराच्या दहापट आवश्यक होते ते प्रदर्शित करण्यास अनुमती देते.
बेंचमार्किंग "लहान" मालिका: आकाराला नकार देणारी कामगिरी
नवीन जारी केलेला बेंचमार्क डेटा दर्शवितो की हे कॉम्पॅक्ट मॉडेल्स मोठ्या उद्योग मानकांशी किती आक्रमकपणे स्पर्धा करतात — आणि अनेकदा ओलांडतात. Qwen3.5-9B आणि Qwen3.5-4B रूपे कार्यक्षमतेत, विशेषत: मल्टीमोडल आणि तर्कसंगत कार्यांमध्ये पिढीगत उडी दर्शवतात.
बहुविध वर्चस्व: MMMU-Pro व्हिज्युअल रिजनिंग टेस्टवर, Qwen3.5-9B ने 70.1 गुण मिळवले, जेमिनी 2.5 फ्लॅश-लाइट (59.7) आणि अगदी विशेषज्ञ Qwen3-VL-30B-A3B (63.0).
पदवी स्तरावर तर्कशास्त्र: GPQA डायमंड बेंचमार्कमध्ये, 9B मॉडेलने gpt-oss-120b (80.1) ला मागे टाकत 81.7 चा स्कोअर गाठला, दहापट पेक्षा जास्त पॅरामीटर्स असलेले मॉडेल.
व्हिडिओ समजून घेणे: मालिका व्हिडिओ अनुमानामध्ये उत्कृष्ट कामगिरी दर्शवते. व्हिडिओ-MME बेंचमार्कमध्ये (सबटायटल्ससह), Qwen3.5-9B ने 84.5 स्कोअर केले आणि 4B ने 83.5 स्कोअर केले, जेमिनी 2.5 फ्लॅश-लाइट (74.6) ला लक्षणीयरीत्या उत्कृष्ट केले.
ऍथलेटिक पराक्रम: फेब्रुवारी 2025 च्या HMMT (हार्वर्ड-MIT गणित अभ्यासक्रम) मूल्यमापनात, 9B मॉडेलने 83.2 गुण मिळवले, तर 4B प्रकाराने 74.0 गुण मिळवले, हे सिद्ध करते की उच्च-स्तरीय STEM तर्काला यापुढे मोठ्या संगणकीय क्लस्टरची आवश्यकता नाही.
दस्तऐवज आणि बहुभाषिक ज्ञान: 87.7 च्या स्कोअरसह OmniDocBench v1.5 वर दस्तऐवज ओळखण्यात 9B आघाडीवर आहे. दरम्यान, हे Gpt-oss-120b (78.2) च्या स्कोअरसह 81.2 गुणांसह MMMLU वर उच्च-स्तरीय बहुभाषिक उपस्थिती राखते.
समुदाय अभिप्राय: "अधिक बुद्धिमत्ता, कमी गणना"
एकाच GPU वर चालण्यास सक्षम असलेल्या अल्ट्रा-स्मॉल, पॉवरफुल, ओपन सोर्स Qwen3.5-Medium च्या गेल्या आठवड्यात रिलीज झाल्यानंतर, Qwen3.5-Small Models मालिका आणि त्याच्या छोट्या प्रक्रिया आणि फूटप्रिंट आवश्यकतांच्या घोषणेने विकासकांमध्ये त्वरित स्वारस्य निर्माण केले… "प्रथम स्थानिक" ऍम्नेस्टी इंटरनॅशनल.
"अधिक बुद्धिमत्ता, कमी गणना" क्लाउड-आधारित मॉडेल्ससाठी पर्याय शोधत असलेल्या वापरकर्त्यांसह ते प्रतिध्वनित झाले.
ब्लूशेल एआय मधील कृत्रिम बुद्धिमत्ता आणि तंत्रज्ञानाचे प्राध्यापक पॉल कोव्हर्ट यांनी कार्यक्षमतेतील या झेपबद्दल उद्योगाला धक्का दिला.
"हे कसे शक्य आहे?!" गुप्त X वर लिहिले. "Qwen ने 4 नवीन मॉडेल जारी केले आहेत आणि 4B आवृत्तीची क्षमता मागील 80B A3B सारखीच आहे. 9b हे 13 पट लहान असताना GPT OSS 120b सारखे चांगले आहे!"
कव्हर्टचे विश्लेषण या आर्किटेक्चरल नफ्यांचे व्यावहारिक परिणाम हायलाइट करते:
-
"हे कोणत्याही लॅपटॉपवर प्ले केले जाऊ शकते"
-
"तुमच्या फोनसाठी 0.8B आणि 2B"
-
"ऑफलाइन आणि मुक्त स्रोत"
करगुल स्टुडिओचे विकसक करण किंडर म्हणाले: "माझ्या M1 MacBook Air वर स्थानिक पातळीवर ही मॉडेल्स (प्ले केली जाऊ शकतात) विनामूल्य."
ही भावना "आश्चर्यकारक" प्रवेशयोग्यता संपूर्ण विकसक इकोसिस्टममध्ये प्रतिकृती केली जाते. एका वापरकर्त्याने नमूद केले की 4B मॉडेल ए म्हणून कार्य करते "शक्तिशाली मल्टीमीडिया बेस" त्यांनी ए "मोबाइल विकसकांसाठी गेम चेंजर" ज्यांना CPU लोड न वाढवता स्क्रीन वाचन क्षमता आवश्यक आहे.
खरं तर, हगिंग फेसचे डेव्हलपर Xenova, नवीन Qwen3.5 Small Model मालिका थेट वापरकर्त्याच्या वेब ब्राउझरमध्ये चालू शकते आणि व्हिडिओ विश्लेषणासारख्या जटिल आणि पूर्वी उच्च-संगणक ऑपरेशन्स करू शकते.
संशोधकांनी निर्देश आवृत्त्यांसह कोर मॉडेल्सच्या प्रकाशनाची प्रशंसा केली, हे लक्षात घेऊन की ते मूलभूत समर्थन प्रदान करतात "वास्तविक जगात औद्योगिक नवकल्पना."
कोअर मॉडेल्स आवृत्तीचे विशेषतः एंटरप्राइझ आणि संशोधन कार्यसंघांद्वारे कौतुक केले जाते कारण ते प्रदान करते … "कोरी पाटी" हे RLHF (मानवी फीडबॅकमधून मजबुतीकरण शिक्षण) किंवा SFT (पर्यवेक्षित फाइन-ट्यूनिंग) डेटाच्या विशिष्ट संचाद्वारे पक्षपाती नाही, ज्यामुळे अनेकदा "नकार" किंवा विशिष्ट संभाषण नमुने जे पूर्ववत करणे कठीण आहे.
आता, बेसिक मॉडेल्ससह, ज्यांना विशिष्ट कार्ये आणि उद्देशांसाठी मॉडेल सानुकूलित करण्यात स्वारस्य आहे त्यांच्यासाठी एक सोपा प्रारंभ बिंदू आहे, कारण ते आता अलिबाबाच्या सूचनांना न जुमानता त्यांचे स्वतःचे निर्देश ट्यूनिंग आणि त्यानंतरचे प्रशिक्षण लागू करू शकतात.
परवाना: खुल्या इकोसिस्टमसाठी विजय
अलिबाबाने अपाचे 2.0 परवान्याअंतर्गत Qwen3.5 मालिकेसाठी वजन आणि कॉन्फिगरेशन फाइल्स जारी केल्या आहेत. हा अनुज्ञेय परवाना व्यावसायिक वापर, फेरफार आणि वितरणास शुल्क न देता परवानगी देतो, परिणामी काढून टाकले जाते "विक्रेता लॉक" प्रोप्रायटरी API सह संबद्ध.
-
व्यावसायिक वापर: विकसक रॉयल्टी-मुक्त व्यावसायिक उत्पादनांमध्ये टेम्पलेट्स समाकलित करू शकतात.
-
दुरुस्ती: विशेष आवृत्त्या तयार करण्यासाठी संघ ट्यून (SFT) करू शकतात किंवा RLHF लागू करू शकतात.
-
वितरण: ओलामा सारख्या सुरुवातीच्या मूळ एआय ऍप्लिकेशन्समध्ये मॉडेल्सची पुनर्नियुक्ती केली जाऊ शकते.
संदर्भात बातम्या टाकणे: लहान गोष्टी सध्या इतके महत्त्वाचे का आहेत
Qwen3.5 मिनी मालिका रिलीझ एका झटपटात येते "एजंट पुनर्रचना." आम्ही साध्या चॅटबॉट्सच्या पलीकडे गेलो आहोत; स्वायत्तता हे आता ध्येय आहे. स्वतंत्र एजंट असणे आवश्यक आहे "तो विचार करतो" (कारण), "पहा" (मल्टीमीडिया), आणि "प्रतिनिधित्व करते" (टूल वापरा). ट्रिलियन-पॅरामीटर मॉडेल्ससह हे करणे खूप महाग असले तरी, देशांतर्गत Qwen3.5-9B हे लूप खर्चाच्या काही अंशांसाठी लागू करू शकतात.
1 दशलक्ष एजंट्ससह वातावरणात रीइन्फोर्समेंट लर्निंग (RL) स्केल करून, अलीबाबाने या छोट्या मॉडेल्सना सक्षम केले आहे… "मानव-सुसंगत शासन," त्यांना डेस्कटॉपचे आयोजन करणे किंवा कोडमध्ये अभियांत्रिकी गेमप्लेचे फुटेज रिव्हर्स करणे यासारखी अनेक-चरण उद्दिष्टे हाताळण्याची परवानगी देणे. स्मार्टफोनला उर्जा देणारे 0.8B मॉडेल असो किंवा एनक्रिप्शन टर्मिनलला उर्जा देणारे 9B मॉडेल असो, Qwen3.5 मालिका प्रभावीपणे लोकशाहीकरण करते "एजंट युग."
पासून Qwen3.5 मालिका रूपांतरित होते "चॅटबिट्स" करण्यासाठी "मूळ मल्टीमीडिया एजंट" हे संस्था बुद्धिमत्ता वितरीत करण्याच्या पद्धती बदलते. अत्याधुनिक तर्कशास्त्र हस्तांतरित करून "धार"- वैयक्तिक उपकरणे आणि ऑन-प्रिमाइसेस सर्व्हर – संस्था अशा कार्यांना स्वयंचलित करू शकतात ज्यांना पूर्वी महागडे क्लाउड API किंवा उच्च विलंब प्रक्रिया आवश्यक होती.
धोरणात्मक एंटरप्राइझ अनुप्रयोग आणि विचार
मॉडेल 0.8B ते 9B कार्यक्षमतेसाठी पुन्हा डिझाइन केले गेले आहेत, संकरित आर्किटेक्चर वापरून जे प्रत्येक कार्यासाठी नेटवर्कचे फक्त आवश्यक भाग सक्रिय करते.
-
व्हिज्युअल वर्कफ्लो ऑटोमेशन: वापरा "पिक्सेल लेव्हल ग्राउंडिंग," हे फॉर्म डेस्कटॉप किंवा मोबाइल वापरकर्ता इंटरफेस नेव्हिगेट करू शकतात, फॉर्म भरू शकतात आणि नैसर्गिक भाषेच्या सूचनांवर आधारित फाइल्स व्यवस्थित करू शकतात.
-
जटिल कागदपत्रांचे विश्लेषण करा: दस्तऐवज आकलन बेंचमार्कवर 90% पेक्षा जास्त गुणांसह, ते विविध फॉर्म आणि चार्टमधून संरचित डेटा काढण्यासाठी स्वतंत्र OCR आणि लेआउट विश्लेषण पाइपलाइन बदलू शकतात.
-
स्वतंत्र कोडिंग आणि रिफॅक्टरिंग: प्रोडक्शन-रेडी रिफॅक्टरिंग किंवा ऑटोमेटेड डीबगिंगसाठी संस्था संपूर्ण रेपॉजिटरीज (कोडच्या 400,000 ओळींपर्यंत) एक दशलक्ष संदर्भ विंडोमध्ये फीड करू शकतात.
-
रिअल-टाइम एज विश्लेषण: 0.8B आणि 2B मॉडेल्स मोबाईल उपकरणांसाठी डिझाइन केलेले आहेत, ऑफलाइन व्हिडिओ सारांश (8 fps वर 60 सेकंदांपर्यंत) आणि बॅटरी आयुष्यावर कर न लावता अवकाशीय तर्क सक्षम करते.
लहान मॉडेल्सच्या ऑन-प्रिमाइसेस तैनातीमुळे कोणत्या एंटरप्राइझ फंक्शन्सना सर्वाधिक फायदा होईल हे खालील सारणी दाखवते.
|
नोकरी |
मूलभूत फायदा |
मुख्य वापर केस |
|
सॉफ्टवेअर अभियांत्रिकी |
स्थानिक कोड बुद्धिमत्ता |
रेपॉजिटरी-स्तरीय रिफॅक्टरिंग आणि टर्मिनल-आधारित प्रॉक्सी एन्क्रिप्शन. |
|
ऑपरेशन्स आणि आयटी |
सुरक्षित ऑटोमेशन |
मल्टी-स्टेप सिस्टम सेटिंग्ज आणि फाइल व्यवस्थापन कार्ये स्थानिक पातळीवर स्वयंचलित करा. |
|
उत्पादन आणि वापरकर्ता अनुभव |
एज संवाद |
नेटिव्ह मल्टीमीडिया लॉजिक थेट मोबाइल/डेस्कटॉप ॲप्लिकेशन्समध्ये समाकलित करा. |
|
डेटा आणि विश्लेषण |
प्रभावी उतारा |
जटिल व्हिज्युअल अहवालांमधून उच्च-अचूकता OCR आणि संरचित डेटा काढणे. |
हे मॉडेल अत्यंत सक्षम असताना, त्यांची श्रेणी लहान आहे आणि "एजंट" विशिष्ट ऑपरेशनल इनपुटचे स्वरूप "माहिती" कोणत्या संघांनी निरीक्षण करावे.
-
मतिभ्रम मालिका: अनेक चरणांमध्ये "एजंट" कार्यप्रवाह, सुरुवातीच्या चरणात एक लहान त्रुटी होऊ शकते … "धबधबा" एजंट चुकीच्या किंवा निरर्थक योजनेचे अनुसरण करतो तेव्हा अपयश.
-
ग्रीनफील्ड कोडिंग विरुद्ध त्रुटी सुधारणे: हे मॉडेल नवीन लिहिण्यात उत्कृष्ट असताना "ग्रीनफिल्ड" कोड, त्यांना विद्यमान जटिल लेगसी सिस्टम डीबगिंग किंवा सुधारित करण्यात अडचण येऊ शकते.
-
मेमरी आणि VRAM आवश्यकता: पर्यंत "लहान" मॉडेल्स (जसे की 9B) उच्च-थ्रूपुट अनुमानांसाठी मोठ्या VRAM आवश्यक आहेत; द "स्मृती पदचिन्ह" हे जास्त आहे कारण पॅरामीटर्सची एकूण संख्या अजूनही GPU जागा घेते.
-
नियामक निवास आणि डेटा: चीन-आधारित प्रदात्याचे मॉडेल वापरल्याने काही अधिकारक्षेत्रातील डेटाच्या ठावठिकाणाविषयी प्रश्न निर्माण होऊ शकतात, जरी मुक्त-स्रोत Apache 2.0 आवृत्ती होस्टिंगला परवानगी देते "सार्वभौमत्व" स्थानिक ढग.
कंपन्यांनी प्राधान्य दिले पाहिजे "पडताळण्यायोग्य" कार्ये – जसे की प्रोग्रामिंग, गणित किंवा खालील सूचना – जिथे आउटपुट हे प्रतिबंधित करण्यासाठी पूर्व-परिभाषित नियमांनुसार स्वयंचलितपणे तपासले जाऊ शकते "बोनस हॅकिंग" किंवा मूक अपयश
















