आता-प्रसिद्ध Qwen AI डेव्हलपमेंट टीमने ते पुन्हा केले आहे: फक्त एक दिवसापूर्वी, त्यांनी Qwen3.5 मध्यम मॉडेल मालिका जारी केली आहे ज्यामध्ये प्रॉक्सी टूल इनव्होकेशनसाठी समर्थनासह चार नवीन मोठ्या भाषा मॉडेल्स (LLMs) आहेत, त्यापैकी तीन ओपन सोर्स Apache 2.0 मानक परवान्याअंतर्गत एंटरप्राइजेस आणि स्वतंत्र विकासक यांच्या व्यावसायिक वापरासाठी उपलब्ध आहेत:
-
Qwen3.5-35B-A3B
-
Qwen3.5-122B-A10B
-
Qwen3.5-27B
विकसक ते आता हगिंग फेस आणि मॉडेलस्कोपवर डाउनलोड करू शकतात. चौथे मॉडेल, Qwen3.5-Flash, मालकीचे असल्याचे दिसते आणि ते फक्त Alibaba Cloud Model Studio API द्वारे उपलब्ध आहे, परंतु तरीही ते पश्चिमेकडील इतर मॉडेल्सच्या तुलनेत मजबूत किमतीचा फायदा देते (खालील किंमत तुलना सारणी पहा).
परंतु ओपन सोर्स मॉडेल्समधील मोठा विकास हा आहे की ते OpenAI किंवा Anthropic सारख्या प्रमुख यूएस स्टार्टअप्सच्या समान आकाराच्या मालकीच्या मॉडेलसाठी तृतीय-पक्ष बेंचमार्क चाचण्यांमध्ये तुलनेने उच्च कार्यप्रदर्शन देतात, प्रत्यक्षात OpenAI च्या GPT-5-mini आणि Anthropic च्या Claude Sonnet 4.5 – नंतरचे मॉडेल जे पाच महिन्यांपूर्वी रिलीज झाले होते.
Qwen टीम म्हणते की त्यांनी हे मॉडेल अगदी अचूक राहण्यासाठी डिझाइन केले आहेत "बांधलेले," अशी प्रक्रिया जी फॉर्म सेटिंग्जमध्ये अनेक मूल्यांपासून खूपच कमी मूल्यांपर्यंत संचयित केलेली संख्या कमी करून त्याचे पाऊलखुणा कमी करते.
निर्णायकपणे, हे प्रकाशन आणते "सीमा पातळी" तुमच्या डेस्कटॉप संगणकावर संदर्भ विंडो. Qwen3.5-35B-A3B संदर्भ लांबी आता 32GB VRAM सह ग्राहक GPU वर 1 दशलक्ष टोकन ओलांडू शकते. प्रत्येकाला प्रवेश आहे असे काही नसले तरी, समान कार्यप्रदर्शनासह इतर अनेक पर्यायांपेक्षा ते खूपच कमी संगणकीय आहे.
ही झेप 4-बिट वेटिंग आणि केव्ही कॅशे क्वांटायझेशन अंतर्गत जवळपास-तोटारहित अचूकतेमुळे शक्य झाली आहे, ज्यामुळे विकासकांना सर्व्हर-स्तरीय पायाभूत सुविधांशिवाय मोठ्या डेटा सेटवर प्रक्रिया करता येते.
तंत्रज्ञान: डेल्टा फोर्स
Qwen 3.5 च्या कार्यप्रदर्शनाच्या केंद्रस्थानी एक प्रगत संकरित आर्किटेक्चर आहे. अनेक मॉडेल्स पूर्णपणे मानक स्विच ब्लॉक्सवर अवलंबून असताना, Qwen 3.5 तज्ञांच्या विरळ प्रणालीसह (MoE) Gated Delta Networks समाकलित करते. Qwen3.5-35B-A3B ची तांत्रिक वैशिष्ट्ये अत्यंत कार्यक्षम डिझाइन प्रकट करतात:
-
पॅरामीटर कार्यक्षमता: मॉडेलमध्ये एकूण 35 अब्ज पॅरामीटर्स असताना, ते फक्त सक्रिय केले आहे 3 अब्ज कोणत्याही विशिष्ट चिन्हासाठी.
-
तज्ञांची विविधता: MoE स्तर 8 मार्गदर्शक तज्ञ आणि 1 सामायिक तज्ञांसह 256 तज्ञांचा वापर करते ज्यामुळे अनुमान विलंब कमी करताना कार्यप्रदर्शन राखण्यात मदत होते.
-
परिमाणीकरण जवळजवळ तोटा आहे: स्ट्रिंग 4-बिट वजनासह संकुचित केले तरीही उच्च अचूकता राखते, ज्यामुळे स्थानिक तैनातीच्या मेमरी फूटप्रिंटमध्ये लक्षणीय घट होते.
-
मूळ मॉडेल आवृत्ती: रिसर्च कम्युनिटीला पाठिंबा देण्यासाठी अलीबाबाने हे ओपन सोर्स केले आहे Qwen3.5-35B-A3B-बेस निर्देशांच्या अचूक आवृत्त्यांसह मॉडेल.
उत्पादन: प्रथम “विचार” करणारी बुद्धिमत्ता
Qwen 3.5 नेटिव्ह ऑफर करते "विचार मोड" त्याची डीफॉल्ट स्थिती म्हणून. अंतिम उत्तर देण्यापूर्वी, मॉडेल विचारांची अंतर्गत ट्रेन तयार करते – द्वारे परिभाषित <think> टॅग्ज – जटिल तर्काद्वारे कार्य करण्यासाठी. उत्पादन श्रेणी भिन्न उपकरण वातावरणासाठी डिझाइन केली आहे:
-
Qwen3.5-27B: उच्च कार्यक्षमतेसाठी ऑप्टिमाइझ केलेले, 800K पेक्षा जास्त टोकनच्या संदर्भ लांबीचे समर्थन करते.
-
Qwen3.5-फ्लॅश: उत्पादन-स्तरीय होस्ट केलेली आवृत्ती, 1 दशलक्ष टोकन्सची आभासी संदर्भ लांबी आणि अंगभूत औपचारिक साधने वैशिष्ट्यीकृत.
-
Qwen3.5-122B-A10B: सर्व्हर-स्तरीय GPUs (80GB VRAM) साठी डिझाइन केलेले, हे मॉडेल जगातील सर्वात मोठ्या फ्रंटियर मॉडेलसह अंतर कमी करताना 1M पेक्षा जास्त संदर्भ लांबीचे समर्थन करते.
बेंचमार्किंग परिणाम या आर्किटेक्चरल परिवर्तनाच्या वैधतेची पुष्टी करतात. 35B-A3B त्याच्या मोठ्या पूर्ववर्ती, जसे की Qwen3-235B, तसेच ज्ञान (MMMLU) आणि व्हिज्युअल रिजनिंग (MMMU-Pro) यासह श्रेणींमध्ये वर नमूद केलेल्या GPT-5 मिनी आणि सॉनेट 4.5 पेक्षा लक्षणीय कामगिरी करते.
किंमत आणि API एकत्रीकरण
जे स्वतःचे वजन होस्ट करत नाहीत त्यांच्यासाठी, अलीबाबा क्लाउड मॉडेल स्टुडिओ Qwen3.5-Flash साठी एक स्पर्धात्मक API प्रदान करतो.
-
प्रवेशद्वार: $0.1 प्रति दशलक्ष टोकन
-
आउटपुट: $0.4 प्रति दशलक्ष टोकन
-
कॅशे तयार करा: $0.125 प्रति दशलक्ष टोकन
-
कॅशे वाचा: $0.01 प्रति दशलक्ष टोकन
API मध्ये कॉलिंग टूल्ससाठी ग्रेन्युलर प्राइसिंग मॉडेल देखील आहे, ज्यामध्ये वेब शोध $10 प्रति 1,000 कॉल आहे आणि कोड कंपाइलर सध्या कोणत्याही खर्चाशिवाय मर्यादित काळासाठी उपलब्ध आहे.
हे Qwen3.5-Flash जगातील सर्व प्रमुख LLM पदवीधारकांमध्ये API द्वारे चालवण्यासाठी सर्वात परवडणारे प्रोग्राम बनवते. खाली त्यांची तुलना सारणी पहा:
|
मॉडेल |
प्रवेशद्वार |
आउटपुट |
एकूण खर्च |
स्रोत |
|
राणी 3 टर्बो |
$०.०५ |
$0.20 |
$०.२५ |
अलीबाबा मेघ |
|
Qwen3.5-फ्लॅश |
$०.१० |
$0.40 |
$0.50 |
अलीबाबा मेघ |
|
डीप चॅट (V3.2-Exp) |
$0.28 |
$०.४२ |
$०.७० |
खोल आजारी |
|
कारण सखोल शोध (V3.2-Exp) |
$0.28 |
$०.४२ |
$०.७० |
खोल आजारी |
|
GROC 4.1 फास्ट (हेरिस्टिक) |
$0.20 |
$0.50 |
$०.७० |
xAI |
|
Grok 4.1 वेगवान आहे (मूर्खपणा) |
$0.20 |
$0.50 |
$०.७० |
xAI |
|
मिनी कमाल M2.5 |
$०.१५ |
$1.20 |
$१.३५ |
मिनी कमाल |
|
मिनी कमाल M2.5-विद्युल्लता |
$0.30 |
$2.40 |
$2.70 |
मिनी कमाल |
|
मिथुन 3 फ्लॅश पूर्वावलोकन |
$0.50 |
$3.00 |
$3.50 |
|
|
किमी-के2.5 |
$0.60 |
$3.00 |
$3.60 |
मूनशॉट |
|
GLM-5 |
$1.00 |
$3.20 |
$४.२० |
Z.ai |
|
एर्नी 5.0 |
$०.८५ |
$3.40 |
$४.२५ |
बायडू |
|
क्लॉड हायकू 4.5 |
$1.00 |
$५.०० |
$६.०० |
मानववंशीय |
|
नाणे ३ कमाल (०१/२३/२०२६) |
$1.20 |
$६.०० |
$७.२० |
अलीबाबा मेघ |
|
मिथुन 3 प्रो (≥200K) |
$2.00 |
$१२.०० |
$१४.०० |
|
|
GPT-5.2 |
$१.७५ |
$१४.०० |
$१५.७५ |
OpenAI |
|
क्लॉड सॉनेट 4.5 |
$3.00 |
$१५.०० |
$18.00 |
मानववंशीय |
|
मिथुन 3 प्रो (>200k) |
$४.०० |
$18.00 |
$२२.०० |
|
|
व्यवसाय बंद करणे 4.6 |
$५.०० |
$२५.०० |
$३०.०० |
मानववंशीय |
|
GPT-5.2 प्रो |
$21.00 |
$168.00 |
$१८९.०० |
OpenAI |
एंटरप्राइझ तांत्रिक नेते आणि निर्णय घेणाऱ्यांसाठी याचा अर्थ काय आहे
Qwen3.5 इंटरमीडिएट प्रोटोटाइप लाँच केल्यामुळे, जलद पुनरावृत्ती आणि फाइन-ट्यूनिंग पूर्वी चांगल्या-अनुदानित लॅबपर्यंत मर्यादित होते, अनेक गैर-तांत्रिक कंपन्यांमध्ये ऑन-प्रिमाइस डेव्हलपमेंटसाठी उपलब्ध झाले आहे, मोठ्या भांडवली खर्चातून अत्याधुनिक AI प्रभावीपणे डीकपलिंग केले आहे.
संपूर्ण एंटरप्राइझमध्ये, हे आर्किटेक्चर डेटा कसे हाताळले आणि सुरक्षित केले जाते ते बदलत आहे. स्थानिक पातळीवर मोठे दस्तऐवज भांडार किंवा तास-स्केल व्हिडिओ प्रवाह अंतर्भूत करण्याची क्षमता तृतीय-पक्ष API द्वारे लादलेल्या गोपनीयतेच्या जोखमीशिवाय सखोल एंटरप्राइझ विश्लेषणास अनुमती देते.
हा आला चालवून "तज्ञांचे मिश्रण" मॉडेल्स खाजगी फायरवॉलमध्ये, संस्था मूळ सॉफ्टवेअर वापरताना त्यांच्या डेटावर सार्वभौम नियंत्रण ठेवू शकतात "विचार करत आहे" अधिक विश्वासार्ह आणि स्वतंत्र एजंट तयार करण्यासाठी औपचारिक साधनांची मोड आणि कॉलबॅक क्षमता.
हगिंग फेसच्या सुरुवातीच्या अवलंबकर्त्यांनी असे करण्याच्या मॉडेलच्या क्षमतेची विशेषतः प्रशंसा केली "अंतर कमी करणे" प्रॉक्सी परिस्थितींमध्ये जेथे पूर्वी फक्त सर्वात मोठे बंद मॉडेल स्पर्धा करू शकत होते.
वास्तुशिल्प कार्यक्षमतेकडे मोठ्या प्रमाणावर होणारे हे वळण हे सुनिश्चित करते की AI एकत्रीकरण खर्चाच्या बाबतीत जागरूक, सुरक्षित आणि विकसित होत असलेल्या ऑपरेशनल गरजा पूर्ण करण्यासाठी पुरेसे जलद आहे.















