Mistral AI, एक पॅरिस-आधारित स्टार्टअप जे स्वतःला OpenAI ला युरोपचे उत्तर म्हणून बिल करते, बुधवारी स्पीच-टू-टेक्स्ट मॉडेल्सची एक जोडी जारी केली जी कंपनी म्हणते की ऑडिओ जलद, अधिक अचूकपणे आणि बाजारात इतर कोणत्याही गोष्टीपेक्षा खूपच कमी खर्चात लिप्यंतरण करू शकते — हे सर्व पूर्णपणे स्मार्टफोन किंवा लॅपटॉपवर चालत असताना.
घोषणा व्हॉईस एआय वरील वाढत्या स्पर्धात्मक लढाईतील नवीनतम सल्व्होचे प्रतिनिधित्व करते, एक तंत्रज्ञान जे एंटरप्राइझ ग्राहकांना स्वयंचलित ग्राहक सेवेपासून रिअल-टाइम भाषांतरापर्यंत सर्व गोष्टींसाठी आवश्यक वाटते. परंतु यूएस टेक दिग्गजांच्या ऑफरच्या विपरीत, Mistral चे नवीन Voxtral Transcribe 2 मॉडेल्स रिमोट सर्व्हरवर प्रसारित न करता संवेदनशील ऑडिओवर प्रक्रिया करण्यासाठी डिझाइन केलेले आहेत – हे वैशिष्ट्य आरोग्यसेवा, वित्त आणि संरक्षण यासारख्या नियमन केलेल्या उद्योगांमधील कंपन्यांसाठी महत्त्वपूर्ण असू शकते.
"तुम्हाला तुमचा आवाज आणि लिप्यंतरण तुम्ही जिथे आहात तिथं जवळच राहू इच्छिता, याचा अर्थ असा आहे की तुम्ही ते डिव्हाइसवर — लॅपटॉप, फोन किंवा स्मार्टवॉचवर व्हावे," पियरे स्टॉक, मिस्ट्रलचे वैज्ञानिक ऑपरेशन्सचे उपाध्यक्ष, व्हेंचरबीटला दिलेल्या मुलाखतीत म्हणाले. "आम्ही हे शक्य केले कारण मॉडेलमध्ये फक्त 4 अब्ज पॅरामीटर्स आहेत. ते जवळपास कुठेही बसू शकेल इतके लहान आहे."
मिस्ट्रल त्याच्या नवीन एआय ट्रान्सक्रिप्शन तंत्रज्ञानाला बॅच प्रोसेसिंग आणि रिअल-टाइम ऍप्लिकेशन्समध्ये मोडते
Mistral ने Voxtral Transcribe 2 बॅनरखाली दोन वेगळे मॉडेल जारी केले आहेत, प्रत्येक वेगवेगळ्या वापरासाठी डिझाइन केलेले आहेत.
-
Voxtral Mini Transcribe V2 हे बॅच ट्रान्सक्रिप्शन हाताळते, मोठ्या प्रमाणात प्री-रेकॉर्ड केलेल्या ऑडिओ फाइल्सवर प्रक्रिया करते. कंपनी म्हणते की कोणत्याही ट्रान्सक्रिप्शन सेवेचा शब्द त्रुटी दर सर्वात कमी आहे आणि API द्वारे $0.003 प्रति मिनिट या दराने उपलब्ध आहे, जे प्रमुख प्रतिस्पर्ध्यांच्या किंमतीच्या अंदाजे एक-पंचमांश आहे. मॉडेल 13 भाषांना समर्थन देते, ज्यात इंग्रजी, मँडरीन चीनी, जपानी, अरबी, हिंदी आणि अनेक युरोपीय भाषांचा समावेश आहे.
-
फॉक्सट्रल रिअल टाइमत्याच्या नावाप्रमाणे, लेटन्सीसह लाइव्ह ऑडिओची प्रक्रिया करते जी 200ms पर्यंत कॉन्फिगर केली जाऊ शकते – डोळ्याच्या झटक्यात. मिस्ट्रलचा दावा आहे की अनुप्रयोगांमध्ये ही एक मोठी प्रगती आहे जिथे दोन सेकंदांचा विलंब अस्वीकार्य आहे: थेट भाषांतर, व्हॉइस एजंट आणि वाढीव रिअल-टाइम ग्राहक सेवा.
रिअलटाइम मॉडेल ओपन सोर्स Apache 2.0 लायसन्स अंतर्गत पाठवले जाते, याचा अर्थ डेव्हलपर हगिंग फेस वरून मॉडेल वजन डाउनलोड करू शकतात, त्यात बदल करू शकतात आणि मिस्ट्रलला परवाना शुल्क न भरता ते तैनात करू शकतात. जे व्यवसाय स्वतःचे इन्फ्रास्ट्रक्चर चालवण्यास प्राधान्य देत नाहीत त्यांच्यासाठी API प्रवेशाची किंमत प्रति मिनिट $0.006 आहे.
मिस्ट्रल मॉडेल स्केल करण्यासाठी ओपन सोर्स समुदायावर सट्टेबाजी करत आहे, स्टॉक म्हणाला. "जेव्हा अनुप्रयोगांचा विचार केला जातो तेव्हा मुक्त स्त्रोत समुदाय खूप सर्जनशील असतो," तो म्हणाला. "ते काय करतील हे पाहण्यासाठी आम्ही उत्सुक आहोत."
संवेदनशील डेटा हाताळणाऱ्या संस्थांसाठी ऑन-डिव्हाइस AI प्रक्रिया का महत्त्वाची आहे
स्थानिक पातळीवर चालण्यासाठी पुरेसे लहान मॉडेल डिझाइन करण्याचा निर्णय एंटरप्राइझ बाजार कोठे चालला आहे याबद्दलची गणना प्रतिबिंबित करतो. कंपन्या AI ला अधिक संवेदनशील वर्कफ्लोमध्ये समाकलित केल्यामुळे – जसे की वैद्यकीय सल्लामसलत, आर्थिक सल्लागार कॉल आणि कायदेशीर डिपॉझिशन – हा डेटा कुठे जातो हा प्रश्न डील ब्रेकर बनला आहे.
स्टॉकने त्याच्या मुलाखतीदरम्यान समस्येचे स्पष्ट चित्र रेखाटले. त्यांनी स्पष्ट केले की ऑडिओ क्षमता असलेले विद्यमान नोट-टेकिंग ॲप्स अनेकदा समस्याप्रधान मार्गांनी सभोवतालचा आवाज उचलतात: "तो पार्श्वभूमीतील संगीताचे बोल उचलू शकतो. तो कदाचित दुसरे संभाषण निवडू शकेल. पार्श्वभूमीच्या आवाजामुळे भ्रमनिरास होऊ शकतो."
या समस्यांचे निराकरण करण्यासाठी मिस्ट्रलने डेटा क्युरेशन आणि मॉडेल इंजिनीअरिंग प्रशिक्षणात मोठी गुंतवणूक केली आहे. "शेवटी, आम्ही डेटा प्रोसेसिंगवर बराच वेळ घालवतो आणि ते सुधारण्यासाठी आम्ही मॉडेलचे प्रशिक्षण कसे देतो," स्टॉक म्हणाला.
कंपनीने एंटरप्राइझ वैशिष्ट्ये देखील जोडली ज्याची अंमलबजावणी करण्यासाठी तिचे अमेरिकन स्पर्धक हळू होते. संदर्भ पूर्वाग्रह ग्राहकांना विशेष अटींची सूची अपलोड करण्याची परवानगी देतो — वैद्यकीय अटी, मालकी उत्पादनांची नावे, उद्योग संक्षेप — आणि संदिग्ध ऑडिओ लिप्यंतरण करताना मॉडेल आपोआप त्या अटींना अनुकूल करेल. फाइन-ट्यूनिंगच्या विपरीत, ज्यासाठी मॉडेलला पुन्हा प्रशिक्षण देणे आवश्यक आहे, संदर्भ पूर्वाग्रह एका साध्या API पॅरामीटरद्वारे कार्य करते.
"आपल्याला फक्त मजकूर सूचीची आवश्यकता आहे," स्टॉक्स स्पष्ट केले. "मग मॉडेल आपोआप या संक्षेप किंवा या विचित्र शब्दांकडे प्रतिलेखन पूर्वग्रह करेल. हे शून्य बुलेट आहे, कोणतेही पुन: प्रशिक्षण नाही आणि कोणत्याही बाह्य गोष्टी नाहीत."
कारखान्याच्या मजल्यापासून कॉल सेंटर्सपर्यंत, मिस्ट्रल उच्च-आवाज असलेल्या औद्योगिक वातावरणास लक्ष्य करते
स्टॉकने दोन परिस्थितींचे वर्णन केले आहे जे हे स्पष्ट करतात की मिस्ट्रल तंत्रज्ञानाचा वापर कसा करतात.
प्रथम औद्योगिक ऑडिटिंगचा समावेश आहे. कल्पना करा की तंत्रज्ञ एखाद्या उत्पादन सुविधेतून फिरत आहेत, जड यंत्रसामग्रीची तपासणी करत आहेत आणि कारखान्याच्या ढिगाऱ्यावर त्यांची निरीक्षणे सांगत आहेत. "शेवटी, अचूक टाईमस्टॅम्प केलेल्या नोट्स सारखी कल्पना करा जी ओळखतात की कोणी काय म्हटले – म्हणून ते लिहा – ते खूप शक्तिशाली असताना," स्टॉक म्हणाला. त्याने जे बोलावले त्याला सामोरे जाण्याचे आव्हान आहे "एक विचित्र तांत्रिक भाषा जी फक्त हेच लोक लिहू शकतात."
दुसरी परिस्थिती ग्राहक सेवा ऑपरेशन्स लक्ष्यित करते. जेव्हा कॉलर समर्थन केंद्राशी संपर्क साधतो, तेव्हा व्हॉक्सट्रल रिअलटाइम संभाषण रिअल टाइममध्ये ट्रान्स्क्राइब करू शकतो, बॅक-एंड सिस्टमला ट्रान्सक्रिप्ट पाठवू शकतो जे कॉलरने समस्या समजावून सांगणे पूर्ण करण्यापूर्वी संबंधित ग्राहक रेकॉर्ड खेचते.
"ग्राहक वाक्य थांबवण्यापूर्वी आणि तक्रार करणे थांबवण्यापूर्वी स्क्रीनवर ऑपरेटरला स्थिती दिसेल," स्टॉक्स स्पष्ट केले. "याचा अर्थ तुम्ही फक्त प्रतिक्रिया देऊ शकता आणि म्हणू शकता, “ठीक आहे, मी स्थिती पाहू शकतो.” मला पत्ता दुरुस्त करण्याची आणि शिपमेंट परत करण्याची परवानगी द्या."
त्याने असा अंदाज लावला की, यामुळे सामान्य ग्राहक सेवा परस्परसंवाद अनेक-पुढील एक्सचेंजेसमधून फक्त दोन परस्परसंवादांवर कमी होऊ शकतो: ग्राहक समस्या स्पष्ट करतो आणि एजंट त्वरित त्याचे निराकरण करतो.
2026 च्या अखेरीस क्रॉस-भाषा एकाचवेळी भाषांतर येऊ शकते
ट्रान्सक्रिप्शनवर सर्व लक्ष केंद्रित करण्यासाठी, स्टॉकने स्पष्ट केले की मिस्ट्रल या मॉडेल्सना अधिक महत्त्वाकांक्षी उद्दिष्टासाठी एक प्रमुख तंत्रज्ञान म्हणून पाहतात: वास्तविक-वेळ भाषण-ते-भाषण भाषांतर जे नैसर्गिक वाटते.
"कदाचित अंतिम उद्दिष्ट अनुप्रयोग आणि मॉडेल ज्याचा पाया घालते ते थेट भाषांतर आहे," तो म्हणाला. "मी फ्रेंच बोलतो, तुम्ही इंग्रजी बोलता. कमीतकमी विलंब असणे महत्वाचे आहे, अन्यथा आपण सहानुभूती निर्माण करणार नाही. तुमचा चेहरा तुम्ही एका सेकंदापूर्वी जे बोललात त्याच्याशी सुसंगत नाही."
या ध्येयाने मिस्ट्रलला Apple आणि Google बरोबर थेट स्पर्धा केली, जे दोघेही समान समस्येचे निराकरण करण्यासाठी धावत आहेत. Google चे नवीनतम भाषांतर मॉडेल दोन-सेकंद विलंबाने कार्य करते – जे व्हॉक्सट्रल रीअलटाइमसाठी मिस्ट्रलच्या दाव्यांपेक्षा दहापट कमी आहे.
मिस्ट्रल स्वतःला एंटरप्राइझ ग्राहकांसाठी गोपनीयता-प्रथम पर्याय म्हणून स्थान देते
एआय लँडस्केपमध्ये मिस्ट्रलने एक असामान्य स्थान व्यापले आहे. मेटा आणि Google DeepMind माजी विद्यार्थ्यांनी 2023 मध्ये स्थापन केलेल्या, कंपनीने $2 बिलियन पेक्षा जास्त उभारले आहे आणि आता त्याचे मूल्य $13.6 बिलियन इतके आहे. तथापि, हे अमेरिकन सुपर-डोमेन मालकांसाठी उपलब्ध असलेल्या संगणकीय संसाधनांच्या काही अंशांवर कार्य करते – आणि ब्रूट फोर्सऐवजी कार्यक्षमतेच्या आसपास आपली रणनीती तयार केली आहे.
"आम्ही रिलीझ केलेली मॉडेल्स एंटरप्राइझ-ग्रेड, उद्योग-अग्रगण्य, कार्यक्षम आहेत — विशेषतः, किफायतशीर — आणि गोपनीयतेला अनलॉक करणे, नियंत्रण अनलॉक करणे, पारदर्शकता अनलॉक करणे," स्टॉक म्हणाला.
हा दृष्टीकोन विशेषतः अमेरिकन तंत्रज्ञानावरील अवलंबित्वापासून सावध असलेल्या युरोपियन ग्राहकांमध्ये प्रतिध्वनित झाला आहे. जानेवारीमध्ये, फ्रेंच सशस्त्र दलाच्या मंत्रालयाने देशाच्या लष्कराला मिस्ट्रल एआय मॉडेल्समध्ये प्रवेश देण्यासाठी फ्रेमवर्क करारावर स्वाक्षरी केली, हा करार ज्यामध्ये स्पष्टपणे फ्रेंच-नियंत्रित पायाभूत सुविधांवर त्यांची तैनाती आवश्यक आहे.
एंटरप्राइझमध्ये व्हॉईस एआय स्वीकारण्यात डेटा गोपनीयता हा सर्वात मोठा अडथळा आहे. संवेदनशील उद्योगांमधील कंपन्यांसाठी — वित्त, उत्पादन, आरोग्यसेवा आणि विमा — बाह्य क्लाउड सर्व्हरवर व्हॉइस डेटा पाठवणे सहसा नाही-नाही असते. माहिती एकतर डिव्हाइसवर किंवा कंपनीच्या पायाभूत सुविधांमध्येच राहिली पाहिजे.
मिस्ट्रलला ओपनएआय, गुगल आणि वाढत्या चीनकडून कठोर स्पर्धेचा सामना करावा लागतो
कॉपी मार्केट तीव्र स्पर्धात्मक बनले आहे. OpenAI चे Whisper मॉडेल एक उद्योग मानक बनले आहे, आणि ते ऍप्लिकेशन प्रोग्रामिंग इंटरफेस (API) द्वारे आणि डाउनलोड करण्यायोग्य ओपन सोर्स वेट्स म्हणून उपलब्ध आहे. Google, Amazon आणि Microsoft सर्व एंटरप्राइझ-स्तरीय भाषण सेवा देतात. असेंबली AI आणि Deepgram सारख्या विशिष्ट खेळाडूंनी विकसकांना सेवा देणारे मोठे व्यवसाय तयार केले आहेत ज्यांना विश्वासार्ह, स्केलेबल प्रतिकृती आवश्यक आहे.
मिस्ट्रलचा दावा आहे की त्याची नवीन मॉडेल्स अचूकतेच्या मानकांच्या बाबतीत त्या सर्वांपेक्षा जास्त कामगिरी करतात आणि किंमतीच्या बाबतीत कमी करतात. "आम्ही त्यांच्यापेक्षा मानकांमध्ये चांगले आहोत," स्टॉक म्हणाला. या दाव्यांच्या स्वतंत्र पडताळणीसाठी वेळ लागेल, परंतु कंपनी FLEURS, मोठ्या प्रमाणावर वापरले जाणारे बहुभाषिक उच्चार मानक, जेथे Voxtral मॉडेल शब्द त्रुटी दर मिळवतात जे OpenAI आणि Google च्या पर्यायांना टक्कर देतात किंवा त्यांना मागे टाकतात.
कदाचित सर्वात महत्त्वाचे म्हणजे, मिस्ट्रलचे सीईओ आर्थर मेन्श यांनी चेतावणी दिली की यूएस एआय कंपन्यांना अनपेक्षित दिशेने दबाव येत आहे. गेल्या महिन्यात दावोस येथील वर्ल्ड इकॉनॉमिक फोरममध्ये बोलताना मेन्श यांनी चीनी AI पश्चिमेपेक्षा मागे आहे ही कल्पना नाकारली. "परीकथा."
"चीनच्या ओपन सोर्स तंत्रज्ञान क्षमतेमुळे अमेरिकेच्या सीईओंवर दबाव निर्माण होण्याची शक्यता आहे," तो म्हणाला.
फ्रेंच स्टार्टअप एंटरप्राइझ व्हॉईस एआय मधील विजेता निश्चित करेल असा विश्वास ठेवत आहेत
स्टॉक अंदाज 2026 असेल "नोट्स घेण्याचे वर्ष" – ज्या क्षणी एआय ट्रान्सक्रिप्शन पुरेसे विश्वसनीय बनते जेणेकरुन वापरकर्त्यांचा त्यावर पूर्ण विश्वास असेल.
"तुम्हाला मॉडेलवर विश्वास ठेवावा लागेल आणि मॉडेल मुळात काहीही चुकीचे करू शकत नाही, अन्यथा तुम्ही उत्पादनावरील विश्वास गमावाल आणि ते वापरणे बंद कराल." तो म्हणाला. "उंबरठा खूप कठीण आहे."
मिस्त्रालने हा उंबरठा ओलांडला की नाही हे पाहणे बाकी आहे. एंटरप्राइझचे ग्राहक अंतिम मध्यस्थ असतील, आणि ते नवीन तंत्रज्ञानासह बजेट आणि वर्कफ्लोसाठी वचनबद्ध होण्यापूर्वी वास्तविकतेच्या विरूद्ध दाव्यांची चाचणी घेत हळू हळू पुढे जाण्याचा कल करतात. मिस्ट्रल स्टुडिओचे ऑडिओ प्लेग्राउंड, जिथे विकसक त्यांच्या स्वतःच्या फाइल्ससह व्हॉक्सट्रल ट्रान्स्क्राइब 2 ची चाचणी करू शकतात, आज लाँच करण्यात आले.
परंतु स्टॉकचा व्यापक युक्तिवाद लक्ष देण्यास पात्र आहे. अशा बाजारपेठेत जिथे अमेरिकन दिग्गज अब्जावधी डॉलर्स सदैव मोठ्या मॉडेल्समध्ये ओतून स्पर्धा करत आहेत, मिस्ट्रल एक वेगळी पैज लावत आहे: कृत्रिम बुद्धिमत्तेच्या युगात, लहान, स्थानिक कंपन्या मोठ्या, अधिक दूरच्या कंपन्यांपेक्षा जास्त कामगिरी करू शकतात. जे अधिकारी डेटा सार्वभौमत्व, नियामक अनुपालन आणि विक्रेता लॉक-इन बद्दल चिंता करण्यात आपला दिवस घालवतात, त्यांच्यासाठी हा प्रस्ताव कोणत्याही मानकांपेक्षा अधिक आकर्षक असू शकतो.
एंटरप्राइझ व्हॉईस AI वर वर्चस्व गाजवण्याची शर्यत आता फक्त सर्वात मजबूत मॉडेल कोण बनवते यावर नाही. हे मॉडेल कोण तयार करत आहे ते तुम्ही त्यांना ऐकू देण्यास इच्छुक आहात.
















