अलीबाबा 5 जुलै 2024 रोजी शांघाय, चीन येथे शांघाय वर्ल्ड एक्स्पो एक्झिबिशन सेंटर येथे जागतिक कृत्रिम बुद्धिमत्ता परिषदेत उभा आहे.
नॉरफोटो नॉरफोटो गेटी इमेजेस
यूएस मार्केट्सने सॉफ्टवेअर आणि वित्तीय सेवांमधील मानववंशीय आणि परोपकारी साधनांच्या प्रभावावर लक्ष केंद्रित केल्यामुळे, चीनच्या टेक दिग्गजांनी या आठवड्यात AI मॉडेल्स जारी केले ज्यात रोबोटिक्स आणि व्हिडिओ निर्मितीमध्ये प्रगती दिसून आली.
अलीबाबाTikTok निर्माता ByteDance आणि शॉर्ट-व्हिडिओ प्लॅटफॉर्म कैशोसर्वांनी नवीन एआय मॉडेल जारी केले आहेत जे दर्शविते की चीनी कंपन्या यूएसमधील कंपन्यांशी कसे संबंध ठेवत आहेत
Google DeepMind बॉस डेमिस हसाबिस यांनी CNBC ला सांगितले की चीनी AI मॉडेल्स पाश्चात्य प्रतिस्पर्ध्यांपेक्षा फक्त “महिने” मागे आहेत.
चीनमधील ही मॉडेल्स ओपनएआयच्या सोरा सारख्या व्हिडिओ जनरेशन मॉडेल्स तसेच रोबोटिक्स मॉडेल्सशी थेट स्पर्धा करत आहेत. Nvidia आणि Google.
येथे मॉडेल्सची रनडाउन आहे.
अलीबाबाचे RynnBrain
अलीबाबाच्या दामो अकादमीने या आठवड्यात RynnBrain चे अनावरण केले, जे रोबोट्सना त्यांच्या सभोवतालचे भौतिक जग समजून घेण्यात आणि वस्तू ओळखण्यात मदत करण्यासाठी डिझाइन केलेले AI मॉडेल आहे.
एका व्हिडिओ डेमोमध्ये, अलिबाबाने हातांना पिंसर असलेला रोबोट दाखवला जो संत्रा मोजू शकतो, उचलू शकतो आणि टोपलीत ठेवू शकतो. फ्रीजमधून दूधही काढल्याचे दाखवले जाते.
मॉडेल्सशी संवाद साधण्यासाठी त्यांना दैनंदिन वस्तू ओळखण्यास सक्षम करण्यासाठी व्यापक प्रशिक्षण आवश्यक आहे, म्हणजे फळ निवडणे यासारखी साधी कार्ये रोबोटिक्समध्ये आव्हानात्मक असू शकतात.
RynnBrain आता Alibaba च्या आवडीशी स्पर्धा करते Nvidia आणि Google जे लोक रोबोट्ससाठी स्वतःचे AI मॉडेल तयार करत आहेत.
हगिंग फेस संशोधक अदिना याकेफू यांनी सीएनबीसीला सांगितले की, “त्यातील प्रमुख नवकल्पनांपैकी एक अंगभूत वेळ आणि अवकाश जागरूकता आहे.”
“फक्त तात्काळ इनपुटवर प्रतिक्रिया देण्याऐवजी, रोबो घटना केव्हा आणि कुठे घडल्या हे लक्षात ठेवू शकतो, कामाच्या प्रगतीचा मागोवा घेऊ शकतो आणि अनेक पायऱ्या ओलांडून पुढे चालू ठेवू शकतो. यामुळे जटिल वास्तविक-जगाच्या वातावरणात ते अधिक विश्वासार्ह आणि सुसंगत बनते.”
याकेफू जोडले की अलीबाबाची “मोठी महत्त्वाकांक्षा” “मूर्तभूत प्रणालींसाठी मूलभूत बुद्धिमत्ता स्तर स्थापित करणे” आहे.
ByteDance चे सत्र 2.0
सीडन्स 2.0 हे व्हिडिओ जनरेशनचे एआय मॉडेल आहे जे वापरकर्त्याच्या टेक्स्ट प्रॉम्प्टवरून वास्तववादी व्हिडिओ तयार करण्यास सक्षम आहे. परंतु प्रॉम्प्टमध्ये इतर व्हिडिओ आणि प्रतिमा देखील असू शकतात.
सीडन्स 2.0 सह तयार केलेले आणि CNBC द्वारे पुनरावलोकन केलेले व्हिडिओ अतिशय वास्तववादी प्रतिमा आणि संपूर्णपणे AI सह तयार केलेले व्हिडिओ दर्शवतात.
बिली बोमन, जो स्टॉकहोम, स्वीडन येथे आहे आणि AI-व्युत्पन्न सामग्री तयार करणारी क्रिएटिव्ह जाहिरात एजन्सी चालवते, त्यांनी Sedence 2.0 वापरले.
ते म्हणाले की एआय व्हिडिओ जनरेशनने गेल्या दोन वर्षांत संपूर्ण उद्योगात वेगाने सुधारणा करून लक्षणीय प्रगती केली आहे.

“2023 मध्ये … एखाद्याला धावणे किंवा चालणे कठीण होते. कोणत्याही प्रकारचे वास्तव (मर्यादित) खूप लहान क्लिप होते, सर्व काही अतिशय संथ होते, खराब पोत, त्वचेचा पोत नाही, तपशीलाचा अभाव. आता स्क्रिप्ट पलटली आहे. आता मी काहीही करू शकतो. हे अपवादात्मक, तांत्रिक प्रगती काहीही नाही,” बोमनने CNBC वर दिलेल्या मुलाखतीत सांगितले.
हगिंग फेसचे याकेफू, जोडले की सिडन्स 2.0 मॉडेलने “नियंत्रणता, वेग आणि उत्पादन कार्यक्षमता” मध्ये मागील पिढीच्या तुलनेत प्रगती दर्शविली आहे.
“साइडेंस 2.0 हे मी आतापर्यंत चाचणी केलेल्या सर्वोत्तम व्हिडिओ जनरेशन मॉडेलपैकी एक आहे. पहिल्याच प्रयत्नात, अगदी साध्या प्रॉम्प्टसहही समाधानकारक परिणाम देऊन मला आश्चर्यचकित केले. व्हिज्युअल, संगीत आणि सिनेमॅटोग्राफी अशा प्रकारे एकत्र येतात की प्रायोगिक न होता पॉलिश वाटते,” याकेफू म्हणाले.
तथापि, वापरकर्ते तंत्रज्ञानाचे कौतुक करत असताना, Sidense समस्यांना तोंड देत आहे. स्थानिक चीनी मीडियाने नोंदवले आहे की सीडन्सने एक वैशिष्ट्य निलंबित केले आहे जे एआयला त्यांनी अपलोड केलेल्या फोटोंच्या आधारे एखाद्या व्यक्तीचा आवाज तयार करण्यास अनुमती देते. चीनमधील एका ब्लॉगरने संमतीशिवाय आवाज निर्मितीबद्दल चिंता व्यक्त केल्यानंतर हे समोर आले आहे.
CNBC द्वारे संपर्क साधला असता टिप्पणीसाठी ByteDance त्वरित उपलब्ध नव्हता.
Kuishore Cling 3.0
गेल्या आठवड्यात रिलीझ झालेले, Kuaishou चे Kling 3.0 हे बाइटडान्सला टक्कर देणारे आणखी एक व्हिडिओ जनरेशन मॉडेल आहे.
Kling 3.0″ मध्ये सुसंगतता, फोटोरिअलिस्टिक आउटपुट, 15 सेकंदांपर्यंत विस्तारित व्हिडिओ कालावधी आणि एकाधिक भाषा, बोली आणि उच्चारांमध्ये मूळ ऑडिओ जनरेशनची वैशिष्ट्ये आहेत.
हे मॉडेल केवळ पैसे देणाऱ्या ग्राहकांसाठी उपलब्ध आहे परंतु लवकरच ते लोकांसाठी उपलब्ध होईल, असे क्वाइशो म्हणाले.
Kling मॉडेलसह Kuaishou चे यश हे गेल्या वर्षभरात त्याच्या शेअरच्या किमतीत 50% पेक्षा जास्त वाढ होण्यामागे एक प्रमुख घटक आहे.
Kuaishou वर्ष पासून तारीख विभागतो
इतर की AI मॉडेल रिलीज
Zhipu AI — जे हाँगकाँगमध्ये Knowledge Atlas Technologies म्हणून व्यापार करते — GLM-5, प्रगत कोडिंग क्षमता आणि दीर्घकालीन एजंट कार्यांसह मुक्त-स्रोत मोठ्या-भाषेचे मॉडेल जारी केल्यानंतर गुरुवारी त्याचे शेअर्स वाढले.
कंपनीचे म्हणणे आहे की मॉडेल कोडिंग बेंचमार्कमध्ये अँथ्रोपिकच्या क्लॉड ओपस 4.5 पर्यंत पोहोचते आणि काही चाचण्यांमध्ये Google च्या जेमिनी 3 प्रोला मागे टाकते. CNBC ते दावे सत्यापित करू शकले नाही.
वर्धित AI एजंट साधनांसह त्याचे अद्यतनित M2.5 ओपन-सोर्स मॉडेल लॉन्च केल्यानंतर मिनिमॅक्सच्या शेअर्समध्येही गुरुवारी वाढ झाली. “एजंट” किंवा “एजंटिक AI” म्हणजे कार्ये स्वयंचलित करण्यासाठी डिझाइन केलेल्या AI साधनांचा संदर्भ.
– CNBC च्या Annick Bao आणि Dylan Butts यांनी या अहवालात योगदान दिले.
















