नवोन्मेषकांनी स्थापन केलेला एक नवीन AI स्टार्टअप जगातील सर्वात जास्त वापरले जाणारे संगणक व्हिजन लायब्ररी हे तंत्रज्ञानाच्या अस्पष्टतेतून उदयास आले आहे जे पाच मिनिटांपर्यंतचे वास्तववादी, मानव-केंद्रित व्हिडिओ व्युत्पन्न करते – OpenAI सह स्पर्धकांच्या क्षमतेच्या पलीकडे एक मोठी झेप. सोरा आणि गुगल दाखवा.
क्राफ्टस्टोरीज्याने मंगळवारी $2 दशलक्ष निधीसह लॉन्च केले, मॉडेल 2.0 ऑफर करते, एक व्हिडिओ जनरेशन सिस्टम जी उदयोन्मुख AI व्हिडिओ उद्योगातील सर्वात महत्त्वाच्या मर्यादांपैकी एक आहे: कालावधी. OpenAI असताना सोरा २ 25 सेकंदांपर्यंत लांब आणि बहुतेक प्रतिस्पर्धी मॉडेल 10 सेकंद किंवा त्यापेक्षा कमी क्लिप तयार करतात, क्राफ्टस्टोरी सिस्टीम सतत, एकसंध व्हिडिओ डेमो तयार करू शकते जे ठराविक YouTube ट्यूटोरियल किंवा उत्पादन डेमोप्रमाणे कार्य करतात.
हे यश प्रशिक्षण, विपणन आणि ग्राहक शिक्षणासाठी व्हिडिओ उत्पादन मोजण्यासाठी धडपडणाऱ्या कंपन्यांसाठी महत्त्वपूर्ण व्यवसाय मूल्य अनलॉक करू शकते — जेथे लहान, AI-व्युत्पन्न क्लिप त्यांच्या व्हिज्युअल पॉलिश असूनही अपुरी ठरल्या आहेत.
"तुम्ही यापैकी एक व्हिडिओ जनरेशन सिस्टम वापरून व्हिडिओ तयार करण्याचा प्रयत्न केल्यास, तुम्हाला असे आढळून येईल की अनेकदा तुम्हाला एखादी विशिष्ट सर्जनशील दृष्टी लागू करायची असते, आणि सूचना कितीही तपशीलवार असल्या तरीही, सिस्टम तुमच्या सूचनांचा भाग दुर्लक्षित करतात," क्राफ्टस्टोरीचे संस्थापक आणि सीईओ व्हिक्टर एरोखिमोव्ह यांनी व्हेंचरबीटला दिलेल्या विशेष मुलाखतीत सांगितले. "आम्ही एक अशी प्रणाली विकसित केली आहे जी मुळात तुम्हाला आवश्यक असेल तोपर्यंत व्हिडिओ तयार करू शकते."
समांतर प्रक्रिया दीर्घ व्हिडिओ समस्येचे निराकरण कसे करते
CraftStory ची प्रगती कंपनीने समांतर प्रसार आर्किटेक्चर म्हणून वर्णन केलेल्या गोष्टींवर आधारित आहे — बहुतेक प्रतिस्पर्ध्यांनी वापरलेल्या अनुक्रमिक पद्धतींच्या तुलनेत व्हिडिओ AI मॉडेल्स कसे तयार केले जातात याचा एक पूर्णपणे भिन्न दृष्टीकोन आहे.
पारंपारिक व्हिडिओ जनरेशन मॉडेल्स वाढत्या मोठ्या 3D व्हॉल्यूमवर प्रसार अल्गोरिदम चालवून कार्य करतात जिथे वेळ तिसरा अक्ष आहे. मोठा व्हिडिओ तयार करण्यासाठी, या मॉडेल्सना तुलनेने मोठे नेटवर्क, अधिक प्रशिक्षण डेटा आणि बरेच मोठे संगणकीय संसाधने आवश्यक आहेत.
क्राफ्टस्टोरी त्याऐवजी, एकाधिक लहान प्रसार अल्गोरिदम व्हिडिओच्या संपूर्ण कालावधीमध्ये एकाच वेळी चालतात, त्यांना जोडत असलेल्या द्विदिशात्मक मर्यादांसह. "व्हिडिओचा शेवटचा भाग व्हिडिओच्या मागील भागावर देखील परिणाम करू शकतो," एरोखिमोव्ह यांनी स्पष्ट केले. "हे खूप महत्वाचे आहे, कारण जर तुम्ही ते एक एक केले तर पहिल्या भागात दिसणारी कलाकृती दुसऱ्या भागात पसरेल आणि नंतर जमा होईल."
आठ सेकंद व्युत्पन्न करण्याऐवजी आणि नंतर अतिरिक्त क्लिप विलीन करण्याऐवजी, क्राफ्टस्टोरी सिस्टम थ्रेडेड डिप्लॉयमेंटद्वारे एकाच वेळी पाच मिनिटांवर प्रक्रिया करते.
सर्वात महत्त्वाचे म्हणजे, क्राफ्टस्टोरीने केवळ इंटरनेटवरून हटविलेल्या व्हिडिओंवर अवलंबून न राहता मालकीच्या फुटेजवर त्याचे मॉडेल प्रशिक्षित केले. कंपनीने उच्च-फ्रेम-रेट कॅमेरा सिस्टीम वापरून कलाकारांचे चित्रीकरण करण्यासाठी स्टुडिओ भाड्याने दिले आहेत जे अगदी बोटांसारख्या जलद-हलवणाऱ्या वस्तूंमध्येही चपखल तपशील कॅप्चर करतात — मानक 30 फ्रेम-प्रति-सेकंद YouTube क्लिपमध्ये अंतर्निहित मोशन ब्लर टाळून.
"आम्ही दाखवले आहे की तुम्हाला खूप डेटाची गरज नाही आणि तुम्हाला उच्च-गुणवत्तेचे व्हिडिओ तयार करण्यासाठी खूप प्रशिक्षण बजेटची गरज नाही;" – एरोखिमोव्ह म्हणाले. "तुम्हाला फक्त उच्च-गुणवत्तेचा डेटा हवा आहे."
मॉडेल 2.0 सध्या व्हिडिओ-टू-व्हिडिओ रूपांतरण प्रणाली म्हणून कार्य करते: वापरकर्ते ॲनिमेट करण्यासाठी स्थिर प्रतिमा अपलोड करतात आणि "ड्रायव्हिंग व्हिडिओ" त्यात एक व्यक्ती आहे ज्याच्या हालचाली कृत्रिम बुद्धिमत्ता पुनरावृत्ती करेल. क्राफ्टस्टोरी व्यावसायिक कलाकारांद्वारे चित्रित केलेले प्री-मेड ड्रायव्हिंग व्हिडिओ प्रदान करते, ज्यांना त्यांचा मोशन डेटा वापरला जातो तेव्हा कमाईचा वाटा मिळतो किंवा वापरकर्ते त्यांचे स्वतःचे फुटेज अपलोड करू शकतात.
प्रणाली सुमारे 15 मिनिटांत कमी रिझोल्यूशनवर 30-सेकंद क्लिप तयार करते. प्रगत लिप-सिंक प्रणाली मजकूर किंवा ऑडिओ ट्रॅकसह तोंडाच्या हालचाली समक्रमित करते, तर जेश्चर संरेखन अल्गोरिदम हे सुनिश्चित करते की शरीराची भाषा उच्चार टेम्पो आणि भावनिक टोनशी जुळते.
अब्जावधी विरुद्ध $2 दशलक्ष युद्ध छाती लढाई
क्राफ्टस्टोरीचा निधी जवळजवळ संपूर्णपणे येतो अँड्र्यू फाइलेव्हज्याने त्याची प्रोजेक्ट मॅनेजमेंट सॉफ्टवेअर कंपनी Wrike ला Citrix ला विकली $2.25 अब्ज 2021 मध्ये आणि आता कार्यरत आहे झिंकोडरएक कृत्रिम बुद्धिमत्ता कोडिंग कंपनी. ही माफक वाढ प्रतिस्पर्धी प्रयत्नांमध्ये कोट्यवधी ओतण्याच्या अगदी विरुद्ध आहे, जसे OpenAI ने केले आहे $6 अब्ज पेक्षा जास्त जमा केले केवळ नवीनतम निधी फेरीत.
यशासाठी प्रचंड भांडवल ही पूर्वअट आहे या कल्पनेपासून एरोखिमोव्ह मागे हटले. "अंकगणित हा यशाचा मार्ग आहे या प्रबंधाचे मी समर्थन करत नाही;" तो म्हणाला. "तुमच्याकडे खाते असल्यास ते नक्कीच मदत करते. परंतु जर तुम्ही पॉवरपॉईंटवर एक अब्ज डॉलर्स उभे केले तर शेवटी, कोणीही आनंदी होणार नाही, ना संस्थापक किंवा गुंतवणूकदार."
वेलेव्हने डेव्हिड विरुद्ध गोलियाथ दृष्टिकोनाचा बचाव केला. "जेव्हा तुम्ही स्टार्टअपमध्ये गुंतवणूक करता, तेव्हा तुम्ही लोकांवर सट्टा लावता," वेंचरबीटला दिलेल्या मुलाखतीत ते म्हणाले. "मार्गारेट मीडचा अर्थ सांगण्यासाठी: वचनबद्ध, विचारशील अभियंते, वैज्ञानिक आणि शास्त्रज्ञांचा एक छोटा गट काय करू शकतो हे कधीही कमी लेखू नका."
एका केंद्रित धोरणामुळे क्राफ्टस्टोरीला फायदा होतो, असे ते म्हणाले. "मोठ्या प्रयोगशाळा सामान्य हेतूचे व्हिडिओ प्लॅटफॉर्म तयार करण्यासाठी शस्त्रास्त्रांच्या शर्यतीत आहेत." – वेलेव्ह म्हणाले. "क्राफ्टस्टोरी या लहरीवर स्वार होत आहे आणि एका विशिष्ट फॉरमॅटमध्ये शोधत आहे: लाँग-फॉर्म, आकर्षक, मानव-केंद्रित व्हिडिओ."
जनरेटिव्ह एआय व्हिडीओमध्ये कॉम्प्युटर व्हिजन कौशल्य का महत्त्वाचे आहे
एरोखिमोव्हची विश्वासार्हता त्याच्या संगणकाच्या दृष्टीमध्ये खोलवर रुजलेली आहे आणि कृत्रिम बुद्धिमत्तेच्या अलीकडील घडामोडींवर वर्चस्व असलेल्या ट्रान्सफॉर्मर आर्किटेक्चरमधून नाही. ते प्रथम योगदान देणाऱ्यांपैकी एक होते OpenCV – ओपन सोर्स कॉम्प्युटर व्हिजन लायब्ररी जी कॉम्प्युटर व्हिजन ऍप्लिकेशन्ससाठी डी फॅक्टो मानक बनली आहे. GitHub वर 84,000 तारे.
2000 च्या दशकाच्या मध्यात जेव्हा इंटेलने OpenCV साठी आपला पाठिंबा कमी केला तेव्हा एरोखिमोव्हने लायब्ररीची देखभाल आणि विकास करण्याच्या स्पष्ट उद्दिष्टासह Itseez ची सह-स्थापना केली. 2016 मध्ये Intel द्वारे अधिग्रहित करण्यापूर्वी कंपनीने OpenCV चा लक्षणीय विस्तार केला आणि ऑटोमोटिव्ह सुरक्षा प्रणालींवर लक्ष केंद्रित केले.
नेमकी हीच पार्श्वभूमी आहे, व्हेलेव्ह म्हणाले, की व्हिडिओ तयार करण्यासाठी एरोखिमोव्ह चांगल्या स्थितीत आहे. "जनरेटिव्ह एआय व्हिडिओ हा केवळ जनरेटिव्ह भागाविषयी नसतो. हे हालचाल, चेहर्यावरील गतिशीलता, तात्पुरती सुसंगतता, मानव प्रत्यक्षात कसे हलतात हे समजून घेण्याबद्दल आहे," – वेलेव्ह म्हणाले. "व्हिक्टरने आपली कारकीर्द नेमक्या याच समस्यांना परिपूर्ण करण्यात घालवली आहे."
एंटरप्राइझ-केंद्रित प्रशिक्षण व्हिडिओ आणि उत्पादन डेमो
AI व्हिडीओ निर्मितीच्या सभोवतालच्या सामान्य उत्साहाने ग्राहकांसाठी सर्जनशील साधनांवर लक्ष केंद्रित केले असताना, क्राफ्टस्टोरी निश्चितपणे एंटरप्राइझ-केंद्रित धोरण अवलंबत आहे.
"आम्ही निश्चितपणे ग्राहकांपेक्षा B2B बद्दल अधिक विचार करतो," – एरोखिमोव्ह म्हणाले. "आम्ही कंपन्यांबद्दल विचार करत आहोत, विशेषत: सॉफ्टवेअर कंपन्या, उत्कृष्ट प्रशिक्षण व्हिडिओ, उत्पादन व्हिडिओ, व्हिडिओ लॉन्च करण्यास सक्षम आहेत."
तर्क सरळ आहे: कॉर्पोरेट प्रशिक्षण, उत्पादन ट्यूटोरियल आणि ग्राहक सूचना व्हिडिओंना बऱ्याचदा काही मिनिटे लागतात आणि संपूर्ण गुणवत्ता सातत्य आवश्यक असते. 10-सेकंदाची AI क्लिप एंटरप्राइझ सॉफ्टवेअर कसे वापरावे किंवा उत्पादनाचे जटिल वैशिष्ट्य कसे स्पष्ट करावे हे प्रभावीपणे प्रदर्शित करू शकत नाही.
"तुम्हाला अजून मोठा व्हिडिओ हवा असेल तर तुम्ही आमच्यासोबत यावे," – एरोखिमोव्ह म्हणाले. "आम्ही पाच मिनिटांपर्यंत सातत्यपूर्ण, उच्च-गुणवत्तेचा व्हिडिओ तयार करू शकतो."
वेलेव्हने हे मूल्यांकन प्रतिध्वनित केले. "या बाजारपेठेतील एक मोठे अंतर म्हणजे लांबलचक अनुक्रमांवर सातत्यपूर्ण व्हिडिओ तयार करू शकतील अशा मॉडेलची कमतरता – हे वास्तविक-जगातील वापरासाठी अत्यंत महत्त्वाचे आहे." तो म्हणाला. "तुम्ही तुमच्या कंपनीसाठी जाहिरात तयार करत असल्यास, 10-सेकंदाचा व्हिडिओ, तो कितीही चांगला दिसत असला तरीही पुरेसा नाही. आपल्याला 30 सेकंद हवे आहेत, आपल्याला 2 मिनिटे आवश्यक आहेत, आपल्याला आणखी आवश्यक आहे."
कंपनीला ग्राहकांच्या खर्चात बचत होण्याची अपेक्षा आहे. वेलेव्ह यांनी सुचवले "एक लहान व्यवसाय मालक काही मिनिटांत सामग्री तयार करू शकतो ज्याची किंमत पूर्वी $20,000 असायची आणि निर्मितीसाठी दोन महिने लागले."
क्राफ्टस्टोरी कॉर्पोरेट क्लायंटसाठी व्हिडिओ सामग्री तयार करणाऱ्या क्रिएटिव्ह एजन्सींना देखील मदत करत आहे, ज्यामध्ये किंमत आणि गती यावर लक्ष केंद्रित केले जाते: एजन्सी कॅमेऱ्यावर अभिनेता रेकॉर्ड करू शकतात आणि त्या फुटेजला दिवसांसाठी महाग फुटेज व्यवस्थापित करण्याऐवजी अंतिम एआय-शक्तीच्या व्हिडिओमध्ये बदलू शकतात.
क्राफ्टस्टोरीच्या रोडमॅपवरील पुढील प्रमुख विकास हा मजकूर-टू-व्हिडिओ मॉडेल आहे जो वापरकर्त्यांना थेट स्क्रिप्टमधून दीर्घ-स्वरूप सामग्री तयार करण्यास अनुमती देतो. कार्यसंघ सामान्य दृश्यांसह कॅमेरा परिदृश्यांना हलविण्यासाठी समर्थन देखील विकसित करीत आहे "चाला आणि बोला" उच्च श्रेणीतील जाहिरातींमध्ये एक सामान्य स्वरूप.
जेथे क्राफ्टस्टोरी खंडित स्पर्धात्मक लँडस्केपमध्ये बसते
क्राफ्टस्टोरी गर्दीच्या आणि वेगाने विकसित होत असलेल्या बाजारात प्रवेश करते. OpenAI सोरा २जरी अद्याप लोकांसाठी उपलब्ध नसले तरी, यामुळे बरीच खळबळ उडाली आहे. Google मी मॉडेल्स पाहतो वेगाने प्रगती होत आहे. धावपट्टी, बेक्काआणि स्थिरता AI ते सर्व भिन्न क्षमतांसह व्हिडिओ निर्मिती साधने ऑफर करतात.
एरोखिमोव्हने स्पर्धात्मक दबाव मान्य केला परंतु क्राफ्टस्टोरी मानव-केंद्रित व्हिडिओंवर लक्ष केंद्रित करते यावर भर दिला. तांत्रिक खंदकांवर विसंबून न राहता त्यांनी कंपनीची मुख्य रणनीती म्हणून जलद नवकल्पना आणि बाजारपेठेवर कब्जा केला.
वेलेव्ह मार्केटला वेगवेगळ्या वर्गांमध्ये विभागलेले दिसते, जिथे मोठ्या टेक कंपन्या देखील काम करतात "शक्तिशाली, सामान्य-उद्देश बांधकाम मॉडेलसाठी API प्रदाता" क्राफ्टस्टोरीसारखे विशिष्ट खेळाडू विशिष्ट वापराच्या प्रकरणांवर लक्ष केंद्रित करतात. "जर मोठे खेळाडू इंजिन तयार करत असतील, तर क्राफ्टस्टोरी वर उत्पादन स्टुडिओ आणि असेंबली लाइन तयार करत असेल," तो म्हणाला.
मॉडेल 2.0 आता app.craftstory.com/model-2.0 वर उपलब्ध आहे, जिथे कंपनी वापरकर्त्यांना आणि तंत्रज्ञानाची चाचणी घेण्यास इच्छुक असलेल्या कंपन्यांना लवकर प्रवेश देत आहे. कमी निधीसह स्टार्टअप खोल खिसे असलेल्या पदाधिका-यांच्या विरोधात अर्थपूर्ण बाजारपेठेतील वाटा मिळवू शकेल की नाही हे अनिश्चित आहे, परंतु एरोखिमोव्हला त्याच्या संधीबद्दल निश्चितपणे विश्वास आहे.
"AI-व्युत्पन्न व्हिडिओ लवकरच कंपन्या त्यांच्या कथा संप्रेषणाचा प्राथमिक मार्ग बनतील." तो म्हणाला.
















