AI द्वारे मानवी कार्य स्वयंचलित केले जाईल अशा भविष्याविषयी वाढत्या चर्चा असूनही, सध्याच्या तंत्रज्ञानाच्या भरभराटीचा एक विडंबन म्हणजे तो मानवांवर किती जिद्दीने अवलंबून आहे, विशेषत: रीइन्फोर्समेंट लर्निंग फ्रॉम ह्यूमन फीडबॅक (RLHF) वापरून AI मॉडेलला प्रशिक्षण देण्याची प्रक्रिया.

सर्वात सोप्या भाषेत, RLHF ही एक शिक्षण प्रणाली आहे: एआयला फॉरमॅट केलेल्या डेटावर प्रशिक्षित केल्यानंतर, ती अजूनही चुका करते किंवा रोबोटिक दिसते. नवीन मॉडेलच्या आउटपुटचे प्रशिक्षित केल्याप्रमाणे मूल्यमापन आणि रँक करण्यासाठी AI लॅबद्वारे मानवी कंत्राटदारांना एकत्रितपणे नियुक्त केले जाते आणि मॉडेल त्यांच्या मूल्यमापनातून शिकते, उच्च-रेट आउटपुट देण्यासाठी त्याचे वर्तन समायोजित करते. ही प्रक्रिया अधिकाधिक महत्त्वाची बनते कारण AI मल्टीमीडिया आउटपुट जसे की व्हिडिओ, ऑडिओ आणि प्रतिमा तयार करण्यासाठी विस्तारत आहे ज्यात अधिक अचूक आणि व्यक्तिनिष्ठ गुणवत्ता मेट्रिक्स असू शकतात.

ऐतिहासिकदृष्ट्या, ही अध्यापन प्रक्रिया AI कंपन्यांसाठी मोठ्या प्रमाणात तार्किक डोकेदुखी आणि जनसंपर्क दुःस्वप्न आहे, जे परदेशी कंत्राटदारांच्या खंडित नेटवर्कवर आणि विशिष्ट कमी-उत्पन्न भौगोलिक केंद्रांमध्ये निश्चित वर्गीकरण पूलवर अवलंबून आहेत, ज्यांना मीडिया कमी पगार देणारी – अगदी शोषणात्मक म्हणून चित्रित करते. ते देखील अकार्यक्षम आहेत: त्यांना एआय लॅब्सना अभिप्रायाच्या एका सेटसाठी आठवडे किंवा महिने प्रतीक्षा करावी लागते, मॉडेल प्रगतीला विलंब होतो.

आणि आता प्रक्रिया अधिक कार्यक्षम करण्यासाठी एक नवीन स्टार्टअप उदयास आला आहे: Rapidata प्रभावीपणे "मजा येत आहे" RLHF ने डुओलिंगो किंवा कँडी क्रशसह लोकप्रिय ॲप्सच्या जगभरातील सुमारे 20 दशलक्ष वापरकर्त्यांकडे पुनरावलोकन कार्ये पुढे ढकलून, लहान, शेअर केलेल्या पुनरावलोकन कार्यांच्या स्वरूपात, जे ते मोबाइल जाहिराती पाहण्याऐवजी पूर्ण करणे निवडू शकतात, डेटा AI रन लॅबमध्ये त्वरित परत पाठवला जातो.

व्हेंचरबीट सोबत प्रेस रिलीजमध्ये सामायिक केल्याप्रमाणे, हे प्लॅटफॉर्म एआय लॅबला परवानगी देते "जवळच्या रिअल-टाइममध्ये मॉडेल्सवर पुनरावृत्ती करा," पारंपारिक पद्धतींच्या तुलनेत विकासाची वेळ लक्षणीयरीत्या कमी करा.

सीईओ आणि संस्थापक जेसन कॉर्किल यांनी त्याच रॅपिडटा प्रकाशनात सांगितले "मानवी निर्णय जागतिक स्तरावर आणि जवळच्या रिअल-टाइममध्ये उपलब्ध आहे, भविष्यासाठी दार उघडून जिथे AI संघ सतत फीडबॅक लूप चालवू शकतात आणि प्रत्येक प्रकाशन चक्राऐवजी दररोज विकसित होणारी प्रणाली तयार करू शकतात.""

रॅपिडेटा RLHF ला मॅन्युअल लेबर समस्येऐवजी हाय-स्पीड इन्फ्रास्ट्रक्चर मानते. आज, कंपनीने आम्हाला केवळ VentureBeat येथे घोषित केले की, मागणीनुसार मानवी डेटासाठी तिचा अनोखा दृष्टीकोन वाढवण्यासाठी, Acequia Capital आणि BlueYard यांच्या सहभागासह Canaan Partners आणि IA Ventures यांच्या सह-नेतृत्वात $8.5 दशलक्ष सीड राउंडसह उदयास आले आहे.

मानवी ढग तयार करणारे बार संभाषण

रॅपिडाटाची उत्पत्ती बोर्डरूममध्ये नव्हती, तर काही बिअरच्या टेबलावर होती. कॉर्किल हा ईटीएच झुरिच येथे विद्यार्थी असताना, रोबोटिक्स आणि कॉम्प्युटर व्हिजनमध्ये काम करत असताना, जेव्हा त्याने प्रत्येक AI अभियंत्याला अखेरीस सामोरे जावे लागते अशा भिंतीला धडक दिली: डेटा फीडबॅक अडथळे.

"विशेषतः, मी अनेक वर्षांपासून रोबोटिक्स, कृत्रिम बुद्धिमत्ता आणि संगणक दृष्टीमध्ये काम करत आहे, आणि झुरिच येथे ETH येथे अभ्यास केला आहे, आणि डेटा समजावून सांगताना मी नेहमी निराश होतो," कॉर्किल यांनी नुकत्याच दिलेल्या मुलाखतीत आठवले. "नेहमी जेव्हा तुम्हाला मानव किंवा मानवी डेटा भाष्याची आवश्यकता असते, तेव्हा तुमचा प्रकल्प त्याच्या ट्रॅकवर थांबतो, कारण तोपर्यंत, तुम्ही फक्त जास्त रात्री पैसे देऊन पुढे जाऊ शकता. परंतु जेव्हा आपल्याला विस्तृत मानवी स्पष्टीकरणाची आवश्यकता असते, तेव्हा आपल्याला एखाद्याकडे जावे लागेल आणि नंतर काही आठवडे प्रतीक्षा करावी लागेल".

या विलंबामुळे हताश झालेल्या कॉर्किल आणि त्यांच्या सह-संस्थापकांच्या लक्षात आले की आधुनिक संगणनाच्या वेगाने पुढे जाणाऱ्या जगासाठी AI चे सध्याचे व्यवसाय मॉडेल मूलभूतपणे खंडित झाले आहे. अल्गोरिदमिक मेट्रिक्स वेगाने वाढत असताना, पारंपारिक मानवी कार्यबल — मॅन्युअल ऑनबोर्डिंग, प्रादेशिक नियुक्ती आणि मंद वेतन चक्राशी संबंधित — नाही. रॅपिडाटा या कल्पनेतून विकसित झाला की मानवी निर्णय जवळच्या-रिअल-टाइम, जागतिक स्तरावर वितरित सेवा म्हणून वितरित केला जाऊ शकतो.

तंत्रज्ञान: डिजिटल फिंगरप्रिंट्सचे प्रशिक्षण डेटामध्ये रूपांतर करणे

Rapidata चे प्राथमिक नावीन्य त्याच्या वितरण पद्धतीमध्ये आहे. विशिष्ट क्षेत्रांमध्ये पूर्णवेळ समालोचकांना नियुक्त करण्याऐवजी, रॅपिडटा मोबाइल ॲप्सच्या जगात विद्यमान लक्ष अर्थव्यवस्थेचा फायदा घेते. Candy Crush किंवा Duolingo सारख्या तृतीय-पक्ष ॲप्ससह भागीदारी करून, Rapidata वापरकर्त्यांना एक पर्याय ऑफर करतो: पारंपारिक जाहिरात पहा किंवा AI मॉडेलला फीडबॅक देण्यासाठी काही सेकंद घालवा.

"वापरकर्त्यांना विचारले जाते: “अहो, तुम्ही जाहिराती पाहण्यापेक्षा आणि कंपन्यांनी तुमच्या डोळ्याची गोळी अशा प्रकारे विकत घेण्याऐवजी, काही डेटावर भाष्य करून मत द्याल का?”" कॉर्किल यांनी स्पष्ट केले. कॉर्किलच्या मते, 50% आणि 60% वापरकर्ते पारंपारिक व्हिडिओ जाहिरातीपेक्षा फीडबॅक कार्य निवडतात.

हे "गर्दीची बुद्धिमत्ता" हा दृष्टिकोन AI संघांना अभूतपूर्व प्रमाणात विविध जागतिक लोकसंख्येमध्ये टॅप करण्यास अनुमती देतो.

  • वर्ल्ड वाइड वेब: रॅपिडटा सध्या 15 ते 20 दशलक्ष लोकांपर्यंत पोहोचतो.

  • प्रचंड समांतरता: प्लॅटफॉर्म एका तासात 1.5 दशलक्ष मानवी भाष्यांवर प्रक्रिया करू शकतो.

  • गती: फीडबॅक सायकल ज्यांना पूर्वी आठवडे किंवा महिने लागतील ते तास किंवा अगदी मिनिटांपर्यंत कमी केले जातात.

  • गुणवत्ता नियंत्रण: प्लॅटफॉर्म वेळोवेळी प्रतिसादकर्त्यांचा विश्वास आणि अनुभव निर्माण करतो, जटिल प्रश्न सर्वात संबंधित मानवी न्यायाधीशांशी जुळतात याची खात्री करून.

  • अनामिकता: सुसंगतता आणि विश्वासार्हता सुनिश्चित करण्यासाठी निनावी ओळखकर्त्यांद्वारे वापरकर्त्यांचा मागोवा घेतला जात असताना, डेटा गुणवत्ता सुधारत असताना, Rapidata वैयक्तिक ओळख संकलित करत नाही, गोपनीयता राखत नाही.

RLHF ऑनलाइन: GPU वर हलवत आहे

कॉर्किलने वर्णन केलेल्या रॅपिडॅटा सक्षम करणारी सर्वात महत्त्वाची तांत्रिक झेप "ऑनलाइन RLHF". पारंपारिकपणे, AI ऑफलाइन बॅचमध्ये प्रशिक्षित केले जाते: तुम्ही मॉडेलला प्रशिक्षण द्या, थांबा, डेटा मानवांना पाठवा, रेटिंगसाठी आठवडे प्रतीक्षा करा आणि नंतर काम पुन्हा सुरू करा. हे निर्माण करते "वर्तुळ" माहितीची ज्यामध्ये अनेकदा नवीन मानवी इनपुटचा अभाव असतो.

Rapidata हा निर्णय थेट प्रशिक्षण लूपमध्ये हस्तांतरित करतो. कारण त्यांचे नेटवर्क खूप वेगवान आहे, ते मॉडेल चालवणाऱ्या GPU सह थेट API द्वारे समाकलित करू शकतात.

"मानवी फीडबॅक रीइन्फोर्समेंट लर्निंगची ही कल्पना आम्हाला नेहमीच आली आहे…आतापर्यंत, तुम्हाला ते नेहमी बॅचमध्ये करावे लागले आहे;" कॉर्किल म्हणाले. "आता, जर तुम्ही खाली गेलात, तर आमच्याकडे आता काही क्लायंट आहेत, कारण आम्ही खूप वेगवान आहोत, आम्ही मुळात प्रक्रियेत राहू शकतो, जसे की GPU वरील प्रोसेसरमध्ये, आणि GPU काही आउटपुटची गणना करते, आणि ते आम्हाला लगेच वितरित मार्गाने विचारू शकते. “अरे, मला गरज आहे, मला गरज आहे, मला हे पाहण्यासाठी माणसाची गरज आहे.” मला उत्तर मिळते आणि मग ते नुकसान लागू होते, जे आजपर्यंत शक्य नव्हते".

सध्या, प्लॅटफॉर्म हजारो GPU वर चालणाऱ्या मॉडेल्सना लाइव्ह फीडबॅक प्रदान करण्यासाठी प्रति मिनिट अंदाजे 5,500 लोकांना सपोर्ट करते. हे प्रतिबंधित करते "हॅक बाउंटी मॉडेल," जिथे दोन AI मॉडेल प्रत्यक्ष मानवी बारीकसारीक गोष्टींमध्ये प्रशिक्षण देऊन, फीडबॅक लूपमध्ये एकमेकांना मूर्ख बनवतात.

उत्पादन: जागतिक चव आणि संदर्भासाठी एक उपाय

एआय साध्या ऑब्जेक्ट ओळखीच्या पलीकडे जनरेटिव्ह मीडियाकडे जात असल्याने, डेटा वर्गीकरणाच्या आवश्यकता उद्दिष्टापासून व्यक्तिपरक लेबलिंगपर्यंत विकसित झाल्या आहेत. "चव वर आधारित" आयोजित करणे. आता फक्त त्याच्याबद्दल नाही "ही मांजर आहे का?" पण त्यापेक्षा "ही ध्वनी स्थापना खात्रीशीर आहे का?" किंवा "या दोन सारांशांपैकी कोणता अधिक व्यावसायिक दिसतो?".

Lily Clifford, व्हॉईस AI स्टार्टअप Rime च्या CEO, नोंदवतात की Rapidata वास्तविक-जागतिक संदर्भांमध्ये चाचणी मॉडेल्समध्ये परिवर्तनशील आहे. "पूर्वी, अर्थपूर्ण अभिप्राय गोळा करणे म्हणजे विक्रेते आणि सर्वेक्षणे एकत्रितपणे गटबद्ध करणे, विभागानुसार विभाग करणे किंवा देशानुसार देश करणे, जे मोजता येण्यासारखे नव्हते." क्लिफर्ड म्हणाले. Rapidata वापरून, Rime योग्य प्रेक्षकांपर्यंत पोहोचू शकते—मग ते स्वीडन, सर्बिया किंवा युनायटेड स्टेट्समध्ये असो—आणि मॉडेल काही महिन्यांत नव्हे तर दिवसांत वास्तविक ग्राहकांच्या वर्कफ्लोमध्ये कसे कार्य करतात ते पाहू शकतात.

"बहुतेक मॉडेल्स वस्तुस्थितीनुसार बरोबर आहेत, परंतु मला खात्री आहे की तुम्हाला असे ईमेल प्राप्त झाले आहेत जे तुम्हाला माहीत आहेत, अप्रमाणित आहेत, बरोबर?" कॉर्किल यांनी नमूद केले. "तुम्हाला एआय-संचालित ईमेलचा वास येऊ शकतो, किंवा तुम्हाला एआय-संचालित प्रतिमा किंवा व्हिडिओचा वास येऊ शकतो, आणि ते तुमच्यासाठी लगेच स्पष्ट होईल… ही मॉडेल्स अजूनही मानवी दिसत नाहीत आणि ते करण्यासाठी त्यांना मानवी अभिप्रायाची आवश्यकता आहे.".

आर्थिक आणि ऑपरेशनल परिवर्तन

कार्यात्मकदृष्ट्या, Rapidata स्वतःला एक पायाभूत सुविधा स्तर म्हणून स्थान देते जे कंपन्यांना त्यांच्या स्वतःच्या सानुकूल भाष्य प्रक्रिया व्यवस्थापित करण्याची आवश्यकता काढून टाकते. स्केलेबल नेटवर्क प्रदान करून, कंपनी AI संघांसाठी प्रवेशातील अडथळे कमी करत आहे ज्यांना पूर्वी पारंपारिक फीडबॅक लूपच्या किंमती आणि जटिलतेचा सामना करावा लागला होता.

गुंतवणुकीचे नेतृत्व करणारे कॅनन पार्टनर्सचे जेरेड न्यूमन नमूद करतात की ही पायाभूत सुविधा पुढील पिढीच्या कृत्रिम बुद्धिमत्तेसाठी आवश्यक आहे. "प्रत्येक गंभीर AI उपयोजन जीवन चक्रात कुठेतरी मानवी निर्णयावर अवलंबून असते." न्यूमन म्हणाले. "उदाहरणे अनुभव-आधारित कार्यांपासून चव-आधारित प्रक्रियेकडे जाताना, स्केलेबल मानवी अभिप्रायाची मागणी वेगाने वाढेल.".

मानवी वापराचे भविष्य

सध्या बे एरियामधील मॉडेल लॅबवर लक्ष केंद्रित केले जात असताना, कॉर्किल एक भविष्य पाहत आहे ज्यामध्ये AI मॉडेल स्वतःच मानवी प्रशासनाचे प्राथमिक एजंट बनतात. तो याला कॉल करतो "मानवी वापर".

या दृष्टीकोनातून, एआय कार डिझायनर केवळ एक सामान्य कार तयार करणार नाही; फ्रेंच मार्केटमधील 25,000 लोकांना एखाद्या विशिष्ट सौंदर्याबद्दल काय वाटते हे विचारण्यासाठी ते Rapidata ला प्रोग्रामॅटिकरित्या कॉल करू शकते, त्या फीडबॅकची प्रतिकृती बनवू शकते आणि काही तासांत त्याची रचना सुधारू शकते.

"समाज सतत बदलत असतो," कॉर्किल यांनी मानवी वर्तनाची नक्कल करण्यासाठी कृत्रिम बुद्धिमत्ता वापरण्याच्या प्रवृत्तीकडे लक्ष वेधले. "जर त्यांनी आता एखाद्या समाजाचे अनुकरण केले तर, सिम्युलेशन स्थिर असेल आणि कदाचित काही महिन्यांसाठी आपला समाज प्रतिबिंबित करेल, परंतु नंतर तो पूर्णपणे बदलेल, कारण समाज बदलला आहे आणि खूप वेगळ्या पद्धतीने विकसित झाला आहे.".

जगभरातील मानवी मेंदूच्या सामर्थ्यामध्ये प्रवेश करण्यासाठी एक वितरित सॉफ्टवेअर मार्ग तयार करून, रॅपिडाटा स्वतःला सिलिकॉन आणि समाज यांच्यातील एक महत्त्वाचा दुवा म्हणून स्थान देतो. $8.5 दशलक्ष नवीन निधीसह, कंपनीने हे सुनिश्चित करण्यासाठी आक्रमकपणे पुढे जाण्याची योजना आखली आहे की AI चा विस्तार होत असताना, मानवी घटक यापुढे अडथळे नाहीत, तर रिअल-टाइम फायदा आहे.

Source link