थॉमस फुलर | Lightrocket Getty Images

सोशल मीडिया महाकाय Reddit आर्टिफिशियल इंटेलिजेंस कंपनी पर्पलेक्सिटीने एक खटला सुरू केला आहे, ज्याने त्याच्या एआय मॉडेलला प्रशिक्षित करण्यासाठी वापरकर्त्याच्या पोस्ट बेकायदेशीरपणे स्क्रॅप केल्याचा आरोप केला आहे, सामग्री मालक आणि एआय उद्योग यांच्यातील नवीनतम डेटा-हक्क संघर्ष चिन्हांकित करते.

न्यू यॉर्क फेडरल कोर्टात बुधवारी दाखल केलेल्या तक्रारीत तीन प्रतिवादींची नावे आहेत, जे Reddit म्हणते की Paraplexy ला त्याचा डेटा गोळा करण्यात मदत झाली: लिथुआनियन डेटा स्क्रॅपर OxyLabs, “माजी रशियन बॉटनेट” AWMProxy आणि टेक्सास स्टार्टअप SerpApi.

Reddit ने आरोप केला आहे की तीन लहान संस्था “त्यांची ओळख मास्क करून, त्यांची ठिकाणे लपवून आणि त्यांच्या वेब स्क्रॅपर्सला नियमित लोकांसारखे वेष करून” कॉपीराइट केलेली सामग्री काढण्यात सक्षम आहेत.

एआय-संचालित शोध इंजिन चालवणाऱ्या पेरप्लेक्सिटीने आरोप नाकारले आणि रेडडिटवर “ब्लॅकमेल” करण्याचा आणि खुल्या इंटरनेटला विरोध केल्याचा आरोप केला, तर SerpApi ने CNBC ला सांगितले की ते Reddit च्या दाव्यांशी “तीव्र असहमत” आहे आणि न्यायालयात स्वतःचा बचाव करण्याचा हेतू आहे.

AI फर्मवर त्यांच्या मोठ्या भाषेच्या मॉडेल्सना प्रशिक्षण देण्यासाठी परवानगीशिवाय कॉपीराइट केलेली सामग्री वापरल्याचा आरोप करणाऱ्या सामग्री मालकांनी दाखल केलेल्या अनेकांपैकी एक खटला प्रतिनिधित्व करतो. Reddit, विशेषतः, त्या लढाईच्या अग्रभागी आहे, जूनमध्ये एआय स्टार्टअप अँथ्रोपिक विरुद्ध असाच चालू असलेला खटला सुरू केला आहे. CNBC Oxylabs आणि AWMProxy पर्यंत पोहोचू शकले नाही.

CNBC सह सामायिक केलेल्या निवेदनात, Reddit मुख्य कायदेशीर अधिकारी बेन ली म्हणाले की AI कंपन्या “गुणवत्तेच्या मानवी सामग्रीसाठी शस्त्रांच्या शर्यतीत अडकल्या आहेत” आणि त्या दबावामुळे “औद्योगिक स्तरावरील ‘डेटा लाँडरिंग’ अर्थव्यवस्थेला चालना मिळाली आहे.”

स्क्रॅपर्स माहिती चोरण्यासाठी तांत्रिक सुरक्षा उपायांना बायपास करतात, नंतर प्रशिक्षण सामग्रीसाठी भुकेलेल्या ग्राहकांना ती विकतात. Reddit हे एक प्रमुख लक्ष्य आहे कारण ते मानवी संभाषणांच्या सर्वात मोठ्या आणि गतिशील संग्रहांपैकी एक आहे.

Reddit – जे 100,000 हून अधिक स्वारस्य-आधारित “subreddit” समुदायांचे आयोजन करते – त्याच्या खटल्यात म्हटले आहे की त्याच्या वापरकर्त्याच्या पोस्ट गोंधळासाठी AI-व्युत्पन्न उत्तरांसाठी सर्वात उद्धृत स्त्रोत बनल्या आहेत.

ते जोडले की त्यांनी गोंधळाला एक बंद-आणि-विराम पत्र पाठवले, ज्यानंतर त्याने “Reddit वर उद्धरणांचे प्रमाण चाळीस पटीने वाढवले.”

AI संशोधकांनी यापूर्वी नोंदवले आहे की Reddit च्या मोठ्या प्रमाणात नियंत्रित संभाषणे AI चॅटबॉट्सना अधिक नैसर्गिक-आवाज देणारे प्रतिसाद निर्माण करण्यास मदत करू शकतात.

कृत्रिम बुद्धिमत्तेच्या युगात, Reddit ने त्याच्या मोठ्या डेटा पूलचा लाभ घेण्यासाठी काम केले आहे, केवळ AI-संबंधित परवाना कराराद्वारे त्यात प्रवेश करण्याची परवानगी दिली आहे. सोशल मीडिया कंपनीने OpenAI सोबत असा करार केला आहे वर्णमालात्याचे गुगल.

खटल्याला प्रतिसाद म्हणून, Perplexity, Reddit प्लॅटफॉर्मवरील एका पोस्टमध्ये, असा युक्तिवाद केला की ते सामग्रीवर AI मॉडेल्सचे प्रशिक्षण देत नाही परंतु केवळ सार्वजनिक Reddit चर्चांचे सारांश आणि कोट्स देते. त्यामुळे परवाना करारावर स्वाक्षरी करणे ‘अशक्य’ असल्याचे त्यात म्हटले आहे.

“एक वर्षापूर्वी, हे समजावून सांगितल्यानंतर, Reddit ने आग्रह धरला की आम्ही Reddit डेटाच्या प्रवेशाकडे दुर्लक्ष करून तरीही पैसे देऊ. सशक्त हाताच्या युक्तीकडे झुकण्याचा अर्थ असा नाही की आम्ही व्यवसाय करतो,” असे निवेदनात म्हटले आहे, “Google आणि OpenAI सोबत Reddit च्या प्रशिक्षण डेटा वाटाघाटींमध्ये शक्तीचे प्रदर्शन.”

“पब्लिक डेटा सार्वजनिक कंपनीच्या बिझनेस मॉडेलचा एक मोठा भाग बनतो तेव्हा काय घडते याचे हे एक दुःखद उदाहरण आहे, असे पेरप्लेक्सिटीचा विश्वास आहे,” डेटा परवाना हा रेडिटसाठी महसुलाचा वाढता महत्त्वाचा स्रोत बनला आहे हे लक्षात घेऊन पेरप्लेक्सिटी जोडली.

फेब्रुवारीमध्ये, Reddit COO जेन वोंग यांनी ट्रेड पब्लिकेशन Adweek ला सांगितले की Google आणि OpenAI सह AI लायसन्सिंग डील Reddit च्या कमाईच्या सुमारे 10% आहेत.

Source link