उद्योगातील अग्रगण्य कृत्रिम बुद्धिमत्ता कव्हर करण्यासाठी नवीनतम अद्यतने आणि विशेष सामग्री मिळविण्यासाठी दररोज आणि साप्ताहिक वृत्तपत्रांमध्ये सामील व्हा. अधिक जाणून घ्या
जानेवारी २०२25 मध्ये चिनी कंपनी दीपसेकने तत्कालीन ज्ञात (हाँगकाँग क्वांटम अॅनालिसिस कंपनी) त्याची मजबूत, खोल, खोल -स्रोत आर 1 भाषिक मॉडेल जगाला सुरू केल्यावर संपूर्ण कृत्रिम बुद्धिमत्ता देखावा बदलला, जो मेटा सारख्या सर्वोत्कृष्ट अमेरिकन खेळाडू आहे.
दीपसीकचा प्रसार त्वरित संशोधक आणि संस्थांमध्ये पसरला आहे, जे नोंदवले गेले त्यानुसार, मेटाला घाबरून पाठवले गेले जेव्हा आपल्याला हे माहित आहे की या नवीन आर 1 मॉडेलने त्यांना मागे टाकलेल्या इतर अनेक आघाडीच्या मॉडेल्सच्या किंमतीच्या एका छोट्याशा भागावर प्रशिक्षण दिले गेले आहे, आणि एआय टीमच्या काही नेत्यांपैकी काही देय देणार्या अनेक दशलक्ष डॉलर्सपर्यंत नमूद केले आहे.
एआयची पूर्ण प्रसूतीची रणनीती मेटाने आपल्या ब्रँडच्या “लामा” या ब्रँडच्या नावाखाली ओपन सोर्स फॉर्म जारी करण्याचा अंदाज लावला होता, ज्यात संशोधक आणि कंपन्यांना मुक्तपणे ते तयार करावे (कमीतकमी, त्यांच्याकडे दरमहा 700 दशलक्षपेक्षा कमी वापरकर्ते असतील तर आणि नंतर ते खासगी पेड लायसन्सिंग अटींसाठी मृतांशी संपर्क साधू शकतात). तथापि, हे आश्चर्यचकित झाले की दीपसेक आर 1 ची चांगली कामगिरी कंपनीच्या नेतृत्वाने आश्चर्यकारकपणे हादरली आणि एक प्रकारचे खाते भाग पाडले, कारण लामा ची नवीनतम आवृत्ती, 3.3 डिसेंबर 2024 च्या फक्त एक महिन्यापूर्वी रिलीज झाली होती, परंतु ती खरोखर जुनी दिसते.
आता आम्हाला या प्रयत्नाचे फळ माहित आहेतः आज, मेटाचे संस्थापक आणि मार्क झुकरबर्गचे मुख्य कार्यकारी अधिकारी यांनी आपल्या इन्स्टाग्राम अकाऊंटवर लामा 4 मॉडेल्सची नवीन मालिका जाहीर करण्यासाठी, त्यापैकी दोन शिक्षक 400 अब्ज लामा 4 मॅव्हरिक आणि 109 अब्ज लामा 4 स्काऊट-उपलब्ध आहेत.
आज एका प्रचंड शिक्षकाची तपासणी आज 2 ट्रिलियन राक्षस लामा 4 मानकांद्वारे केली गेली आहे, जरी रिलीझवरील मेटा ब्लॉग पोस्टने म्हटले आहे की तो अद्याप प्रशिक्षित आहे आणि जेव्हा ते सुरू करता येईल तेव्हा कोणतेही सूचक दिले गेले नाही. (पॅरामीटर्सचा उल्लेख मॉडेलच्या वर्तनावर नियंत्रण ठेवणार्या सेटिंग्जचा संदर्भ घेतात, ज्याचा अर्थ सामान्यत: संपूर्ण मॉडेलमध्ये अधिक शक्तिशाली आणि गुंतागुंतीचा असतो.)
या मॉडेल्समधील मुख्य वैशिष्ट्यांपैकी एक म्हणजे ते सर्व मल्टीमीडिया आहेत – त्यावर प्रशिक्षित आहेत आणि म्हणूनच मजकूर, व्हिडिओ आणि प्रतिमा प्राप्त करण्यास आणि व्युत्पन्न करण्यास सक्षम आहेत (हफच्या आवाजाचा उल्लेख केला गेला नाही).
आणखी एक म्हणजे त्यांच्याकडे आश्चर्यकारकपणे लांब संदर्भ विंडो आहेत – लामा 4 मॅव्हरिकसाठी दहा लाख प्रतीक आणि 10 दशलक्ष लामा 4 स्काऊट – अनुक्रमे सुमारे 1500 आणि 15,000 पृष्ठांच्या समतुल्य, या सर्व गोष्टी त्यांच्याशी एका इनपुट/आउटपुट परस्परसंवादामध्ये सामोरे जाऊ शकतात. याचा अर्थ असा की वापरकर्ता सिद्धांतानुसार 7500 पृष्ठे डाउनलोड किंवा पेस्ट करू शकतो आणि लामा 4 स्काऊटकडून बरेच काही प्राप्त करू शकतो, जे औषध, विज्ञान, अभियांत्रिकी, गणित, साहित्य इ. सारख्या तीव्र माहिती क्षेत्रासाठी उपयुक्त ठरेल.
या आवृत्तीबद्दल आम्ही आतापर्यंत जे शिकलो आहोत ते येथे आहेः
तज्ञांच्या मिश्रणात प्रत्येकजण
तीन मॉडेल ओपनई आणि मिस्त्रालच्या मागील मॉडेल आवृत्त्यांमधील “एमओई तज्ञ (तज्ञ” या सर्व संरचनेचा वापर करतात, जे मुख्यत: लहान मॉडेल (तज्ञ “) मध्ये मोठ्या मॉडेलमध्ये (तज्ञ”) मोठ्या मॉडेलमध्ये एकत्रित करतात. लामा of ची प्रत्येक आवृत्ती १२8 तज्ञांची आवश्यकता आहे, ज्याची विशिष्ट तज्ञ आहेत, “फक्त तज्ञ आहेत,” फक्त तज्ञ म्हणून काम करणे आवश्यक आहे, “फक्त तज्ञ म्हणून काम करणे आवश्यक आहे,” फक्त तज्ञ म्हणून काम करणे आवश्यक आहे, “फक्त तज्ञ म्हणून काम करणे आवश्यक आहे,” फक्त तज्ञ म्हणून काम करणे आवश्यक आहे, कारण केवळ तज्ञ आहेत, “केवळ तज्ञ आहेत,” फक्त तज्ञ म्हणून, “फक्त तज्ञ आहेत,” फक्त तज्ञ आहेत, ” संपूर्ण फॉर्म जो प्रत्येकासाठी चालविला जाणे आवश्यक आहे.
लामा 4 लक्षात आहे:
परिणामी, सर्व पॅरामीटर्स मेमरीमध्ये संचयित केले जातात, परंतु हे मॉडेल सादर करताना केवळ एकूण पॅरामीटर्सचा एक उप -गट सक्रिय केला जातो. यामुळे सेवा आणि जिरे कमी करून अनुमानांची कार्यक्षमता सुधारते – लॅमामा 4 मॅव्हरिक सहज पोस्टिंगसाठी एका होस्ट (एनव्हीआयडीआयए) एच 100 डीजीएक्सवर किंवा जास्तीत जास्त कार्यक्षमता साध्य करण्यासाठी वितरित अनुमानासह चालवू शकते.
स्काऊट आणि मॅव्हरिक दोघेही स्वत: चे होस्ट करण्यासाठी लोकांसाठी उपलब्ध आहेत, तर एपीआय पातळी किंवा अधिकृत पायाभूत सुविधांची किंमत पातळी जाहीर केली गेली नाही. त्याऐवजी, मेटा व्हाट्सएप, मेसेंजर, इन्स्टाग्राम आणि वेबमधील मेटा एआय सह मुक्त डाउनलोड आणि एकत्रीकरणाद्वारे वितरणावर लक्ष केंद्रित करते.
मेटाचा अंदाज लामा 4 मॅव्हरिक येथे $ 0.19 ते $ 0.49 प्रति दशलक्ष प्रतीकांवर आहे (इनपुट आणि आउटपुटचे 3: 1 मिश्रण वापरुन). हे जीपीटी -4 ओ सारख्या रॉयल मॉडेल्सपेक्षा खूपच स्वस्त बनवते, ज्याची किंमत समुदायाच्या मानकांवर आधारित प्रति दशलक्ष प्रतीकांसाठी 38 4.38 आहे.
सर्व तीन लामा 4 मॉडेल्स डिझाइन केलेले आहेत-विशेषत: मोबाइल आणि पियोटा-स्पष्टपणे विचार करणे, कोडिंग करणे आणि समस्येचे निराकरण करण्यासाठी, परंतु हे दर्शवित नाही की ते ओपनई “ओ”, नॉर डीपसेक आर 1 सारख्या समर्पित विचारांच्या मॉडेल्समध्ये विचारांच्या साखळ्यांना दर्शविते.
त्याऐवजी, हे थेट नॉन-क्लासिक एलएलएमएस “नॉन-क्लासिक” आणि ओपनई मधील जीपीटी -4 ओ सारख्या मल्टीमीडिया मॉडेल्ससह थेट स्पर्धा करण्यासाठी डिझाइन केलेले दिसते आणि लामा 4 बेबीमॉथचा अपवाद वगळता, जे आहे करा हे दीपसेक आर 1 ची धमकी देत आहे असे दिसते (खाली याबद्दल अधिक!)
याव्यतिरिक्त, लामा 4 साठी, विचारांना प्रोत्साहन देण्यासाठी प्रशिक्षणानंतर समर्पित पाइपलाइन डिझाइन केलेल्या मेटा, जसे की:
- पर्यवेक्षण नियंत्रणा दरम्यान “सुलभ” दाव्यांपैकी 50 % पेक्षा जास्त दावे काढा.
- हळूहळू कठीण दाव्यांसह सतत मजबुतीकरण शिक्षणाची रिंग स्वीकारणे.
- पास@के मूल्यांकन वापरणे आणि गणित, तर्कशास्त्र आणि कोडिंगमधील कामगिरी वाढविण्यासाठी शाळेचे नमुने घेणे.
- मेटाप अंमलबजावणी, एक नवीन तंत्रज्ञान जे अभियंत्यांना मॉडेल्ससाठी सुपर स्टँडर्ड्स (जसे की प्रत्येक थरासाठी शिकण्याचे दर) नियंत्रित करण्यास अनुमती देते आणि इच्छित मॉडेलचे वर्तन राखताना इतर आकारात मॉडेल आणि चिन्हांच्या प्रकारांवर लागू करते.
मेटापला विशेष महत्त्व आहे कारण त्याचा उपयोग जास्त प्रमाणात मॉडेल्सवर ठेवण्यासाठी आणि नंतर आयटीच्या इतर अनेक प्रकारच्या मॉडेल्स मिळविण्यासाठी पुढे जाण्यासाठी वापरला जाऊ शकतो, ज्यामुळे प्रशिक्षणाची कार्यक्षमता वाढते.
व्हेंचरबीटमधील माझे सहकारी आणि एलएलएम तज्ञ असल्याने, बेन डिक्सन यांनी नवीन मेटाप तंत्रज्ञान पाहिले: “यामुळे बराच वेळ आणि पैशाची बचत होऊ शकते. याचा अर्थ असा की ते विस्तृत श्रेणीवर करण्याऐवजी लहान मॉडेल्सवर अनुभव चालवित आहेत.”
30 ट्रिलियनपेक्षा जास्त प्रतीकांपेक्षा 390 टीएफएलओपी/जीपीयू साध्य करण्यासाठी 390 टीएफएलओपीएस/जीपीयू साध्य करण्यासाठी 32 किमी आणि एफपी 8 रिझोल्यूशन वापरणार्या राक्षस सारख्या मोठ्या मॉडेल्सचे प्रशिक्षण देताना हे विशेषतः महत्वाचे आहे – दुहेरी प्रशिक्षण डेटा लामा 3 पेक्षा जास्त.
दुस words ्या शब्दांत: संशोधक मॉडेलला कसे कार्य करायचे आहेत हे व्यापकपणे सांगू शकतात आणि मॉडेलच्या मोठ्या आणि लहान आवृत्तीवर आणि माध्यमांच्या वेगवेगळ्या प्रकारांमध्ये हे लागू करतात.
मजबूत – परंतु अद्याप नाही द सर्वाधिक मजबूत कुटुंब – मॉडेल
मेटा मार्क झुकरबर्गचे मुख्य कार्यकारी अधिकारी इन्स्टाग्राम (मेटा कंपनी, नैसर्गिकरित्या) वरील व्हिडिओच्या घोषणेत म्हणाले की, “जगातील अग्रगण्य कृत्रिम बुद्धिमत्ता निर्माण करणे हे कंपनीचे ध्येय आहे, आणि स्त्रोत खुले आहे, आणि जगातील प्रत्येक व्यक्तीला त्याचा फायदा होईल जेणेकरून त्याचा फायदा होईल …
हे एक स्पष्टपणे काळजीपूर्वक मसुद्याचे विधान आहे, जसे मेटा ब्लॉगमध्ये ज्याला लामा 4 स्काऊट म्हणतात, “जगातील सर्वोत्कृष्ट मल्टीमीडिया मॉडेल त्याच्या अध्यायात हे मागील सर्व पिढीच्या मॉडेलपेक्षा अधिक मजबूत आहे ((माझ्याद्वारे केंद्रित).
दुस words ्या शब्दांत, हे पॅरामीटर आकार श्रेणीतील इतरांच्या तुलनेत ब्लॉकलाच्या वरच्या भागाजवळ, हे अतिशय मजबूत मॉडेल आहेत, परंतु नवीन कामगिरी रेकॉर्ड करणे आवश्यक नाही. तथापि, नवीन लामा 4 कुटुंबातील मॉडेल्सच्या रणशिंगावर मृत होते, त्यापैकी:
लामा 4 राक्षस
- जीपीटी -4.5, जेमिनी २.० प्रो आणि क्लॉड सॉनेट 3.7 वर आउटफॉर्म करते:
- गणित -500 (95.0)
- जीपीक्यूए डायमंड (73.7)
- (.2२.२) साठी एमएमएलयू
कॉल 4 मूव्हीक
- बहुतेक मल्टीमीडिया विचारांच्या मानकांवर जीपीटी -4 ओ आणि मिथुन 2.0 फ्लॅश बीट्स:
- चार्टक्यूए, डॉकव्यूए, मॅथविस्टा, एमएमएमयू
- अर्ध्यापेक्षा कमी सक्रिय पॅरामीटर्स (17 बी) वापरताना दीपसेक व्ही 3.1 (45.8 बी पॅराम्स) सह स्पर्धात्मक
- मानक ग्रेड:
- चार्टक्यूए: 90.0 (जीपीटी -4 ओ च्या 85.7 च्या विरूद्ध)
- डॉकव्यूए: 94.4 (विरूद्ध 92.8)
- साठी एमएमएलयू: 80.5
- अगदी प्रभावी: 0.19 डॉलर्स -0.49 डॉलर प्रति 1 मीटर प्रतीक

4 स्काउट्स कॉल करा
- मिसट्रल 3.1, मिथुन 2.0 फ्लॅश-लाइट आणि जेम्मा 3 सारख्या उत्कृष्ट मॉडेल्स जुळत आहेत:
- दस्तऐवज: 94.4
- साठी एमएमएलयू: 74.3
- मॅथविस्टा: 70.7
- विशिष्ट चिन्हाची लांबी अतुलनीय आहे-लांब कागदपत्रे, कोड किंवा बहु-टर्नसाठी एक आदर्श आहे
- एच 100 ग्राफिक्स प्रोसेसिंग युनिटवर एकच प्रकाशन

पण तरीही, आपण दीपसीक ते लामा 4 कसे जमा करता?
परंतु अर्थातच, दीपसेक आर 1 आणि “ओ” ओपनई (जसे की जीपीटी -4 ओ), मिथुन 2.0 आणि क्लॉड सॉनेट सारख्या तार्किक भारी मॉडेल्सची आणखी एक संपूर्ण श्रेणी आहे.
शिक्षक-एलईएमए 4 बेबीमथ-आणि आर 1-32 बी आणि ओपनई ओ 1 मॉडेल्ससाठी डीपसेक आर 1 इंटिअल लॉन्च योजनेशी तुलना करण्यासाठी सर्वोच्च मॉडेलचा वापर करून, लामा 4 बेहेमोथ कसे येथे आहे:
मानक | लामा 4 राक्षस | दीपसेक आर 1 | ओपनई ओ 1-1217 |
---|---|---|---|
गणित -500 | 95.0 | 97.3 | 96.4 |
Gpqua हिरे | 73.7 | 71.5 | 75.7 |
एमएमएलयू | 82.2 | 90.8 | 91.8 |
आपण काय निष्कर्ष काढू शकतो?
- गणित -500: लामा 4 एक लहान राक्षस मागे दीपसेक आर 1 आणि ओपनई ओ 1.
- GPQA डायमंड: राक्षस दीपसीक आर च्या आधी1, परंतु ओपनई ओ 1 च्या मागे.
- एमएमएलयू: राक्षस पथ एकसारखे आहेत, परंतु तरीही गुएनी 2.0 प्रो आणि जीपीटी -4.5.
रेडी -मेड जेवणः डीपसीक आर 1 आणि ओपनई ओ 1 एज आउट बीमोथ अद्याप दोन मानकांवर असताना, लामा 4 बेबीमथ अजूनही खूप स्पर्धात्मक आहे आणि त्याच्या वर्गातील नेत्यांच्या शिखरावर किंवा जवळ आहे.
सुरक्षा आणि कमी राजकीय “पूर्वाग्रह”
विकसकांना असुरक्षित इनपुट/आउटपुट किंवा आक्रमक दावे शोधण्यात मदत करण्यासाठी आणि नॉन -ऑटोमॅटिक आक्षेपार्ह एजंट टेस्टची अंमलबजावणी करण्यात मदत करण्यासाठी मेटाने मॉडेल आणि सुरक्षिततेच्या संरेखनाची पुष्टी केली आहे.
कंपनीने असा दावा केला आहे की लामा 4 मध्ये “राजकीय पक्षपात” मध्ये मोठी सुधारणा दिसून आली आहे आणि ते म्हणतात, “विशेषत: (एलएलएमचे नेतृत्व) ऐतिहासिकदृष्ट्या जेव्हा राजकीय चर्चा आणि सामाजिक विषयांवर विचार करतात,” लामा 4 रिपब्लिकनचे अध्यक्ष डोनाल्ड जे. ट्रम्प आणि त्यांच्या पक्षाच्या 2024 नंतर आलिंगनानुसार उजव्या शाखेत फ्लर्टिंग करण्यात अधिक चांगले आहे.
जिथे लामा 4 आतापर्यंत उभे आहे
लामा 4 मेटा मॉडेल्स मल्टीमीडिया आणि लॉजिक कार्यांद्वारे कार्यक्षमता, मोकळेपणा आणि अतिरेकी कामगिरी एकत्र करतात.
स्काऊट आणि मॅव्हरिक आता सर्वसाधारणपणे, आधुनिक शिक्षकांच्या मॉडेलच्या रूपात सार्वजनिकपणे तपासणी केली गेली आणि त्याची तपासणी केली गेली, ओपनई, दीपसेक आणि गूगलला खुले स्पर्धात्मक पर्याय उपलब्ध करण्यासाठी लामा इकोलॉजिकल सिस्टम ठेवली गेली आहे.
आपण संस्थांच्या प्रमाणात सहाय्यक, कृत्रिम बुद्धिमत्ता संशोधन पाइपलाइन किंवा लांब -कॉन्टेक्स्ट विश्लेषणात्मक साधने तयार करीत असलात तरी, लामा 4 प्रथम विचारांच्या डिझाइनकडे स्पष्ट अभिमुखतेसह लवचिक आणि उच्च -कार्यक्षमता पर्याय ऑफर करते.
Source link