हे एक ज्ञात सत्य आहे की भिन्न मॉडेल कुटुंबे भिन्न वैशिष्ट्ये वापरू शकतात. तथापि, किती व्यावहारिकतेचे मर्यादित विश्लेषण होते “प्रतिष्ठित प्रतीक“ या वैशिष्ट्यांद्वारे सिम समान. सर्व वैशिष्ट्यांमुळे विशिष्ट प्रविष्टी मजकूराच्या विशिष्ट प्रतीकांची समान संख्या मिळते? नसल्यास, भिन्न कोड किती आहेत? फरक किती महत्त्वाचा आहे?
या लेखात, आम्ही हे प्रश्न शोधून काढतो आणि विशिष्ट प्रतीकात चढ -उतार करण्याच्या व्यावहारिक प्रभावांचा अभ्यास करतो. आम्ही दोन फ्रॅनाईच्या चॅटजीपीटी विरुद्ध अँथ्रॉपिकच्या क्लेड कुटुंबांसाठी एक तुलनात्मक कथा ऑफर करतो. जरी स्पर्धेद्वारे घोषित केलेल्या किंमतीची संख्या अत्यधिक आहे, परंतु प्रयोगांमधून असे दिसून आले आहे की जीपीटी मॉडेल्सपेक्षा मानवी मॉडेल 20-30 % अधिक महाग असू शकतात.
एपीआय-क्लॉड 3.5 सॉनेट वि जीपीटी -4 ओ
जून 2024 पर्यंत, या दोन प्रगत सीमा मॉडेल्सची किंमत रचना खूप स्पर्धात्मक आहे. क्लॉड 3.5 सॉनेट आणि ओपनईच्या जीपीटी -4 ओ या दोघांची आउटपुट प्रतीकांसाठी एकसारखी किंमत आहे, तर क्लॉड 3.5 सॉनेट इनपुट प्रतीकांसाठी 40 % कमी किंमत प्रदान करते.
स्रोत: व्हँटेज
“प्रतिष्ठित प्रतीक” लपलेले
मानवी मॉडेलसाठी इनपुट कोड दर कमी असले तरी, आमच्या लक्षात आले आहे की जीपीटी -4 ओ सह चालू असलेल्या अनुभवांची एकूण किंमत (निश्चित दाव्यांच्या विशिष्ट संचावर) क्लॉड्स सॉनेट -3.5 च्या तुलनेत खूपच स्वस्त आहे.
का?
ओपनईच्या तुलनेत मानवी प्रतिष्ठित लोक समान इनपुट अधिक विशिष्ट प्रतीकांमध्ये नष्ट करतात. याचा अर्थ असा की समान मागण्यांसाठी, मानवी मॉडेल त्यांच्या ओपनईपेक्षा बरेच काही तयार करतात. परिणामी, क्लॉड क्लीड 3.5 ची किंमत कमी सॉनेट इनपुट असू शकते, परंतु वाढती विशिष्ट प्रतीक या बचतीची भरपाई करू शकते, ज्यामुळे व्यावहारिक प्रकरणांमध्ये उच्च एकूण खर्च होतो.
ही लपलेली किंमत मानववंशातील माहिती कॉड करण्याच्या मार्गावरून उद्भवली आहे आणि बर्याचदा समान सामग्रीचे प्रतिनिधित्व करण्यासाठी अधिक चिन्हे वापरते. विशिष्ट चिन्हाच्या विस्ताराचा खर्च आणि संदर्भ विंडोच्या वापरावर महत्त्वपूर्ण परिणाम होतो.
अद्वितीय चिन्ह फील्डवर अवलंबून आहे
मानववंशशास्त्रज्ञांच्या विशिष्ट चिन्हाद्वारे विविध प्रकारचे फील्ड सामग्री वेगळ्या प्रकारे डिझाइन केली गेली आहे, ज्यामुळे ओपनई मॉडेलच्या तुलनेत वेगवेगळ्या प्रतीकात्मकतेचे प्रमाण वाढते. कृत्रिम बुद्धिमत्ता संशोधन समुदायाने येथे समान प्रतीकात्मक फरक पाहिले आहेत. आम्ही तीन प्रसिद्ध क्षेत्रांवर पोहोचलेल्या निकालांची आम्ही चाचणी केली आहे: इंग्रजी लेख, पायथन आणि गणित.
विशेषज्ञता | फॉर्म प्रविष्ट करा | जीपीटी कोड | क्लॉड चिन्हे | % प्रतिष्ठित प्रतीक |
इंग्रजी लेख | 77 | 89 | ~ 16 % | |
पेटन कोड | 60 | 78 | ~ 30 % | |
गणित | 114 | 138 | ~ 21 % |
क्लॉड 3.5 मधील % विशिष्ट प्रतीक. Son. विशिष्ट प्रतीक (जीपीटी -4 ओशी संबंधित) स्त्रोत: लव्हानिया गुप्ता
क्लॉड S. S. सॉनेटची तुलना जीपीटी -4 ओशी करताना, विशिष्ट चिन्हाची अकार्यक्षमतेची डिग्री सामग्रीच्या सामग्रीद्वारे मोठ्या प्रमाणात बदलते. इंग्रजी लेखांसाठी, क्लॉड्सचे टोकिनायझर समान मजकूर मजकूरासाठी सुमारे 16 % विशिष्ट जीपीटी -4 ओ चिन्हे तयार करते. हे सार्वजनिक खर्च अधिक संघटित किंवा तांत्रिक सामग्रीसह झपाट्याने वाढतात: गणिताच्या समीकरणासाठी, सामान्य खर्चाचा आकार 21 % आहे आणि ब्राइटनेस चिन्हाद्वारे क्लॉड विशिष्ट प्रतीकांची 30 % उत्पन्न करते.
हा फरक उद्भवतो कारण तांत्रिक दस्तऐवज आणि प्रतीक यासारख्या काही प्रकारच्या सामग्रीमध्ये अनेकदा नमुने आणि चिन्हे असतात. मानवी प्रतीकांचे तुकडे एक लहान तुकडे आहेत, ज्यामुळे विशिष्ट प्रतीकांची संख्या जास्त होते. याउलट, अधिक नैसर्गिक भाषेची सामग्री कमी प्रतीकात्मक खर्च दर्शवते.
विशिष्ट चिन्हाच्या कार्यक्षमतेच्या कमतरतेचे इतर व्यावहारिक परिणाम
किंमतींचा थेट समावेश करण्याव्यतिरिक्त, संदर्भ विंडोच्या वापरावर अप्रत्यक्ष परिणाम देखील होतो. मानवी मॉडेल्सने 200 किलोमीटरच्या मोठ्या संदर्भातील विंडोचा दावा केला आहे, विभाजकांमुळे ओपनई 128 के च्या विशिष्ट प्रतीकांच्या विपरीत, मानवी मॉडेल्समध्ये प्रभावी प्रभावी प्रतीक जागा लहान असू शकते. अशा प्रकारे, “प्रभावी” संदर्भ विंडो आकाराच्या बदल्यात “घोषित” संदर्भ विंडो आकारात एक छोटा किंवा मोठा फरक असू शकतो.
वैशिष्ट्यांची अंमलबजावणी
जीपीटी मॉडेल्स थोडीशी जोडी कोडिंग वापरतात, जे अनेकदा प्रतीक तयार करण्यासाठी वारंवार होणार्या पत्रांच्या जोड्या विलीन करतात. विशेषतः, नवीनतम जीपीटी मॉडेल ओ 200 के_बेस ओपन सोर्स वापरतात. येथे जीपीटी -4 ओ द्वारे वापरलेली वास्तविक चिन्हे (टिकटोकन टोकनायझरमध्ये) येथे आढळू शकतात.
JSON
{
#reasoning
"o1-xxx": "o200k_base",
"o3-xxx": "o200k_base",
# chat
"chatgpt-4o-": "o200k_base",
"gpt-4o-xxx": "o200k_base", # e.g., gpt-4o-2024-05-13
"gpt-4-xxx": "cl100k_base", # e.g., gpt-4-0314, etc., plus gpt-4-32k
"gpt-3.5-turbo-xxx": "cl100k_base", # e.g, gpt-3.5-turbo-0301, -0401, etc.
}
दुर्दैवाने, मानवी वैशिष्ट्यांविषयी बरेच काही सांगणे शक्य नाही कारण विशिष्ट प्रतीक थेट उपलब्ध नाही आणि जीपीटीसारखे सोपे आहे. अँथ्रोपोरने डिसेंबर 2024 मध्ये प्रतीकात्मक मोजणी इंटरफेस सोडला. तथापि, लवकरच 2025 च्या रिलीझमध्ये त्याचा अर्थ लावला गेला.
लॅटेनोडने नमूद केले आहे की “जीपीटी -4 साठी ओपनएआयआय पासून 100,261 च्या प्रतीकात्मक बदलांच्या तुलनेत अँथ्रोपोर केवळ 65,000 प्रतीकात्मक फरक असलेले एक अद्वितीय प्रतीक वापरते.” या कोलॅप नोटबुकमध्ये जीपीटी आणि क्लॉड मॉडेल्समधील प्रतीकात्मक फरकांचे विश्लेषण करण्यासाठी एक बिटन चिन्ह आहे. आणखी एक साधन जे आमचे परिणाम साध्य करणारे लोकांसाठी उपलब्ध असलेल्या काही सामान्य वैशिष्ट्यांसह संप्रेषणास अनुमती देते.
कृत्रिम बुद्धिमत्ता संस्थांसाठी सक्रिय पद्धतीने (वास्तविक मॉडेल प्रोग्रामिंग इंटरफेसला कॉल न करता) आणि अर्थसंकल्पातील खर्चाचा अंदाज लावण्याची क्षमता अत्यंत महत्त्वपूर्ण आहे.
मुख्य जेवण
- अँथ्रोपूरची स्पर्धात्मक किंमत छुपे खर्चासह येते:
ओपनईच्या जीपीटी -4 ओ च्या तुलनेत मानववंशशास्त्रातील क्लॉड S. S. S. सॉनेट 40 % कमी इनपुट कोड खर्च प्रदान करते, तर प्रवेश मजकूराचे प्रतिनिधित्व कसे करावे यामधील फरकांमुळे हे स्पष्ट खर्च वैशिष्ट्य दिशाभूल होऊ शकते. - लपविलेले “प्रतिष्ठित कोडमधील कार्यक्षमता”:
मानवी मॉडेल अधिक निसर्गात आहेत लांब? मोठ्या प्रमाणात मजकूराचा सामना करणार्या कंपन्यांसाठी, प्रकाशन फॉर्मच्या वास्तविक किंमतीचे मूल्यांकन करताना हा विरोधाभास समजून घेणे महत्त्वपूर्ण आहे. - क्षेत्रावर अवलंबून असलेले भेदभावपूर्ण प्रतीक:
ओपनई आणि मानवी मॉडेल दरम्यान निवडताना, आपल्या इनपुट मजकूराच्या स्वरूपाचे मूल्यांकन करा? सामान्य भाषेच्या कार्यांसाठी, खर्चातील फरक कमीतकमी असू शकतो, परंतु तांत्रिक किंवा संघटित क्षेत्रांमुळे मानवी मॉडेल्ससह जास्त खर्च होऊ शकतो. - प्रभावी संदर्भ विंडो:
टोकिनायझरच्या टोकिनायझरच्या मृत्यूमुळे, घोषित 200 के विंडो ओपनईपेक्षा कमी उपयुक्त जागा प्रदान करू शकते, ज्यामुळे ए शक्य संदर्भातील विंडोमधील अंतर घोषित आणि वास्तविक?
प्रेसच्या वेळी टिप्पणी देण्याच्या व्हेंचरबीट विनंत्यांना अंटार्बरने प्रतिसाद दिला नाही. त्यांनी प्रतिसाद दिला तर आम्ही कथा अद्यतनित करू.
Source link