अनुमानाची किंमत कमी करणे हे सहसा हार्डवेअर आणि सॉफ्टवेअरचे संयोजन असते. Nvidia द्वारे गुरुवारी जारी केलेले नवीन विश्लेषण दर्शविते की प्रति टोकन किंमतीत 4x आणि 10x दरम्यान चार अग्रगण्य अनुमान प्रदात्यांनी कशी कपात केली आहे.
ओपन सोर्स मॉडेल्ससह Nvidia च्या ब्लॅकवेल प्लॅटफॉर्मचा वापर करून खर्चात लक्षणीय कपात करण्यात आली. Baseten, DeepInfra, Fireworks AI, आणि Together AI कडील उत्पादन उपयोजन डेटा आरोग्यसेवा, गेमिंग, एजंट चॅट आणि ग्राहक सेवेमध्ये लक्षणीय खर्च सुधारणा दर्शवतो कारण संस्था पायलट प्रोजेक्ट्सपासून लाखो वापरकर्त्यांपर्यंत AI स्केल करतात.
अनुमान प्रदात्यांद्वारे नोंदवलेल्या 4x ते 10x खर्च कपातीसाठी ब्लॅकवेल हार्डवेअर दोन इतर घटकांसह एकत्र करणे आवश्यक आहे: सुधारित सॉफ्टवेअर सूट आणि आता फ्रंटियर-स्तरीय बुद्धिमत्तेशी सुसंगत असलेल्या ओपन सोर्स मॉडेल्सकडे मालकीवरून बदल. विश्लेषणानुसार केवळ हार्डवेअर सुधारणांमुळे काही उपयोजनांमध्ये दुहेरी-अंकी नफा व्युत्पन्न झाला. मोठ्या खर्चात कपात करण्यासाठी NVFP4 सारख्या कमी-रिझोल्यूशन फॉरमॅटचा अवलंब करणे आणि प्रीमियम किमती आकारणाऱ्या बंद स्त्रोत API पासून दूर जाणे आवश्यक आहे.
अर्थशास्त्र विरोधाभासी सिद्ध झाले आहे. अनुमान खर्च कमी करण्यासाठी उच्च-कार्यक्षमता पायाभूत सुविधांमध्ये गुंतवणूक करणे आवश्यक आहे कारण थ्रुपुट सुधारणा थेट प्रति टोकन कमी खर्चात अनुवादित करतात.
"कामगिरीमुळे अनुमानाची किंमत कमी होते," एनव्हीडिया येथील एचपीसी आणि एआय हायपरस्केलर सोल्यूशन्सचे वरिष्ठ संचालक डायन हॅरिस यांनी व्हेंचरबीटला एका खास मुलाखतीत सांगितले. "आपण अनुमानामध्ये जे पाहतो ते म्हणजे उत्पादकता अक्षरशः वास्तविक डॉलरच्या मूल्यात अनुवादित होते परिणामी कमी खर्च येतो."
उत्पादन उपयोजन 4x आणि 10x दरम्यान खर्च कपात दर्शविते
Nvidia ने ब्लॅकवेलच्या पायाभूत सुविधा, ऑप्टिमाइझ्ड सॉफ्टवेअर स्टॅक आणि ओपन सोर्स मॉडेल्सचे संयोजन उद्योगातील विविध वर्कलोड्समधील खर्च कसे कमी करत आहे हे दाखवत असलेल्या ब्लॉग पोस्टमध्ये चार ग्राहक उपयोजनांचे तपशीलवार वर्णन केले आहे. केस स्टडीजमध्ये मोठ्या प्रमाणात ऍप्लिकेशन्सचा समावेश होतो जेथे ह्युरिस्टिक्सचे अर्थशास्त्र थेट व्यवसाय व्यवहार्यता निर्धारित करते.
Sully.ai ने हेल्थकेअर AI अनुमान खर्चात 90% (10x कपात) कपात केली आहे, तर Nvidia नुसार, Baseten च्या Blackwell प्लॅटफॉर्मवर चालणाऱ्या प्रोप्रायटरीमधून ओपन सोर्स मॉडेल्सवर स्विच करून प्रतिसाद वेळा 65% ने सुधारला आहे. कंपनीने 30 दशलक्ष मिनिटांहून अधिक वैद्यकीय कोडिंग आणि नोट-टेकिंग कार्ये स्वयंचलित करून डॉक्टरांना पुनर्संचयित केले आहेत ज्यांना पूर्वी मॅन्युअल डेटा एंट्री आवश्यक होती.
Nvidia ने असेही नोंदवले आहे की DeepInfra च्या ब्लॅकवेल तैनातीवर तज्ञांचे मोठे मॉडेल्स (MoE) चालवून अक्षांश कमी केलेल्या गेम अनुमानाची किंमत त्याच्या AI Dungeon प्लॅटफॉर्मसाठी 4x आहे. प्रति दशलक्ष चिन्हांची किंमत Nvidia च्या पूर्वीच्या हॉपर प्लॅटफॉर्मवर 20 सेंट्सवरून ब्लॅकवेलवर 10 सेंट्सवर आणि नंतर ब्लॅकवेलच्या नेटिव्ह लो-रिझोल्यूशन NVFP4 फॉरमॅटचा अवलंब केल्यानंतर 5 सेंटवर आली. एकट्या हार्डवेअरने 2x सुधारणा साध्य केली, परंतु 4x पर्यंत पोहोचण्यासाठी अचूक स्वरूप बदल आवश्यक आहे.
Nvidia च्या म्हणण्यानुसार, फायरवर्क्स एआयच्या ब्लॅकवेल-ऑप्टिमाइझ्ड इन्फरेन्स स्टॅकचा वापर करून सेंटियंट फाऊंडेशनने त्याच्या एजंट चॅट प्लॅटफॉर्मसाठी 25% ते 50% चांगली किमतीची कार्यक्षमता प्राप्त केली आहे. प्लॅटफॉर्मने एक जटिल मल्टी-एजंट वर्कफ्लो आयोजित केला आणि त्याच्या व्हायरल लॉन्च दरम्यान कमी विलंब राखून एका आठवड्यात 5.6 दशलक्ष चौकशींवर प्रक्रिया केली.
टूगेदर एआयच्या ब्लॅकवेल इन्फ्रास्ट्रक्चरवर मल्टी-मॉडेल स्टॅक चालवून डेकागॉनने AI-शक्तीच्या व्हॉइस ग्राहक समर्थनासाठी प्रति क्वेरी खर्चात 6x कपात केली असल्याचे Nvidia ने सांगितले. प्रति क्वेरी हजारो टोकन्सवर प्रक्रिया करत असतानाही प्रतिसाद वेळा 400ms पेक्षा कमी राहिल्या, जे व्हॉइस परस्परसंवादासाठी गंभीर आहे जेथे विलंबामुळे वापरकर्ते हँग होतात किंवा विश्वास गमावतात.
तांत्रिक घटकांमुळे 4x विरुद्ध 10x सुधारणा होतात
4x ते 10x खर्च कपातीची श्रेणी केवळ हार्डवेअर फरकांऐवजी तांत्रिक सुधारणांचे विविध संयोजन दर्शवते. तीन घटक प्राथमिक ड्रायव्हर्स म्हणून उदयास येतात: अचूक स्वरूपन स्वीकारणे, मॉडेल आर्किटेक्चर निवडी आणि सॉफ्टवेअर पॅकेज एकत्रीकरण.
ललित स्वरूप सर्वात स्पष्ट प्रभाव दर्शवतात. अक्षांश प्रकरण हे थेट स्पष्ट करते. हॉपरपासून ब्लॅकवेलकडे जाण्याने हार्डवेअर सुधारणांद्वारे खर्च दोन पटीने कमी झाला. NVFP4, ब्लॅकवेलचे मूळ कमी-रिझोल्यूशन स्वरूप स्वीकारून, ही सुधारणा एकूण 4x पर्यंत दुप्पट झाली. NVFP4 मॉडेल वजन आणि सक्रियतेचे प्रतिनिधित्व करण्यासाठी आवश्यक असलेल्या बिट्सची संख्या कमी करते, अचूकता राखून प्रत्येक GPU सायकलमध्ये अधिक गणना करण्यास अनुमती देते. हे स्वरूप विशेषतः MOE मॉडेलसह चांगले कार्य करते जेथे प्रत्येक अनुमान विनंतीसाठी मॉडेलचा फक्त एक उपसंच सक्रिय केला जातो.
वैशिष्ट्यपूर्ण वास्तुकला महत्त्वाची आहे. MoE मॉडेल्स, जे इनपुटवर आधारित भिन्न विशेष उप-मॉडेल सक्रिय करतात, ब्लॅकवेलच्या NVLink फॅब्रिकचा फायदा घेतात ज्यामुळे तज्ञांमध्ये जलद संवाद साधता येतो. "NVLink फॅब्रिकमध्ये या तज्ञांशी संवाद साधणे तुम्हाला खूप लवकर विचार करण्यास अनुमती देते," हॅरिस म्हणाले. दाट मॉडेल जे प्रत्येक अनुमानासाठी सर्व पॅरामीटर्स सक्रिय करतात ते या आर्किटेक्चरचा प्रभावीपणे फायदा घेत नाहीत.
सॉफ्टवेअर स्टॅक एकत्रीकरण अतिरिक्त कामगिरी डेल्टा तयार करते. Nvidia चा सह-डिझाइन दृष्टीकोन — जेथे ब्लॅकवेल हार्डवेअर, NVL72 विस्तार आर्किटेक्चर, आणि Dynamo आणि TensorRT-LLM सारखे सॉफ्टवेअर एकत्र ऑप्टिमाइझ केले आहे — देखील फरक करते, हॅरिस म्हणाले. Baseten च्या Sully.ai च्या तैनातीने या एकात्मिक सूटचा वापर केला, जो 10x खर्चात कपात करण्यासाठी NVFP4, TensorRT-LLM आणि Dynamo एकत्र करतो. vLLM सारखे पर्यायी फ्रेमवर्क वापरणारे प्रदाते कमी नफा पाहू शकतात.
वर्कलोडची वैशिष्ट्ये महत्त्वाची आहेत. अनुमान मॉडेल ब्लॅकवेलसाठी विशिष्ट फायदे दर्शवितात कारण ते अधिक चांगली उत्तरे मिळविण्यासाठी अधिक टोकन व्युत्पन्न करतात. बेस्पोक सेवेद्वारे या विस्तारित टोकन अनुक्रमांना कार्यक्षमतेने हाताळण्याची प्लॅटफॉर्मची क्षमता, जिथे संदर्भ पूर्व-लोकसंख्या आणि टोकन जनरेशन स्वतंत्रपणे हाताळले जाते, लॉजिक वर्कलोडला किफायतशीर बनवते.
संभाव्य खर्च कपातीचे मूल्यांकन करणाऱ्या कार्यसंघांनी या घटकांविरुद्ध त्यांच्या वर्कलोड प्रोफाइलचे परीक्षण केले पाहिजे. एकात्मिक ब्लॅकवेल सॉफ्टवेअर स्टॅकसह तज्ञ मिक्स मॉडेल्स वापरून टोकन जनरेशन वर्कलोड 10x श्रेणीपर्यंत पोहोचेल. Alt फ्रेमवर्कवर दाट मॉडेल वापरून कमी टोकन व्हॉल्यूम 4x पर्यंत पोहोचेल.
स्थलांतर करण्यापूर्वी कोणत्या संघांची चाचणी घ्यावी
हे केस स्टडीज Nvidia Blackwell उपयोजनांवर केंद्रित असताना, संस्थांकडे अनुमान खर्च कमी करण्याचे अनेक मार्ग आहेत. AMD ची MI300 मालिका, Google TPU आणि Groq आणि Cerebras मधील विशेष अनुमान प्रवेगक पर्यायी आर्किटेक्चर ऑफर करतात. क्लाउड प्रदाते देखील त्यांच्या अनुमान सेवा सुधारणे सुरू ठेवतात. ब्लॅकवेल हा एकमेव पर्याय आहे की नाही हा प्रश्न नाही, परंतु हार्डवेअर, सॉफ्टवेअर आणि मॉडेल्सचे विशिष्ट संयोजन विशिष्ट वर्कलोड आवश्यकतांशी जुळते का.
ब्लॅकवेल-आधारित हेरिस्टिक्सचा विचार करणाऱ्या कंपन्यांनी त्यांचे वर्कलोड इन्फ्रास्ट्रक्चरमधील बदलांचे समर्थन करते की नाही याची गणना करून सुरुवात केली पाहिजे.
"संस्थांनी त्यांचे वर्कलोड ऑफलोड करणे आणि राज्य आणि खर्च मर्यादा वापरणे आवश्यक आहे." श्रुती कोपरकर, एनव्हीडिया येथील एआय उत्पादन विपणन यांनी व्हेंचरबीटला सांगितले.
डिप्लॉयमेंटने 6x-10x सुधारणा साध्य केल्या आणि त्या सर्वांचा समावेश उच्च-खंड, विलंब-संवेदनशील ऍप्लिकेशन्स दरमहा लाखो विनंत्यांवर प्रक्रिया करतात. कमी व्हॉल्यूम किंवा 1 सेकंदापेक्षा जास्त लेटन्सी बजेट असलेले ॲप्लिकेशन चालवणाऱ्या टीम्सनी पायाभूत सुविधांच्या सुधारणांचा विचार करण्यापूर्वी सॉफ्टवेअर ऑप्टिमायझेशन किंवा मॉडेल स्विचिंग एक्सप्लोर केले पाहिजे.
प्रदात्याच्या वैशिष्ट्यांपेक्षा चाचणी अधिक महत्त्वाची आहे. कोपरकर जोर देतात की प्रदाते थ्रुपुट आणि लेटन्सी मेट्रिक्स प्रकाशित करतात, परंतु ते आदर्श परिस्थितीचे प्रतिनिधित्व करतात.
"जर वर्कलोड विलंबतेसाठी खूप संवेदनशील असेल, तर त्यांना काही प्रदात्यांची चाचणी घ्यायची असेल आणि खर्च कमी ठेवताना त्यांना आवश्यक असलेल्या किमान कोणत्या गोष्टी पूर्ण होतात ते पहावे," ती म्हणाली. प्रकाशित बेंचमार्कवर विसंबून न राहता विशिष्ट वापर नमुने आणि ट्रॅफिक स्पाइक्स अंतर्गत वास्तविक-जागतिक कामगिरी मोजण्यासाठी कार्यसंघांनी एकाधिक ब्लॅकवेल प्रदात्यांवर वास्तविक उत्पादन वर्कलोड चालवावे.
अक्षांश द्वारे वापरलेला चरणबद्ध दृष्टिकोन मूल्यमापनासाठी एक मॉडेल प्रदान करतो. कंपनी प्रथम ब्लॅकवेल हार्डवेअरमध्ये गेली आणि 2x सुधारणा मोजली, त्यानंतर एकूण 4x कपात करण्यासाठी NVFP4 स्वरूप स्वीकारले. सध्या हॉपर किंवा इतर इन्फ्रास्ट्रक्चरवर असलेल्या टीम्स संपूर्ण इन्फ्रास्ट्रक्चर स्थलांतर करण्याआधी विद्यमान हार्डवेअरवरील सूक्ष्म ऑर्केस्ट्रेशन बदल आणि सॉफ्टवेअर ऑप्टिमायझेशन अर्थपूर्ण बचत करतात की नाही हे तपासू शकतात. विद्यमान पायाभूत सुविधांवर ओपन सोर्स मॉडेल्स चालवण्यामुळे हार्डवेअरमध्ये नवीन गुंतवणूक न करता संभाव्य खर्च कपात अर्धा साध्य करता येईल.
प्रदाता निवडण्यासाठी सॉफ्टवेअर स्टॅकमधील फरक समजून घेणे आवश्यक आहे. जरी अनेक प्रदाते ब्लॅकवेल इन्फ्रास्ट्रक्चर ऑफर करतात, त्यांची सॉफ्टवेअर अंमलबजावणी बदलते. काही Dynamo आणि TensorRT-LLM वापरून Nvidia चे एम्बेडेड स्टॅक चालवतात, तर काही vLLM सारखे फ्रेमवर्क वापरतात. हॅरिस कबूल करतो की या कॉन्फिगरेशन्समध्ये परफॉर्मन्स डेल्टा आहे. प्रत्येक प्रदाता प्रत्यक्षात काय चालवत आहे आणि सर्व ब्लॅकवेल उपयोजन सारखेच कार्य करतात असे गृहीत धरण्यापेक्षा ते त्यांच्या वर्कलोड आवश्यकतांशी कसे जुळतात याचे मूल्यांकन कार्यसंघांनी केले पाहिजे.
आर्थिक समीकरण प्रति टोकन खर्चाच्या पलीकडे विस्तारते. विशेष अनुमान प्रदाते, जसे की Baseten, DeepInfra, Fireworks आणि Together, सुधारित तैनाती ऑफर करतात परंतु त्यांना अतिरिक्त विक्रेता संबंध व्यवस्थापन आवश्यक आहे. AWS, Azure किंवा Google Cloud कडील व्यवस्थापित सेवांची प्रति टोकन जास्त किंमत असू शकते परंतु ऑपरेशनल जटिलता कमी असू शकते. त्यांच्या विशिष्ट प्रकरणासाठी कोणता दृष्टीकोन सर्वोत्तम अर्थशास्त्र प्रदान करतो हे निर्धारित करण्यासाठी कार्यसंघांनी केवळ सूचक किंमतीच नव्हे तर ऑपरेशनल खर्चासह एकूण खर्चाची गणना केली पाहिजे.
















