वाळवंट ओलांडून मैल दूरवरून, ग्रेट पिरॅमिड परिपूर्ण, अखंड भूमितीसारखा दिसतो – ताऱ्यांकडे निर्देशित करणारा एक मोहक त्रिकोण. तथापि, पायथ्याशी उभे रहा, आणि गुळगुळीतपणाचा भ्रम नाहीसा होतो. तुम्हाला चुनखडीचे प्रचंड, दातेरी ठोकळे दिसतात. तो उतार नाही. तो एक जिना आहे.
हे लक्षात ठेवा पुढच्या वेळी तुम्ही भविष्यवाद्यांना घातांकीय वाढीबद्दल बोलताना ऐकाल.
इंटेलचे सह-संस्थापक गॉर्डन मूर (मूरचा कायदा) यांनी 1965 मध्ये सांगितले होते की मायक्रोचिपवरील ट्रान्झिस्टरची संख्या दरवर्षी दुप्पट होईल. नंतर, इंटेलचे आणखी एक कार्यकारी डेव्हिड हाऊस यांनी हे विधान “दर 18 महिन्यांनी दुप्पट संगणकीय शक्ती” असे सुधारित केले." काही काळासाठी, इंटेलचे सीपीयू या कायद्याचे पोस्टर चाइल्ड होते. म्हणजेच, CPU कार्यक्षमतेत वाढ होईपर्यंत चुनखडीच्या ब्लॉकप्रमाणे सपाट झाले.
तथापि, जर तुम्ही झूम आउट केले, तर तुम्हाला असे आढळून येईल की पुढील चुनखडीचा ब्लॉक आधीपासूनच होता – संगणनातील वाढ सेंट्रल प्रोसेसिंग युनिट्स (CPUs) वरून ग्राफिक्स प्रोसेसिंग युनिट्स (GPUs) च्या जगात हलवली गेली. Nvidia CEO जेन्सेन हुआंग यांनी दीर्घ गेम खेळला आहे आणि एक मजबूत विजेता म्हणून उदयास आला आहे, त्यांनी प्रथम गेमिंगद्वारे, नंतर संगणक दृष्टीद्वारे आणि अगदी अलीकडे जनरेटिव्ह AI द्वारे स्वतःचे प्रारंभिक बिंदू तयार केले आहेत.
गुळगुळीत वाढीचा भ्रम
तांत्रिक वाढ स्प्रिंट आणि पठारांनी भरलेली आहे आणि एआय पिढी रोगप्रतिकारक नाही. वर्तमान लहर ट्रान्सफॉर्मर भूमितीद्वारे चालविली जाते. अँथ्रोपिकचे अध्यक्ष आणि सह-संस्थापक डारियो अमोदेई म्हणतात: “एक्सपोनेन्शिअल ते थांबेपर्यंत चालूच राहते. आणि दरवर्षी आम्ही म्हणालो, ‘ठीक आहे, गोष्टी या वेगाने चालू राहू शकत नाहीत’ – आणि नंतर दरवर्षी असे घडते.”
पण जसजसे CPUs स्थिर होतात आणि GPUs पुढाकार घेतात, तसतसे आम्ही चिन्हे पाहत आहोत की LLM ची वाढ पुन्हा एकदा प्रतिमान बदलत आहे. उदाहरणार्थ, 2024 च्या उत्तरार्धात, DeepSeek ने MoE तंत्रज्ञानाचा वापर करून अत्यंत कमी बजेटमध्ये जागतिक दर्जाच्या मॉडेलचे प्रशिक्षण देऊन जगाला चकित केले.
नुकतेच नमूद केलेले हे तंत्र तुम्ही कुठे पाहिले हे तुम्हाला आठवते का? Nvidia’s Rubin चे प्रेस रिलीझ: तंत्रज्ञानामध्ये “…Nvidia NVLink इंटरकनेक्ट तंत्रज्ञानाच्या नवीनतम पिढ्यांचा समावेश आहे…एजंट AI, प्रगत तर्कशक्ती आणि प्रति कोड 10x कमी किमतीत मोठ्या प्रमाणात MoE मॉडेल अनुमानांना गती देण्यासाठी.”
जेन्सेनला माहित आहे की संगणकीय क्षेत्रात ही घातांकीय वाढ साध्य करणे यापुढे क्रूर फोर्सद्वारे येत नाही. काहीवेळा आपल्याला पुढील प्रारंभ बिंदू ठेवण्यासाठी संपूर्ण रचना बदलण्याची आवश्यकता असते.
लेटन्सी क्रायसिस: जिथे Groq बसते
हा दीर्घ परिचय आम्हाला Groq वर आणतो.
2025 मध्ये अनुमानित AI क्षमतांमधील सर्वात मोठा नफा “इन्फरेन्स टाइम कंप्युटेशन” – किंवा सामान्य माणसाच्या भाषेत, “मॉडेलला दीर्घ कालावधीसाठी तर्क करण्याची परवानगी देऊन” चालविला गेला. पण वेळ पैसा आहे. ग्राहक आणि व्यवसायांना प्रतीक्षा करणे आवडत नाही.
येथे Groq त्याच्या विजेच्या-वेगवान कपातीसह खेळात येतो. तुम्ही DeepSeek सारख्या मॉडेल्सची वास्तुशिल्पीय कार्यक्षमता Groq च्या प्रचंड थ्रूपुटसह एकत्र केल्यास, तुम्हाला तुमच्या बोटांच्या टोकावर पॅरामेट्रिक बुद्धिमत्ता मिळेल. ह्युरिस्टिक्स जलद पार पाडून, तुम्ही स्पर्धात्मक मॉडेल्सचा “अंदाज” करू शकता, विलंब न करता ग्राहकांना “स्मार्ट” सिस्टम वितरीत करू शकता.
जागतिक विभाजनापासून सुधारित अनुमानापर्यंत
गेल्या दशकापासून, GPU प्रत्येक AI नेलसाठी जागतिक हातोडा आहे. मॉडेल प्रशिक्षित करण्यासाठी आपण H100s वापरू शकता; मॉडेल चालविण्यासाठी H100s (किंवा लहान आवृत्त्या) वापरल्या जातात. पण मॉडेल जसजसे वळतात… "प्रणाली 2" रिझनिंग – जिथे AI विचार करते, उत्तर देण्यापूर्वी स्वत: ची दुरुस्ती करते आणि पुनरावृत्ती करते – संगणकीय वर्कलोड बदलते.
प्रशिक्षणासाठी मोठ्या प्रमाणात समांतर ब्रूट फोर्सची आवश्यकता असते. अनुमान, विशेषत: तर्क मॉडेलसाठी, जलद अनुक्रमिक प्रक्रिया आवश्यक आहे. वापरकर्त्याने उत्तरासाठी काही मिनिटे प्रतीक्षा न करता विचारांच्या जटिल ट्रेन्सची सोय करण्यासाठी त्वरित टोकन व्युत्पन्न केले पाहिजे. Groq चे LPU (लँग्वेज प्रोसेसिंग युनिट) आर्किटेक्चर मेमरी बँडविड्थ अडथळे दूर करते जे लहान-बॅच अनुमानादरम्यान GPU ला त्रास देते, विजेचा वेगवान अनुमान वितरीत करते.
वाढीच्या पुढील लाटेचे इंजिन
सीईओंसाठी, हे संभाव्य अभिसरण समस्येचे निराकरण करते "विचार करण्याची वेळ" विलंब संकट. AI एजंट्सच्या अपेक्षांचा विचार करा: त्यांनी स्वायत्तपणे फ्लाइट बुक करावी, संपूर्ण ऍप्लिकेशन कोड करावे आणि कायदेशीर उदाहरणे शोधावीत अशी आमची इच्छा आहे. हे विश्वासार्हपणे करण्यासाठी, मॉडेलला 10,000 इंटर्नल व्युत्पन्न करावे लागेल "विचारांची प्रतीके" वापरकर्त्याला एकच शब्द आउटपुट करण्यापूर्वी त्याचे ऑपरेशन सत्यापित करण्यासाठी.
-
च्यामानक GPU वर: 10,000 विचार टोकनला 20 ते 40 सेकंद लागू शकतात. वापरकर्ता कंटाळतो आणि निघून जातो.
-
च्यातुमच्या पिल्लावर: विचारांची तीच ट्रेन दोन सेकंदांपेक्षा कमी वेळात घडते.
जर Nvidia ने Groq तंत्रज्ञान समाकलित केले तर ते समस्येचे निराकरण करेल "रोबो विचार करण्याची वाट पाहत आहे" समस्या ते कृत्रिम बुद्धिमत्तेची जादू जपतात. ज्याप्रमाणे ते पिक्सेल रेंडरिंग (गेमिंग) वरून इंटेलिजेंस रेंडरिंग (एआय जनरेशन) कडे गेले, आता ते प्रदर्शनावर जातील. तर्कशास्त्र वास्तविक वेळेत.
शिवाय, हे एक भव्य सॉफ्टवेअर खंदक तयार करते. Groq चा सर्वात मोठा अडथळा नेहमीच सॉफ्टवेअर स्टॅक आहे; Nvidia ची सर्वात मोठी मालमत्ता CUDA आहे. जर Nvidia ने Groq हार्डवेअरभोवती त्याची इकोसिस्टम गुंडाळली, तर ते प्रतिस्पर्ध्यांना ओलांडण्यासाठी खूप रुंद खंदक प्रभावीपणे खोदतील. ते एक जागतिक व्यासपीठ प्रदान करतील: सर्वोत्तम प्रशिक्षण वातावरण आणि सर्वात कार्यक्षम ऑपरेटिंग वातावरण (Groq/LPU).
पुढील पिढीच्या ओपन सोर्स मॉडेलसह (जसे की अफवा असलेली DeepSeek 4) ही कच्ची अनुमान शक्ती एकत्र केल्यावर काय होते ते विचारात घ्या: तुम्हाला अशी ऑफर मिळेल जी किंमत, कार्यप्रदर्शन आणि वेग या बाबतीत सध्याच्या फ्रंटियर मॉडेलला टक्कर देईल. हे Nvidia साठी, स्वतःच्या क्लाउड ऑफरिंगसह थेट अनुमानित जागेत जाण्यापासून, वाढत्या मोठ्या संख्येने ग्राहकांना समर्थन देण्यापर्यंतच्या संधी उघडते.
पिरॅमिड वर पुढील पायरी
आमच्या सुरुवातीच्या रूपकाकडे परत येत आहे: मध्ये "घातांक" AI ची वाढ ही सुरुवातीच्या अपयशांची गुळगुळीत ओळ नाही; तो अडथळ्यांचा एक जिना तोडला जात आहे.
-
च्याब्लॉक १: आम्ही पुरेशी जलद गणना करू शकत नाही. उपाय: ग्राफिक्स प्रोसेसिंग युनिट.
-
च्याब्लॉक २: आम्ही पुरेसा सराव करू शकलो नाही. उपाय: ट्रान्सफॉर्मर अभियांत्रिकी.
-
च्याब्लॉक 3: आम्ही करू शकत नाही "तो विचार करतो" पुरेशी जलद. उपाय: LPU पिल्लू.
जेन्सेन हुआंगने भविष्यात मालकी मिळवण्यासाठी त्याच्या उत्पादन लाइन्स नष्ट करण्यास कधीही घाबरले नाही. Groq प्रमाणित करून, Nvidia फक्त वेगवान चिप विकत घेणार नाही; ते पुढच्या पिढीची बुद्धिमत्ता जनतेपर्यंत पोहोचवतील.
अँड्र्यू फाइलेव्ह, झेनकोडरचे संस्थापक आणि मुख्य कार्यकारी अधिकारी
















