एंटरप्राइझ एआय ऍप्लिकेशन प्रक्रिया करत असलेली प्रत्येक क्वेरी आणि विषय तज्ञ त्याच्या आउटपुटमध्ये प्रत्येक सुधारणा करतो – तो परस्परसंवाद म्हणजे प्रशिक्षण डेटा. बहुतेक संस्था ते उचलत नाहीत. कंपन्यांनी आधीच तयार केलेले उत्पादन वर्कफ्लो जे सतत सिग्नल तयार करतात ज्यामुळे AI मॉडेल्स सुधारतात ते आता बाहेर पडत आहेत.
सॅन फ्रान्सिस्कोस्थित एम्प्रोम्प्टू एआयने गुरुवारी अल्केमी मॉडेल्स लाँच केले एक स्पष्ट पूर्वपक्ष सह: AI कंपन्यांनी तयार केलेले AI ॲप्लिकेशन्स आधीच प्रशिक्षण डेटा जनरेट करत आहेत आणि त्यातील बहुतेक नष्ट होतील. प्लॅटफॉर्म आपोआप तो सिग्नल उचलतो आणि विषयातील तज्ञांकडून प्रमाणित आउटपुट एका उत्कृष्ट ट्यूनिंग मार्गामध्ये फनेल करतो जे कालांतराने मॉडेलमध्ये सुधारणा करते. परिणामी वजन पूर्णपणे कंपन्यांच्या मालकीचे आहे.
हे RAG आणि पारंपारिक फाइन ट्यूनिंग दोन्हीच्या वेगवेगळ्या भागात येते. RAG मॉडेलच्या वजनात बदल न करता अनुमानाच्या वेळी बाह्य संदर्भ पुनर्प्राप्त करते. पारंपारिक फाइन-ट्यूनिंग वजन बदलते परंतु स्वतंत्रपणे गोळा केलेले लेबल केलेले डेटासेट आणि समर्पित मशीन लर्निंग पाइपलाइन आवश्यक आहे. एंटरप्राइझ ऍप्लिकेशनचा डेटा स्रोत म्हणून वापर करून अल्केमी नंतरची क्रिया सतत करते.
मूलभूत मॉडेल API स्वीकारणाऱ्या कंपन्यांना तीन कंपाऊंड मर्यादांचा सामना करावा लागतो: अनुमान खर्च जे वापरासह मोजतात, ज्या मॉडेल्सचा डेटा प्रभावीपणे प्रशिक्षित आहे त्यांच्या मालकीचा अभाव आणि डोमेन-विशिष्ट कार्यांसाठी वर्तन सानुकूलित करण्याची मर्यादित क्षमता. या मर्यादा मोठ्या प्रमाणावर जाणवतात परंतु क्वचितच संबोधित केले जातात, एम्प्रोम्पटूच्या सीईओ शानिया लेव्हिन म्हणतात.
"प्रत्येक क्लायंट, प्रत्येक व्यक्ती ज्याशी मी बोलतो, आश्चर्यचकित होतो, मला त्रास कसा होणार नाही? मी माझ्या व्यवसायाचे संरक्षण कसे करू? त्यांना मार्ग दिसत नाही," लेविनने व्हेंचरबीटला एका खास मुलाखतीत सांगितले.
अल्केमी रनिंग ऍप्लिकेशनचे मॉडेल कसे तयार करते
बऱ्याच सानुकूल मॉडेल प्रशिक्षण पद्धतींसाठी कंपन्यांनी कोणतेही फाइन-ट्यूनिंग सुरू होण्यापूर्वी स्वतंत्रपणे डेटा गोळा करणे, साफ करणे आणि वर्गीकृत करणे आवश्यक आहे. किमया एक वेगळा उपाय घेते: एंटरप्राइझ अनुप्रयोग स्वतः प्रशिक्षण डेटा तयार करतो आणि साफ करतो.
यंत्रणा Empromptu’s द्वारे कार्य करते गोल्डन डेटा पाइपलाइन पायाभूत सुविधा दोन टप्प्यात आहेत. अनुप्रयोग तयार करण्यापूर्वी, एंटरप्राइझ डेटा साफ केला जातो, काढला जातो आणि समृद्ध केला जातो जेणेकरून अनुप्रयोग संरचित इनपुटसह सुरू होईल. एकदा कार्यान्वित झाल्यावर, व्युत्पन्न केलेली प्रत्येक डिलिव्हरी पाइपलाइनद्वारे परत येते, जिथे संस्थेतील विषय तज्ञ त्याचे पुनरावलोकन करतात आणि दुरुस्त करतात. हे प्रमाणित आउटपुट पुढील ट्यूनिंग प्रक्रियेसाठी प्रशिक्षण डेटा बनते.
"ॲप्लिकेशन, एक AI ॲप्लिकेशन जे ग्राहक आधीच तयार करतात, डेटा साफ करतात," लेव्हिन म्हणाले.
परिणामी फाइन-ट्यून केलेल्या मॉडेल्सना एम्प्रोम्प्टू नॅनो-तज्ञ मॉडेल म्हणतात: लहान, कार्य-विशिष्ट मॉडेल जे सामान्य-उद्देश तर्कापेक्षा विशिष्ट कार्यप्रवाहासाठी ऑप्टिमाइझ केले जातात. मूल्यांकन, रेलिंग आणि अनुपालन नियंत्रणे एकाच पाइपलाइनमध्ये कार्य करतात, त्यामुळे प्रशिक्षण प्रक्रियेसह प्रशासन हलते. मॉडेलचे वजन पूर्णपणे ग्राहकांच्या मालकीचे आहे. तत्परतेने स्वतःच्या पायाभूत संरचनेवर निष्कर्ष होस्ट करते आणि करते, परंतु वजन पोर्टेबल आणि शुल्कासाठी निर्यात करण्यायोग्य आहे. हे प्लॅटफॉर्म मॉडेल-अज्ञेयवादी आहे, जे लामा, क्वेन आणि इतर मूलभूत मॉडेलना समर्थन देते.
कठोर मर्यादा म्हणजे डेटाचा आकार. उपयुक्त फाइन-ट्यूनिंग ट्रिगर करण्यासाठी अनुप्रयोग पुरेसा उत्पादन डेटा संकलित करत असताना प्रारंभिक उपयोजन मूलभूत मॉडेलवर चालतात. लेव्हिनने टाइमलाइन सुशोभित न करता कबूल केले. "मॉडेलला प्रशिक्षण देण्यासाठी बराच वेळ लागेल," ती म्हणाली.
केमिस्ट्री फाइन-ट्यूनिंगपेक्षा वेगळे आहे जो काम करत आहे
OpenAI फाइन-ट्यूनिंग API आणि कस्टम AWS बेडरॉक दोन्ही मॉडेल्स एंटरप्राइझ फाइन-ट्यूनिंग प्रदान करतात. दोन्ही संस्थांनी स्वतंत्रपणे तयार केलेले प्रशिक्षण डेटासेट आणणे आणि त्यांच्या स्वत: च्या ऍप्लिकेशन स्टॅकच्या बाहेर फाइन-ट्यूनिंग व्यवस्थापित करणे आवश्यक आहे. डेटा आयोजित करणे आणि मॉडेलचे मूल्यमापन करण्याचा भार क्लायंटच्या मशीन लर्निंग टीमवर येतो.
रसायनशास्त्राचे वेगळेपण म्हणजे प्रक्रियांचे एकत्रीकरण. प्रशिक्षण डेटा एंटरप्राइझ ऍप्लिकेशनद्वारेच व्युत्पन्न केला जातो, त्यामुळे डेटा तयार करण्याची कोणतीही वेगळी पायरी नाही आणि मशीन लर्निंग कौशल्याची आवश्यकता नाही. अनुप्रयोग कार्यप्रवाह एक पाइपलाइन आहे.
"मॉडेल कसे चांगले करायचे आणि त्या सर्व पायाभूत सुविधा कशा तयार करायच्या हे शोधण्यासाठी मला बेडरॉक घेणे आणि दुसरी मशीन लर्निंग टीम तयार करणे आवश्यक आहे का? नाही, आता कोणीही करू शकते," लेव्हिन म्हणाले.
ट्रेड-ऑफ म्हणजे प्लॅटफॉर्म अवलंबित्व. किमया केवळ उत्स्फूर्त वातावरणात कार्य करते. ज्या संस्थांना विद्यमान पायाभूत सुविधांवर समान परिणाम हवे आहेत त्यांना डेटा कॅप्चर, प्रमाणीकरण आणि पाइपलाइन ट्यूनिंग प्रक्रियेची पुनरावृत्ती करावी लागेल.
एका वर्तणूक आरोग्य कंपनीने किमया वापरून सत्र दस्तऐवजीकरण वेळ 87% पर्यंत कमी केला
तत्परतेने नियमन केलेले, डेटा-केंद्रित क्षेत्रे प्रथम: आरोग्यसेवा, वित्तीय सेवा, कायदेशीर तंत्रज्ञान, किरकोळ आणि महसूल अंदाज. ही अशी क्षेत्रे आहेत जिथे सामान्य-उद्देशीय मॉडेल आउटपुटमध्ये न जुळण्याचा सर्वाधिक धोका असतो आणि प्रोप्रायटरी वर्कफ्लो डेटा सर्वाधिक केंद्रित असतो.
प्रारंभिक दत्तक घेणाऱ्यांमध्ये वर्तणूक आरोग्य कंपनी Ascent Autism समाविष्ट आहे, जी सत्र दस्तऐवजीकरण आणि पालकांशी संवाद स्वयंचलित करण्यासाठी अल्केमी वापरते.
पालकांसाठी संरचित अभिप्राय आणि वैयक्तिकृत अद्यतने तयार करण्यासाठी फॅसिलिटेटर शिकाऊ सत्र रेकॉर्डिंग, प्रतिलेख, सत्र नोट्स आणि वर्तणूक मेट्रिक्स वापरतात. पूर्वी, वर्कफ्लोसाठी प्रति सत्र एक किंवा दोन तास लेखन आवश्यक होते. त्याच डेटावर किमया प्रशिक्षित केल्यामुळे, आता यास 10-15 मिनिटे लागतात.
"केवळ API-चालित मॉडेलवर अवलंबून राहणे त्वरीत महाग होऊ शकते," असेंट ऑटिझमचे सह-संस्थापक आणि सीटीओ फराज फडावी यांनी व्हेंचरबीटला सांगितले. "अल्केमीने आम्हाला वर्कफ्लो सुव्यवस्थित करण्याचा, आमच्या स्वतःच्या डेटावर मॉडेल्स प्रशिक्षित करण्याचा आणि कालांतराने आउटपुटची गुणवत्ता सुधारत खर्च कमी करण्याचा मार्ग दिला."
फडवी म्हणाले की, कंपनीने वापरता येण्याजोगे आउटपुट पटकन पाहिले, प्रणालीमध्ये सुधारणा होत असताना सतत सुधारणा केली. मूल्यांकन निकष अचूकतेच्या पलीकडे गेले ज्यामुळे सत्र डेटाची शोधक्षमता आणि कंपनीच्या क्लिनिकल आवाजासह आउटपुटची सुसंगतता समाविष्ट होते.
"आम्हाला अशी प्रणाली हवी होती जी आमचा वर्कफ्लो शिकू शकेल आणि आउटपुट तयार करू शकेल जी आम्ही प्रत्यक्षात काम करण्याच्या पद्धतीशी संरेखित करू शकू – केवळ मजकूराचा सारांश नाही," तो म्हणाला. प्रात्यक्षिक चाचणी: फॅसिलिटेटरला किती संपादन आवश्यक आहे, आउटपुट त्यांच्या आवाजाशी जुळतो की नाही आणि ते अर्थपूर्णपणे खर्च केलेला वेळ कमी करते का. व्युत्पन्न नोट्स पुन्हा लिहिण्यापासून ते संपादित करणे आणि त्यांची गुणवत्ता तपासण्याकडे सुविधा देणारे वळले आहेत.
व्यवसायांसाठी याचा अर्थ काय आहे
डेटा फ्लायव्हील वास्तविक आहे, परंतु प्लॅटफॉर्म लॉक-इन देखील आहे:
प्रत्येक कार्यप्रवाह ही प्रशिक्षणाची संधी असते. ज्या कंपन्या त्यांच्या उत्पादन AI ऍप्लिकेशन्समधून आउटपुट कॅप्चर करतात आणि प्रमाणित करतात ते कालांतराने हा फायदा वाढवतील. अधिक वापरामुळे अधिक प्रशिक्षण सिग्नल व्युत्पन्न होतात, जे अधिक अचूक डोमेन-विशिष्ट मॉडेल तयार करतात, जे चांगले आउटपुट व्युत्पन्न करतात, जे पुढील चक्रात क्लिनर प्रशिक्षण डेटा तयार करतात.
लेव्हिन रसायनशास्त्राला तिसरा आर्किटेक्चरल पर्याय म्हणून स्थान देतो. कंपन्यांनी गेली दोन वर्षे डोमेन ज्ञान आणि उत्कृष्ट मॉडेल स्पेशलायझेशनमध्ये प्रवेश करण्यासाठी RAG मध्ये निवड केली आहे. मॉड्युलर वर्कफ्लो-आधारित प्रशिक्षण हा एक तिसरा पर्याय आहे, जो व्यवस्थापित प्लॅटफॉर्ममध्ये बिल्डिंगच्या ऑपरेशनल साधेपणासह सतत फाइन-ट्यूनिंग सुधारणा एकत्र करतो.
"डेटा खंदक असणे हे तुमचे सर्वात मौल्यवान चलन आहे," लेव्हिन म्हणाले.
















