सुमारे दोन दशकांपासून संस्थांच्या नेत्यांवर विश्वास ठेवण्यात आलेल्या कार्यक्रमात सामील व्हा. व्हीबी ट्रान्सफॉर्म जे लोक एकत्र करतात जे वास्तविक संस्थांसाठी एआयची रणनीती तयार करतात. अधिक जाणून घ्या


संगणक दृष्टी प्रकल्प नियोजित प्रमाणे क्वचितच चालू आहेत आणि हा अपवाद नव्हता. कल्पना सोपी होती: एक मॉडेल तयार करा जे लॅपटॉपच्या चित्राकडे पाहू शकेल आणि कोणतेही शारीरिक नुकसान निश्चित करू शकेल – क्रॅकिंग स्क्रीन, गमावलेल्या कळा किंवा तुटलेल्या बिजागर यासारख्या गोष्टी. हे थेट फोटो मॉडेल्स आणि मोठ्या भाषेच्या मॉडेल्ससाठी (एलएलएमएस) वापराच्या अवस्थेसारखे दिसत होते, परंतु ते द्रुतगतीने काहीतरी अधिक गुंतागुंतीचे बनले.

वाटेत, आम्हाला भ्रम, आउटपुट आणि अविश्वसनीय प्रतिमांसह समस्या उद्भवल्या ज्या लॅपटॉप देखील नव्हत्या. त्याचे निराकरण करण्यासाठी, आम्ही एथुमामधील एजंट्सला एक फ्रेमवर्क लागू करणे समाप्त केले आहे – कार्ये स्वयंचलित करण्यासाठी नव्हे तर मॉडेलची कार्यक्षमता सुधारण्यासाठी.

या पोस्टमध्ये, आम्ही जे प्रयत्न केले त्याद्वारे आम्ही जाऊ, जोपर्यंत तो यशस्वी झाला नाही आणि आम्ही विश्वसनीय बनवण्याच्या शेवटी काही पद्धतींचा संच कशी मदत केली.

आम्ही कोठे सुरुवात केली: एक एकसंध दावा

आमचा प्रारंभिक दृष्टीकोन मल्टीमीडिया मॉडेलसाठी काही प्रमाणात मानक होता. आम्ही प्रतिमेस सक्षम असलेल्या एलएलएमकडे प्रतिमा पास करण्यासाठी एक मोठा राउटर वापरला आणि दृश्यमान नुकसान निश्चित करण्यास सांगितले. ही एकसंध रणनीती अंमलबजावणी करणे सोपे आहे आणि स्वच्छ आणि चांगल्या -परिभाषित कार्यांसाठी योग्यरित्या कार्य करते. परंतु वास्तविक जगातील डेटा क्वचितच खेळतो.

आम्ही लवकर तीन मुख्य मुद्द्यांचा सामना केला:

  • हॅलूसिनोजेनिकमॉडेल कधीकधी अस्तित्त्वात नसलेल्या नुकसानीचा शोध लावू शकते किंवा त्याने जे पाहिले ते नामित होऊ शकते.
  • अवांछित प्रतिमा शोधऑफिस, भिंती किंवा कधीकधी असमंजसपणाचे नुकसान अहवाल प्राप्त करणारे लोक लॅपटॉप नसलेल्या फोटो ब्रँडसाठी याकडे विश्वासार्ह मार्ग नव्हता.
  • विसंगत: या समस्यांचे मिश्रण ऑपरेशनल वापरासाठी मॉडेल अविश्वसनीय बनले.

हा मुद्दा असा होता की आम्हाला पुनरावृत्तीची आवश्यकता आहे हे स्पष्ट झाले.

प्रथम दुरुस्ती: फोटो निर्णय मिसळणे

आमच्या लक्षात आलेली एक गोष्ट म्हणजे मॉडेलच्या परिणामावर परिणाम झालेल्या प्रतिमेच्या गुणवत्तेचे प्रमाण. वापरकर्त्यांनी तीक्ष्ण आणि उच्च अचूकतेपासून ते धुकेपर्यंतच्या सर्व प्रकारच्या प्रतिमा डाउनलोड केल्या आहेत. यामुळे आम्हाला संशोधनाचा संदर्भ देण्यास प्रवृत्त केले जे प्रतिमेच्या समाधानाचा सखोल शिक्षण मॉडेल्सवर कसा परिणाम करते हे हायलाइट करते.

आम्ही उच्च -रेसोल्यूशन प्रतिमांचे मिश्रण वापरुन मॉडेलचे प्रशिक्षण आणि चाचणी केली. प्रत्यक्ष व्यवहारात ज्या प्रतिमांच्या वैशिष्ट्यांसह मॉडेलला अधिक लवचिक बनण्याची कल्पना होती. यामुळे सुसंगतता सुधारण्यास मदत झाली, परंतु भ्रम आणि अवांछित प्रतिमांशी व्यवहार करण्याचे मूलभूत मुद्दे चालूच राहिले.

मल्टीमोडल डेटोर: मजकूर-केवळ एलएलएम मल्टीमीडिया जातो

अनेकवचनी मध्ये आधुनिक अनुभवांना प्रोत्साहित करणे बॅचजिथे प्रतिमा प्रतिमांमधून तयार केल्या जातात आणि नंतर भाषेच्या मॉडेलद्वारे स्पष्टीकरण दिले जातात, आम्ही त्यांचा प्रयत्न करण्याचा निर्णय घेतला.

कसे कार्य करावे ते येथे आहे:

  • एलएलएम चित्रासाठी एकाधिक संभाव्य टिप्पण्या व्युत्पन्न करून सुरू होते.
  • मल्टीमीडिया समावेश मॉडेल नावाचे आणखी एक मॉडेल प्रतिमेवरील प्रत्येक टिप्पणीची योग्यता तपासते. या प्रकरणात, आम्ही प्रतिमा आणि मजकूरामधील समानता रेकॉर्ड करण्यासाठी सिग्लिपचा वापर केला.
  • सिस्टम या अंशांच्या आधारे सर्वाधिक चित्रे राखते.
  • एलएलएम हे नवीन लिहिण्यासाठी या अप्पर चित्रांचा वापर करते, प्रतिमा आधीपासूनच दर्शविते त्याकडे जाण्याचा प्रयत्न करीत आहे.
  • स्पष्टीकरणात्मक पदनाम सुधारणेस किंवा विशिष्ट मर्यादा मारल्याशिवाय ही प्रक्रिया पुनरावृत्ती केली जाते.

स्मार्ट सिद्धांत असताना, या दृष्टिकोनाने आमच्या वापराच्या स्थितीत नवीन समस्या सादर केल्या:

  • सतत भ्रम: कधीकधी चित्रांमध्ये बनावट नुकसान समाविष्ट असते, ज्याला एलएलएमची आत्मविश्वासाने माहिती दिली गेली आहे.
  • अपूर्ण कव्हरेज: एकाधिक टिप्पण्यांसहही काही समस्या पूर्णपणे चुकल्या.
  • वाढीव जटिलता, कमीतकमी लाभजोडलेल्या चरणांनी मागील तयारीवर विश्वासार्हतेने उत्कृष्ट कामगिरी न करता सिस्टमला अधिक क्लिष्ट केले.

हा एक मनोरंजक अनुभव होता, परंतु शेवटी तो उपाय नाही.

फ्रेमवर्कचा सर्जनशील वापर

हा टर्निंग पॉईंट होता. फ्रेमवर्क सामान्यत: कार्य प्रवाह समन्वय साधण्यासाठी वापरले जातात (असे मानले जाते की कॅलेंडर आमंत्रणे किंवा ग्राहक सेवा प्रक्रियेचे एजंट), आम्ही मदत करू शकणार्‍या लहान आणि विशेष एजंट्समध्ये प्रतिमेचे स्पष्टीकरण देण्याचे कार्य खंडित करायचे की नाही असे आम्ही विचारले आहे.

आम्ही यासारखे संघटित चौकट तयार केले आहे:

  • ऑर्केस्ट्रेटर एजंट: प्रतिमेचे परीक्षण करा आणि लॅपटॉपचे घटक (स्क्रीन, कीबोर्ड, रचना, पोर्ट) ओळखा.
  • घटक एजंटनियुक्त केलेल्या घटकांनी विशिष्ट प्रकारच्या नुकसानीच्या प्रत्येक घटकाची तपासणी केली; उदाहरणार्थ, एक क्रॅकिंग स्क्रीनसाठी, आणि दुसरे गमावले स्विचसाठी.
  • अवांछित शोधप्रतिमा प्रथम स्थानावर लॅपटॉप असल्यास स्वतंत्र एजंट चिन्हांकित केले गेले आहे.

या टास्क -आधारित मानक दृष्टिकोनाने अधिक अचूक आणि व्याख्यात्मक परिणाम तयार केले आहेत. भ्रमात लक्षणीय घट झाली आहे, अवांछित प्रतिमांचे चिन्ह विश्वसनीयरित्या केले गेले आणि प्रत्येक एजंटचे कार्य सोपे आणि गुणवत्तेवर नियंत्रण ठेवण्यासाठी पुरेसे केंद्रित होते.

ब्लाइंड स्पॉट्स: अल -वॅकेलचा दृष्टीकोन

वाईट रीतीने प्रभावीपणाचे, ते परिपूर्ण नव्हते. मुख्य निर्बंध दिसू लागले:

  • जिरे वाढ: एकूण अनुमान वेळेमध्ये जोडल्या गेलेल्या एकाधिक सीरियल घटक चालवित आहेत.
  • कव्हर अंतरएजंट केवळ शोधण्यासाठी स्पष्टपणे प्रोग्राम केलेल्या समस्या शोधू शकतात. एखाद्या चित्रात कोणत्याही कामगारांना परिभाषासाठी नियुक्त केले गेले नाही असे काहीतरी अनपेक्षित दर्शविले तर ते कोणालाही लक्षात न घेता असेल.

आम्हाला कव्हरेजसह अचूकता संतुलित करण्याचा एक मार्ग आवश्यक आहे.

मिश्रित समाधान: एजंट्स आणि भाषांतरित एजंट एकत्र करणे

अंतरांसाठी, आम्ही एक संकरित प्रणाली तयार केली:

  1. कार्यरत चौकट प्रथम, तो धावला, ज्ञात प्रकारचे नुकसान आणि अवांछित प्रतिमांचे काळजीपूर्वक शोध घेत होते. आम्ही जिरे सुधारण्यासाठी एजंट्सची संख्या सर्वात महत्वाच्या घटकांपर्यंत मर्यादित केली आहे.
  2. मग, अ होमोइंग फोटो राउटर एलएलएम एजंट्सने गमावलेल्या इतर कोणत्याही गोष्टीची प्रतिमा पुसून टाका.
  3. शेवटी, आम्ही फॉर्म सेट करा अचूकता आणि विश्वासार्हता वाढविण्यासाठी उच्च प्राधान्य प्रतिमांच्या फोटोंचा संच, जसे की वारंवार नोंदविलेल्या नुकसानाच्या परिस्थितीसारख्या फोटोंचा संच वापरणे.

या मिश्रणाने आम्हाला एजंट्स तयार करण्याची अचूकता आणि क्षमता, एकसंध अनुप्रयोगाचे विस्तृत कव्हरेज आणि लक्ष्यित अचूक स्थापनेवरील वाढीव आत्मविश्वास दिला आहे.

आम्ही काय शिकलो

आम्ही या प्रकल्पाचा निष्कर्ष काढला तेव्हा काही गोष्टी स्पष्ट झाल्या आहेत:

  • आपल्यापेक्षा जमा होण्यापेक्षा शत्रूची चौकट अधिक वैविध्यपूर्ण आहे: जरी हे सहसा वर्कफ्लो व्यवस्थापनाशी संबंधित असेल, परंतु आम्हाला आढळले आहे की ते संघटित मानकात लागू करताना मॉडेलची कार्यक्षमता वाढवू शकते.
  • फक्त एकावर अवलंबून एक वेगळा दृष्टीकोन मिसळा: एलएलएमच्या विस्तृत कव्हरेज व्यतिरिक्त एजंटवर आधारित काळजीपूर्वक शोधण्याचे मिश्रण, थोडेसे नियंत्रण व्यतिरिक्त ते अधिक महत्वाचे होते, आम्हाला केवळ कोणत्याही एका मार्गापेक्षा अधिक विश्वासार्ह परिणाम दिले.
  • व्हिज्युअल मॉडेल्स भ्रमनिरपेक्षतेसाठी असुरक्षित असतातअगदी सर्वात प्रगत सेटिंग्ज देखील निष्कर्षांवर जाऊ शकतात किंवा उपस्थित नसलेल्या गोष्टी पाहू शकतात. या चुका परीक्षेखाली ठेवण्यासाठी विचारशील प्रणालीची रचना करणे आवश्यक आहे.
  • प्रतिमेच्या गुणवत्तेची विविधता फरक करतेवास्तविक जगात अनपेक्षित प्रतिमांचा सामना करताना स्पष्ट आणि उच्च -प्रीसीझन प्रतिमा आणि कमी -गुणवत्तेच्या दैनंदिन ध्वनीसह प्रशिक्षण आणि चाचणी.
  • आपल्याला अवांछित चित्रे घेण्यासाठी एक मार्ग आवश्यक आहे: आम्ही बनवलेल्या प्रतिमांची अवांछित किंवा अवांछित प्रतिमा होती आणि सर्वसाधारणपणे सिस्टमच्या विश्वासार्हतेवर त्याचा मोठा परिणाम झाला.

अंतिम कल्पना

लॅपटॉप प्रतिमांचे शारीरिक नुकसान शोधण्यासाठी एलएलएम दाव्याचा वापर करून, एक सोपी कल्पना म्हणून काय सुरू झाले, अनपेक्षित आणि वास्तववादी समस्यांकडे लक्ष देण्यासाठी विविध कृत्रिम बुद्धिमत्ता तंत्र एकत्रित करण्याच्या अधिक सखोल अनुभवात बदलले. वाटेत, आम्हाला समजले की काही सर्वात उपयुक्त साधने मूळतः या प्रकारच्या कार्यासाठी डिझाइन केलेली नाहीत.

असंख्य फ्रेमवर्क, जे बहुतेक वेळा वर्कफ्लो टूल्स म्हणून पाहिले जातात, जेव्हा संघटित नुकसान शोधणे आणि प्रतिमा फिल्टरिंग यासारख्या कार्यांसाठी पुन्हा वापरल्या जातात तेव्हा आश्चर्यकारकपणे प्रभावी ठरतात. थोड्या सर्जनशीलतेसह, त्यांनी आम्हाला एक अशी प्रणाली तयार करण्यास मदत केली जी केवळ अधिक अचूकच नाही, परंतु सराव मध्ये समजून घेणे आणि व्यवस्थापित करणे सोपे आहे.

श्रुती तिवारी हे डेल टेक्नॉलॉजीजमधील एआय उत्पादन व्यवस्थापक आहेत.

वडिराज कुलकर्णी हे डेल टेक्नॉलॉजीजमधील डेटा वर्ल्ड आहे.


Source link