मायक्रोसॉफ्टने Fara-7B सादर केले आहे, एक नवीन 7 अब्ज-पॅरामीटर मॉडेल संगणक वापर एजंट (CUA) म्हणून काम करण्यासाठी डिझाइन केलेले आहे जे वापरकर्त्याच्या डिव्हाइसवर थेट जटिल कार्ये करण्यास सक्षम आहे. Fara-7B नवीन परिणाम वितरीत करते जे त्याच्या आकारासाठी अत्याधुनिक आहेत, AI एजंट तयार करण्याचा मार्ग प्रदान करते जे मोठ्या क्लाउड-आधारित मॉडेलवर अवलंबून नसतात आणि कमी विलंब आणि वर्धित गोपनीयतेसह एम्बेडेड सिस्टमवर चालू शकतात.

जरी मॉडेल बीटा असले तरी, त्याचे आर्किटेक्चर एंटरप्राइझ दत्तक घेण्याच्या मूलभूत अडथळ्याला संबोधित करते: डेटा सुरक्षा. Fara-7B स्थानिक पातळीवर चालण्यासाठी पुरेसे लहान असल्यामुळे, ते वापरकर्त्यांना संवेदनशील वर्कफ्लो स्वयंचलित करण्यास अनुमती देते, जसे की अंतर्गत खाती व्यवस्थापित करणे किंवा संवेदनशील कंपनी डेटावर प्रक्रिया करणे, ती माहिती डिव्हाइसमधून कधीही न सोडता.

Fara-7B वेब कसे पाहते

Fara-7B हे मानव वापरत असलेली साधने वापरून वापरकर्ता इंटरफेस नेव्हिगेट करण्यासाठी डिझाइन केले आहे: माउस आणि कीबोर्ड. मॉडेल स्क्रीनशॉटद्वारे वेब पृष्ठ दृष्यदृष्ट्या समजून घेऊन आणि क्लिक करणे, टाइप करणे आणि स्क्रोल करणे यासारख्या क्रियांसाठी विशिष्ट निर्देशांकांचा अंदाज घेऊन कार्य करते.

सर्वात महत्त्वाचे म्हणजे, Fara-7B अविश्वसनीय आहे "प्रवेशयोग्यता झाडे, मूलभूत कोड रचना जी ब्राउझर स्क्रीन वाचकांसाठी वेब पृष्ठांचे वर्णन करण्यासाठी वापरतात. त्याऐवजी, ते केवळ पिक्सेल-स्तरीय व्हिज्युअल डेटावर अवलंबून असते. अंतर्निहित कोड अस्पष्ट किंवा गुंतागुंतीचा असला तरीही हा दृष्टिकोन एजंटला वेबसाइटशी संवाद साधण्याची परवानगी देतो.

मायक्रोसॉफ्ट रिसर्चचे वरिष्ठ प्रोजेक्ट मॅनेजर यश लारा यांच्या मते, डिव्हाइसवरील सर्व व्हिज्युअल इनपुटवर प्रक्रिया करणे योग्य होते. "पिक्सेल वर्चस्व," कारण ऑटोमेशनसाठी आवश्यक स्क्रीनशॉट आणि कारणे वापरकर्त्याच्या डिव्हाइसवर राहतात. "हा दृष्टीकोन संस्थांना HIPAA आणि GLBA सह, नियमन केलेल्या क्षेत्रातील कठोर आवश्यकता पूर्ण करण्यात मदत करतो." त्याने व्हेंचरबीटला लेखी टिप्पण्यांमध्ये सांगितले.

बेंचमार्क चाचण्यांमध्ये, या व्हिज्युअल-प्रथम दृष्टिकोनाने मजबूत परिणाम दिले. वर WebVoyager,वेब एजंट्ससाठी बेंचमार्क, Fara-7B ने ,73.5% मिशन यशाचा दर गाठला. हे मोठ्या, अधिक संसाधन-केंद्रित प्रणालींना मागे टाकते, यासह… GPT-4oजेव्हा संगणक वापरकर्ता एजंट (65.1%) आणि मूळ UI-TARS-1.5-7B फॉर्म (66.4%) म्हणून काम करण्यास सांगितले.

कार्यक्षमता ही आणखी एक महत्त्वाची भिन्नता आहे. तुलनात्मक चाचण्यांमध्ये, UI-TARS-1.5-7B मॉडेलसाठी सुमारे 41 चरणांच्या तुलनेत, Fara-7B ने सरासरी सुमारे 16 चरणांमध्ये कार्ये पूर्ण केली.

जोखीम हाताळणे

तथापि, स्वतंत्र एजंट्सकडे जाणे धोक्याशिवाय नाही. मायक्रोसॉफ्ट निदर्शनास आणते की Fara-7B इतर AI मॉडेल्ससह सामायिक मर्यादा सामायिक करते, ज्यामध्ये संभाव्य भ्रम, जटिल सूचनांचे पालन करण्यात त्रुटी आणि जटिल कार्यांमध्ये अचूकता कमी होणे समाविष्ट आहे.

हा धोका कमी करण्यासाठी, मॉडेलला ते ओळखण्याचे प्रशिक्षण देण्यात आले "गंभीर मुद्दे." इमेल पाठवणे किंवा आर्थिक व्यवहार पूर्ण करण्यासारख्या अपरिवर्तनीय कृती होण्यापूर्वी वापरकर्त्याचा वैयक्तिक डेटा किंवा संमती आवश्यक असलेली कोणतीही परिस्थिती म्हणून एक गंभीर मुद्दा परिभाषित केला जातो. अशा टप्प्यावर पोहोचल्यावर, Fara-7B हे पुढे चालू ठेवण्यापूर्वी विराम देण्यासाठी आणि स्पष्टपणे वापरकर्त्याच्या संमतीची विनंती करण्यासाठी डिझाइन केलेले आहे.

वापरकर्त्याला निराश न करता या परस्परसंवादाचे व्यवस्थापन करणे हे एक प्रमुख डिझाइन आव्हान आहे. "टिपिंग पॉइंट्स आणि अखंड वापरकर्ता प्रवास यासारख्या मजबूत हमींचा समतोल राखणे महत्त्वाचे आहे," लारा म्हणाली. "वापरकर्ता इंटरफेस असणे, जसे की मायक्रोसॉफ्ट रिसर्चचे मॅग्नेटिक-UI, वापरकर्त्यांना आवश्यक तेव्हा हस्तक्षेप करण्याची संधी देण्यासाठी आवश्यक आहे, तसेच संमती थकवा टाळण्यास देखील मदत करते." चुंबकीय वापरकर्ता इंटरफेस हे विशेषत: मानवांमधील या परस्परसंवादांना सुलभ करण्यासाठी डिझाइन केलेले संशोधन मॉडेल आहे. Fara-7B चुंबकीय-UI मध्ये कार्य करण्यासाठी डिझाइन केलेले आहे.

एका मॉडेलमध्ये डिस्टिलिंग कॉम्प्लेक्सिटी

Fara-7B चा विकास मधील वाढत्या प्रवृत्तीवर प्रकाश टाकतो ज्ञानाचे ऊर्ध्वपातनजटिल प्रणालीची क्षमता लहान, अधिक कार्यक्षम स्वरूपात संकुचित केली जाते.

CUA तयार करण्यासाठी सामान्यत: प्रचंड प्रमाणात प्रशिक्षण डेटा आवश्यक असतो जो वेबवर कसे नेव्हिगेट करावे हे दर्शवितो. मानवी भाष्याद्वारे हा डेटा गोळा करणे खूप महाग आहे. या समस्येचे निराकरण करण्यासाठी मायक्रोसॉफ्टने त्यावर तयार केलेली सिंथेटिक डेटा पाइपलाइन वापरली चुंबकीय एक,मल्टी-एजंट फ्रेमवर्क. या सेटिंगमध्ये, ए "समन्वयक" एजंटने योजना तयार केल्या आणि ए "वेब सर्व्हर" वेब ब्राउझिंग एजंट, 145,000 यशस्वी मिशन पथ तयार करत आहे.

तेव्हा संशोधक "डिस्टिल्ड" हा जटिल परस्परसंवाद डेटा Fara-7B मध्ये आहे, जो Qwen2.5-VL-7B वर तयार केला आहे, एक व्यासपीठ त्याच्या लांब संदर्भ विंडोसाठी (128,000 वर्णांपर्यंत) निवडले आहे आणि मजकूर सूचना ऑन-स्क्रीन व्हिज्युअलशी जोडण्याची मजबूत क्षमता आहे. डेटा व्युत्पन्न करण्यासाठी हेवी मल्टी-एजंट सिस्टमची आवश्यकता असताना, Fara-7B स्वतः एकच मॉडेल आहे, हे दाखवून देते की लहान मॉडेल रनटाइममध्ये जटिल मचान न वापरता प्रगत वर्तन प्रभावीपणे शिकू शकते.

प्रशिक्षण प्रक्रिया पर्यवेक्षित फाइन-ट्यूनिंगवर अवलंबून होती, जिथे मॉडेल सिंथेटिक पाइपलाइनद्वारे व्युत्पन्न केलेल्या यशस्वी उदाहरणांचे अनुकरण करून शिकते.

पुढे पहात आहे

सध्याची आवृत्ती स्थिर डेटासेटवर प्रशिक्षित असताना, भविष्यातील पुनरावृत्ती मॉडेलला अधिक स्मार्ट बनविण्यावर लक्ष केंद्रित करेल, आवश्यक नाही. "पुढे जाऊन, आम्ही आमच्या मॉडेल्सचा आकार लहान ठेवण्याचा प्रयत्न करू," लारा म्हणाली. "आमचे चालू असलेले संशोधन एजंट मॉडेल्सना अधिक स्मार्ट आणि सुरक्षित बनविण्यावर केंद्रित आहे, फक्त मोठे नाही." यामध्ये एक्सप्लोरिंग तंत्रांचा समावेश आहे जसे की मजबुतीकरण शिक्षण (RL) लाइव्ह, सँडबॉक्स्ड वातावरणात, जे मॉडेलला रीअल टाइममध्ये चाचणी आणि त्रुटीपासून शिकण्यास अनुमती देईल.

मायक्रोसॉफ्टने एमआयटीच्या परवान्याखाली हगिंग फेस आणि मायक्रोसॉफ्ट फाउंड्री वर मॉडेल उपलब्ध करून दिले आहे. तथापि, लारा चेतावणी देते की जरी परवाना व्यावसायिक वापरासाठी परवानगी देतो, परंतु मॉडेल अद्याप उत्पादनासाठी तयार नाही. "तुम्ही MIT परवान्याअंतर्गत Fara‑7B वापरून मुक्तपणे प्रयोग आणि प्रोटोटाइप करू शकता," तो म्हणतो, "परंतु ते मिशन-गंभीर तैनातीपेक्षा वैमानिक आणि संकल्पनेच्या पुराव्यासाठी अधिक योग्य आहेत."

Source link