सुसंगत प्रतिमा किंवा व्हिडिओ तयार करण्यासाठी, स्थिर प्रसार किंवा FLUX सारखी जनरेटिव्ह एआय डिफ्यूजन मॉडेल्स सामान्यत: बाह्य घटकांवर अवलंबून असतात "शिक्षक"- CLIP किंवा DINOv2 सारखे गोठलेले एन्कोडर्स – ते स्वतः शिकू शकत नाहीत अशी अर्थपूर्ण समज प्रदान करण्यासाठी.

पण हा रिलायन्स खर्चात आला: अ "अडचण" मॉडेलचा विस्तार केल्याने अधिक चांगले परिणाम मिळत नाहीत कारण आउटलियर पॅरामीटर कमाल पोहोचला आहे.

आज, जर्मन AI स्टार्टअप ब्लॅक फॉरेस्ट लॅब्स (एआय इमेज मॉडेल्सच्या FLUX मालिकेचा निर्माता) ने सेल्फ-फ्लो, एक स्व-पर्यवेक्षित प्रवाह जुळणारी फ्रेमवर्क रिलीज करून शैक्षणिक कर्ज घेण्याच्या या युगाचा संभाव्य अंत घोषित केला आहे जो मॉडेल्सना एकाच वेळी प्रतिनिधित्व आणि निर्मिती शिकण्याची परवानगी देतो.

नवीन दुहेरी-चरण शेड्युलिंग यंत्रणा समाविष्ट करून, ब्लॅक फॉरेस्ट लॅब्सने हे दाखवून दिले आहे की एकच मॉडेल कोणत्याही बाह्य निरीक्षणाशिवाय प्रतिमा, व्हिडिओ आणि ऑडिओमध्ये अत्याधुनिक परिणाम मिळवू शकते.

तंत्रज्ञान: ब्रेक "सिमेंटिक अंतर"

पारंपारिक जनरेटिव्ह प्रशिक्षणाची मूलभूत समस्या अशी आहे की… "आवाज कमी करणे" एक कार्य. मॉडेल आवाज करते आणि प्रतिमा शोधण्यास सांगितले जाते; प्रतिमा काय आहे, फक्त ती कशी दिसते हे समजून घेण्यास त्याला थोडेसे प्रोत्साहन नाही.

याचे निराकरण करण्यासाठी, संशोधकांनी पूर्वी "पक्षपात" बाह्य भेदभाव मॉडेलसह जनरेटिव्ह वैशिष्ट्ये. तथापि, ब्लॅक फॉरेस्ट लॅब याला मूलभूतपणे सदोष मानतात: हे बाह्य मॉडेल अनेकदा असंतुलित लक्ष्यांवर कार्य करतात आणि व्हॉइस किंवा रोबोटिक्स सारख्या विविध पद्धतींमध्ये सामान्यीकरण करण्यात अयशस्वी होतात.

एक नवीन प्रयोगशाळा तंत्रज्ञान, ऑटोफ्लो, एक पद्धत देते "माहितीची विषमता" याचे निराकरण करण्यासाठी. ड्युअल टाइम-स्टेप शेड्युलिंग नावाच्या तंत्राचा वापर करून, सिस्टम इनपुटच्या वेगवेगळ्या भागांवर आवाजाचे विविध स्तर लागू करते. विद्यार्थ्याला डेटाची अत्यंत दूषित आवृत्ती प्राप्त होते, तर शिक्षक स्वतः मॉडेलची एक्सपोनेन्शियल मूव्हिंग ॲव्हरेज (EMA) आवृत्ती पाहतो. "स्वच्छता" समान डेटाची एक प्रत.

त्यानंतर विद्यार्थ्याला केवळ अंतिम उत्पादनच नाही तर ते काय असेल याचा अंदाज लावण्याचे काम सोपवले जाते "स्वच्छता" स्वत: पाहतो – ही स्वयं-उर्धपातन प्रक्रिया आहे जिथे शिक्षक थर 20 मध्ये असतो आणि विद्यार्थी 8 व्या स्तरावर असतो. "दुहेरी पास" हा दृष्टिकोन मॉडेलला सखोल अंतर्गत अर्थविषयक समज विकसित करण्यास भाग पाडतो, कसे तयार करावे हे शिकताना कसे पहावे हे प्रभावीपणे शिकवते.

उत्पादन परिणाम: जलद, स्पष्ट आणि मल्टी-मीडिया

या बदलाचे व्यावहारिक परिणाम गंभीर आहेत. संशोधन पत्रानुसार, वैशिष्ट्य संरेखनासाठी सध्याचे उद्योग मानक प्रतिनिधित्व संरेखन पद्धती (REPA) पेक्षा सेल्फ-फ्लो अंदाजे 2.8 पट वेगाने अभिसरण करतो. आणि कदाचित सर्वात महत्त्वाचे म्हणजे, ते कधीही पठार नाही; जसजसे गणन आणि मापदंड वाढत जातात, तसतसे ऑटोफ्लो सुधारत राहतो तर जुन्या पद्धती कमी होत जाणारे परतावा दर्शवतात.

प्रशिक्षण कार्यक्षमतेतील उडी हे प्रारंभिक संगणकीय चरणांच्या लेन्सद्वारे चांगले समजले जाते: ते मानक असताना "व्हॅनिला" पारंपारिकपणे प्रशिक्षणासाठी बेसलाइन कामगिरी पातळी गाठण्यासाठी 7 दशलक्ष पावले आवश्यक आहेत आणि REPA ने हा प्रवास फक्त 400,000 पायऱ्यांवर कमी केला आहे, जो 17.5-पट गती दर्शवितो.

ब्लॅक फॉरेस्ट लॅब्सचे सेल्फ-फ्लो फ्रेमवर्क या मर्यादा आणखी पुढे ढकलते, अंदाजे 143,000 पायऱ्यांमध्ये कामगिरीच्या समान पातळीपर्यंत पोहोचण्यासाठी REPA पेक्षा 2.8 पट वेगाने धावते.

एकत्रितपणे, ही प्रगती उच्च-गुणवत्तेचे परिणाम प्राप्त करण्यासाठी आवश्यक असलेल्या प्रशिक्षण चरणांच्या एकूण संख्येमध्ये अंदाजे 50-पट घट दर्शवते, जी पूर्वी एक प्रचंड संसाधनाची आवश्यकता होती ती लक्षणीय सुलभ आणि अधिक सुव्यवस्थित प्रक्रियेत प्रभावीपणे कमी करते.

ब्लॅक फॉरेस्ट लॅब्सने 4B पॅरामीटरसह मल्टीमोडल मॉडेलद्वारे हे नफा दाखवून दिले. 200 दशलक्ष प्रतिमा, 6 दशलक्ष व्हिडिओ आणि 2 दशलक्ष ऑडिओ-व्हिडिओ जोड्यांच्या मोठ्या डेटासेटवर प्रशिक्षित, मॉडेलने तीन प्रमुख क्षेत्रांमध्ये लक्षणीय झेप दाखवली आहे:

  1. मुद्रण आणि मजकूर सबमिशन: सर्वात स्थिरांपैकी एक "तो सांगतो" एआय प्रतिमांमधून मजकूर विकृत झाला. स्व-प्रवाह जटिल, सुवाच्य चिन्हे आणि लेबले प्रदर्शित करताना व्हॅनिला प्रवाह जुळण्यापेक्षा जास्त कामगिरी करतो, जसे की निऑन चिन्ह योग्यरित्या लिहिलेले आहे. "फ्लक्स मल्टीमीडिया".

  2. तात्पुरती सुसंगतता: व्हिडिओ निर्मितीमध्ये, स्व-प्रवाह अनेक समस्या दूर करते "भ्रम" सध्याच्या मॉडेल्समधील सामान्य कलाकृती, जसे की हालचाल करताना उत्स्फूर्तपणे अदृश्य होणारे हातपाय.

  3. व्हिडिओ आणि ऑडिओचे सह-संश्लेषण: कारण मॉडेल मूळ स्वरूपाचे प्रतिनिधित्व शिकत असल्याने, ते एकाच वेक्टरमधून एकाच वेळी व्हिडिओ आणि ऑडिओ तयार करू शकते, एक कार्य ज्यासाठी बाह्य हस्तक्षेप आवश्यक आहे "कर्ज घेतले" प्रतिनिधित्व अनेकदा अयशस्वी होते कारण इमेज एन्कोडरला आवाज समजत नाही.

परिमाणवाचक मेट्रिक्सच्या संदर्भात, ऑटोफ्लोने स्पर्धात्मक बेसलाइन्सपेक्षा उत्कृष्ट परिणाम प्राप्त केले. इमेज FID मध्ये, REPA च्या 3.92 च्या तुलनेत मॉडेलने 3.61 गुण मिळवले. व्हिडिओसाठी (FVD), तो REPA साठी 49.59 च्या तुलनेत 47.81 वर पोहोचला आणि ऑडिओ (FAD) साठी, त्याने व्हॅनिला बेसलाइनसाठी 148.87 विरुद्ध 145.65 गुण मिळवले.

पिक्सेल ते लेआउट पर्यंत: सार्वत्रिक मॉडेल्सचा रस्ता

जाहिरात जागतिक मॉडेल्सवर एक नजर टाकून समाप्त होते – कृत्रिम बुद्धिमत्ता जी केवळ सुंदर प्रतिमा तयार करत नाही, तर नियोजन आणि रोबोटिक्ससाठी दृश्याचे भौतिकशास्त्र आणि मूलभूत तर्क समजते.

RT-1 रोबोटिक्स डेटासेटवर सेल्फ-फ्लोच्या 675M पॅरामीटर आवृत्तीचे बारीक-ट्यूनिंग करून, संशोधकांनी SIMPLER सिम्युलेटरमधील जटिल, बहु-चरण कार्यांवर खूप उच्च यश दर प्राप्त केले. मानक प्रवाह जुळणी करताना अवघडपणा हाताळण्यात अडचण आली "उघडा आणि ठेवा" सेल्फ-फ्लो मॉडेल कार्ये पूर्ण करण्यात अयशस्वी झाल्यामुळे, बऱ्याचदा पूर्णपणे अयशस्वी होत असल्याने, त्याने सातत्यपूर्ण यशाचा दर राखला आहे, हे सूचित करते की त्याचे अंतर्गत प्रतिनिधित्व वास्तविक जगात दृश्यमान तर्कांसाठी पुरेसे मजबूत आहेत.

अंमलबजावणी आणि अभियांत्रिकी तपशील

या दाव्यांची पडताळणी करू पाहणाऱ्या संशोधकांसाठी, Black Forest Labs ने GitHub वर विशेषत: ImageNet 256×256 पिढीसाठी एक ह्युरिस्टिक सूट जारी केला आहे. हा प्रकल्प, प्रामुख्याने पायथनमध्ये लिहिलेला, SiT-XL/2-आधारित SelfFlowPerTokenDiT मॉडेल आर्किटेक्चर प्रदान करतो.

मानक FID मूल्यांकनासाठी 50,000 प्रतिमा तयार करण्यासाठी अभियंते प्रदान केलेल्या Sample.py स्क्रिप्टचा फायदा घेऊ शकतात. रेपॉजिटरी हायलाइट करते की या अंमलबजावणीतील मुख्य आर्किटेक्चरल फेरफार प्रत्येक टोकनचे टाइम स्टेप ॲडॉप्टेशन आहे, जे प्रत्येक टोकनला एका क्रमाने विशिष्ट आवाजाच्या वेळेच्या पायऱ्यांमध्ये कंडिशन करण्यास अनुमती देते. प्रशिक्षणादरम्यान, मॉडेलने स्थिरता राखण्यासाठी ग्रेडियंट क्लिपिंगसह मिश्र-परिशुद्धता BFloat16 आणि AdamW ऑप्टिमायझर वापरले.

परवाना आणि उपलब्धता

ब्लॅक फॉरेस्ट लॅबने GitHub आणि त्यांच्या संशोधन पोर्टलद्वारे पेपर आणि अधिकृत अनुमान कोड उपलब्ध करून दिला आहे. हे सध्या संशोधन पूर्वावलोकन असले तरी, मॉडेल्सच्या FLUX कुटुंबासह कंपनीचा ट्रॅक रेकॉर्ड सूचित करतो की या नवकल्पना त्याच्या व्यावसायिक API आणि नजीकच्या भविष्यात ओपन वेट ऑफरिंगमध्ये प्रवेश करतील.

विकसकांसाठी, तृतीय-पक्ष एन्कोडर्सपासून दूर जाणे ही एक प्रचंड कार्यक्षमता आहे. हे प्रशिक्षणादरम्यान DINOv2 सारखे वेगळे, जड मॉडेल व्यवस्थापित करण्याची गरज काढून टाकते, जे स्टॅक सुलभ करते आणि अधिक विशिष्ट, डोमेन-विशिष्ट प्रशिक्षणासाठी परवानगी देते जे इतर कोणाला पाहत नाही. "गोठलेले" जग समजून घेणे.

एंटरप्राइझ तांत्रिक निर्णय घेणारे आणि दत्तक घेणाऱ्यांसाठी टेकवे

एंटरप्राइझसाठी, स्वायत्त प्रवाहाचे आगमन हे मालकी AI विकासाच्या खर्च-लाभ विश्लेषणामध्ये एक मोठे बदल दर्शवते.

सर्वात तात्कालिक लाभार्थी म्हणजे सुरवातीपासून मोठ्या प्रमाणात मॉडेल्सचे प्रशिक्षण देणाऱ्या संस्था आहेत, संशोधन असे दर्शविते की तंत्रज्ञान उच्च-परिशुद्धता फाइन-ट्यूनिंगमध्ये तितकेच प्रभावी आहे. ही पद्धत सध्याच्या मानकांपेक्षा अंदाजे तिप्पट वेगाने एकत्रित होत असल्याने, कंपन्या पारंपारिक संगणकीय बजेटच्या काही अंशात अत्याधुनिक परिणाम मिळवू शकतात.

ही कार्यक्षमता संस्थांना जेनेरिक, ऑफ-द-शेल्फ सोल्यूशन्सच्या पलीकडे जाणे आणि त्यांच्या विशिष्ट डेटा डोमेनशी खोलवर सुसंगत असलेले विशेष मॉडेल विकसित करणे शक्य करते, मग त्यात विशेष वैद्यकीय इमेजिंग किंवा मालकीचे औद्योगिक सेन्सर डेटा समाविष्ट असेल.

या तंत्रज्ञानाचे व्यावहारिक अनुप्रयोग उच्च-जोखीम असलेल्या औद्योगिक क्षेत्रांमध्ये विस्तारित आहेत, विशेषत: रोबोटिक्स आणि स्वायत्त प्रणाली. फ्रेमवर्कच्या शिकण्याच्या क्षमतेचा फायदा घेऊन "सार्वत्रिक मॉडेल," मॅन्युफॅक्चरिंग आणि लॉजिस्टिक्समधील संस्था दृष्टी, भाषा आणि कृती (VLA) मॉडेल विकसित करू शकतात ज्यांना भौतिक जागा आणि अनुक्रमिक विचारांची उच्च समज आहे.

सिम्युलेशन चाचण्यांमध्ये, स्वायत्त प्रवाहाने रोबोटिक कंट्रोलर्सना क्लिष्ट, मल्टी-ऑब्जेक्ट कार्ये यशस्वीरित्या पार पाडण्याची परवानगी दिली आहे-जसे की एखादी वस्तू आत ठेवण्यासाठी ड्रॉवर उघडणे-जेथे पारंपारिक जनरेटिव्ह मॉडेल अयशस्वी झाले आहेत. हे सूचित करते की वास्तविक जगात डिजिटल सामग्री निर्मिती आणि भौतिक ऑटोमेशन यांच्यातील अंतर भरून काढू पाहणाऱ्या कोणत्याही संस्थेसाठी तंत्रज्ञान हे एक आवश्यक साधन आहे.

कार्यक्षमतेच्या नफ्याव्यतिरिक्त, सेल्फ-फ्लो संस्थांना त्यांच्या अंतर्निहित AI पायाभूत सुविधा सुलभ करून धोरणात्मक फायदा प्रदान करते. बहुतेक वर्तमान जनरेटिव्ह सिस्टम आहेत "फ्रँकेन्स्टाईन" जटिल बाह्य सिमेंटिक एन्कोडरची आवश्यकता असलेले मॉडेल सहसा तृतीय पक्षांच्या मालकीचे आणि परवानाकृत असतात.

प्रतिनिधित्व आणि पिढीला एकाच आर्किटेक्चरमध्ये एकत्रित करून, ऑटोफ्लो संस्थांना या बाह्य अवलंबित्वांचे उच्चाटन करण्यास, तांत्रिक कर्ज कमी करण्यास आणि काढून टाकण्यास अनुमती देते. "अडथळे" तृतीय-पक्ष शिक्षकांच्या कार्यक्षेत्राचा विस्तार करण्याशी संबंधित. हे स्वयंपूर्ण स्वरूप हे सुनिश्चित करते की एखादी संस्था आपली गणना आणि डेटा मोजते, मॉडेल कार्यप्रदर्शन स्केल एक स्थिर पायरीवर अंदाजानुसार, दीर्घकालीन AI गुंतवणुकीसाठी स्पष्ट ROI प्रदान करते.

Source link