उद्योगातील अग्रगण्य कृत्रिम बुद्धिमत्ता कव्हर करण्यासाठी नवीनतम अद्यतने आणि विशेष सामग्री मिळविण्यासाठी दररोज आणि साप्ताहिक वृत्तपत्रांमध्ये सामील व्हा. अधिक जाणून घ्या
नवीनतम एआय ओपन सोर्स ओपन सोर्स जेम्मा 3 ही वर्णमालाची एकमेव मोठी बातमी नाही, जी आज संलग्न आहे.
नाही, खरं तर, दिवे चोरी झाले असावेत मूळ फोटोंसह Google वरून गुएनी 2.0 फ्लॅशGoogle कडून एपीआय जेमिनीद्वारे Google एआय स्टुडिओ वापरकर्त्यांसाठी आणि विकसकांसाठी एक नवीन चाचणी मॉडेल उपलब्ध आहे.
मुख्य अमेरिकन तंत्रज्ञान कंपनी प्रथमच ग्राहक मॉडेलमध्ये मल्टीमीडिया प्रतिमा चार्ज करीत आहे. एआयची इतर पिढी साधने मोठ्या भाषेच्या मॉडेल्समध्ये (एलएलएमएस) समाकलित केलेली मॉडेल्स (चित्रांसह) पसरवत होती, ज्यास मजकूर राउटरमध्ये त्याच्या वापरकर्त्याच्या विनंतीचे चित्र मिळविण्यासाठी दोन मॉडेल्स दरम्यान थोडेसे स्पष्टीकरण आवश्यक आहे. गूगलच्या पूर्वीच्या मिथुन एलएलएमएससाठी आणि मागील ओपनई (आणि तरीही, आम्हाला माहित आहे तितके) डीएएलएल पब्लिशिंग फॉर्म · ई 3 प्रकाशित करण्यासाठी मूलभूत एलएलएमएस आहे.
उलटपक्षी, मिथुन 2.0 फ्लॅश मूळतः वापरकर्ता वापरकर्त्यांनी कॉल केलेल्या त्याच स्वरूपात प्रतिमा तयार करू शकतो, सैद्धांतिकदृष्ट्या अधिक अचूक आणि अधिक क्षमता – आणि प्रारंभिक निर्देशक सूचित करतात की हे पूर्णपणे खरे आहे.
ग्विमिनी २.० फ्लॅश, जे प्रथम डिसेंबर २०२24 मध्ये अनावरण करण्यात आले, परंतु वापरकर्त्यांची मूळ प्रतिमा प्ले करण्याची क्षमता न घेता मल्टीमीडिया इनपुट, विचार आणि मजकूराच्या बाजूने प्रतिमा तयार करण्यासाठी नैसर्गिक भाषा समजून घेते.
नवीन उपलब्ध प्रायोगिक आवृत्ती, मिथुनि -2.0-फ्लॅश-एक्सपी, विकसकांना स्पष्टीकरण तयार करण्यासाठी, संभाषणाद्वारे प्रतिमा परिष्कृत करण्यासाठी आणि जागतिक ज्ञानावर आधारित तपशीलवार प्रतिमा तयार करण्यासाठी प्रदान करते.
जेमिनी 2.0 फ्लॅश कृत्रिम बुद्धिमत्तेपासून तयार केलेल्या प्रतिमांना कसे वाढवते
मध्ये विकसक ब्लॉग पोस्टचा सामना करतो मिथुन 2.0 फ्लॅशची मूळ चित्रे व्युत्पन्न करण्यासाठी अनेक प्रमुख क्षमता हायलाइट करीत गूगल आज पूर्वी प्रकाशित केले गेले आहे:
• कथा आणि चित्रांचा मजकूर: वर्ण आणि सेटिंग्जमध्ये सुसंगतता राखताना विकसक कॉमिक कथा तयार करण्यासाठी मिथुन 2.0 फ्लॅश 2.0 वापरू शकतात. मॉडेल टिप्पण्यांना प्रतिसाद देते, वापरकर्त्यांना कथा सेट करण्याची किंवा कला नमुना बदलण्याची परवानगी देते.
• संभाषण फोटो संपादित करा: कृत्रिम बुद्धिमत्तेचे समर्थन करते मल्टी -टर्न संपादननैसर्गिक भाषेच्या दाव्यांद्वारे सूचना देऊन वापरकर्ते प्रतिमा सुधारू शकतात या अर्थाने. हे वैशिष्ट्य वास्तविक वेळ आणि सर्जनशील अन्वेषण करण्यास अनुमती देते.
• जागतिक ज्ञान -आधारित प्रतिमा: जेमिनी २.० फ्लॅश संदर्भाशी संबंधित अधिक प्रतिमा तयार करण्यासाठी इतर अनेक फोटो निर्मितीच्या मॉडेल्सपेक्षा व्यापक विचारांच्या क्षमतेचा फायदा घेण्यासाठी कार्य करते. उदाहरणार्थ, वास्तविक जगातील घटक आणि स्वयंपाक पद्धतींशी संबंधित असलेल्या तपशीलवार प्रतिमांसह पाककृती दर्शविली जाऊ शकतात.
• मजकूर मजकूर सुधारतो: अनेक कृत्रिम बुद्धिमत्ता मॉडेल प्रतिमांमध्ये काटेकोरपणे वाचलेले मजकूर व्युत्पन्न करण्यासाठी संघर्ष करतात आणि बर्याचदा शब्दलेखन त्रुटी किंवा विकृत वर्ण तयार करतात. गुगलने नोंदवले आहे की गुएनी २.० फ्लॅशने टेक्स्ट प्रदान करण्यात प्रतिस्पर्ध्यांच्या नेतृत्वाला पराभूत केले, ज्यामुळे जाहिराती, सोशल मीडिया आणि आमंत्रणांसाठी ते विशेषतः उपयुक्त ठरेल.
प्रारंभिक उदाहरणे अविश्वसनीय आणि वचन क्षमता दर्शवितात
मिथुन 2.0 फ्लॅश प्रायोगिक माध्यमातून प्रदान केलेल्या नवीन प्रतिमा आणि संपादन क्षमता व्युत्पन्न करण्यासाठी x सामायिक उदाहरणे गूगलर्स आणि काही पॉवर एआय वापरकर्ते आणि निःसंशयपणे प्रभावी होते.
अॅम्नेस्टी आंतरराष्ट्रीय आणि तंत्रज्ञान शिक्षक झाकलेले त्यांनी निदर्शनास आणून दिले की “आपण नैसर्गिक भाषेत कोणतीही प्रतिमा संपादित करू शकता (अर्थपूर्ण अग्निशामक चिन्ह). केवळ आपण जेमिनी २.० फ्लॅश वापरुन तयार करता तरच उपस्थित खडक देखील,” केवळ मजकूर दाव्यांचा वापर करून प्रतिमा कशी अपलोड करावी आणि कशी बदलता येईल हे दर्शविते.
वापरकर्ते अपोलिनारियो आणि एफओएफआर आपण डोक्याचे डोके कसे लोड करू शकता आणि स्पॅगेटीच्या वाडग्यासारख्या नवीन खांबासह पूर्णपणे भिन्न बॉक्समध्ये ते कसे समायोजित करू शकता किंवा अर्ध -अचूकता राखताना, किंवा अगदी लघुलेखन आणि अगदी सूक्ष्मकरण आणि डोक्याव्यतिरिक्त इतर कोणत्याही गोष्टीवर आधारित शरीराची संपूर्ण प्रतिमा तयार करताना आपण विषय शोधत असलेली दिशा बदलू शकता हे मी दर्शविले.
गूगल डीपमाइंड रॉबर्ट रियाची मॉडेल पिक्सेल आर्टमध्ये चित्रे कशी तयार करू शकतात आणि नंतर मजकूराच्या दाव्यांच्या आधारे समान शैलीमध्ये नवीन फोटो तयार करू शकतात.


एआय न्यूज खाते खाते बातम्या हे मिथुन 2.0 फ्लॅशच्या मल्टीमीडिया प्रायोगिक संभाव्यतेच्या प्रदर्शनावर नोंदवले गेले आहे, हे लक्षात घेता की हे वैशिष्ट्य प्रकाशित करणारी Google ही पहिली मोठी प्रयोगशाळा आहे.

वापरकर्ता Agaisb_ “देवदूत” भोक एका खात्रीशीर उदाहरणात, “स्प्रे चॉकलेट जोडणे” मार्गाने सेकंदात क्रोसेंटचे चित्र कसे सुधारित केले हे दर्शविले – केवळ फॉर्मसह चॅटद्वारे मिथुन 2.0 फ्लॅशचा वेगवान आणि अचूक फोटो संपादित करण्याची शक्यता प्रकट करते.

सैद्धांतिक माध्यम यूटिपर त्यांनी निदर्शनास आणून दिले की संपूर्ण नूतनीकरणाशिवाय हळूहळू प्रतिमा संपादन करणे ही एक गोष्ट आहे जी कृत्रिम बुद्धिमत्ता उद्योगाने बर्याच दिवसांपूर्वी अपेक्षित केली होती, जे संपूर्ण प्रतिमेचे उर्वरित जतन करताना मिथुन 2.0 फ्लॅश वर्ण हात अपलोड करण्यासाठी प्रतिमा संपादित कसे करते हे दर्शविते.

गूगलर फॉर्मने यूट्यूब बिलावल सिद्धूवर एआय चालू केले संभाव्य ऐतिहासिक जीर्णोद्धार किंवा सर्जनशील सुधारित अनुप्रयोगांना अनुमती देऊन मॉडेल काळ्या आणि पांढर्या प्रतिमांना कसे रंग देणारे मॉडेल दर्शवा.

या सुरुवातीच्या प्रतिक्रियांमध्ये असे सूचित होते की विकसक आणि कृत्रिम बुद्धिमत्ता प्रेमी वारंवार डिझाइन, सर्जनशील कथा आणि एआयच्या मदतीने व्हिज्युअल संपादनासाठी एक अतिशय लवचिक साधन म्हणून गुएनी 2.0 फ्लॅश पाहतात.
स्विफ्ट स्प्लॉटने ओपनएआय कडून जीपीटी -4 ओ देखील विरोध केला आहे, ज्यांनी मे २०२24 मध्ये मूळ फोटोंच्या क्षमतेची तपासणी केली-वर्षापूर्वी-त्याने सार्वजनिकपणे हे वैशिष्ट्य सोडले नाही, ज्यामुळे Google ला मल्टीमीड एआयच्या प्रकाशनात वाहन चालविण्याची संधी मिळू शकेल.
एक वापरकर्ता म्हणून @chatgpt21, “ख्रिस” टोपणनाव या प्रकरणात त्यांनी एक्स, ओपनईचा उल्लेख केला “लॉस (टी) वर्ष + आघाडी” ज्यात अज्ञात कारणास्तव ही क्षमता होती. वापरकर्त्याने ओपनई मधील कोणालाही कारणास्तव टिप्पणी देण्यासाठी आमंत्रित केले.

माझ्या स्वत: च्या चाचण्यांमध्ये उंचीच्या रुंदीच्या प्रमाणाच्या आकारासह काही निर्बंध उघडकीस आले – ते माझ्यासाठी 1: 1 मध्ये अडकले, जरी मी मजकूर सुधारित करण्यास सांगत आहे – परंतु ते दुसर्या प्रतिमेत अक्षरांची दिशा बदलण्यास सक्षम होते.

मिथुन 2.0 फ्लॅशची मूळ छायाचित्रे तयार करण्याच्या बर्याच लवकर वादविवादाने वैयक्तिक वापरकर्त्यांवर आणि सर्जनशील अनुप्रयोगांवर लक्ष केंद्रित केले आहे, परंतु संस्था, विकसक आणि सॉफ्टवेअर अभियंता या संघांवर त्याचे परिणाम महत्वाचे आहेत.
अॅम्नेस्टी इंटरनॅशनलचे मोठे -स्केल डिझाइन आणि विपणनविपणन कार्यसंघ आणि सामग्री निर्मात्यांसाठी, मिथुन 2.0 फ्लॅश एक प्रभावी किंमत असू शकते -ब्रँड, जाहिराती आणि सोशल मीडिया व्हिज्युअलसह सामग्री तयार करण्यासाठी ऑटोमेशन रेखांकन करण्यासाठी पारंपारिक वर्कफ्लोसाठी एक प्रभावी खर्च. हे प्रतिमांमधील मजकूरांच्या तरतुदीचे समर्थन करीत असल्याने, जाहिरातींची निर्मिती, पॅकेजिंगची रचना आणि प्रचारात्मक ग्राफिक्सची रचना सुलभ होऊ शकते, ज्यामुळे मॅन्युअल संपादनावरील अवलंबन कमी होते.
सुधारित विकसक आणि कृत्रिम बुद्धिमत्ता कार्येसीटीओएस, सीआयओ आणि सॉफ्टवेअर अभियंत्यांसाठी, मूळ प्रतिमा अनुप्रयोग आणि सेवांमध्ये कृत्रिम बुद्धिमत्तेचे एकत्रीकरण सुलभ करू शकतात. एका मॉडेलमध्ये मजकूर आउटपुट आणि प्रतिमा एकत्र करून, मिथुन 2.0 फ्लॅश विकसकांना तयार करण्यास अनुमती देते:
- वापरकर्ता वापरकर्ता वापरकर्ता/यूएक्स वापरकर्ता किंवा अनुप्रयोग मालमत्ता व्युत्पन्न करणारे समान अॅम्नेस्टी इंटरनॅशनलसह कार्य करणारे डिझाइन सहाय्यक डिझाइन सहाय्यक
- रिअल टाइममध्ये संकल्पना स्पष्ट करणारे स्वयंचलित दस्तऐवजीकरण साधने
- मीडिया आणि शिक्षणाच्या कृत्रिम बुद्धिमत्तेद्वारे चालविलेले डायनॅमिक कथन प्लॅटफॉर्म
मॉडेल संभाषण प्रतिमांच्या संपादनास देखील समर्थन देत असल्याने, कार्यसंघ एआयद्वारे चालविलेले इंटरफेस विकसित करू शकतात जेथे वापरकर्ते नैसर्गिक संवादाद्वारे डिझाइन सुधारतात, जे -तंत्रज्ञान नसलेल्या वापरकर्त्यांसाठी एंट्री बार कमी करतात.
कृत्रिम बुद्धिमत्तेद्वारे चालविलेल्या उत्पादकता कार्यक्रमांसाठी नवीन शक्यताबुद्धिमत्तेत कार्य करणारे उत्पादकता साधने तयार करणार्या संस्थांच्या कार्यसंघांसाठी, मिनीनी २.० फ्लॅश अशा अनुप्रयोगांना समर्थन देऊ शकते जसे की:
- एआय सह स्वयंचलित पिढी
- कृत्रिम बुद्धिमत्तेपासून तयार केलेल्या चार्टसह कायदेशीर आणि व्यावसायिक कागदपत्रांचे स्पष्टीकरण
- ई -कॉमर्सची कल्पना करा आणि वर्णनांच्या आधारे उत्पादनांचे मॉडेल गतिशीलपणे तयार करा
ही क्षमता कशी प्रकाशित करावी आणि कशी वापरावी
विकसक मिथुन अनुप्रयोग इंटरफेसचा वापर करून जेमिनी 2.0 फ्लॅश प्रतिमा निर्मिती क्षमतेची चाचणी प्रारंभ करू शकतात. विकसक एका प्रतिसादात मजकूर आणि फोटोंसह विनोदी कथा कशा तयार करू शकतात हे दर्शविण्यासाठी Google एपीआय प्रदान करते:
from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
contents=(
"Generate a story about a cute baby turtle in a 3D digital art style. "
"For each scene, generate an image."
),
config=types.GenerateContentConfig(
response_modalities=("Text", "Image")
),
)
कृत्रिम बुद्धिमत्ता -बॅक केलेल्या प्रतिमांची पिढी सुलभ करून, मिथुन 2.0 फ्लॅश फोटो सामग्री तयार करण्यासाठी आणि एआय अनुप्रयोग डिझाइन करण्यासाठी आणि व्हिज्युअल कथांचा अनुभव घेण्यासाठी नवीन मार्ग प्रदान करते.
Source link