कृत्रिम बुद्धिमत्ता युग सोडत आहे का? "भूमिकेवर आधारित" संभाषण?
आत्तापर्यंत, कामावर किंवा आपल्या वैयक्तिक जीवनात नियमितपणे AI मॉडेल्स वापरणाऱ्या आपल्या सर्वांना माहित आहे की मजकूर, प्रतिमा, ऑडिओ आणि व्हिडिओमध्ये परस्परसंवादाची मूलभूत पद्धत सारखीच राहते: मानवी वापरकर्ता इनपुट प्रदान करतो, मिलीसेकंद ते मिनिटांपर्यंत प्रतीक्षा करतो (किंवा काही प्रकरणांमध्ये, विशेषतः कठीण प्रश्नांसाठी, तास आणि दिवस) आणि AI मॉडेल आउटपुट प्रदान करते.
परंतु जर एआयला खरोखरच नैसर्गिक परस्परसंवादाची आवश्यकता असलेल्या नोकऱ्यांचा भार उचलायचा असेल, तर त्याला अशा प्रकारचे परस्परसंवाद प्रदान करण्यापेक्षा बरेच काही करणे आवश्यक आहे. "भूमिकेवर आधारित" परस्परसंवादीता – शेवटी मानवी इनपुटला अधिक लवचिक आणि नैसर्गिकरित्या प्रतिसाद देणे आवश्यक आहे आणि प्रक्रिया दरम्यान देखील प्रतिसाद देणे आवश्यक आहे पुढील मानवी इनपुट, मजकूर किंवा इतर स्वरूप.
किमान तेच थिंकिंग मशिन्स, माजी ओपनएआय सीटीओ मीरा मोराट्टी आणि माजी ओपनएआय संशोधक आणि सह-संस्थापक जॉन शुलमन यांनी गेल्या वर्षी स्थापन केलेल्या चांगल्या अर्थसहाय्यित एआय स्टार्टअपमध्ये वाद घालताना दिसत आहे.
आज कंपनीने ती काय मानते याचे संशोधन पूर्वावलोकन जाहीर केले "परस्परसंवाद मॉडेल्स, मूळ मल्टीमीडिया प्रणालींचा एक नवीन वर्ग जो परस्परसंवादाला बाह्य कार्यक्रम न मानता मॉडेल आर्किटेक्चरमध्ये प्रथम श्रेणीचा नागरिक म्हणून हाताळतो. "हार्नेस" तृतीय-पक्ष बेंचमार्कमध्ये काही प्रभावी नफ्यांची नोंद करणे आणि परिणामी विलंब कमी करणे.
तथापि, मॉडेल अद्याप सामान्य लोकांसाठी किंवा अगदी संस्थांसाठी उपलब्ध नाहीत – कंपनीने आपल्या घोषणा ब्लॉग पोस्टमध्ये म्हटले आहे: "येत्या काही महिन्यांत, आम्ही फीडबॅक गोळा करण्यासाठी मर्यादित संशोधन पूर्वावलोकन उघडू, या वर्षाच्या शेवटी विस्तृत प्रकाशनासह."
पूर्ण डुप्लेक्स एकाचवेळी I/O प्रक्रिया.
या घोषणेच्या केंद्रस्थानी एआय वेळ आणि अस्तित्व कसे समजून घेते यात एक मूलभूत बदल आहे. विद्यमान फ्रंटियर मॉडेल्स सामान्यत: एका थ्रेडमध्ये वास्तविकतेची चाचणी घेतात; वापरकर्त्याने प्रक्रिया सुरू करण्यापूर्वी इनपुट पूर्ण होण्याची ते प्रतीक्षा करतात आणि प्रतिसाद तयार होत असताना त्यांची समज गोठते.
त्यांच्या ब्लॉग पोस्टमध्ये, थिंकिंग मशीन्स संशोधकांनी स्थितीचे वर्णन केले आहे जे मनुष्यांना असे करण्यास भाग पाडते. "ते स्वतःला वळवतात" AI इंटरफेससाठी, ईमेल सारखे प्रश्न तयार करणे आणि त्यांचे विचार संकलित करणे.
याचे निराकरण करण्यासाठी "सहकार्यातील अडथळे," विचार यंत्रे मानक पर्यायी प्रतीकात्मक क्रमापासून दूर गेली आहेत.
त्याऐवजी, ते मल्टी-स्ट्रीम, मायक्रो-रोटेटिंग डिझाइन वापरते जे एकाच वेळी 200ms च्या इनपुट आणि आउटपुटवर प्रक्रिया करते.
हे "पूर्ण डुप्लेक्स" आर्किटेक्चर मॉडेलला रीअल टाइममध्ये ऐकण्याची, बोलण्याची आणि पाहण्याची अनुमती देते, वापरकर्ता बोलत असताना किंवा व्हिज्युअल क्यू दिसल्यावर ते बॅक चॅनेलमध्ये येण्यास सक्षम करते — जसे की वापरकर्ता कोड स्निपेटमध्ये त्रुटी टाइप करतो किंवा एखादा मित्र व्हिडिओ फ्रेममध्ये प्रवेश करतो. तांत्रिकदृष्ट्या, मॉडेल क्रिप्टो-मुक्त प्रारंभिक फ्यूजन वापरते.
ऑडिओसाठी Whisper सारख्या मोठ्या स्टँडअलोन एन्कोडरवर अवलंबून राहण्याऐवजी, सिस्टमला dMel आणि इमेज पॅच (40×40) सारखे कच्चे ऑडिओ सिग्नल एका हलक्या एम्बेडिंग लेयरद्वारे प्राप्त होतात, सर्व घटकांना कन्व्हर्टरमध्ये सुरवातीपासून प्रशिक्षण दिले जाते.
ड्युअल मॉडेल सिस्टम
शोध पूर्वावलोकन प्रदान करते tml-interact-smallए 276 अब्ज शिक्षक, तज्ञांचे मिश्रण (शिक्षण मंत्रालय) 12 अब्ज सक्रिय पॅरामीटर्ससह मॉडेल. कारण रिअल-टाइम परस्परसंवादासाठी जवळच्या-तात्काळ प्रतिसाद वेळेची आवश्यकता असते जी अनेकदा खोल विचारात व्यत्यय आणते, कंपनीने दोन-भाग प्रणाली तयार केली आहे:
-
परस्परसंवाद मॉडेल: हे वापरकर्त्याशी सतत देवाणघेवाण करत राहते, संवाद व्यवस्थापन, उपस्थिती आणि तत्काळ फॉलोअप हाताळते.
-
पार्श्वभूमी मॉडेल: एक असिंक्रोनस एजंट चालू विचार, वेब ब्राउझिंग किंवा जटिल टूल कॉल हाताळतो आणि संभाषणात नैसर्गिकरित्या एकत्रित होण्यासाठी परिणाम परत परस्परसंवाद मॉडेलमध्ये प्रवाहित करतो.
हे सेटअप AI ला वापरकर्त्याचा अभिप्राय ऐकत असताना थेट भाषांतर किंवा UI चार्ट तयार करणे यासारखी कार्ये करण्यास अनुमती देते — घोषणा व्हिडिओमध्ये दर्शविलेली एक क्षमता ज्यामध्ये मॉडेलने एकाच वेळी बार चार्ट तयार करताना वेगवेगळ्या सिग्नलवर विशिष्ट मानवी प्रतिक्रिया वेळा सादर केल्या.
अग्रगण्य AI लॅबमधील इतर जलद प्रतिक्रिया मॉडेलच्या तुलनेत प्रमुख बेंचमार्कमध्ये प्रभावी कामगिरी
या दृष्टिकोनाची प्रभावीता सिद्ध करण्यासाठी, प्रयोगशाळा वापरली गेली एफडी खंडपीठहे विशेषत: केवळ कच्च्या बुद्धिमत्तेपेक्षा परस्परसंवादाची गुणवत्ता मोजण्यासाठी डिझाइन केलेले मानक आहे. असे निकाल दाखवतात TML-Interaction-Small विद्यमान रीअल-टाइम सिस्टमला लक्षणीयरित्या मागे टाकते:
-
प्रतिसाद: तुम्ही ३०% टर्न-टेकिंग विलंबता प्राप्त केली आहे 0.40 सेकंदजेमिनी-3.1-फ्लॅश-लाइव्हसाठी 0.57 सेकंद आणि GPT-रिअलटाइम-2.0 (किमान) साठी 1.18 सेकंदांच्या तुलनेत.
-
परस्परसंवाद गुणवत्ता: FD-बेंच V1.5 वर, रेकॉर्ड ७७.८त्याच्या प्राथमिक स्पर्धकांच्या स्कोअरच्या जवळपास दुप्पट (GPT-realtime-2.0 किमान स्कोअर 46.8).
-
व्हिज्युअल पूर्वकल्पना: विशेष चाचण्यांमध्ये जसे की RepCount-A (व्हिडिओमधील भौतिक पुनरावृत्ती मोजणे) आणि ProactiveVideoQAथिंकिंग मशीन मॉडेलने व्हिज्युअल जगाशी यशस्वीपणे सामना केला तर इतर फ्रंटियर मॉडेल शांत राहिले किंवा चुकीची उत्तरे दिली.
|
मेट्रिक |
tml-interact-small |
GPT-रिअल-टाइम-2.0 (मिनिट) |
मिथुन 3.1-लाइव्ह फ्लॅश (मिनिट) |
|
वळण घेण्यासाठी प्रतिसाद वेळ (प्रतिसाद वेळ). |
०.४० |
1.18 |
०.५७ |
|
परस्परसंवाद गुणवत्ता (सरासरी) |
७७.८ |
४६.८ |
५४.३ |
|
इव्हल (व्हॉइसबेंच) |
८२.१ |
८१.७ |
६७.६ |
|
हर्मबेंच (नकार %) |
९९.० |
९९.५ |
९९.० |
संस्थांसाठी हे एक मोठे संभाव्य वरदान आहे – एकदा मॉडेल उपलब्ध झाले की
एंटरप्राइझ क्षेत्रासाठी उपलब्ध करून दिल्यास, थिंकिंग मशिन्सचे परस्परसंवाद मॉडेल कंपन्या त्यांच्या ऑपरेशनल वर्कफ्लोमध्ये एआय कसे समाकलित करतात यामधील मूलभूत बदल दर्शवतील.
TML-Interaction-Small सारखा परस्परसंवाद आर्कीटाइप अनेक एंटरप्राइझ क्षमतांना अनुमती देतो जे सध्या मानक मल्टीमीडिया मॉडेल्ससह अशक्य किंवा खूपच नाजूक आहेत:
वर्तमान एंटरप्राइझ AI ला आवश्यक आहे a "भूमिका" डेटाचे विश्लेषण करण्यापूर्वी ते पूर्ण करणे आवश्यक आहे. उत्पादन किंवा प्रयोगशाळेच्या वातावरणात, नेटिव्ह परस्परसंवाद मॉडेल व्हिडिओ प्रवाहाचे निरीक्षण करू शकते आणि सुरक्षेचे उल्लंघन किंवा प्रोटोकॉलमधील विचलन शोधण्याच्या क्षणी सक्रियपणे हस्तक्षेप करू शकते—कार्यकर्त्याने अभिप्राय विचारण्याची प्रतीक्षा न करता.
RepCount-A (अचूक पुनरावृत्ती मोजणी) आणि ProactiveVideoQA (व्हिज्युअल क्लू दिसल्यावर प्रश्नांची उत्तरे देणे) सारख्या व्हिज्युअल बेंचमार्कवर मॉडेलचे यश सूचित करते की ते उच्च-स्टेक भौतिक कार्यांसाठी रिअल-टाइम तपासक म्हणून काम करू शकते.
व्हॉइस-आधारित ग्राहक सेवेतील मूलभूत घर्षण 1-2 सेकंद आहे "तो उपचार करतो" मानक 2026 API मध्ये अंतर सामान्य आहे. थिंकिंग मशिन्स मॉडेल 0.40 सेकंदांचा टर्न-टेकिंग लेटन्सी मिळवते, जी साधारण मानवी संभाषणाची गती असते.
कारण ते स्थानिक पातळीवर समकालिक भाषण हाताळते, एंटरप्राइझ सपोर्ट बॉट ग्राहकाची निराशा ऐकू शकतो आणि प्रदान करू शकतो… "मागील चॅनेल" सिग्नल (उदा "दाखवा" किंवा "मी हम्म") वापरकर्त्याला व्यत्यय न आणता, असंबद्ध रेकॉर्डिंगच्या मालिकेऐवजी नैसर्गिक संभाषणासारखे वाटणारे थेट भाषांतर प्रदान करा.
मानक LLM अंशांमध्ये अंतर्गत घड्याळ नसतात; ते "त्याला माहीत आहे" मजकूर संदेशात प्रदान केल्यासच वेळ. परस्परसंवाद मॉडेल्स हे वेळोवेळी जागरूक असतात, त्यांना वेळ-संवेदनशील प्रक्रिया व्यवस्थापित करण्यास अनुमती देतात उदा. "मला दर 4 मिनिटांनी तापमान तपासण्याची आठवण करून द्या" किंवा "या प्रक्रियेला शेवटच्या प्रक्रियेपेक्षा जास्त वेळ लागत असल्यास मला कळवा". औद्योगिक देखभाल आणि फार्मास्युटिकल संशोधनासाठी हे महत्त्वपूर्ण आहे जेथे वेळ हे एक महत्त्वाचे परिवर्तन आहे.
थिंकिंग मशीनवर पार्श्वभूमी
हे प्रकाशन Tinker च्या ऑक्टोबर 2025 लाँचनंतर थिंकिंग मशिन्ससाठी दुसरा मोठा मैलाचा दगड आहे, भाषा मॉडेल ट्यूनिंगसाठी एक व्यवस्थापित API जे संशोधक आणि विकासकांना त्यांचा डेटा आणि प्रशिक्षण पद्धती नियंत्रित करण्यास अनुमती देते आणि थिंकिंग मशीन वितरित प्रशिक्षण पायाभूत सुविधांचा भार हाताळते.
टिंकर लहान आणि मोठ्या ओपन-वेट मॉडेल्सचे समर्थन करते, ज्यात तज्ञ मिक्स मॉडेल्सचा समावेश आहे आणि सुरुवातीच्या वापरकर्त्यांमध्ये प्रिन्स्टन, स्टॅनफोर्ड, बर्कले आणि रेडवुड रिसर्चमधील गट समाविष्ट आहेत, असे कंपनीने म्हटले आहे.
2025 च्या सुरूवातीला जेव्हा ते लॉन्च झाले तेव्हा थिंकिंग मशीन्सने स्वतःला एक AI संशोधन आणि उत्पादन कंपनी म्हणून प्रगत AI प्रणाली “अधिक व्यापकपणे समजण्यायोग्य, सानुकूल करण्यायोग्य आणि सामान्यतः सक्षम” बनविण्याचा प्रयत्न करत असल्याचे चित्रित केले.
जुलै 2025 मध्ये, Thinking Machines ने सांगितले की Nvidia, Accel, ServiceNow, Cisco, AMD आणि Jane Street यांच्या सहभागाने एंड्रीसेन हॉरोविट्झ यांच्या नेतृत्वाखालील फेरीत $12 अब्ज मूल्यावर सुमारे $2 अब्ज उभे केले आहेत, ज्याचे वर्णन WIRED ने इतिहासातील सर्वात मोठे बीज निधी फेरी म्हणून केले आहे.
वॉल स्ट्रीट जर्नल ऑगस्ट 2025 मध्ये असे नोंदवले गेले की प्रतिस्पर्धी टेक सीईओ मार्क झुकरबर्गने थिंकिंग मशीन लॅब घेण्याबाबत मोराट्टीशी संपर्क साधला आणि तिने नकार दिल्यानंतर, मेटाने स्टार्टअपच्या अंदाजे 50 कर्मचाऱ्यांपैकी डझनहून अधिक कर्मचाऱ्यांचा पाठपुरावा केला.
मार्च आणि एप्रिल 2026 मध्ये, कंपनी तिच्या संगणकीय महत्त्वाकांक्षेसाठी देखील प्रसिद्ध झाली: तिने पुढील पिढीतील किमान एक गिगावॅट वेरा रुबिन सिस्टीम तैनात करण्यासाठी Nvidia सोबत भागीदारीची घोषणा केली आणि नंतर Nvidia GB300 सिस्टीमसह Google च्या AI इन्फ्रास्ट्रक्चरचा वापर करण्यासाठी Google क्लाउडशी आपले संबंध वाढवले.
एप्रिल 2026 पर्यंत, बिझनेस इनसाइडरने अहवाल दिला की मेटाने थिंकिंग मशिन्समधून मार्क जेन आणि यिंगहाई लू यांच्यासह सात संस्थापक सदस्यांना नियुक्त केले होते, तर दुसरे थिंकिंग मशीन संशोधक, तियानी झांग हे देखील मेटामध्ये गेले होते. याच अहवालात असे म्हटले आहे की जोशुआ ग्रॉस, ज्याने थिंकिंग मशीन्सचे फ्लॅगशिप फाइन-ट्यूनिंग उत्पादन, टिंकर तयार करण्यात मदत केली, ते मेटा सुपरइंटिलिजन्स लॅबमध्ये सामील झाले आहेत आणि कंपनी निघूनही सुमारे 130 कर्मचारी वाढले आहेत.
तथापि, थिंकिंग मशिन्सने केवळ लोकांना गमावले नाही, तर त्यांनी PyTorch चे निर्माते मेटा दिग्गज सौमिथ चिंतला यांना CTO म्हणून नियुक्त केले आणि नील वू सारख्या इतर उच्च-प्रोफाइल टेक प्रतिभा जोडल्या. TechCrunch ने एप्रिल 2026 मध्ये स्वतंत्रपणे अहवाल दिला की, Weiao Wang, एक आठ वर्षांचा मेटा तज्ञ ज्याने मल्टीमॉडल परसेप्शन सिस्टीममध्ये काम केले आहे, ते Thinking Machines मध्ये सामील झाले होते, ज्याने प्रतिभेचा प्रवाह एकतर्फी नव्हता याची पुष्टी केली.
थिंकिंग मशीन्सने पूर्वी सांगितले की ते तसे करण्यास वचनबद्ध आहे "महत्त्वाचे घटक मुक्त स्रोत आहेत" संशोधन समुदायाला सक्षम करण्यासाठी त्याच्या प्रकाशनांमध्ये. हे नवीन परस्परसंवाद मॉडेल समान भावनेनुसार आणि रिलीझ अटींखाली येतील की नाही हे स्पष्ट नाही.
पण एक गोष्ट निश्चित आहे: मॉडेलचे मूळ परस्परसंवाद बनवून, थिंकिंग मशीन्सचा असा विश्वास आहे की मॉडेलचे स्केलिंग आता ते अधिक स्मार्ट आणि सहकार्याने अधिक प्रभावी करेल.
















