AI जे व्हिडिओमध्ये काय चालले आहे ते पाहू आणि समजू शकते — विशेषतः थेट प्रवाह — हे अनेक व्यवसाय आणि संस्थांसाठी एक आकर्षक उत्पादन आहे. सुरक्षा म्हणून काम करण्यापलीकडे "आंतरराष्ट्रीय ऊर्जा एजन्सी" सर्व साइट्स आणि सुविधांवर, हे AI मॉडेल मार्केटिंग व्हिडिओंचे सर्वात मनोरंजक भाग क्लिप करण्यासाठी आणि त्यांना सामाजिक करण्यासाठी पुन्हा वापरण्यासाठी, व्हिडिओमधील विसंगती आणि गॅफ ओळखण्यासाठी आणि काढण्यासाठी ध्वजांकित करण्यासाठी आणि नियंत्रित अभ्यासातील सहभागी किंवा नवीन भूमिकांसाठी अर्ज करणाऱ्या उमेदवारांची देहबोली आणि कृती ओळखण्यासाठी देखील वापरला जाऊ शकतो.

आज काही एआय मॉडेल्स आहेत जे या प्रकारची कार्यक्षमता देतात, ते मुख्य प्रवाहाच्या क्षमतेपासून दूर आहे. तथापि, दोन वर्षे जुने स्टार्टअप Perceptron Inc. हे सर्व बदलू पाहत आहे. आज व्हिडिओ ॲनालिटिक्स, Mk1 (यासाठी लहान… "मार्क वन") खर्चात – $0.15 प्रति दशलक्ष इनपुट टोकन / $1.50 प्रति दशलक्ष आउटपुट API द्वारे – जे इतर प्रमुख प्रतिस्पर्ध्यांपेक्षा सुमारे 80-90% कमी आहे, म्हणजे Anthropic’s Claude Sonnet 4.5, OpenAI’s GPT-5, आणि Google चे Gemini 3.1 Pro.

सह-संस्थापक आणि सीईओ आर्मेन अघाजानियन यांच्या नेतृत्वाखाली, ज्यांनी यापूर्वी मेटा एफएआयआर आणि मायक्रोसॉफ्टमध्ये काम केले होते, कंपनीने 16 महिने विकसित केले. "मल्टीमीडिया रेसिपी" भौतिक जगाच्या गुंतागुंतांना संबोधित करण्यासाठी जमिनीपासून.

हे प्रक्षेपण एका नवीन युगाचे संकेत देते जेथे मॉडेल्सना कारण आणि परिणाम, ऑब्जेक्ट डायनॅमिक्स आणि भौतिकशास्त्राचे नियम समान प्रवाहाने समजून घेणे अपेक्षित आहे जसे त्यांनी पूर्वी लागू केलेले नियम.

स्वारस्य असलेले वापरकर्ते आणि एंटरप्राइझचे संभाव्य ग्राहक येथे परसेप्ट्रॉनच्या सार्वजनिक डेमो साइटवर स्वतःसाठी ते वापरून पाहू शकतात.

स्थानिक आणि व्हिडिओ बेंचमार्कमध्ये कार्यप्रदर्शन

मॉडेल कार्यप्रदर्शनास ठोस समजावर लक्ष केंद्रित केलेल्या उद्योग मानकांच्या संचाद्वारे समर्थित केले जाते.

अवकाशीय तर्कामध्ये (ER बेंचमार्क), Mk1 ने EmbSpatialBench वर 85.1 गुण मिळवले, Google Robotics-ER 1.5 (78.4) आणि Alibaba च्या Q3.5-27B (सुमारे 84.5) ला मागे टाकले.

विशेषज्ञ RefSpatialBench वर, Mk1 चा स्कोअर 72.4 GPT-5m (9.0) आणि सॉनेट 4.5 (2.2) यांसारख्या प्रतिस्पर्ध्यांवर मोठी झेप दर्शवतो, जो अभिव्यक्ती समज दर्शविणारा एक महत्त्वपूर्ण फायदा हायलाइट करतो.

व्हिडिओ बेंचमार्क समान वर्चस्व दर्शवतात; अहंकार चार्ट वर "अवघड उपसमूह"- जिथे पहिला आणि शेवटचा फ्रेम निष्कर्ष अपुरा आहे – Mk1 ने 41.4 गुण मिळवले, अलीबाबाच्या Q3.5-27B शी जुळले आणि जेमिनी 3.1 फ्लॅश-लाइट (25.0) ला लक्षणीयरीत्या उत्कृष्ट केले.

VSI-Bench वर, Mk1 ने 88.5 गाठले, जे तुलना केलेल्या मॉडेल्समध्ये नोंदवलेले सर्वोच्च स्कोअर आहे, जे वास्तविक-जगातील तात्पुरती तर्क कार्ये हाताळण्याच्या त्याच्या क्षमतेची पुष्टी करते.

मार्केट पोझिशनिंग आणि कार्यक्षमतेची सीमा

त्याने परसेप्ट्रॉनला स्पष्टपणे लक्ष्य केले "कार्यक्षमतेची मर्यादा," एक मेट्रिक जो संपूर्ण व्हिडिओवर स्कोअर प्लॉट करतो आणि एकत्रित खर्च प्रति दशलक्ष टोकन्सच्या विरूद्ध अनुमान निकषांना मूर्त रूप देतो.

तुलना डेटा दर्शवितो की Mk1 एक अद्वितीय स्थान व्यापते: ते कार्यक्षमतेशी जुळते किंवा ओलांडते "सीमा" GPT-5 आणि Gemini 3.1 Pro सारखी मॉडेल्स जवळ खर्च प्रोफाइल राखून ठेवतात "प्रकाश" किंवा "फ्लॅश" आवृत्त्या.

विशेषतः, Perceptron Mk1 ची किंमत $0.15 प्रति दशलक्ष इनपुट टोकन आणि $1.50 प्रति दशलक्ष आउटपुट टोकन आहे. तुलनेत, द "कार्यक्षमतेची मर्यादा" चार्ट GPT-5 जास्त हायब्रीड किमतीत ($2.00 जवळ) आणि जेमिनी 3.1 Pro ची किंमत $3.00 वर दाखवते, तर Mk1 उच्च विचार स्कोअरसह $0.30 हायब्रीड कॉस्ट मार्कवर बसते.

या आक्रमक किंमत धोरणाचा उद्देश केवळ प्रायोगिक संशोधनाऐवजी व्यापक औद्योगिक वापरासाठी अत्याधुनिक भौतिक AI उपलब्ध करून देणे हे आहे.

आर्किटेक्चर आणि ऐहिक सातत्य

Perceptron Mk1 चा तांत्रिक गाभा म्हणजे मोठ्या 32K प्रतिकात्मक संदर्भ विंडोमध्ये 2 फ्रेम्स प्रति सेकंद (FPS) पर्यंत मूळ व्हिडिओवर प्रक्रिया करण्याची क्षमता आहे.

पारंपारिक व्हिज्युअल लँग्वेज मॉडेल्स (VLMs) च्या विपरीत जे व्हिडिओला स्थिर प्रतिमांचा एक असंबद्ध क्रम मानतात, Mk1 हे तात्पुरते सातत्य राखण्यासाठी डिझाइन केलेले आहे.

मॉडेलची ही रचना यास अनुमती देते "तो पाहतो" रोबोटिक्स आणि पाळत ठेवण्याच्या ऍप्लिकेशन्ससाठी एक महत्त्वाची आवश्यकता, अडथळ्यांद्वारे देखील विस्तारित प्रवाह आणि ऑब्जेक्टची ओळख जतन करणे.

विकसक लांब प्रवाहात विशिष्ट क्षणांसाठी मॉडेलची क्वेरी करू शकतात आणि त्या बदल्यात संरचित वेळ कोड प्राप्त करू शकतात, व्हिडिओ ट्रिमिंग आणि इव्हेंट शोधण्याची प्रक्रिया सुलभ करते.

भौतिकशास्त्राच्या नियमांनुसार तर्क

Mk1 चा प्राथमिक फरक आहे "भौतिक तर्क" क्षमता परसेप्ट्रॉन हे उच्च-रिझोल्यूशन स्थानिक जागरूकता म्हणून परिभाषित करते जे मॉडेलला वास्तविक-जागतिक सेटिंग्जमध्ये ऑब्जेक्ट डायनॅमिक्स आणि भौतिक परस्परसंवाद समजून घेण्यास अनुमती देते.

उदाहरणार्थ, हवेतील चेंडूची स्थिती आणि शॉट घड्याळावरील वाचन याबद्दल संयुक्तपणे तर्क करून बास्केटबॉल शॉट बझरच्या आधी किंवा नंतर घेतला गेला होता हे निर्धारित करण्यासाठी मॉडेल एखाद्या दृश्याचे विश्लेषण करू शकते.

यासाठी फक्त नमुना ओळखण्यापेक्षा अधिक आवश्यक आहे; गोष्टी जागा आणि काळामधून कशा पुढे जातात हे समजून घेणे आवश्यक आहे.

मॉडेल सक्षम आहे "पिक्सेल अचूक" दाट आणि गुंतागुंतीच्या दृश्यांमध्ये शेकडोकडे निर्देश करणे आणि मोजणे. हे ॲनालॉग गेज आणि घड्याळे देखील वाचू शकते, ज्याचा उच्च विश्वासार्हतेसह अर्थ लावणे पूर्णपणे डिजिटल दृष्टी प्रणालीसाठी ऐतिहासिकदृष्ट्या कठीण आहे.

तिच्याकडे सामान्य आणि ऐतिहासिक ज्ञान देखील आहे. माझ्या संक्षिप्त चाचणीमध्ये, मी न्यूयॉर्क शहरातील गगनचुंबी इमारतीच्या बांधकामाविषयी 1906 च्या यूएस लायब्ररी ऑफ काँग्रेसमधून जुनी फिल्म लोड केली आणि Mk1 केवळ फुटेजमधील सामग्रीचे अचूक वर्णन करू शकले नाही — ज्यामध्ये दोरीवर लटकलेल्या कामगारांच्या विचित्र आणि असामान्य दृश्यांचा समावेश आहे — परंतु तो इतक्या लवकर आणि अगदी अचूकपणे 2 व्या शतकापासून (ॲप) अगदी अचूकपणे पूर्ण झाला. एकटे फुटेज दिसते.

भौतिक कृत्रिम बुद्धिमत्तेसाठी विकसित व्यासपीठ

मॉडेल रिलीझमध्ये या उच्च-स्तरीय समज क्षमतांना कमीतकमी कोडसह कार्यात्मक अनुप्रयोगांमध्ये बदलण्यासाठी डिझाइन केलेल्या विस्तारित विकास मंचासह आहे.

Perceptron SDK, Python द्वारे उपलब्ध, अनेक विशेष कार्ये प्रदान करते जसे की "लक्ष केंद्रित करणे," "मोजत आहे" आणि "संदर्भात शिकणे".

फोकस वैशिष्ट्य वापरकर्त्यांना नैसर्गिक भाषेच्या प्रॉम्प्टवर आधारित फ्रेमच्या विशिष्ट भागात स्वयंचलितपणे झूम आणि क्रॉप करण्याची परवानगी देते, जसे की बांधकाम साइटवर वैयक्तिक संरक्षणात्मक उपकरणे (PPE) शोधणे आणि शोधणे. घनदाट दृश्यांसाठी मोजणी कार्य सुधारले गेले आहे, जसे की प्रत्येक पिल्लाला सेट किंवा उत्पादनाच्या वैयक्तिक घटकांमध्ये ओळखणे आणि निर्देशित करणे.

शिवाय, प्लॅटफॉर्म संदर्भीय शिक्षणास समर्थन देते, विकासकांना केवळ काही उदाहरणे सादर करून Mk1 ला विशिष्ट कार्यांसाठी अनुकूल करण्याची परवानगी देते, जसे की सफरचंदची प्रतिमा दर्शवणे आणि मॉडेलला नवीन दृश्यात वर्ग 1 च्या प्रत्येक उदाहरणाला लेबल करण्याची सूचना देणे.

परवाना धोरण आणि isaac मालिका

परसेप्ट्रॉन मॉडेल वेटिंग आणि लायसन्सिंगसाठी ड्युअल-पाथ धोरण वापरते. फ्लॅगशिप Perceptron Mk1 हे एपीआय-प्रवेशयोग्य, बंद-स्रोत मॉडेल आहे जे एंटरप्राइझ-क्लास कामगिरी आणि सुरक्षिततेसाठी डिझाइन केलेले आहे.

मात्र, कंपनीनेही आपले स्थान कायम ठेवले आहे "इसहाक" ओपन वेट्सचा पर्याय म्हणून सप्टेंबर 2025 मध्ये Isaac 0.1 लाँच करणारी मालिका. Isaac 0.2-2b-पूर्वावलोकन, डिसेंबर 2025 मध्ये रिलीझ झाले, हे 2 बिलियन पॅरामीटर व्हिजन लँग्वेज मॉडेल आहे ज्यामध्ये एज आणि लो-लेटेंसी डिप्लॉयमेंटसाठी तर्क क्षमता उपलब्ध आहेत.

AI कोड शेअर करण्यासाठी लोकप्रिय हगिंग फेस कम्युनिटीवर आयझॅकच्या मॉडेल्सचे वजन खुले असताना, पर्सेप्ट्रॉन अशा कंपन्यांना व्यावसायिक परवाने देते ज्यांना वजनाचे जास्तीत जास्त नियंत्रण किंवा इन-हाउस प्रकाशन आवश्यक असते.

हा दृष्टीकोन कंपनीला मुक्त स्त्रोत समुदाय आणि विशेष औद्योगिक भागीदार ज्यांना मालकीची लवचिकता आवश्यक आहे अशा दोघांनाही समर्थन देण्याची अनुमती देते. दस्तऐवजात असे नमूद केले आहे की Isaac 0.2 मॉडेल विशेषत: 200 मिलीसेकंद पेक्षा कमी वेळेसाठी प्रथम टोकनसाठी ऑप्टिमाइझ केले आहेत, ज्यामुळे ते रीअल-टाइम एज डिव्हाइसेससाठी आदर्श आहेत.

परसेप्ट्रॉनच्या स्थापनेची आणि फोकसची पार्श्वभूमी

Perceptron AI हे बेलेव्ह्यू, वॉशिंग्टन येथे स्थित एक भौतिक AI स्टार्टअप आहे, ज्याची स्थापना अघजानियन आणि अक्षत श्रीवास्तव यांनी केली आहे, हे दोघेही Meta च्या Facebook AI रिसर्च (FAIR) लॅबमधील माजी संशोधन शास्त्रज्ञ आहेत.

कंपनीच्या सार्वजनिक साहित्याची स्थापना नोव्हेंबर २०२४ पर्यंत आहे, तर Perceptron.ai Inc. ची वॉशिंग्टन कॉर्पोरेट फाइलिंग रजिस्ट्री नोव्हेंबर २०२४ ही त्याची स्थापना तारीख दर्शवते. ९ ऑक्टोबर २०२४ च्या पूर्वीच्या परदेशी नोंदणीमध्ये श्रीवास्तव आणि अगाजनियन यांची गव्हर्नर म्हणून सूची आहे.

2024 च्या उत्तरार्धात संस्थापक लाँच पोस्ट्समध्ये, अघाजनियन म्हणाले की त्यांनी जवळजवळ सहा वर्षांनी मेटा सोडला आणि भौतिक जगासाठी कृत्रिम बुद्धिमत्ता तयार करण्यासाठी श्रीवास्तव यांच्यासोबत “सेना सामील” झाले, तर श्रीवास्तव म्हणाले की कंपनी कार्यक्षमता, बहुविधता आणि नवीन मॉड्यूलर आर्किटेक्चरवरील त्यांच्या कामातून वाढली आहे.

मेटामधील मल्टीमॉडल फाउंडेशन मॉडेल्सवर या दोघांच्या कामातून फाउंडेशन थेट आलेले दिसते. मे 2024 मध्ये, Meta मधील संशोधकांनी Chameleon प्रकाशित केले, जे मजकूर आणि प्रतिमांचे मिश्रित अनुक्रम समजून घेण्यासाठी आणि तयार करण्यासाठी डिझाइन केलेले प्रारंभिक फ्यूजन मॉडेलचे एक कुटुंब आहे, ज्याचे कार्य परसेप्ट्रॉनने नंतर स्वतःच्या मॉडेलच्या मागे वंशाचा भाग म्हणून वर्णन केले.

जुलै 2024 च्या फॉलो-अप पेपरमध्ये, MoMa शीर्षकाने, मिश्र मीडिया मॉडेल्ससाठी अधिक कार्यक्षम प्रारंभिक फ्यूजन प्रशिक्षण शोधून काढले आणि लेखकांमध्ये श्रीवास्तव आणि अघजनियन या दोघांनाही सूचीबद्ध केले. परसेप्ट्रॉनचा सांगितलेला प्रबंध संशोधनाची दिशा “फिजिकल एआय” मध्ये विस्तारित करतो: मॉडेल्स जे रोबोटिक्स, मॅन्युफॅक्चरिंग, भूस्थानिक विश्लेषण, सुरक्षा आणि सामग्री नियंत्रण यासारख्या वापराच्या प्रकरणांसाठी वास्तविक-जगातील व्हिडिओ आणि इतर संवेदी प्रवाहांवर प्रक्रिया करू शकतात.

भागीदार इकोसिस्टम आणि भविष्यातील संभावना

Mk1 चा वास्तविक-जागतिक प्रभाव आधीच Perceptron च्या भागीदारांच्या नेटवर्कद्वारे प्रदर्शित केला गेला आहे. सुरुवातीचे दत्तक घेणारे मॉडेल विविध ऍप्लिकेशन्ससाठी वापरत आहेत, जसे की थेट स्पोर्टिंग इव्हेंट्सचे स्वयंचलित क्लिपिंग, जे मानवी हस्तक्षेपाशिवाय प्रमुख नाटके ओळखण्यासाठी मॉडेलच्या तात्पुरत्या आकलनाचा फायदा घेतात.

रोबोटिक्स क्षेत्रात, भागीदार टेलीऑपरेशन लूप आयोजित करतात आणि त्यांना प्रशिक्षण डेटामध्ये रूपांतरित करतात, रोबोटिक शस्त्रे आणि मोबाइल युनिटसाठी टॅगिंग आणि डेटा क्लीनिंग प्रक्रिया प्रभावीपणे स्वयंचलित करतात.

इतर वापराच्या प्रकरणांमध्ये मॅन्युफॅक्चरिंग लाइन्सवर मल्टी-मॉडल गुणवत्ता नियंत्रण एजंट समाविष्ट आहेत, जे दोष शोधू शकतात आणि रिअल टाइममध्ये असेंब्ली स्टेप्स सत्यापित करू शकतात आणि स्मार्ट ग्लासेसवर घालण्यायोग्य सहाय्यक जे वापरकर्त्यांना संदर्भ-जागरूक सहाय्य प्रदान करतात.

अघजानियन यांनी सांगितले की, ही प्रकाशने भौतिक जगात कृत्रिम बुद्धिमत्ता अधिक चांगल्या प्रकारे कार्य करण्यासाठी आणि भविष्याकडे वाटचाल करण्याच्या उद्देशाने संशोधनाचा कळस आहे जिथे… "शारीरिक कृत्रिम बुद्धिमत्ता" हे डिजिटल एआयसारखे सर्वव्यापी आहे.

Source link