आस-पास की हलचल का पता लगाने की सुविधा

एमएल किट पोज़ डिटेक्शन एपीआई एक ऐसी सुविधा है जो ऐप्लिकेशन डेवलपर के लिए एक आसान टूल है. इसकी मदद से, एक लगातार वीडियो या स्टैटिक इमेज की मदद से, किसी व्यक्ति के शरीर की स्थिति का रीयल टाइम में पता लगाया जा सकता है. पोज़, कंकाल के लैंडमार्क के सेट के ज़रिए किसी समय पर शरीर की स्थिति के बारे में बताती है. ये लैंडमार्क शरीर के अलग-अलग हिस्सों, जैसे कि कंधों और कूल्हों से जुड़े होते हैं. किसी पोज़ को दूसरे से अलग करने के लिए, लैंडमार्क की स्थितियों की मिलते-जुलते पोज़िशन का इस्तेमाल किया जा सकता है.

iOS Android

एमएल किट पोज़ डिटेक्शन की मदद से, पूरे शरीर के लिए 33 पॉइंट वाला कंकाल मिलता है. इसमें चेहरे, आंखें, मुंह, और नाक जैसे चेहरे और हाथ-पैरों के पॉइंट शामिल होते हैं. नीचे की पहली इमेज में लैंडमार्क दिखाया गया है, जिसमें कैमरे में से उपयोगकर्ता की तरफ़ देखते हुए दिखाया गया है. इसलिए, यह मिरर इमेज है. उपयोगकर्ता की दाईं ओर, इमेज के बाईं ओर दिखता है:

पहली इमेज. लैंडमार्क

एमएल किट पोज़ डिटेक्शन के लिए किसी खास उपकरण या मशीन लर्निंग की विशेषज्ञता की ज़रूरत नहीं होती. इससे बेहतरीन नतीजे मिलते हैं. इस टेक्नोलॉजी से डेवलपर, कुछ लाइनों के कोड से अपने उपयोगकर्ताओं के लिए खास तरह का अनुभव बना सकते हैं.

पोज़ की पहचान करने के लिए उपयोगकर्ता का चेहरा मौजूद होना ज़रूरी है. पोज़ डिटेक्शन की सुविधा तब बेहतर तरीके से काम करती है, जब फ़्रेम में किसी व्यक्ति का पूरा शरीर दिख रहा हो, लेकिन शरीर के कुछ पोज़ की भी पहचान हो जाती है. इस स्थिति में, जिन लैंडमार्क की पहचान नहीं की जा सकती उन्हें इमेज के बाहर निर्देशांक असाइन किए जाते हैं.

मुख्य सुविधाएं

  • क्रॉस-प्लैटफ़ॉर्म सपोर्ट: Android और iOS, दोनों पर एक जैसा अनुभव पाएं.
  • पूरे शरीर की ट्रैकिंग यह मॉडल 33 मुख्य कंकाल लैंडमार्क पॉइंट दिखाता है, जिनमें हाथ और पैरों की पोज़िशन भी शामिल हैं.
  • InFrame संभावना के साथ स्कोर हर लैंडमार्क के लिए, एक माप जो इस बात की संभावना को दिखाता है कि लैंडमार्क, इमेज फ़्रेम में है. स्कोर की रेंज 0.0 से 1.0 तक है, जिसमें 1.0 का मतलब है कि ज़्यादा आत्मविश्वास है.
  • ऑप्टिमाइज़ किए गए दो SDK टूल Pixel 4 और iPhone X जैसे आधुनिक फ़ोन पर, बेस SDK टूल रीयल टाइम में काम करता है. यह ~30 और ~45 FPS (फ़्रेम प्रति सेकंड) की दर पर नतीजे दिखाता है. हालांकि, लैंडमार्क निर्देशांक अलग-अलग तरह से सटीक हो सकते हैं. सटीक SDK टूल, धीमे फ़्रेमरेट पर नतीजे देता है. हालांकि, यह ज़्यादा सटीक कोऑर्डिनेट वैल्यू जनरेट करता है.
  • गहराई के विश्लेषण के लिए Z कोऑर्डिनेट यह वैल्यू यह तय करने में मदद कर सकती है कि उपयोगकर्ता के शरीर के कुछ हिस्से उपयोगकर्ताओं के कूल्हों के सामने हैं या पीछे. ज़्यादा जानकारी के लिए, नीचे Z कोऑर्डिनेट सेक्शन देखें.

पोज़ डिटेक्शन एपीआई, चेहरे की पहचान करने वाला एपीआई जैसा ही है. यह लैंडमार्क का सेट और उनकी जगह की जानकारी दिखाता है. हालांकि, चेहरे की पहचान करने वाली सुविधा, मुस्कुराते हुए मुंह या खुली आंखें जैसी सुविधाओं को भी पहचानने की कोशिश करती है. हालांकि, पोज़ डिटेक्शन सुविधा में, पोज़ या पोज़ में दिख रहे लैंडमार्क का कोई मतलब नहीं होता. पोज़ को समझने के लिए अपने एल्गोरिदम बनाए जा सकते हैं. कुछ उदाहरणों के लिए, पोज़ क्लासिफ़िकेशन के बारे में सलाह देखें.

आस-पास की हलचल की पहचान करने वाली सुविधा, किसी इमेज में मौजूद सिर्फ़ एक व्यक्ति की पहचान कर सकती है. अगर इमेज में दो लोग हैं, तो मॉडल सबसे ज़्यादा भरोसे वाले व्यक्ति को लैंडमार्क असाइन करेगा.

Z कोऑर्डिनेट

Z कोऑर्डिनेट एक एक्सपेरिमेंटल वैल्यू है, जिसका हिसाब हर लैंडमार्क के लिए लगाया जाता है. इसे X और Y निर्देशांकों की तरह "इमेज पिक्सल" में मापा जाता है, लेकिन यह सही 3D वैल्यू नहीं है. Z ऐक्सिस, कैमरे के लंबवत होता है और किसी व्यक्ति के कूल्हों के बीच से गुज़रता है. Z ऐक्सिस से कूल्हों के बीच की शुरुआत, करीब बीच के बिंदु से होती है (कैमरे के मुकाबले बाएं/दाएं और आगे/पीछे). नेगेटिव Z वैल्यू, कैमरे की तरफ़ होती हैं. पॉज़िटिव वैल्यू इससे दूर होती हैं. Z निर्देशांक में ऊपरी या निचली सीमा नहीं होती है.

सैंपल नतीजे

नीचे दी गई टेबल में, दाईं ओर के पोज़ में कुछ लैंडमार्क के लिए निर्देशांक और इनफ़्रेम की संभावना दिखती है. ध्यान दें कि उपयोगकर्ता के बाएं हाथ के लिए Z निर्देशांक नेगेटिव हैं, क्योंकि वे सब्जेक्ट के कूल्हे के बीच में और कैमरे की ओर होते हैं.

लैंडमार्कTypeरैंकInFrameLikelihood
11LEFT_SHOULDER(734.9671, 550.7924, -118.11934)0.9999038
12 RIGHT_SHOULDER (391.27032, 583.2485, -321.15836) 0.9999894
13 LEFT_ELBOW (903.83704, 754.676, -219.67009) 0.9836427
14 RIGHT_ELBOW (322.18152, 842.5973, -179.28519) 0.99970156
15 LEFT_WRIST (1073.8956, 654.9725, -820.93463) 0.9737737
16 RIGHT_WRIST (218.27956, 1015.70435, -683.6567) 0.995568
17 LEFT_PINKY (1146.1635, 609.6432, -956.9976) 0.95273364
18 RIGHT_PINKY (176.17755, 1065.838, -776.5006) 0.9785348

हुड के नीचे

इस एपीआई के बुनियादी एमएल मॉडल को लागू करने के बारे में ज़्यादा जानकारी के लिए, हमारा Google AI ब्लॉग पोस्ट देखें.

मशीन लर्निंग की निष्पक्षता के बारे में ज़्यादा जानने और मॉडल को ट्रेनिंग देने के तरीके के बारे में ज़्यादा जानने के लिए, हमारा मॉडल कार्ड देखें