एमएल किट पोज़ डिटेक्शन एपीआई एक ऐसी सुविधा है जो ऐप्लिकेशन डेवलपर के लिए एक आसान टूल है. इसकी मदद से, एक लगातार वीडियो या स्टैटिक इमेज की मदद से, किसी व्यक्ति के शरीर की स्थिति का रीयल टाइम में पता लगाया जा सकता है. पोज़, कंकाल के लैंडमार्क के सेट के ज़रिए किसी समय पर शरीर की स्थिति के बारे में बताती है. ये लैंडमार्क शरीर के अलग-अलग हिस्सों, जैसे कि कंधों और कूल्हों से जुड़े होते हैं. किसी पोज़ को दूसरे से अलग करने के लिए, लैंडमार्क की स्थितियों की मिलते-जुलते पोज़िशन का इस्तेमाल किया जा सकता है.
एमएल किट पोज़ डिटेक्शन की मदद से, पूरे शरीर के लिए 33 पॉइंट वाला कंकाल मिलता है. इसमें चेहरे, आंखें, मुंह, और नाक जैसे चेहरे और हाथ-पैरों के पॉइंट शामिल होते हैं. नीचे की पहली इमेज में लैंडमार्क दिखाया गया है, जिसमें कैमरे में से उपयोगकर्ता की तरफ़ देखते हुए दिखाया गया है. इसलिए, यह मिरर इमेज है. उपयोगकर्ता की दाईं ओर, इमेज के बाईं ओर दिखता है:
एमएल किट पोज़ डिटेक्शन के लिए किसी खास उपकरण या मशीन लर्निंग की विशेषज्ञता की ज़रूरत नहीं होती. इससे बेहतरीन नतीजे मिलते हैं. इस टेक्नोलॉजी से डेवलपर, कुछ लाइनों के कोड से अपने उपयोगकर्ताओं के लिए खास तरह का अनुभव बना सकते हैं.
पोज़ की पहचान करने के लिए उपयोगकर्ता का चेहरा मौजूद होना ज़रूरी है. पोज़ डिटेक्शन की सुविधा तब बेहतर तरीके से काम करती है, जब फ़्रेम में किसी व्यक्ति का पूरा शरीर दिख रहा हो, लेकिन शरीर के कुछ पोज़ की भी पहचान हो जाती है. इस स्थिति में, जिन लैंडमार्क की पहचान नहीं की जा सकती उन्हें इमेज के बाहर निर्देशांक असाइन किए जाते हैं.
मुख्य सुविधाएं
- क्रॉस-प्लैटफ़ॉर्म सपोर्ट: Android और iOS, दोनों पर एक जैसा अनुभव पाएं.
- पूरे शरीर की ट्रैकिंग यह मॉडल 33 मुख्य कंकाल लैंडमार्क पॉइंट दिखाता है, जिनमें हाथ और पैरों की पोज़िशन भी शामिल हैं.
- InFrame संभावना के साथ स्कोर हर लैंडमार्क के लिए, एक माप जो इस बात की संभावना को दिखाता है कि लैंडमार्क, इमेज फ़्रेम में है. स्कोर की रेंज 0.0 से 1.0 तक है, जिसमें 1.0 का मतलब है कि ज़्यादा आत्मविश्वास है.
- ऑप्टिमाइज़ किए गए दो SDK टूल Pixel 4 और iPhone X जैसे आधुनिक फ़ोन पर, बेस SDK टूल रीयल टाइम में काम करता है. यह ~30 और ~45 FPS (फ़्रेम प्रति सेकंड) की दर पर नतीजे दिखाता है. हालांकि, लैंडमार्क निर्देशांक अलग-अलग तरह से सटीक हो सकते हैं. सटीक SDK टूल, धीमे फ़्रेमरेट पर नतीजे देता है. हालांकि, यह ज़्यादा सटीक कोऑर्डिनेट वैल्यू जनरेट करता है.
- गहराई के विश्लेषण के लिए Z कोऑर्डिनेट यह वैल्यू यह तय करने में मदद कर सकती है कि उपयोगकर्ता के शरीर के कुछ हिस्से उपयोगकर्ताओं के कूल्हों के सामने हैं या पीछे. ज़्यादा जानकारी के लिए, नीचे Z कोऑर्डिनेट सेक्शन देखें.
पोज़ डिटेक्शन एपीआई, चेहरे की पहचान करने वाला एपीआई जैसा ही है. यह लैंडमार्क का सेट और उनकी जगह की जानकारी दिखाता है. हालांकि, चेहरे की पहचान करने वाली सुविधा, मुस्कुराते हुए मुंह या खुली आंखें जैसी सुविधाओं को भी पहचानने की कोशिश करती है. हालांकि, पोज़ डिटेक्शन सुविधा में, पोज़ या पोज़ में दिख रहे लैंडमार्क का कोई मतलब नहीं होता. पोज़ को समझने के लिए अपने एल्गोरिदम बनाए जा सकते हैं. कुछ उदाहरणों के लिए, पोज़ क्लासिफ़िकेशन के बारे में सलाह देखें.
आस-पास की हलचल की पहचान करने वाली सुविधा, किसी इमेज में मौजूद सिर्फ़ एक व्यक्ति की पहचान कर सकती है. अगर इमेज में दो लोग हैं, तो मॉडल सबसे ज़्यादा भरोसे वाले व्यक्ति को लैंडमार्क असाइन करेगा.
Z कोऑर्डिनेट
Z कोऑर्डिनेट एक एक्सपेरिमेंटल वैल्यू है, जिसका हिसाब हर लैंडमार्क के लिए लगाया जाता है. इसे X और Y निर्देशांकों की तरह "इमेज पिक्सल" में मापा जाता है, लेकिन यह सही 3D वैल्यू नहीं है. Z ऐक्सिस, कैमरे के लंबवत होता है और किसी व्यक्ति के कूल्हों के बीच से गुज़रता है. Z ऐक्सिस से कूल्हों के बीच की शुरुआत, करीब बीच के बिंदु से होती है (कैमरे के मुकाबले बाएं/दाएं और आगे/पीछे). नेगेटिव Z वैल्यू, कैमरे की तरफ़ होती हैं. पॉज़िटिव वैल्यू इससे दूर होती हैं. Z निर्देशांक में ऊपरी या निचली सीमा नहीं होती है.
सैंपल नतीजे
नीचे दी गई टेबल में, दाईं ओर के पोज़ में कुछ लैंडमार्क के लिए निर्देशांक और इनफ़्रेम की संभावना दिखती है. ध्यान दें कि उपयोगकर्ता के बाएं हाथ के लिए Z निर्देशांक नेगेटिव हैं, क्योंकि वे सब्जेक्ट के कूल्हे के बीच में और कैमरे की ओर होते हैं.
लैंडमार्क | Type | रैंक | InFrameLikelihood |
---|---|---|---|
11 | LEFT_SHOULDER | (734.9671, 550.7924, -118.11934) | 0.9999038 |
12 | RIGHT_SHOULDER | (391.27032, 583.2485, -321.15836) | 0.9999894 |
13 | LEFT_ELBOW | (903.83704, 754.676, -219.67009) | 0.9836427 |
14 | RIGHT_ELBOW | (322.18152, 842.5973, -179.28519) | 0.99970156 |
15 | LEFT_WRIST | (1073.8956, 654.9725, -820.93463) | 0.9737737 |
16 | RIGHT_WRIST | (218.27956, 1015.70435, -683.6567) | 0.995568 |
17 | LEFT_PINKY | (1146.1635, 609.6432, -956.9976) | 0.95273364 |
18 | RIGHT_PINKY | (176.17755, 1065.838, -776.5006) | 0.9785348 |
हुड के नीचे
इस एपीआई के बुनियादी एमएल मॉडल को लागू करने के बारे में ज़्यादा जानकारी के लिए, हमारा Google AI ब्लॉग पोस्ट देखें.
मशीन लर्निंग की निष्पक्षता के बारे में ज़्यादा जानने और मॉडल को ट्रेनिंग देने के तरीके के बारे में ज़्यादा जानने के लिए, हमारा मॉडल कार्ड देखें