चेहरे की पहचान से जुड़े सिद्धांत

चेहरे की पहचान करने की सुविधा, डिजिटल इमेज या वीडियो जैसे विज़ुअल मीडिया में लोगों के चेहरों की पहचान करती है. जब चेहरे का पता चलता है, तो उसमें उससे जुड़ी पोज़िशन, साइज़, और ओरिएंटेशन होता है. साथ ही, उसकी आंखों और नाक जैसे लैंडमार्क को भी खोजा जा सकता है.

एमएल किट की, चेहरे की पहचान करने की सुविधा के लिए, हम इन कुछ शब्दों का इस्तेमाल करते हैं:

  • चेहरे की पहचान करने की सुविधा से, चेहरे की पहचान की सुविधा को वीडियो के क्रमों तक भी इस्तेमाल किया जा सकता है. वीडियो में कितने भी लंबे समय तक दिखने वाला चेहरा, एक फ़्रेम से दूसरे फ़्रेम तक ट्रैक किया जा सकता है. इसका मतलब है कि लगातार वीडियो फ़्रेम में पहचाने गए चेहरे की पहचान एक ही व्यक्ति के तौर पर की जा सकती है. ध्यान दें कि यह चेहरे की पहचान करने का तरीका नहीं है. चेहरा ट्रैक करने की सुविधा सिर्फ़ वीडियो के क्रम में चेहरों की स्थिति और हलचल के आधार पर अनुमान लगाती है.

  • लैंडमार्क, किसी चेहरे के लिए एक पसंदीदा जगह होती है. बाईं आंख, दाईं आंख, और नाक के निचले हिस्से को दिखाने वाली जगहें लैंडमार्क के उदाहरण हैं. एमएल किट, पहचाने गए चेहरे पर लैंडमार्क को ढूंढने की सुविधा देती है.

  • कॉन्टूर, बिंदुओं का एक सेट होता है, जो चेहरे के फीचर के आकार के हिसाब से होता है. एमएल किट की मदद से, चेहरे की बनावट के बारे में पता लगाया जा सकता है.

  • वर्गीकरण से तय होता है कि चेहरे की कोई खास विशेषता मौजूद है या नहीं. उदाहरण के लिए, किसी चेहरे को इस आधार पर बांटा जा सकता है कि उसकी आंखें खुली हों या बंद हों या चेहरा मुस्कुरा रहा हो या नहीं.

चेहरा स्क्रीन की दिशा

ये शब्द कैमरे के हिसाब से चेहरे के ऐंगल के बारे में बताते हैं:

  • यूलर X: पॉज़िटिव यूलर X कोण वाला चेहरा, ऊपर की ओर है.
  • यूलर Y: सकारात्मक यूलर Y कोण वाला चेहरा कैमरे के दाईं ओर देख रहा है या नेगेटिव होने पर बाईं ओर देख रहा है.
  • यूलर ज़ी: धनात्मक यूलर ज़ी कोण वाला चेहरा, कैमरे के हिसाब से घड़ी की उलटी दिशा में घुमाया जाता है.

LANDMARK_MODE_NONE, CONTOUR_MODE_ALL, CLASSIFICATION_MODE_NONE, और PERFORMANCE_MODE_FASTको एक साथ सेट करने पर, एमएल किट किसी पहचाने गए चेहरे के Euler X, Euler Y या Euler Z कोण को रिपोर्ट नहीं करती.

लैंडमार्क

लैंडमार्क, चेहरे के अंदर की लोकप्रिय जगह होता है. बाईं आंख, दाईं आंख, और नाक के निचले हिस्से, लैंडमार्क के उदाहरण हैं.

ML किट, लैंडमार्क खोजे बिना चेहरों की पहचान करती है. लैंडमार्क की पहचान करना एक वैकल्पिक चरण है, जो डिफ़ॉल्ट रूप से बंद रहता है.

नीचे दी गई टेबल में उन सभी लैंडमार्क की खास जानकारी दी गई है जिन्हें किसी चेहरे के Euler Y ऐंगल से पहचाना जा सकता है:

यूलर Y का ऐंगल पता लगाने लायक लैंडमार्क
< -36 डिग्री बाईं आंख, बायां मुंह, बायां कान, नाक के आधार, बायां गाल
-36 डिग्री से -12 डिग्री बायां मुंह, नाक के आधार पर, नीचे वाला मुंह, दाईं आंख, बाईं आंख, बायां गाल, बाएं कान का ऊपरी हिस्सा
-12 डिग्री से 12 डिग्री दाईं आंख, बाईं आंख, नाक का आधार, बायां गाल, दायां गाल, बायां मुंह, दायां मुंह, नीचे वाला मुंह
12 डिग्री से 36 डिग्री दायां मुंह, नाक के आधार, नीचे वाला मुंह, बाईं आंख, दाईं आंख, दायां गाल, दाएं कान का ऊपरी हिस्सा
36 डिग्री से ज़्यादा दाईं आंख, दायां मुंह, दायां कान, नाक के निचले हिस्से, दायां गाल

पता लगाए गए हर लैंडमार्क में, इमेज में उसकी जगह की जानकारी शामिल होती है.

कॉनटूर

कॉन्टूर, बिंदुओं का एक सेट होता है जो चेहरे की बनावट को दिखाता है. नीचे दी गई इमेज में दिखाया गया है कि ये पॉइंट किसी चेहरे पर कैसे मैप करते हैं. इमेज पर क्लिक करके उसे बड़ा करें:

एमएल किट की पहचान करने वाले हर फ़ीचर कंटूर को पॉइंट की तय संख्या से दिखाया जाता है:

अंडाकार चेहरा 36 पॉइंट ऊपरी होंठ (ऊपर) 11 पॉइंट
बाईं भौंह (ऊपर) 5 पॉइंट ऊपरी होंठ (नीचे) 9 पॉइंट
बाईं भौं (नीचे) 5 पॉइंट होंठ का निचला हिस्सा (ऊपर से) 9 पॉइंट
दाईं भौंह (ऊपर) 5 पॉइंट निचले होंठ (नीचे) 9 पॉइंट
दाईं भौंह (नीचे) 5 पॉइंट नोज़ ब्रिज दो पॉइंट
बाईं आंख 16 पॉइंट नाक का निचला हिस्सा 3 पॉइंट
दाईं आंख 16 पॉइंट
बायां गाल (बीच में) एक पॉइंट
दायां गाल (बीच में) 1 पॉइंट

जब आपको चेहरे के सभी कंटूर एक साथ मिल जाते हैं, तो आपको 133 पॉइंट की एक कलेक्शन मिलता है, जिन्हें मैप पर दिखाने के लिए कंटूर दिखाने हैं, जैसा कि नीचे दिखाया गया है:

फ़ीचर कंटूर के इंडेक्स
0-35 अंडाकार चेहरा
36-40 बाईं भौंह (ऊपर)
41-45 बाईं भौं (नीचे)
46-50 दाईं भौंह (ऊपर)
51-55 दाईं भौंह (नीचे)
56-71 बाईं आंख
72-87 दाईं आंख
88-96 ऊपरी होंठ (नीचे)
97-105 होंठ का निचला हिस्सा (ऊपर से)
106-116 ऊपरी होंठ (ऊपर)
117-125 निचले होंठ (नीचे)
126, 127 नोज़ ब्रिज
128-130 नाक के निचले हिस्से पर ध्यान दें (ध्यान दें कि इसका केंद्र बिंदु इंडेक्स 128 पर है)
131 बायां गाल (बीच में)
132 दायां गाल (बीच में)

कैटगरी

वर्गीकरण से तय होता है कि चेहरे की कोई खास विशेषता है या नहीं. फ़िलहाल, ML किट दो कैटगरी में काम करती है: आंखें खुली और मुस्कुराना.

कैटगरी तय करना एक तय वैल्यू है. इससे पता चलता है कि चेहरे की खासियतें कैसी हैं. उदाहरण के लिए, स्माइलिंग क्लासिफ़िकेशन के लिए 0.7 या इससे ज़्यादा वैल्यू यह बताती है कि किसी व्यक्ति के मुस्कुराने की संभावना है.

ये दोनों कैटगरी, लैंडमार्क की पहचान पर निर्भर करती हैं.

यह भी ध्यान दें कि "आंखें खुली" और "स्माइलिंग" कैटगरी सिर्फ़ आगे वाले फ़ेस पर काम करती हैं. जैसे, छोटे यूलर Y ऐंगल (-18 और 18 डिग्री के बीच) वाले फ़ेस.

चेहरे का कम से कम साइज़

चेहरे का कम से कम साइज़, चेहरे का मनपसंद साइज़ होता है. इसे चेहरे की चौड़ाई और इमेज की चौड़ाई के अनुपात के तौर पर दिखाया जाता है. उदाहरण के लिए, 0.1 की वैल्यू का मतलब है कि जिस इमेज को खोजना है उसकी चौड़ाई का करीब 10% हिस्सा, उस इमेज की चौड़ाई का करीब 10% होता है.

चेहरे का कम से कम साइज़, परफ़ॉर्मेंस और सटीक साइज़ को ध्यान में रखते हुए तय किया जाता है: कम से कम साइज़ को सेट करने पर, डिटेक्टर को छोटे चेहरे ढूंढने में मदद मिलती है. हालांकि, इसे बड़ा करने पर छोटे चेहरे दिख सकते हैं, लेकिन यह तेज़ी से चलेगा.

चेहरे का कम से कम साइज़ तय करना ज़्यादा मुश्किल नहीं है. डिटेक्टर, चेहरों को तय किए गए साइज़ से थोड़ा छोटा ढूंढ सकता है.

अगले चरण

अपने iOS या Android ऐप्लिकेशन में, चेहरे की पहचान करने की सुविधा का इस्तेमाल करें: