इस पेज पर Google Assistant API को बोली से जुड़ा डेटा देने के तरीके के बारे में सुझाव दिए गए हैं. इन दिशा-निर्देशों को बेहतर क्षमता और सटीक जानकारी के साथ-साथ सेवा से जवाब देने में लगने वाले उचित समय के लिए डिज़ाइन किया गया है.
ऑडियो की प्री-प्रोसेसिंग
जितना हो सके, साफ़ आवाज़ वाला ऑडियो उपलब्ध कराना सबसे अच्छा होता है. इसके लिए, अच्छी क्वालिटी और सही जगह पर रखे गए माइक्रोफ़ोन का इस्तेमाल किया जाता है. हालांकि, ऑडियो को सेवा में भेजने से पहले, उसमें ग़ैर-ज़रूरी आवाज़ें कम करने वाले सिग्नल को प्रोसेस करने से, आवाज़ पहचानने की क्षमता कम हो जाती है. यह सेवा शोर वाले ऑडियो को हैंडल करने के लिए डिज़ाइन की गई है.
बेहतरीन फ़ोटो के लिएः
- माइक्रोफ़ोन को उपयोगकर्ता के नज़दीक जितना हो सके उतना करीब रखें, खास तौर पर तब, जब बैकग्राउंड में शोर हो.
- ऑडियो क्लिपिंग से बचें.
- अपने-आप हासिल करने पर कंट्रोल (एजीसी) का इस्तेमाल न करें.
- सभी तरह के शोर को कम करने की प्रोसेस बंद कर दी जानी चाहिए.
आम तौर पर:
- ऑडियो लेवल को कैलिब्रेट किया जाना चाहिए, ताकि इनपुट सिग्नल क्लिप न हो और बोली का ऑडियो लेवल सबसे ज़्यादा -20 से -10 डीबीएफ़एस हो.
- फ़ोन को तकरीबन "सपाट" आयाम बनाम फ़्रीक्वेंसी की विशेषताएं (+- 3 dB 100 हर्ट्ज़ से 8000 हर्ट्ज़ तक) दिखानी चाहिए.
- 90 dB SPL इनपुट स्तर पर कुल हार्मोनिक डिस्टॉर्शन 100 हर्ट्ज़ से लेकर 8,000 हर्ट्ज़ तक 1% से कम होना चाहिए.
नमूना लेने की दर
अगर हो सके, तो ऑडियो सोर्स की सैंपलिंग की दर को 16,000 हर्ट्ज़ पर सेट करें. अगर ऐसा नहीं है, तो ऑडियो सोर्स के नेटिव सैंपल रेट से मेल खाने के लिए (फिर से सैंपल करने के बजाय) sample_rate_hertz
को सेट करें.
फ़्रेम का साइज़
माइक्रोफ़ोन से कैप्चर किए गए लाइव ऑडियो की पहचान Google Assistant करती है.
ऑडियो स्ट्रीम को फ़्रेम में बांटना चाहिए और एक के बाद एक AssistRequest
मैसेज में भेजा जाना चाहिए. कोई भी फ्रेम आकार स्वीकार्य है. बड़े फ़्रेम ज़्यादा असरदार होते हैं, लेकिन उनमें देरी भी होती है. इंतज़ार के समय और परफ़ॉर्मेंस के बीच संतुलन बनाने के लिए, हम 100-मिलीसेकंड वाले फ़्रेम साइज़ का सुझाव देते हैं.