इस पेज का अनुवाद Cloud Translation API से किया गया है.

टेक्स्ट निकालने के लिए काम करने वाले फ़ाइल टाइप

Cloud Search भेजे गए सभी आइटम को इंडेक्स करता है, भले ही फ़ाइल टाइप कुछ भी हो (MIME या कॉन्टेंट-टाइप). सूची को किसी फ़ाइल के मेटाडेटा डेटा पर इंडेक्स किया जाता है और अगर उपलब्ध हो, तो उसका कॉन्टेंट. नीचे उन फ़ाइल टाइप की सूची दी गई है जिनमें मौजूद कॉन्टेंट का इस्तेमाल किया जा सकता है इंडेक्स करने की सुविधा है.

Microsoft Word (DOC)
Microsoft Word (DOCX)
Microsoft Excel (XLS)
Microsoft Excel (XLSX)
Microsoft PowerPoint (PPT)
Microsoft PowerPoint (PPTX)
Adobe का पोर्टेबल डॉक्यूमेंट फ़ॉर्मैट (PDF)
रिच टेक्स्ट फ़ॉर्मैट (RTF)
टेक्स्ट फ़ॉर्मैट (TXT)
हाइपरटेक्स्ट मार्कअप लैंग्वेज (HTML)
एक्सटेंसिबल मार्कअप लैंग्वेज (एक्सएमएल)

इन फ़ाइल टाइप के अलावा, Cloud Search भी कॉन्टेंट को इंडेक्स करने की सुविधा देता है डालें.

ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) की फ़ाइलों के टाइप और विशेषताएं

Google Cloud Search, इन फ़ाइल टाइप से टेक्स्ट निकालने के लिए, ओसीआर का इस्तेमाल भी करता है:

फ़ाइल टाइप	ज़्यादा से ज़्यादा साइज़
जॉइंट फ़ोटोग्राफ़िक एक्सपर्ट ग्रुप (JPG)	10 MB
ग्राफ़िक इंटरचेंज फ़ॉर्मैट (GIF)	10 MB
टैग किया गया इमेज फ़ाइल फ़ॉर्मैट (TIFF)	10 MB
स्केलेबल वेक्टर ग्राफ़िक (SVG)	10 MB
PostScript इमेज फ़ॉर्मैट (PS)	10 MB
पोर्टेबल डॉक्यूमेंट फ़ॉर्मैट (PDF)	30 एमबी

ध्यान दें: ASYNCHRONOUS में इंडेक्स करने पर ही Cloud Search, PDF फ़ाइलों के लिए ओसीआर सुविधा का इस्तेमाल करता है मोड की है और PDF फ़ाइल के पहले 80 पेजों पर ओसीआर लागू करता है. इसके लिए ज़रूरी शर्तें ओसीआर, ItemMetadata.mimeType आइटम के लिए application/pdf के रूप में बताया जाना चाहिए और PDF फ़ाइल में फ़ाइल होनी चाहिए सिर्फ़ स्कैन की गई इमेज. अगर PDF फ़ाइल में कोई नेटिव टेक्स्ट कॉन्टेंट है, तो Cloud Search नेटिव कॉन्टेंट को इंडेक्स करता है और इमेज पर ओसीआर लागू नहीं करता.

ओसीआर की सुविधा, इन विशेषताओं वाली फ़ाइलों पर भी काम करती है:

हाथ से लिखे गए दस्तावेज़. लैटिन स्क्रिप्ट, जैपनीज़, और कोरियन यील्ड में मौजूद दस्तावेज़ के साथ बेहतर नतीजे मिलते हैं.
वर्टिकल तौर पर लिखे गए दस्तावेज़, जैसे कि जैपनीज़ में लिखे गए दस्तावेज़.
दाएं से बाएं लिखे गए दस्तावेज़, जैसे कि हिब्रू.