टेक्स्ट निकालने के लिए काम करने वाले फ़ाइल टाइप

Cloud Search, भेजे गए सभी आइटम को इंडेक्स करता है. भले ही, फ़ाइल टाइप (MIME या content-type) कुछ भी हो. इंडेक्स करना किसी फ़ाइल के मेटाडेटा डेटा और अगर काम करता हो, तो उसके कॉन्टेंट को किया जाता है. नीचे उन फ़ाइल टाइप की सूची दी गई है जिनके लिए कॉन्टेंट को इंडेक्स करने की सुविधा है.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • Adobe का पोर्टेबल डॉक्यूमेंट फ़ॉर्मैट (PDF)
  • रिच टेक्स्ट फ़ॉर्मैट (RTF)
  • टेक्स्ट फ़ॉर्मैट (TXT)
  • हाइपरटेक्स्ट मार्कअप लैंग्वेज (HTML)
  • एक्सटेंसिबल मार्कअप लैंग्वेज (एक्सएमएल)

इन फ़ाइल टाइप के अलावा, Cloud Search किसी भी सामान्य टेक्स्ट वाली फ़ाइल में कॉन्टेंट को इंडेक्स करने की सुविधा देता है.

ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) की फ़ाइलों के टाइप और विशेषताएं

Google Cloud Search, इन फ़ाइल टाइप से टेक्स्ट निकालने के लिए, ओसीआर का इस्तेमाल भी करता है:

फ़ाइल टाइप ज़्यादा से ज़्यादा साइज़
जॉइंट फ़ोटोग्राफ़िक एक्सपर्ट ग्रुप (JPG) 10 MB
ग्राफ़िक इंटरचेंज फ़ॉर्मैट (GIF) 10 MB
टैग किया गया इमेज फ़ाइल फ़ॉर्मैट (TIFF) 10 MB
स्केलेबल वेक्टर ग्राफ़िक (SVG) 10 MB
PostScript इमेज फ़ॉर्मैट (PS) 10 MB
पोर्टेबल डॉक्यूमेंट फ़ॉर्मैट (PDF) 30 एमबी

ओसीआर की सुविधा, इन विशेषताओं वाली फ़ाइलों पर भी काम करती है:

  • हाथ से लिखे गए दस्तावेज़. लैटिन स्क्रिप्ट, जैपनीज़, और कोरियन भाषा में लिखने पर सबसे बेहतर नतीजे मिलते हैं.
  • वर्टिकल तौर पर लिखे गए दस्तावेज़, जैसे कि जैपनीज़ में लिखे गए दस्तावेज़.
  • दाएं से बाएं लिखे गए दस्तावेज़, जैसे कि हिब्रू.