Unterstützte Dateitypen für die Textextraktion

Cloud Search indexiert alle gesendeten Elemente, unabhängig vom Dateityp (MIME oder Inhaltstyp). Die Indexierung erfolgt für die Metadaten einer Datei und, falls unterstützt, deren Inhalt. Im Folgenden finden Sie eine Liste von Dateitypen, für die die Inhaltsindexierung unterstützt wird.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • Adobe Portable Document Format (PDF)
  • Rich-Text-Format (RTF)
  • Textformat (TXT)
  • Hypertext Markup Language (HTML)
  • Extensible Markup Language (XML)

Zusätzlich zu diesen Dateitypen unterstützt Cloud Search die Indexierung von Inhalten in jeder Nur-Text-Datei.

Dateitypen und Eigenschaften der optischen Zeichenerkennung (OCR)

In Google Cloud Search wird außerdem OCR verwendet, um Text aus den folgenden Dateitypen zu extrahieren:

File type Maximalgröße
Joint Photographic Experts Group (JPG) 10 MB
Graphic Interchange Format (GIF) 10 MB
Tagged Image File Format (TIFF) 10 MB
Scalable Vector Graphics (SVG) 10 MB
PostScript-Bildformat (PS) 10 MB
PDF (Portable Document Format) 30 MB

OCR funktioniert auch bei Dateien mit folgenden Eigenschaften:

  • Handschriftliche Dokumente Dokumente in lateinischer Schrift, Japanisch und Koreanisch liefern die besten Ergebnisse.
  • Vertikal verfasste Dokumente, z. B. auf Japanisch
  • Linksläufige Dokumente, z. B. Hebräisch