Unterstützte Dateitypen für die Textextraktion

Cloud Search indexiert alle gesendeten Elemente, unabhängig vom Dateityp (MIME oder Inhaltstyp). Die Indexierung erfolgt anhand der Metadaten einer Datei und, sofern unterstützt, des Inhalts. Im Folgenden finden Sie eine Liste der Dateitypen, für die die Inhaltsindexierung unterstützt wird.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • Adobe’s Portable Document Format (PDF)
  • Rich-Text-Format (RTF)
  • Textformat (TXT)
  • Hypertext Markup Language (HTML)
  • Erweiterbare Auszeichnungssprache (XML)

Zusätzlich zu diesen Dateitypen unterstützt Cloud Search die Indexierung von Inhalten in reinen Textdateien.

Dateitypen und -merkmale der optischen Zeichenerkennung (Optical Character Recognition, OCR)

Google Cloud Search verwendet OCR außerdem, um Text aus den folgenden Dateitypen zu extrahieren:

File type Maximalgröße
Gemeinsame Fotoexperten-Gruppe (JPG) 10 MB
Graphic Interchange Format (GIF) 10 MB
Getaggtes Bilddateiformat (TIFF) 10 MB
Skalierbare Vektorgrafiken (SVG) 10 MB
PostScript-Bildformat (PS) 10 MB
Portable Document Format (PDF) 30 MB

OCR funktioniert auch bei Dateien mit den folgenden Merkmalen:

  • Handschriftliche Dokumente. Die besten Ergebnisse erzielen Sie mit Dokumenten in lateinischer Schrift, Japanisch und Koreanisch.
  • Vertikal geschriebene Dokumente, z. B. in japanischer Schrift
  • Linksläufige Dokumente, z. B. Hebräisch