Jenis file yang didukung untuk ekstraksi teks

Cloud Search mengindeks semua item yang dikirim, terlepas dari jenis filenya (MIME atau jenis konten). Pengindeksan dilakukan pada data metadata file dan, jika didukung, kontennya. Berikut adalah daftar jenis file yang pengindeksan kontennya didukung.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft Powerpoint (PPT)
  • Microsoft Powerpoint (PPTX)
  • Portable Document Format (PDF) Adobe
  • Rich Text Format (RTF)
  • Format Teks (TXT)
  • Hypertext Markup Language (HTML)
  • Extensible Markup Language (XML)

Selain jenis file ini, Cloud Search mendukung pengindeksan konten dalam file teks biasa.

Jenis dan karakteristik file Pengenalan Karakter Optik (OCR)

Google Cloud Search juga menggunakan OCR untuk mengekstrak teks dari jenis file berikut:

Jenis file Ukuran maksimum
Joint Photographic Experts Group (JPG) 10 MB
Graphic Interchange Format (GIF) 10 MB
Tagged Image File Format (TIFF) 10 MB
Scalable Vector Graphics (SVG) 10 MB
PostScript Image Format (PS) 10 MB
Portable Document Format (PDF) 30 MB

OCR juga berfungsi pada file dengan karakteristik berikut:

  • Dokumen yang ditulis tangan. Dokumen dalam skrip Latin, Jepang, dan Korea akan menghasilkan hasil terbaik.
  • Dokumen yang ditulis secara vertikal, seperti dalam bahasa Jepang.
  • Dokumen yang ditulis dari kanan ke kiri, seperti bahasa Ibrani.