Jenis file yang didukung untuk ekstraksi teks

Cloud Search mengindeks semua item yang dikirim, terlepas dari jenis file (MIME atau content-type). Pengindeksan dilakukan pada data metadata file dan, jika didukung, kontennya. Berikut adalah daftar jenis file yang didukung pengindeksan kontennya.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft Powerpoint (PPT)
  • Microsoft Powerpoint (PPTX)
  • Portable Document Format (PDF) Adobe
  • Rich Text Format (RTF)
  • Text Format (TXT)
  • Hypertext Markup Language (HTML)
  • Extensible Markup Language (XML)

Selain jenis file ini, Cloud Search mendukung pengindeksan konten dalam file teks biasa.

Jenis dan karakteristik file Optical Character Recognition (OCR)

Google Cloud Search juga menggunakan OCR untuk mengekstrak teks dari jenis file berikut:

Jenis file Ukuran maksimum
Joint Photographic Experts Group (JPG) 10 MB
Graphic Interchange Format (GIF) 10 MB
Tagged Image File Format (TIFF) 10 MB
Scalable Vector Graphics (SVG) 10 MB
PostScript Image Format (PS) 10 MB
Portable Document Format (PDF) 30 MB

OCR juga berfungsi pada file dengan karakteristik berikut:

  • Dokumen tulisan tangan. Dokumen dalam skrip Latin, Jepang, dan Korea akan memberikan hasil terbaik.
  • Dokumen yang ditulis secara vertikal, seperti dokumen dalam bahasa Jepang.
  • Dokumen yang ditulis dari kanan ke kiri, seperti bahasa Ibrani.