Jenis file yang didukung untuk ekstraksi teks

Cloud Search mengindeks semua item yang dikirim, terlepas dari jenis file (MIME atau jenis konten). Pengindeksan dilakukan pada data metadata file dan, jika didukung, kontennya. Berikut adalah daftar jenis file yang mendukung pengindeksan konten.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft Powerpoint (PPTX)
  • Format Dokumen Portabel Adobe (PDF)
  • Format Teks Kaya (RTF)
  • Format Teks (TXT)
  • Bahasa Markup Hiperteks (HTML)
  • Extensible Markup Language (XML)

Selain jenis file ini, Cloud Search mendukung pengindeksan konten dalam file teks biasa.

Jenis dan karakteristik file Pengenalan Karakter Optik (OCR)

Google Cloud Search juga menggunakan OCR untuk mengekstrak teks dari jenis file berikut:

Jenis file Ukuran maksimum
Grup Pakar Fotografi Bersama (JPG) 10 MB
Format Pertukaran Grafis (GIF) 10 MB
Format File Gambar yang Diberi Tag (TIFF) 10 MB
Scalable Vector Graphics (SVG) 10 MB
Format Gambar PostScript (PS) 10 MB
Format Dokumen Portabel (PDF) 30 MB

OCR juga berfungsi pada file dengan karakteristik berikut:

  • Dokumen tulisan tangan. Dokumen dalam skrip Latin, bahasa Jepang, dan Korea memberikan hasil terbaik.
  • Dokumen yang ditulis secara vertikal, seperti dalam bahasa Jepang.
  • Dokumen yang ditulis dari kanan ke kiri, seperti bahasa Ibrani.