Jenis file yang didukung untuk ekstraksi teks

Cloud Search mengindeks semua item yang dikirim, apa pun jenis filenya (MIME atau jenis konten). Pengindeksan dilakukan pada data metadata file dan, jika didukung, kontennya. Berikut adalah daftar jenis file yang mendukung pengindeksan konten.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft Powerpoint (PPT)
  • Microsoft Powerpoint (PPTX)
  • Portable Document Format Adobe (PDF)
  • Format Teks Kaya (RTF)
  • Format Teks (TXT)
  • Bahasa Markup Hiperteks (HTML)
  • {i>Extensible Markup Language<i} (XML)

Selain jenis file ini, Cloud Search mendukung pengindeksan konten dalam file teks biasa apa pun.

Jenis dan karakteristik file Pengenalan Karakter Optik (OCR)

Google Cloud Search juga menggunakan OCR untuk mengekstrak teks dari jenis file berikut:

Jenis file Ukuran maksimum
Grup Pakar Fotografi Bersama (JPG) 10 MB
Format Pertukaran Grafis (GIF) 10 MB
Format File Gambar (TIFF) yang Diberi Tag 10 MB
Scalable Vector Graphics (SVG) 10 MB
Format Gambar PostScript (PS) 10 MB
Format Dokumen Portabel (PDF) 30 MB

OCR juga berfungsi pada file dengan karakteristik berikut:

  • Dokumen tulisan tangan. Dokumen dalam skrip Latin, Jepang, dan Korea menghasilkan hasil terbaik.
  • Dokumen yang ditulis secara vertikal, seperti dokumen dalam bahasa Jepang.
  • Dokumen yang ditulis dari kanan ke kiri, seperti bahasa Ibrani.