Tipos de archivos admitidos para la extracción de texto

Cloud Search indexa todos los elementos que se envían, independientemente del tipo de archivo (MIME o tipo de contenido). La indexación se realiza en los datos de metadatos de un archivo y, si se admite, en su contenido. A continuación, se incluye una lista de los tipos de archivos en los que se admite la indexación de contenido.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • Formato de documento portátil de Adobe (PDF)
  • Formato de Texto Enriquecido (RTF)
  • Formato de Texto (TXT)
  • Lenguaje de marcación de hipertexto (HTML)
  • Lenguaje de marcación extensible (XML)

Además de estos tipos de archivos, Cloud Search admite la indexación de contenido dentro de cualquier archivo de texto sin formato.

Tipos de archivo y características de reconocimiento óptico de caracteres (OCR)

Google Cloud Search también usa OCR para extraer texto de los siguientes tipos de archivos:

File type Tamaño máximo
Grupo conjunto de expertos en fotografía (JPG) 10 MB
Formato de intercambio gráfico (GIF) 10 MB
Formato de archivo de imagen etiquetado (TIFF) 10 MB
Gráficos vectoriales escalables (SVG) 10 MB
Formato de imagen (PS) PostScript 10 MB
Formato de documento portátil (PDF) 30 MB

El OCR también funciona en archivos con estas características:

  • Documentos escritos a mano. Los documentos con alfabeto latino, japonés y coreano producen los mejores resultados.
  • Documentos escritos verticalmente, como los que están en japonés
  • Documentos escritos de derecha a izquierda, como el hebreo