Cloud Search indexa todos los elementos que se envían, independientemente del tipo de archivo (MIME o tipo de contenido). La indexación se realiza en los datos de metadatos de un archivo y, si se admite, en su contenido. A continuación, se incluye una lista de los tipos de archivos en los que sí se admite la indexación de contenido.
- Microsoft Word (DOC)
- Microsoft Word (DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel (XLSX)
- Microsoft PowerPoint (PPT)
- Microsoft PowerPoint (PPTX)
- Formato de documento portátil de Adobe (PDF)
- Formato de Texto Enriquecido (RTF)
- Formato de Texto (TXT)
- Lenguaje de marcación de hipertexto (HTML)
- Lenguaje de marcación extensible (XML)
Además de estos tipos de archivos, Cloud Search admite la indexación de contenido dentro de cualquier archivo de texto sin formato.
Tipos de archivo y características de reconocimiento óptico de caracteres (OCR)
Google Cloud Search también usa OCR para extraer texto de los siguientes tipos de archivos:
File type | Tamaño máximo |
---|---|
Grupo conjunto de expertos en fotografía (JPG) | 10 MB |
Formato de intercambio gráfico (GIF) | 10 MB |
Formato de archivo de imagen etiquetado (TIFF) | 10 MB |
Gráficos vectoriales escalables (SVG) | 10 MB |
Formato de imagen (PS) PostScript | 10 MB |
Formato de documento portátil (PDF) | 30 MB |
El OCR también funciona en archivos con estas características:
- Documentos escritos a mano. Los documentos con alfabeto latino, japonés y coreano producen los mejores resultados.
- Documentos escritos verticalmente, como los que están en japonés
- Documentos escritos de derecha a izquierda, como el hebreo