Tipos de archivos admitidos para la extracción de texto
Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
Cloud Search indexa todos los elementos que se envían, independientemente del tipo de archivo.
(MIME o tipo de contenido). La indexación se realiza en los datos de metadatos de un archivo
si es compatible, su contenido. A continuación, se incluye una lista de los tipos de archivos para los cuales
sí admite la indexación de datos.
Microsoft Word (DOC)
Microsoft Word (DOCX)
Microsoft Excel (XLS)
Microsoft Excel (XLSX)
Microsoft PowerPoint (PPT)
Microsoft PowerPoint (PPTX)
Formato de documento portátil de Adobe (PDF)
Formato de Texto Enriquecido (RTF)
Formato de texto (TXT)
Lenguaje de marcado de hipertexto (HTML)
Lenguaje de marcación extensible (XML)
Además de estos tipos de archivos, Cloud Search admite la indexación de contenido.
dentro de cualquier archivo de texto sin formato.
Características y tipos de archivo de reconocimiento óptico de caracteres (OCR)
Google Cloud Search también usa el OCR para extraer texto de los siguientes tipos de archivos:
File type
Tamaño máximo
Grupo conjunto de expertos en fotografía (JPG)
10 MB
Formato de intercambio de gráficos (GIF)
10 MB
Formato de archivo de imagen etiquetada (TIFF)
10 MB
Gráficos vectoriales escalables (SVG)
10 MB
Formato de imagen PostScript (PS)
10 MB
Formato de documento portátil (PDF)
30 MB
El OCR también funciona en archivos con las siguientes características:
Documentos escritos a mano Documentos con rendimiento en alfabeto latino, japonés y coreano
obtener los mejores resultados.
Documentos escritos verticalmente, como los en japonés
Documentos escritos de derecha a izquierda, como hebreo.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Falta la información que necesito","missingTheInformationINeed","thumb-down"],["Muy complicado o demasiados pasos","tooComplicatedTooManySteps","thumb-down"],["Desactualizado","outOfDate","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Problema con las muestras o los códigos","samplesCodeIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2024-09-03 (UTC)"],[[["Cloud Search indexes metadata for all file types and content for specific supported formats like Microsoft Office, PDF, RTF, TXT, HTML, and XML, as well as any plain text file."],["Cloud Search uses Optical Character Recognition (OCR) to extract text from image file types such as JPG, GIF, TIFF, SVG, PS, and PDFs (under certain conditions and size limits)."],["OCR technology in Cloud Search supports various document characteristics, including handwritten documents (Latin, Japanese, Korean), vertically written documents (e.g., Japanese), and right-to-left written documents (e.g., Hebrew)."]]],[]]