Types de fichiers compatibles avec l'extraction de texte

Cloud Search indexe tous les éléments envoyés, quel que soit le type de fichier. (MIME ou content-type). L'indexation s'effectue sur les données de métadonnées d'un fichier. et, le cas échéant, son contenu. Vous trouverez ci-dessous la liste des types de fichiers pour lesquels le contenu l'indexation est possible.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • Le format PDF (Portable Document Format) d'Adobe
  • Format de texte enrichi (RTF)
  • Format texte (TXT)
  • HTML (Hypertext Markup Language)
  • XML (Extensible Markup Language)

En plus de ces types de fichiers, Cloud Search permet l'indexation du contenu dans n'importe quel fichier texte brut.

Types et caractéristiques des fichiers de reconnaissance optique des caractères (OCR)

Google Cloud Search utilise également la reconnaissance optique des caractères pour extraire le texte des types de fichiers suivants:

File type Taille maximale
Joint Photographic Experts Group (Groupe commun d'experts en photographie) (JPG) 10 Mo
Graphic Interchange Format (GIF) 10 Mo
TIFF (Tagged Image File Format) 10 Mo
Scalable Vector Graphics (SVG) 10 Mo
Format d'image PostScript (PS) 10 Mo
PDF (Portable Document Format) 30 MB

La reconnaissance optique des caractères fonctionne également sur les fichiers présentant les caractéristiques suivantes:

  • Documents manuscrits. Rendement de documents en alphabet latin, japonais et coréen les meilleurs résultats.
  • Les documents rédigés verticalement, tels que ceux rédigés en japonais.
  • Les documents écrits de droite à gauche, tels que l'hébreu.