Types de fichiers compatibles avec l'extraction de texte

Cloud Search indexe tous les éléments envoyés, quel que soit leur type de fichier (MIME ou content-type). L'indexation est effectuée sur les données de métadonnées d'un fichier et, si elle est prise en charge, sur son contenu. Vous trouverez ci-dessous la liste des types de fichiers pour lesquels l'indexation de contenu est prise en charge.

  • Microsoft Word (.doc)
  • Microsoft Word (.docx)
  • Microsoft Excel (.xls)
  • Microsoft Excel (.xlsx)
  • Microsoft PowerPoint (.ppt)
  • Microsoft PowerPoint (.pptx)
  • Adobe Portable Document Format (.pdf)
  • Rich Text Format (.rtf)
  • Format texte (.txt)
  • Hypertext Markup Language (HTML)
  • Extensible Markup Language (XML)

En plus de ces types de fichiers, Cloud Search est compatible avec l'indexation du contenu de n'importe quel fichier texte brut.

Types de fichiers et caractéristiques de la reconnaissance optique des caractères (OCR)

Google Cloud Search utilise également l'OCR pour extraire du texte des types de fichiers suivants :

Type de fichier Taille maximale
Joint Photographic Experts Group (.jpg) 10 Mo
Graphic Interchange Format (.gif) 10 Mo
Tagged Image File Format (.tiff) 10 Mo
Scalable Vector Graphics (.svg) 10 Mo
Format d'image PostScript (.ps) 10 Mo
Portable Document Format (.pdf) 30 Mo

L'OCR fonctionne également sur les fichiers présentant les caractéristiques suivantes :

  • Documents manuscrits. Les documents en écriture latine, en japonais et en coréen donnent les meilleurs résultats.
  • Documents écrits verticalement, comme ceux en japonais.
  • Documents écrits de droite à gauche, comme ceux en hébreu.