Types de fichiers compatibles avec l'extraction de texte

Cloud Search indexe tous les éléments envoyés, quel que soit le type de fichier (MIME ou le type de contenu). L'indexation est effectuée sur les données de métadonnées d'un fichier et, si elles sont compatibles, sur son contenu. Vous trouverez ci-dessous la liste des types de fichiers pour lesquels l'indexation de contenu est prise en charge.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft Powerpoint (PPT)
  • Microsoft Powerpoint (PPTX)
  • Portable Document Format (PDF) d'Adobe
  • Rich Text Format (RTF)
  • Format texte (TXT)
  • Hypertext Markup Language (HTML)
  • XML (Extensible Markup Language)

En plus de ces types de fichiers, Cloud Search permet d'indexer le contenu de n'importe quel fichier en texte brut.

Types de fichiers et caractéristiques de reconnaissance optique des caractères (OCR)

Google Cloud Search utilise également la reconnaissance optique des caractères pour extraire le texte des types de fichiers suivants:

File type Taille maximale
Joint Photographic Experts Group (JPG) 10 Mo
Graphic Interchange Format (GIF) 10 Mo
Tagged Image File Format (TIFF) 10 Mo
Graphique vectoriel évolutif (SVG) 10 Mo
Format d'image PostScript (PS) 10 Mo
Portable Document Format (PDF) 30 MB

La reconnaissance optique des caractères (OCR) fonctionne également sur les fichiers présentant les caractéristiques suivantes:

  • Documents écrits à la main. Les documents en caractères latins, en japonais et en coréen offrent les meilleurs résultats.
  • Documents rédigés verticalement, comme ceux en japonais.
  • Documents écrits de droite à gauche, comme l'hébreu.