Types de fichiers compatibles avec l'extraction de texte
Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Cloud Search indexe tous les éléments envoyés, quel que soit le type de fichier.
(MIME ou content-type). L'indexation est effectuée sur les données
de métadonnées d'un fichier et,
et, le cas échéant, son contenu. Vous trouverez ci-dessous la liste des types de fichiers pour lesquels le contenu
l'indexation est possible.
Microsoft Word (DOC)
Microsoft Word (DOCX)
Microsoft Excel (XLS)
Microsoft Excel (XLSX)
Microsoft PowerPoint (PPT)
Microsoft PowerPoint (PPTX)
Le format PDF (Portable Document Format) d'Adobe
Format de texte enrichi (RTF)
Format texte (TXT)
HTML (Hypertext Markup Language)
XML (Extensible Markup Language)
En plus de ces types de fichiers, Cloud Search permet l'indexation du contenu
dans n'importe quel
fichier texte brut.
Types et caractéristiques des fichiers de reconnaissance optique des caractères (OCR)
Google Cloud Search utilise également la reconnaissance optique des caractères pour extraire le texte des types de fichiers suivants:
File type
Taille maximale
Joint Photographic Experts Group (Groupe commun d'experts en photographie) (JPG)
10 Mo
Graphic Interchange Format (GIF)
10 Mo
TIFF (Tagged Image File Format)
10 Mo
Scalable Vector Graphics (SVG)
10 Mo
Format d'image PostScript (PS)
10 Mo
PDF (Portable Document Format)
30 MB
La reconnaissance optique des caractères fonctionne également sur les fichiers présentant les caractéristiques suivantes:
Documents manuscrits. Documents en caractères latins, japonais et coréens
les meilleurs résultats.
Les documents rédigés verticalement, tels que ceux rédigés en japonais.
Les documents écrits de droite à gauche, tels que l'hébreu.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2024/09/03 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Il n'y a pas l'information dont j'ai besoin","missingTheInformationINeed","thumb-down"],["Trop compliqué/Trop d'étapes","tooComplicatedTooManySteps","thumb-down"],["Obsolète","outOfDate","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Mauvais exemple/Erreur de code","samplesCodeIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2024/09/03 (UTC)."],[[["Cloud Search indexes metadata for all file types and content for specific supported formats like Microsoft Office, PDF, RTF, TXT, HTML, and XML, as well as any plain text file."],["Cloud Search uses Optical Character Recognition (OCR) to extract text from image file types such as JPG, GIF, TIFF, SVG, PS, and PDFs (under certain conditions and size limits)."],["OCR technology in Cloud Search supports various document characteristics, including handwritten documents (Latin, Japanese, Korean), vertically written documents (e.g., Japanese), and right-to-left written documents (e.g., Hebrew)."]]],[]]