Tipi di file supportati per l'estrazione di testo

Cloud Search indicizza tutti gli elementi inviati, indipendentemente dal tipo di file (MIME o content-type). L'indicizzazione viene eseguita sui dati dei metadati di un file e, se supportati, sui relativi contenuti. Di seguito è riportato un elenco dei tipi di file per i quali è supportata l'indicizzazione dei contenuti.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • Formato Portable Document Format (PDF) di Adobe
  • Rich Text Format (RTF)
  • Formato di testo (TXT)
  • Hypertext Markup Language (HTML)
  • Extensible Markup Language (XML)

Oltre a questi tipi di file, Cloud Search supporta l'indicizzazione dei contenuti all'interno di qualsiasi file di testo normale.

Tipi di file e caratteristiche del riconoscimento ottico dei caratteri (OCR)

Ricerca Google Cloud utilizza anche l'OCR per estrarre il testo dai seguenti tipi di file:

Tipo di file Dimensioni massime
Joint Photographic Experts Group (JPG) 10 MB
Graphic Interchange Format (GIF) 10 MB
Tagged Image File Format (TIFF) 10 MB
Scalable Vector Graphics (SVG) 10 MB
PostScript Image Format (PS) 10 MB
Portable Document Format (PDF) 30 MB

L'OCR funziona anche su file con le seguenti caratteristiche:

  • Documenti scritti a mano. I documenti in caratteri latini, giapponese e coreano danno i risultati migliori.
  • Documenti scritti in verticale, ad esempio quelli in giapponese.
  • Documenti scritti da destra a sinistra, ad esempio in ebraico.