Tipi di file supportati per l'estrazione di testo

Cloud Search indicizza tutti gli elementi inviati, indipendentemente dal tipo di file (MIME o content-type). L'indicizzazione viene eseguita sui dati di metadati di un file e, se supportato, sui relativi contenuti. Di seguito è riportato un elenco dei tipi di file per cui l'indicizzazione dei contenuti è supportata.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • Portable Document Format di Adobe (PDF)
  • Rich Text Format (RTF)
  • Formato testo (TXT)
  • Hypertext Markup Language (HTML)
  • Extensible Markup Language (XML)

Oltre a questi tipi di file, Cloud Search supporta l'indicizzazione dei contenuti all'interno di qualsiasi file di testo normale.

Tipi e caratteristiche dei file con riconoscimento ottico dei caratteri (OCR)

Google Cloud Search utilizza anche la tecnologia OCR per estrarre il testo dai seguenti tipi di file:

Tipo di file Dimensioni massime
Joint Photographic Experts Group (JPG) 10 MB
Graphic Interchange Format (GIF) 10 MB
Formato file immagine con tag (TIFF) 10 MB
Scalable Vector Graphics (SVG) 10 MB
Formato immagine PostScript (PS) 10 MB
Portable Document Format (PDF) 30 MB

OCR funziona anche su file con le seguenti caratteristiche:

  • Documenti scritti a mano. I risultati migliori sono quelli in caratteri latini, giapponesi e coreani.
  • Documenti scritti verticalmente, come quelli in giapponese.
  • Documenti scritti da destra a sinistra, come l'ebraico.