Поддерживаемые типы файлов для извлечения текста

Cloud Search индексирует все отправляемые элементы, независимо от типа файла (MIME или content-type). Индексирование выполняется на основе метаданных файла и, если это поддерживается, его содержимого. Ниже приведен список типов файлов, для которых поддерживается индексирование содержимого.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • Портативный формат документов (PDF) от Adobe
  • Формат форматированного текста (RTF)
  • Текстовый формат (TXT)
  • Язык разметки гипертекста (HTML)
  • Расширяемый язык разметки (XML)

Помимо этих типов файлов, Cloud Search поддерживает индексирование содержимого любых текстовых файлов.

Типы и характеристики файлов оптического распознавания символов (OCR).

Google Cloud Search также использует OCR для извлечения текста из следующих типов файлов:

Тип файла Максимальный размер
Объединенная группа экспертов в области фотографии (JPG) 10 МБ
Графический формат обмена файлами (GIF) 10 МБ
Формат файла изображения с тегами (TIFF) 10 МБ
Масштабируемая векторная графика (SVG) 10 МБ
Формат изображений PostScript (PS) 10 МБ
Формат портативных документов (PDF) 30 МБ

OCR также работает с файлами, обладающими следующими характеристиками:

  • Рукописные документы. Наилучшие результаты дают документы, написанные латинским алфавитом, на японском и корейском языках.
  • Документы, написанные вертикально, например, на японском языке.
  • Документы, написанные справа налево, например, на иврите.