Эта страница переведена с помощью Cloud Translation API.

Поддерживаемые типы файлов для извлечения текста

Cloud Search индексирует все отправляемые элементы независимо от типа файла (MIME или тип контента). Индексирование выполняется на основе метаданных файла и, если поддерживается, его содержимого. Ниже приведен список типов файлов, для которых поддерживается индексирование контента.

Microsoft Word (DOC)
Microsoft Word (DOCX)
Microsoft Excel (XLS)
Microsoft Excel (XLSX)
Microsoft Powerpoint (PPT)
Microsoft Powerpoint (PPTX)
Формат переносимых документов Adobe (PDF)
Расширенный текстовый формат (RTF)
Текстовый формат (TXT)
Язык гипертекстовой разметки (HTML)
Расширяемый язык разметки (XML)

В дополнение к этим типам файлов Cloud Search поддерживает индексирование контента в любом текстовом файле.

Типы и характеристики файлов оптического распознавания символов (OCR)

Google Cloud Search также использует OCR для извлечения текста из файлов следующих типов:

Тип файла	Максимальный размер
Объединенная группа экспертов по фотографии (JPG)	10 МБ
Формат графического обмена (GIF)	10 МБ
Формат файла изображения с тегами (TIFF)	10 МБ
Масштабируемая векторная графика (SVG)	10 МБ
Формат изображения PostScript (PS)	10 МБ
Портативный формат документов (PDF)	30 МБ

Примечание. Cloud Search использует распознавание текста для файлов PDF только при индексировании в ASYNCHRONOUS режиме и применяет распознавание текста к первым 80 страницам файла PDF. Чтобы иметь право на распознавание символов, ItemMetadata.mimeType для элемента должен быть указан как application/pdf , а файл PDF должен содержать только отсканированные изображения. Если PDF-файл содержит собственный текстовый контент, Cloud Search индексирует собственный контент и не применяет распознавание текста к изображениям.

OCR также работает с файлами со следующими характеристиками:

Рукописные документы. Документы на латинице, японском и корейском языках дают наилучшие результаты.
Вертикально написанные документы, например, на японском языке.
Документы, написанные справа налево, например на иврите.