Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

テキスト抽出でサポートされているファイル形式

Cloud Search は、ファイル形式（MIME またはコンテンツタイプ）に関係なく、送信されたすべてのアイテムをインデックス登録します。インデックス登録は、ファイルのメタデータと、サポートされている場合はコンテンツに対して行われます。コンテンツのインデックス登録がサポートされているファイル形式は次のとおりです。

Microsoft Word（DOC）
Microsoft Word（DOCX）
Microsoft Excel（XLS）
Microsoft Excel（XLSX）
Microsoft PowerPoint（PPT）
Microsoft PowerPoint（PPTX）
Adobe Portable Document Format（PDF）
リッチテキスト形式（RTF）
テキスト形式（TXT）
ハイパーテキストマークアップ言語（HTML）
拡張マークアップ言語（XML）

これらのファイル形式に加えて、Cloud Search では、任意のプレーンテキストファイル内のコンテンツのインデックス登録がサポートされています。

光学式文字認識（OCR）のファイル形式と特性

Google Cloud Search では、OCR を使用して次のファイル形式からテキストを抽出することもできます。

ファイル形式	最大サイズ
Joint Photographic Experts Group（JPG）	10 MB
Graphic Interchange Format（GIF）	10 MB
Tagged Image File Format（TIFF）	10 MB
Scalable Vector Graphics（SVG）	10 MB
PostScript Image Format（PS）	10 MB
Portable Document Format（PDF）	30 MB

OCR は、次の特性を持つファイルでも機能します。

手書きのドキュメント。ラテン文字、日本語、韓国語のドキュメントで最適な結果が得られます。
日本語などの縦書きのドキュメント。
ヘブライ語などの右から左に記述するドキュメント。

テキスト抽出でサポートされているファイル形式 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

光学式文字認識（OCR）のファイル形式と特性

テキスト抽出でサポートされているファイル形式