テキスト抽出でサポートされているファイル形式

Cloud Search は、ファイル形式(MIME またはコンテンツ タイプ)に関係なく、送信されたすべてのアイテムをインデックスに登録します。インデックス登録は、ファイルのメタデータと、サポートされている場合はそのコンテンツに対して行われます。コンテンツ インデックスがサポートされているファイル形式の一覧は次のとおりです。

  • Microsoft Word(DOC)
  • Microsoft Word(DOCX)
  • Microsoft Excel(XLS)
  • Microsoft Excel(XLSX)
  • Microsoft PowerPoint(PPT)
  • Microsoft PowerPoint(PPTX)
  • Adobe の Portable Document Format(PDF)
  • リッチテキスト形式(RTF)
  • テキスト形式(TXT)
  • ハイパーテキスト マークアップ言語(HTML)
  • XML(拡張マークアップ言語)

これらのファイル形式に加えて、Cloud Search は任意のプレーンテキスト ファイル内のコンテンツのインデックス登録もサポートしています。

光学式文字認識(OCR)のファイル形式と特性

Google Cloud Search では、OCR を使用して次のファイル形式からテキストを抽出します。

ファイル形式 最大サイズ
Joint Photographic Experts Group(JPG) 10 MB
グラフィック インターチェンジ フォーマット(GIF) 10 MB
Tagged Image File Format(TIFF) 10 MB
Scalable Vector Graphics(SVG) 10 MB
PostScript Image Format(PS) 10 MB
Portable Document Format(PDF) 30 MB

OCR は、次の特性を持つファイルでも機能します。

  • 手書きのドキュメント。ラテン文字、日本語、韓国語のドキュメントが最適です。
  • 日本語などの縦書きドキュメント。
  • ヘブライ語など、右から左に記述するドキュメント。