Obsługiwane typy plików do wyodrębniania tekstu

Cloud Search indeksuje wszystkie wysłane elementy, niezależnie od typu pliku (MIME lub content-type). Indeksowanie jest przeprowadzane na podstawie metadanych pliku oraz, jeśli jest to obsługiwane, jego zawartości. Poniżej znajdziesz listę typów plików, w przypadku których jest obsługiwane indeksowanie treści.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft Powerpoint (PPT)
  • Microsoft Powerpoint (PPTX)
  • Adobe Portable Document Format (PDF)
  • Tekst sformatowany RTF (.rtf)
  • Format tekstowy (TXT)
  • Hypertext Markup Language (HTML)
  • Extensible Markup Language (XML)

Oprócz tych typów plików Cloud Search obsługuje indeksowanie treści w dowolnym pliku tekstowym.

Typy plików i cechy optycznego rozpoznawania znaków (OCR)

Google Cloud Search używa też OCR do wyodrębniania tekstu z tych typów plików:

Typ pliku Maksymalny rozmiar
Joint Photographic Experts Group (JPG) 10 MB
Graphic Interchange Format (GIF) 10 MB
Format TIFF 10 MB
Grafika SVG 10 MB
Format obrazu PostScript (PS) 10 MB
Portable Document Format (PDF) 30 MB

OCR działa też w przypadku plików o tych cechach:

  • dokumenty pisane ręcznie, Najlepsze wyniki uzyskuje się w przypadku dokumentów zapisanych alfabetem łacińskim, japońskim i koreańskim.
  • dokumenty pisane pionowo, np. w języku japońskim.
  • dokumenty pisane od prawej do lewej, np. w języku hebrajskim.