Obsługiwane typy plików do wyodrębniania tekstu

Cloud Search indeksuje wszystkie wysyłane elementy niezależnie od typu pliku (MIME lub content-type). Indeksowanie odbywa się na podstawie danych metadanych pliku i jego treści (jeśli jest obsługiwane). Poniżej znajduje się lista typów plików, w przypadku których indeksowanie treści jest obsługiwane.

  • Microsoft Word (DOC),
  • Microsoft Word (DOCX),
  • Microsoft Excel (XLS),
  • Microsoft Excel (XLSX),
  • Plik programu Microsoft PowerPoint (PPT)
  • Plik programu Microsoft PowerPoint (PPTX)
  • Portable Document Format (PDF) firmy Adobe
  • Tekst sformatowany RTF (RTF)
  • Format tekstowy (TXT)
  • Hypertext Markup Language (HTML)
  • XML (Extensible Markup Language)

Oprócz tych typów plików Cloud Search obsługuje indeksowanie treści z każdego pliku ze zwykłym tekstem.

Typy i cechy plików optycznego rozpoznawania znaków (OCR)

Google Cloud Search wykorzystuje też OCR do wyodrębniania tekstu z tych typów plików:

Typ pliku Rozmiar maksymalny
Wspólna grupa ekspertów fotograficznych (JPG) 10 MB
Graphic Interchange Format (GIF) 10 MB
Format TIFF (Tagged Image File Format, TIFF) 10 MB
Grafika wektorowa skalowalna (SVG) 10 MB
Format obrazu PostScript (PS) 10 MB
Portable Document Format (PDF). 30 MB

OCR działa też na plikach o następujących cechach:

  • Dokumenty pisane odręcznie. Najlepsze wyniki dają dokumenty w alfabecie łacińskim, japońskim i koreańskim.
  • Dokumenty pisane pionowo, np. w języku japońskim.
  • Dokumenty pisane od prawej do lewej, np. hebrajski.