Cloud Search indeksuje wszystkie wysyłane elementy niezależnie od typu pliku (MIME lub content-type). Indeksowanie odbywa się na podstawie danych metadanych pliku i jego treści (jeśli jest obsługiwane). Poniżej znajduje się lista typów plików, w przypadku których indeksowanie treści jest obsługiwane.
- Microsoft Word (DOC),
- Microsoft Word (DOCX),
- Microsoft Excel (XLS),
- Microsoft Excel (XLSX),
- Plik programu Microsoft PowerPoint (PPT)
- Plik programu Microsoft PowerPoint (PPTX)
- Portable Document Format (PDF) firmy Adobe
- Tekst sformatowany RTF (RTF)
- Format tekstowy (TXT)
- Hypertext Markup Language (HTML)
- XML (Extensible Markup Language)
Oprócz tych typów plików Cloud Search obsługuje indeksowanie treści z każdego pliku ze zwykłym tekstem.
Typy i cechy plików optycznego rozpoznawania znaków (OCR)
Google Cloud Search wykorzystuje też OCR do wyodrębniania tekstu z tych typów plików:
Typ pliku | Rozmiar maksymalny |
---|---|
Wspólna grupa ekspertów fotograficznych (JPG) | 10 MB |
Graphic Interchange Format (GIF) | 10 MB |
Format TIFF (Tagged Image File Format, TIFF) | 10 MB |
Grafika wektorowa skalowalna (SVG) | 10 MB |
Format obrazu PostScript (PS) | 10 MB |
Portable Document Format (PDF). | 30 MB |
OCR działa też na plikach o następujących cechach:
- Dokumenty pisane odręcznie. Najlepsze wyniki dają dokumenty w alfabecie łacińskim, japońskim i koreańskim.
- Dokumenty pisane pionowo, np. w języku japońskim.
- Dokumenty pisane od prawej do lewej, np. hebrajski.