Các loại tệp được hỗ trợ để trích xuất văn bản

Cloud Search lập chỉ mục tất cả các mục được gửi, bất kể loại tệp (MIME hoặc loại nội dung). Hoạt động lập chỉ mục được thực hiện trên dữ liệu siêu dữ liệu của tệp và nội dung của tệp (nếu được hỗ trợ). Sau đây là danh sách các loại tệp mà tính năng lập chỉ mục nội dung được hỗ trợ.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft Powerpoint (PPT)
  • Microsoft Powerpoint (PPTX)
  • Định dạng tài liệu di động (PDF) của Adobe
  • Định dạng văn bản đa dạng thức (RTF)
  • Định dạng văn bản (TXT)
  • Ngôn ngữ đánh dấu siêu văn bản (HTML)
  • Ngôn ngữ đánh dấu mở rộng (XML)

Ngoài các loại tệp này, Cloud Search còn hỗ trợ lập chỉ mục nội dung trong mọi tệp văn bản thuần tuý.

Các loại tệp và đặc điểm của công nghệ Nhận dạng ký tự quang học (OCR)

Google Cloud Search cũng sử dụng công nghệ OCR để trích xuất văn bản từ các loại tệp sau:

Loại tệp Kích thước tối đa
Nhóm chuyên gia nhiếp ảnh (JPG) 10 MB
Định dạng trao đổi đồ hoạ (GIF) 10 MB
Định dạng tệp hình ảnh được gắn thẻ (TIFF) 10 MB
Đồ hoạ vectơ có thể mở rộng (SVG) 10 MB
Định dạng hình ảnh PostScript (PS) 10 MB
Định dạng tài liệu di động (PDF) 30 MB

Công nghệ OCR cũng hoạt động trên các tệp có các đặc điểm sau:

  • Giấy tờ viết tay. Tài liệu viết bằng chữ cái Latinh, tiếng Nhật và tiếng Hàn sẽ mang lại kết quả tốt nhất.
  • Tài liệu được viết theo chiều dọc, chẳng hạn như tài liệu bằng tiếng Nhật.
  • Tài liệu viết từ phải sang trái, chẳng hạn như tiếng Do Thái.