Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang
Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.
Cloud Search lập chỉ mục tất cả các mục được gửi, bất kể loại tệp
(MIME hoặc content-type). Lập chỉ mục được thực hiện trên dữ liệu siêu dữ liệu của tệp và
nếu được hỗ trợ, nội dung của đường liên kết đó. Dưới đây là danh sách các loại tệp chứa nội dung
được hỗ trợ lập chỉ mục.
Microsoft Word (DOC)
Microsoft Word (DOCX)
Microsoft Excel (XLS)
Microsoft Excel (XLSX)
Microsoft PowerPoint (PPT)
Microsoft PowerPoint (PPTX)
Định dạng tài liệu di động của Adobe (PDF)
Định dạng văn bản đa dạng thức (RTF)
Định dạng văn bản (TXT)
Ngôn ngữ đánh dấu siêu văn bản (HTML)
Ngôn ngữ đánh dấu mở rộng (XML)
Ngoài các loại tệp này, Cloud Search hỗ trợ lập chỉ mục nội dung
trong bất kỳ tệp văn bản thuần tuý nào.
Đặc điểm và loại tệp Nhận dạng ký tự quang học (OCR)
Google Cloud Search cũng sử dụng công nghệ Nhận dạng ký tự quang học (OCR) để trích xuất văn bản từ các loại tệp sau:
Loại tệp
Kích thước tối đa
Nhóm Chuyên gia nhiếp ảnh chung (JPG)
10 MB
Định dạng trao đổi đồ hoạ (GIF)
10 MB
Định dạng tệp hình ảnh được gắn thẻ (TIFF)
10 MB
Đồ hoạ vectơ có thể mở rộng (SVG)
10 MB
Định dạng hình ảnh PostScript (PS)
10 MB
Định dạng tài liệu di động (PDF)
30 MB
Công nghệ Nhận dạng ký tự quang học (OCR) cũng hoạt động trên các tệp có các đặc điểm sau:
Tài liệu viết tay. Chứng từ bằng chữ Latinh, tiếng Nhật và tiếng Hàn
kết quả tốt nhất.
Tài liệu viết theo chiều dọc, chẳng hạn như tài liệu bằng tiếng Nhật.
Các tài liệu được viết từ phải sang trái, chẳng hạn như tiếng Do Thái.
[[["Dễ hiểu","easyToUnderstand","thumb-up"],["Giúp tôi giải quyết được vấn đề","solvedMyProblem","thumb-up"],["Khác","otherUp","thumb-up"]],[["Thiếu thông tin tôi cần","missingTheInformationINeed","thumb-down"],["Quá phức tạp/quá nhiều bước","tooComplicatedTooManySteps","thumb-down"],["Đã lỗi thời","outOfDate","thumb-down"],["Vấn đề về bản dịch","translationIssue","thumb-down"],["Vấn đề về mẫu/mã","samplesCodeIssue","thumb-down"],["Khác","otherDown","thumb-down"]],["Cập nhật lần gần đây nhất: 2024-09-03 UTC."],[[["Cloud Search indexes metadata for all file types and content for specific supported formats like Microsoft Office, PDF, RTF, TXT, HTML, and XML, as well as any plain text file."],["Cloud Search uses Optical Character Recognition (OCR) to extract text from image file types such as JPG, GIF, TIFF, SVG, PS, and PDFs (under certain conditions and size limits)."],["OCR technology in Cloud Search supports various document characteristics, including handwritten documents (Latin, Japanese, Korean), vertically written documents (e.g., Japanese), and right-to-left written documents (e.g., Hebrew)."]]],[]]