ประเภทไฟล์ที่รองรับสําหรับการแยกข้อความ

Cloud Search จะจัดทำดัชนีรายการทั้งหมดที่ส่ง ไม่ว่าจะเป็นไฟล์ประเภทใดก็ตาม (MIME หรือประเภทเนื้อหา) ระบบจะจัดทำดัชนีข้อมูลเมตาของไฟล์และ เนื้อหาที่รองรับ ต่อไปนี้เป็นรายการประเภทไฟล์สำหรับเนื้อหา ได้รองรับการจัดทำดัชนี

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • รูปแบบเอกสารแบบพกพาของ Adobe (PDF)
  • รูปแบบ Rich Text (RTF)
  • รูปแบบข้อความ (TXT)
  • ภาษามาร์กอัป Hypertext (HTML)
  • ภาษามาร์กอัปที่ขยายได้ (XML)

นอกเหนือจากประเภทไฟล์เหล่านี้ Cloud Search ยังรองรับการจัดทำดัชนีเนื้อหา ภายในไฟล์ข้อความธรรมดาใดก็ได้

ประเภทไฟล์และลักษณะของไฟล์ Optical Character Recognition (OCR)

นอกจากนี้ Google Cloud Search ยังใช้ OCR เพื่อดึงข้อความจากประเภทไฟล์ต่อไปนี้ด้วย

ประเภทไฟล์ ขนาดสูงสุด
กลุ่มผู้เชี่ยวชาญด้านการถ่ายภาพร่วม (JPG) 10 MB
Graphic Interchange Format (GIF) 10 MB
รูปแบบไฟล์ภาพที่ติดแท็ก (TIFF) 10 MB
ภาพกราฟิกเวกเตอร์ที่รองรับการปรับขนาด (SVG) 10 MB
รูปแบบรูปภาพ PostScript (PS) 10 MB
Portable Document Format (PDF) 30 MB

OCR ยังทำงานกับไฟล์ที่มีลักษณะต่อไปนี้ได้ด้วย

  • เอกสารที่เขียนด้วยลายมือ เอกสารที่เป็นอักษรละติน ญี่ปุ่น และเกาหลี ผลลัพธ์ที่ดีที่สุด
  • เอกสารที่เขียนในแนวตั้ง เช่น เอกสารภาษาญี่ปุ่น
  • เอกสารที่เขียนจากขวาไปซ้าย เช่น ภาษาฮีบรู