ประเภทไฟล์ที่รองรับสําหรับการแยกข้อความ

Cloud Search จะจัดทำดัชนีรายการทั้งหมดที่ส่ง ไม่ว่าไฟล์จะเป็นประเภทใด (MIME หรือประเภทเนื้อหา) การจัดทำดัชนีจะมีการดำเนินการกับข้อมูลเมตาของไฟล์ และ เนื้อหาที่รองรับ ต่อไปนี้เป็นรายการประเภทไฟล์สำหรับเนื้อหา ได้รองรับการจัดทำดัชนี

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • รูปแบบเอกสารแบบพกพาของ Adobe (PDF)
  • รูปแบบ Rich Text (RTF)
  • รูปแบบข้อความ (TXT)
  • ภาษามาร์กอัป Hypertext (HTML)
  • ภาษามาร์กอัปที่ขยายได้ (XML)

นอกเหนือจากประเภทไฟล์เหล่านี้ Cloud Search ยังรองรับการจัดทำดัชนีเนื้อหา ภายในไฟล์ข้อความธรรมดาใดก็ได้

ประเภทไฟล์และลักษณะของไฟล์ Optical Character Recognition (OCR)

นอกจากนี้ Google Cloud Search ยังใช้ OCR เพื่อดึงข้อความจากประเภทไฟล์ต่อไปนี้ด้วย

ประเภทไฟล์ ขนาดสูงสุด
กลุ่มผู้เชี่ยวชาญด้านการถ่ายภาพร่วม (JPG) 10 MB
Graphic Interchange Format (GIF) 10 MB
รูปแบบไฟล์ภาพที่ติดแท็ก (TIFF) 10 MB
ภาพกราฟิกเวกเตอร์ที่รองรับการปรับขนาด (SVG) 10 MB
รูปแบบรูปภาพ PostScript (PS) 10 MB
Portable Document Format (PDF) 30 MB

OCR ยังทำงานกับไฟล์ที่มีลักษณะต่อไปนี้ได้ด้วย

  • เอกสารที่เขียนด้วยลายมือ เอกสารที่เป็นอักษรละติน ญี่ปุ่น และเกาหลี ผลลัพธ์ที่ดีที่สุด
  • เอกสารที่เขียนในแนวตั้ง เช่น เอกสารภาษาญี่ปุ่น
  • เอกสารที่เขียนจากขวาไปซ้าย เช่น ภาษาฮีบรู