ประเภทไฟล์ที่รองรับสําหรับการแยกข้อความ

Cloud Search จะจัดทำดัชนีรายการทั้งหมดที่ส่ง ไม่ว่าไฟล์จะเป็นประเภทใดก็ตาม (MIME หรือประเภทเนื้อหา) การจัดทำดัชนีจะมีการดำเนินการกับข้อมูลข้อมูลเมตาของไฟล์ และเนื้อหาในไฟล์ หากรองรับ ต่อไปนี้คือรายการประเภทไฟล์ที่รองรับการจัดทำดัชนีเนื้อหา

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • รูปแบบเอกสารแบบพกพาของ Adobe (PDF)
  • รูปแบบ Rich Text (RTF)
  • รูปแบบข้อความ (TXT)
  • ภาษามาร์กอัป Hypertext (HTML)
  • ภาษามาร์กอัปที่ขยายได้ (XML)

นอกเหนือจากประเภทไฟล์เหล่านี้ Cloud Search ยังรองรับการจัดทำดัชนีเนื้อหาภายในไฟล์ข้อความธรรมดาด้วย

ประเภทไฟล์และลักษณะของไฟล์ Optical Character Recognition (OCR)

นอกจากนี้ Google Cloud Search ยังใช้ OCR เพื่อดึงข้อความจากประเภทไฟล์ต่อไปนี้ด้วย

ประเภทไฟล์ ขนาดสูงสุด
กลุ่มผู้เชี่ยวชาญด้านการถ่ายภาพร่วม (JPG) 10 MB
Graphic Interchange Format (GIF) 10 MB
รูปแบบไฟล์ภาพที่ติดแท็ก (TIFF) 10 MB
ภาพกราฟิกเวกเตอร์ที่รองรับการปรับขนาด (SVG) 10 MB
รูปแบบรูปภาพ PostScript (PS) 10 MB
Portable Document Format (PDF) 30 MB

OCR ยังทำงานกับไฟล์ที่มีลักษณะต่อไปนี้ได้ด้วย

  • เอกสารที่เขียนด้วยลายมือ เอกสารที่เป็นอักษรละติน ญี่ปุ่น และเกาหลีจะให้ผลลัพธ์ที่ดีที่สุด
  • เอกสารที่เขียนในแนวตั้ง เช่น เอกสารภาษาญี่ปุ่น
  • เอกสารที่เขียนจากขวาไปซ้าย เช่น ภาษาฮีบรู