أنواع الملفات المتاحة لاستخراج النص

وفهرِس Cloud Search جميع العناصر التي يتم إرسالها، بغض النظر عن نوع الملف (MIME أو نوع المحتوى). يتم إجراء الفهرسة على بيانات البيانات الوصفية للملف، وكذلك على محتوى الملف، إذا كان ذلك متوافقًا. في ما يلي قائمة بأنواع الملفات التي يمكن فهرسة محتواها.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel ‏ (XLSX)
  • Microsoft Powerpoint (PPT)
  • Microsoft Powerpoint (PPTX)
  • تنسيق Portable Document Format ‏ (PDF) من Adobe
  • تنسيق النصوص المنسّقة (RTF)
  • تنسيق النص (TXT)
  • لغة ترميز النص الفائق (HTML)
  • لغة الترميز القابلة للامتداد (XML)

بالإضافة إلى أنواع الملفات هذه، تتيح خدمة Cloud Search فهرسة المحتوى داخل أي ملف نصي عادي.

أنواع ملفات التعرّف البصري على الأحرف (OCR) وخصائصها

يستخدم Google Cloud Search أيضًا تقنية التعرّف البصري على الأحرف لاستخراج النصوص من أنواع الملفات التالية:

نوع الملف الحد الأقصى للحجم
Joint Photographic Experts Group (JPG) 10 ميغابايت
تنسيق تبادل الرسومات (GIF) 10 ميغابايت
Tagged Image File Format ‏ (TIFF) 10 ميغابايت
رسومات موجّهة يمكن تغيير حجمها (SVG) 10 ميغابايت
تنسيق PostScript Image Format (PS) 10 ميغابايت
Portable Document Format (PDF) 30 ميغابايت

تعمل تقنية التعرّف على النصوص أيضًا على الملفات التي تتضمّن الخصائص التالية:

  • المستندات المكتوبة بخط اليد تحقّق المستندات المكتوبة بالأحرف اللاتينية واليابانية والكورية أفضل النتائج.
  • المستندات المكتوبة عموديًا، مثل تلك باللغة اليابانية
  • المستندات المكتوبة من اليمين إلى اليسار، مثل العبرية