أنواع الملفات المتاحة لاستخراج النص

تعمل خدمة Cloud Search على فهرسة جميع العناصر التي يتم إرسالها، بغض النظر عن نوع الملف. (MIME أو نوع المحتوى) يتم تنفيذ الفهرسة على بيانات البيانات الوصفية للملف ومحتواه، إن كان مدعومًا. في ما يلي قائمة بأنواع الملفات التي يمكن عرض محتوى الفهرسة متاحة

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft Powerpoint (PPT)
  • Microsoft Powerpoint (PPTX)
  • Adobe’s Portable Document Format (PDF)
  • تنسيق نصوص منسّقة (RTF)
  • تنسيق النص (TXT)
  • لغة ترميز النص التشعبي (HTML)
  • لغة ترميزية قابلة للامتداد (XML)

بالإضافة إلى أنواع الملفات هذه، تتيح خدمة Cloud Search فهرسة المحتوى داخل أي ملف نص عادي.

أنواع ملفات التعرّف البصري على الأحرف (OCR) وخصائصها

يستخدم Google Cloud Search أيضًا تقنية التعرّف البصري على الأحرف (OCR) لاستخراج النص من أنواع الملفات التالية:

نوع الملف الحد الأقصى للحجم
الفريق المشترك لخبراء التصوير الفوتوغرافي (JPG) 10 ميغابايت
تنسيق تبادل الرسومات (GIF) 10 ميغابايت
تنسيق ملف الصور ذات العلامات (TIFF) 10 ميغابايت
رسومات موجّهة يمكن تغيير حجمها (SVG) 10 ميغابايت
تنسيق صورة PostScript (PS) 10 ميغابايت
تنسيق مستندات محمولة (PDF) 30 ميغابايت

تعمل تقنية التعرّف البصري على الأحرف أيضًا مع الملفات التي تتميّز بالسمات التالية:

  • المستندات المكتوبة بخط اليد المستندات المكتوبة بالنصوص اللاتينية واليابانية والكورية أفضل النتائج.
  • المستندات المكتوبة عموديًا، مثل المستندات المكتوبة باللغة اليابانية
  • مستندات مكتوبة من اليمين إلى اليسار، مثل العبرية.