أنواع الملفات المتاحة لاستخراج النص

تفهرس خدمة Cloud Search جميع العناصر التي يتم إرسالها، بغض النظر عن نوع الملف (MIME أو نوع المحتوى). يتم تنفيذ الفهرسة على بيانات البيانات الوصفية للملف ومحتواه، إذا كان ذلك ممكنًا. وفي ما يلي قائمة بأنواع الملفات التي تتيح إمكانية فهرسة المحتوى.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft Powerpoint (PPT)
  • Microsoft Powerpoint (PPTX)
  • Adobe’s Portable Document Format (PDF)
  • تنسيق نصوص منسّقة (RTF)
  • تنسيق النص (TXT)
  • لغة ترميز النص التشعبي (HTML)
  • لغة ترميزية قابلة للامتداد (XML)

بالإضافة إلى أنواع الملفات هذه، تتيح خدمة Cloud Search فهرسة المحتوى داخل أي ملف نص عادي.

أنواع ملفات التعرّف البصري على الأحرف (OCR) وخصائصها

يستخدم Google Cloud Search أيضًا تقنية التعرّف البصري على الأحرف (OCR) لاستخراج النص من أنواع الملفات التالية:

نوع الملف الحد الأقصى للحجم
الفريق المشترك لخبراء التصوير الفوتوغرافي (JPG) 10 ميغابيات
تنسيق تبادل الرسومات (GIF) 10 ميغابيات
تنسيق ملف الصور ذات العلامات (TIFF) 10 ميغابيات
رسومات موجّهة يمكن تغيير حجمها (SVG) 10 ميغابيات
تنسيق صورة PostScript (PS) 10 ميغابيات
تنسيق مستندات محمولة (PDF) 30 ميغابايت

تعمل تقنية التعرّف البصري على الأحرف أيضًا مع الملفات التي تتميّز بالسمات التالية:

  • المستندات المكتوبة بخط اليد المستندات المكتوبة بالنصوص اللاتينية، واليابانية والكورية تحقق أفضل النتائج.
  • المستندات المكتوبة عموديًا، مثل المستندات المكتوبة باللغة اليابانية
  • مستندات مكتوبة من اليمين إلى اليسار، مثل العبرية.