أنواع الملفات المتاحة لاستخراج النص

يفهرس Cloud Search جميع العناصر التي تم إرسالها، بغض النظر عن نوع الملف (MIME أو نوع المحتوى). تتم الفهرسة على بيانات البيانات الوصفية للملف، ومحتواه إذا كان ذلك متاحًا. في ما يلي قائمة بأنواع الملفات التي نتيح لها فهرسة المحتوى.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft Powerpoint (PPT)
  • Microsoft Powerpoint (PPTX)
  • تنسيق مستندات Adobe المحمولة (PDF)
  • تنسيق نصوص منسّقة (RTF)
  • تنسيق النص (TXT)
  • لغة ترميز النص التشعبي (HTML)
  • اللغة الترميزية القابلة للامتداد (XML)

بالإضافة إلى أنواع الملفات هذه، يتيح Cloud Search فهرسة المحتوى داخل أي ملف نصي عادي.

أنواع ملفات التعرّف البصري على الأحرف (OCR) وخصائصها

يستخدم Google Cloud Search أيضًا ميزة "التعرّف البصري على الأحرف" لاستخراج النص من أنواع الملفات التالية:

نوع الملف الحد الأقصى للحجم
الفريق المشترك لخبراء التصوير الفوتوغرافي (JPG) 10 ميغابيات
تنسيق تبادل الرسومات (GIF) 10 ميغابيات
Tagged Image File Format (TIFF) 10 ميغابيات
رسومات موجهة قابلة للتحجيم (SVG) 10 ميغابيات
تنسيق صور PostScript (PS) 10 ميغابيات
تنسيق مستندات قابلة للنقل (PDF) 30 ميغابايت

تعمل ميزة "التعرّف البصري على الأحرف" أيضًا على الملفات التي تتضمّن هذه الخصائص:

  • المستندات المكتوبة بخط اليد المستندات المكتوبة بالنصوص اللاتينية واليابانية والكورية أفضل النتائج.
  • المستندات المكتوبة رأسيًا، مثل تلك المكتوبة باللغة اليابانية.
  • المستندات المكتوبة من اليمين إلى اليسار، مثل اللغة العبرية