انواع فایل های پشتیبانی شده برای استخراج متن

Cloud Search تمام موارد ارسال شده را بدون در نظر گرفتن نوع فایل (MIME یا نوع محتوا) فهرست می کند. نمایه سازی بر روی داده های فراداده یک فایل و در صورت پشتیبانی، محتوای آن انجام می شود. در زیر لیستی از انواع فایل هایی که نمایه سازی محتوا برای آنها پشتیبانی می شود ، آمده است.

  • مایکروسافت ورد (DOC)
  • مایکروسافت ورد (DOCX)
  • مایکروسافت اکسل (XLS)
  • مایکروسافت اکسل (XLSX)
  • Microsoft Powerpoint (PPT)
  • مایکروسافت پاورپوینت (PPTX)
  • فرمت سند قابل حمل Adobe (PDF)
  • فرمت متن غنی (RTF)
  • فرمت متن (TXT)
  • زبان نشانه گذاری فرامتن (HTML)
  • زبان نشانه گذاری توسعه پذیر (XML)

علاوه بر این انواع فایل، جستجوی ابری از فهرست بندی محتوا در هر فایل متنی ساده پشتیبانی می کند.

انواع فایل ها و ویژگی های تشخیص کاراکتر نوری (OCR).

Google Cloud Search همچنین از OCR برای استخراج متن از انواع فایل های زیر استفاده می کند:

نوع فایل حداکثر اندازه
گروه مشترک کارشناسان عکاسی (JPG) 10 مگابایت
فرمت تبادل گرافیکی (GIF) 10 مگابایت
فرمت فایل تصویر برچسب شده (TIFF) 10 مگابایت
گرافیک برداری مقیاس پذیر (SVG) 10 مگابایت
فرمت تصویر پست اسکریپت (PS) 10 مگابایت
فرمت سند قابل حمل (PDF) 30 مگابایت

OCR همچنین روی فایل هایی با این ویژگی ها کار می کند:

  • اسناد دست نویس. اسناد به خط لاتین، ژاپنی و کره ای بهترین نتیجه را دارند.
  • اسناد عمودی نوشته شده، مانند مواردی که به زبان ژاپنی هستند.
  • اسناد نوشته شده از راست به چپ، مانند عبری.