סוגי קבצים נתמכים לחילוץ טקסט

Cloud Search מוסיף לאינדקס את כל הפריטים שנשלחים, ללא קשר לסוג הקובץ (MIME או סוג התוכן). ההוספה לאינדקס מתבצעת בנתוני המטא-נתונים של הקובץ, ובתוכן שלו, אם הוא נתמך. בהמשך מופיעה רשימה של סוגי הקבצים שאפשר להוסיף להם תוכן לאינדקס.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • Adobe's Portable Document Format (PDF)
  • פורמט טקסט עשיר (RTF)
  • פורמט טקסט (TXT)
  • שפת סימון של היפר-טקסט (HTML)
  • שפת סימון ניתנת להרחבה (XML)

בנוסף לסוגי הקבצים האלו, Cloud Search תומך בהוספת תוכן לאינדקס בתוך כל קובץ טקסט פשוט.

סוגי הקבצים והמאפיינים של זיהוי תווים אופטי (OCR)

ב-Google Cloud Search נעשה גם שימוש ב-OCR כדי לחלץ טקסט מסוגי הקבצים הבאים:

סוג הקובץ גודל מקסימלי
קבוצת מומחי הצילום המשותפת (JPG) ‎10 MB
פורמט של החלפה גרפית (GIF) ‎10 MB
פורמט קובץ תמונה מתויג (TIFF) ‎10 MB
Scalable Vector Graphics (SVG) ‎10 MB
PostScript Image Format (PS) ‎10 MB
Portable Document Format (PDF) 30 MB

OCR פועל גם בקבצים עם המאפיינים הבאים:

  • מסמכים בכתב יד מסמכים באותיות לטיניות, ביפנית ובקוריאנית מניבים את התוצאות הטובות ביותר.
  • מסמכים שנכתבו בפורמט אנכי, כמו המסמכים ביפנית.
  • מסמכים שנכתבו מימין לשמאל, כמו עברית.