支援的文字擷取檔案類型

無論檔案類型為何,Cloud Search 都會為傳送的所有項目建立索引 (MIME 或 content-type)。索引是用於檔案的中繼資料資料,以及 (如果支援的話) 包含內容。以下清單列出 SYAML 檔案的內容 索引功能「支援」

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • Adobe 可攜式文件格式 (PDF)
  • RTF 格式
  • 文字格式 (TXT)
  • 超文字標記語言 (HTML)
  • 可延伸標記語言 (XML)

除了這些檔案類型外,Cloud Search 也支援內容索引 任何純文字檔

光學字元辨識 (OCR) 檔案類型與特性

Google Cloud Search 也會使用 OCR 擷取下列檔案類型的文字:

檔案類型 大小上限
聯合攝影專家團體 (JPG 格式) 10 MB
圖片交換格式 (GIF) 10 MB
標記影像檔案格式 (TIFF) 10 MB
可擴充向量圖形 (SVG) 10 MB
PostScript 圖片格式 (PS) 10 MB
可攜式文件格式 (PDF) 30 MB

OCR 也適用於具有下列特性的檔案:

  • 手寫文件。拉丁語系、日文和韓文文件 最佳成效
  • 直向文件,例如日文文件。
  • 從右到左撰寫的文件,例如希伯來文。