텍스트 추출을 지원하는 파일 형식

Cloud Search는 파일 형식에 관계없이 전송된 모든 항목의 색인을 생성합니다. (MIME 또는 콘텐츠 유형) 색인 생성은 파일의 메타데이터 데이터에 대해 수행되며 표시됩니다(지원되는 경우). 다음은 Google Play에서 업로드할 콘텐츠를 색인 생성이 지원됩니다.

  • Microsoft Word (DOC)
  • Microsoft Word(DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel(XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint(PPTX)
  • Adobe의 휴대용 문서 형식 (PDF)
  • 서식 있는 텍스트 형식 (RTF)
  • 텍스트 형식 (TXT)
  • 하이퍼텍스트 마크업 언어 (HTML)
  • 확장성 마크업 언어 (XML)

Cloud Search는 이러한 파일 형식 외에도 콘텐츠 색인 생성을 지원합니다. .

광학 문자 인식 (OCR) 파일 형식 및 특성

또한 Google Cloud Search는 OCR을 사용하여 다음 파일 형식에서 텍스트를 추출합니다.

파일 형식 최대 크기
JPG (Joint Photographic Experts Group) 10MB
그래픽 교환 형식 (GIF) 10MB
Tagged Image File Format (TIFF) 10MB
Scalable Vector Graphics (SVG) 10MB
PS (PostScript Image Format) 10MB
휴대용 문서 형식 (PDF) 30MB

OCR은 다음과 같은 특성을 가진 파일에서도 작동합니다.

  • 수기 문서 라틴 자모, 일본어, 한국어로 된 문서 출력 최상의 결과를 얻을 수 있습니다.
  • 일본어와 같이 세로로 작성된 문서
  • 오른쪽에서 왼쪽으로 쓰는 문서(예: 히브리어)