텍스트 추출을 지원하는 파일 형식

Cloud Search는 파일 형식(MIME 또는 콘텐츠 유형)과 관계없이 전송된 모든 항목의 색인을 생성합니다. 색인 생성은 파일의 메타데이터 데이터 및 지원되는 경우 해당 콘텐츠에서 수행됩니다. 다음은 콘텐츠 색인 생성이 지원되는 파일 형식 목록입니다.

  • Microsoft Word (DOC)
  • Microsoft Word(DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel(XLSX)
  • Microsoft Powerpoint (PPT)
  • Microsoft PowerPoint(PPTX)
  • Adobe의 Portable Document Format (PDF)
  • 서식 있는 텍스트 (RTF)
  • 텍스트 형식 (TXT)
  • 하이퍼텍스트 마크업 언어 (HTML)
  • 확장성 마크업 언어 (XML)

이러한 파일 형식 외에도 Cloud Search는 일반 텍스트 파일 내의 콘텐츠 색인 생성을 지원합니다.

광학 문자 인식 (OCR) 파일 형식 및 특성

또한 Google Cloud Search는 OCR을 사용하여 다음 파일 형식에서 텍스트를 추출합니다.

파일 형식 최대 크기
Joint Photographic Experts Group (JPG) 10MB
GIF (그래픽 교환 형식) 10MB
Tagged Image File Format (TIFF) 10MB
Scalable Vector Graphics (SVG) 10MB
PostScript Image Format (PS) 10MB
Portable Document Format (PDF) 30MB

OCR은 다음과 같은 특성을 가진 파일에서도 작동합니다.

  • 손으로 작성한 문서 라틴 자, 일본어, 한국어로 된 문서가 가장 효과적입니다.
  • 일본어와 같이 세로로 작성된 문서
  • 히브리어와 같이 오른쪽에서 왼쪽으로 쓰는 문서