텍스트 추출을 지원하는 파일 형식

Cloud Search는 파일 형식(MIME 또는 콘텐츠 유형)에 관계없이 전송된 모든 항목의 색인을 생성합니다. 색인 생성은 파일의 메타데이터 데이터와 지원되는 경우 콘텐츠에 대해 실행됩니다. 다음은 콘텐츠 색인이 생성되는 파일 형식 목록입니다.

  • Microsoft Word (DOC)
  • Microsoft Word(DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel(XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint(PPTX)
  • Adobe의 Portable Document Format (PDF)
  • Rich Text Format (RTF)
  • 텍스트 형식 (TXT)
  • 하이퍼텍스트 마크업 언어 (HTML)
  • 확장 가능한 마크업 언어 (XML)

이러한 파일 형식 외에도 Cloud Search는 일반 텍스트 파일 내 콘텐츠의 색인 생성을 지원합니다.

광학 문자 인식 (OCR) 파일 형식 및 특성

Google Cloud Search에서는 OCR을 사용하여 다음 파일 형식에서 텍스트를 추출합니다.

파일 형식 최대 크기
Joint Photographic Experts Group (JPG) 10MB
그래픽 교환 형식 (GIF) 10MB
Tagged Image File Format (TIFF) 10MB
Scalable Vector Graphics (SVG) 10MB
PostScript 이미지 형식 (PS) 10MB
휴대용 문서 형식 (PDF) 30MB

OCR은 다음과 같은 특성을 가진 파일에서도 작동합니다.

  • 필기 문서 라틴 문자, 일본어, 한국어로 작성된 문서가 가장 좋은 결과를 얻습니다.
  • 일본어로 작성된 문서와 같이 세로로 작성된 문서
  • 히브리어와 같이 오른쪽에서 왼쪽으로 작성된 문서