의견 보내기
텍스트 추출을 지원하는 파일 형식
컬렉션을 사용해 정리하기
내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.
Cloud Search는 파일 형식(MIME 또는 콘텐츠 유형)에 관계없이 전송된 모든 항목의 색인을 생성합니다. 색인 생성은 파일의 메타데이터 데이터와 지원되는 경우 콘텐츠에 대해 실행됩니다. 다음은 콘텐츠 색인이 생성되는 파일 형식 목록입니다.
Microsoft Word (DOC)
Microsoft Word(DOCX)
Microsoft Excel (XLS)
Microsoft Excel(XLSX)
Microsoft PowerPoint (PPT)
Microsoft PowerPoint(PPTX)
Adobe의 Portable Document Format (PDF)
Rich Text Format (RTF)
텍스트 형식 (TXT)
하이퍼텍스트 마크업 언어 (HTML)
확장 가능한 마크업 언어 (XML)
이러한 파일 형식 외에도 Cloud Search는 일반 텍스트 파일 내 콘텐츠의 색인 생성을 지원합니다.
광학 문자 인식 (OCR) 파일 형식 및 특성
Google Cloud Search에서는 OCR을 사용하여 다음 파일 형식에서 텍스트를 추출합니다.
파일 형식
최대 크기
Joint Photographic Experts Group (JPG)
10MB
그래픽 교환 형식 (GIF)
10MB
Tagged Image File Format (TIFF)
10MB
Scalable Vector Graphics (SVG)
10MB
PostScript 이미지 형식 (PS)
10MB
휴대용 문서 형식 (PDF)
30MB
참고: Cloud Search는 ASYNCHRONOUS
모드에서 색인을 생성할 때만 PDF 파일에 OCR을 사용하며 PDF 파일의 처음 80페이지에 OCR을 적용합니다. OCR을 사용하려면 항목의 ItemMetadata.mimeType
이 application/pdf
로 지정되어야 하며 PDF 파일에 스캔된 이미지만 포함되어야 합니다. PDF 파일에 기본 텍스트 콘텐츠가 포함된 경우 Cloud Search는 기본 콘텐츠의 색인을 생성하고 이미지에 OCR을 적용하지 않습니다.
OCR은 다음과 같은 특성을 가진 파일에서도 작동합니다.
필기 문서 라틴 문자, 일본어, 한국어로 작성된 문서가 가장 좋은 결과를 얻습니다.
일본어로 작성된 문서와 같이 세로로 작성된 문서
히브리어와 같이 오른쪽에서 왼쪽으로 작성된 문서
의견 보내기
달리 명시되지 않는 한 이 페이지의 콘텐츠에는 Creative Commons Attribution 4.0 라이선스 에 따라 라이선스가 부여되며, 코드 샘플에는 Apache 2.0 라이선스 에 따라 라이선스가 부여됩니다. 자세한 내용은 Google Developers 사이트 정책 을 참조하세요. 자바는 Oracle 및/또는 Oracle 계열사의 등록 상표입니다.
최종 업데이트: 2025-03-18(UTC)
의견을 전달하고 싶나요?
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["필요한 정보가 없음","missingTheInformationINeed","thumb-down"],["너무 복잡함/단계 수가 너무 많음","tooComplicatedTooManySteps","thumb-down"],["오래됨","outOfDate","thumb-down"],["번역 문제","translationIssue","thumb-down"],["샘플/코드 문제","samplesCodeIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-03-18(UTC)"],[],[]]