Norconex HTTP Collector 색인 생성기 플러그인 배포

이 가이드는 Google Cloud Search Norconex HTTP Collector 색인 생성기 플러그인 관리자, 즉 색인 생성기 플러그인을 다운로드, 배포, 구성, 유지관리할 책임이 있는 모든 사용자를 대상으로 합니다. 이 가이드는 사용자가 Linux 운영체제, 웹 크롤링 기본 사항, XML, Norconex HTTP Collector에 익숙하다는 전제로 준비되었습니다.

이 가이드에는 색인 생성기 플러그인 배포와 관련된 주요 태스크 수행을 돕기 위한 안내가 포함되어 있습니다.

  • 색인 생성기 플러그인 소프트웨어 다운로드
  • Google Cloud Search 구성
  • Norconex HTTP Collector 및 웹 크롤링 구성
  • 웹 크롤링 시작 및 콘텐츠 업로드

Google Workspace 관리자가 Google Cloud Search를 Norconex HTTP Collector 색인 생성기 플러그인에 매핑하기 위해 수행해야 하는 작업에 대한 정보는 이 가이드에 포함되어 있지 않습니다. 해당 작업에 대한 자세한 내용은 타사 데이터 소스 관리를 참조하세요.

Cloud Search Norconex HTTP Collector 색인 생성기 플러그인 개요

Cloud Search는 기본적으로 Google 문서, Gmail과 같은 Google Workspace 제품에서 콘텐츠 검색, 콘텐츠 색인 생성 및 콘텐츠 제공이 가능합니다. 오픈소스 엔터프라이즈 웹 크롤러인 Norconex HTTP Collector의 색인 생성기 플러그인을 배포하여 사용자에게 웹 콘텐츠를 제공하는 기능을 포함하도록 Google Cloud Search의 범위를 확장할 수 있습니다.

구성 속성 파일

색인 생성기 플러그인이 웹 크롤링을 수행하고 Indexing API에 콘텐츠를 업로드할 수 있게 하려면 색인 생성기 플러그인 관리자로서 이 문서의 배포 단계에 설명된 구성 과정에 관련 정보를 제공해야 합니다.

색인 생성기 플러그인을 사용하려면 2개의 구성 파일에서 속성을 설정해야 합니다.

  • {gcs-crawl-config.xml}-- Norconex HTTP Collector의 설정을 포함합니다.
  • sdk-configuration.properties: Google Cloud Search의 설정이 포함됩니다.

각 파일의 속성을 통해 Google Cloud Search 색인 생성기 플러그인과 Norconex HTTP Collector가 서로 통신할 수 있습니다.

웹 크롤링 및 콘텐츠 업로드

구성 파일을 채우면 웹 크롤링을 시작하는 데 필요한 설정이 완료됩니다. Norconex HTTP Collector는 웹을 크롤링하여 구성과 관련된 문서 콘텐츠를 검색하고 문서 콘텐츠의 원본 바이너리(또는 텍스트) 버전을 Cloud Search Indexing API에 업로드합니다. 그러면 여기에서 색인이 생성되어 사용자에게 제공됩니다.

지원되는 운영체제

Google Cloud Search Norconex HTTP Collector 색인 생성기 플러그인은 Linux에 설치해야 합니다.

지원되는 Norconex HTTP Collector 버전

Google Cloud Search Norconex HTTP Collector 색인 생성기 플러그인은 버전 2.8.0을 지원합니다.

ACL 지원

색인 생성기 플러그인은 액세스 제어 목록 (ACL)을 사용하여 Google Workspace 도메인의 문서에 대한 액세스 제어를 지원합니다.

Google Cloud Search 플러그인 구성에서 기본 ACL이 사용 설정되어 있으면(defaultAcl.modenone 이외의 값으로 설정되고 defaultAcl.*로 구성된 경우) 색인 생성기 플러그인이 먼저 기본 ACL을 만들고 적용하려고 시도합니다.

기본 ACL이 사용 설정되어 있지 않으면 플러그인이 전체 Google Workspace 도메인에 대한 읽기 권한을 부여합니다.

ACL 구성 매개변수에 대한 자세한 설명은 Google 제공 커넥터 매개변수를 참조하세요.

기본 요건

색인 생성기 플러그인을 배포하기 전에 다음과 같은 필수 구성요소가 있는지 확인하세요.

  • 색인 생성기 플러그인을 실행하는 컴퓨터에 설치된 자바 JRE 1.8
  • Cloud Search와 Norconex HTTP Collector 간의 관계를 설정하는 데 필요한 Google Workspace 정보:

    일반적으로 도메인의 Google Workspace 관리자가 이러한 사용자 인증 정보를 제공할 수 있습니다.

배포 단계

색인 생성기 플러그인을 배포하려면 다음 단계를 따르세요.

  1. Norconex HTTP Collector 및 색인 생성기 플러그인 소프트웨어 설치
  2. Google Cloud Search 구성
  3. Norconex HTTP Collector 구성
  4. 웹 크롤링 구성
  5. 웹 크롤링 시작 및 콘텐츠 업로드

1단계: Norconex HTTP Collector 및 색인 생성기 플러그인 소프트웨어 설치

  1. 이 페이지에서 Norconex 커밋터 소프트웨어를 다운로드합니다.
  2. 다운로드한 소프트웨어의 압축을 ~/norconex/ 폴더에 풉니다.
  3. GitHub에서 커밋터 플러그인을 클론합니다. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git, cd norconex-committer-plugin
  4. 원하는 버전의 커밋터 플러그인을 체크아웃하고 ZIP 파일을 빌드합니다. git checkout tags/v1-0.0.3mvn package (커넥터를 빌드할 때 테스트를 건너뛰려면 mvn package -DskipTests를 사용하세요.)
  5. cd target
  6. 빌드된 플러그인 jar 파일을 norconex lib 디렉터리에 복사합니다. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. 방금 빌드한 ZIP 파일을 추출한 다음 파일의 압축을 풉니다. unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. 설치 스크립트를 실행하여 플러그인의 .jar 및 모든 필수 라이브러리를 http 수집기의 디렉터리에 복사합니다.
    1. 위에 압축을 풀어 추출된 커밋터 플러그인으로 변경합니다. cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. $ sh install.sh를 실행하고 메시지가 표시되면 norconex/norconex-collector-http-{version}/lib에 대한 전체 경로를 대상 디렉터리로 제공합니다.
    3. 중복된 jar 파일이 발견되면 옵션 1을 선택합니다 (대상 Jar와 버전이 같거나 더 큰 경우에만 대상 Jar의 이름을 변경한 후 소스 Jar 복사).

2단계: Google Cloud Search 구성

색인 생성기 플러그인이 Norconex HTTP Collector에 연결되고 관련 콘텐츠의 색인을 생성할 수 있게 하려면 Norconex HTTP Collector가 설치된 Norconex 디렉토리에 Cloud Search 구성 파일을 만들어야 합니다. Cloud Search 구성 파일의 이름을 sdk-configuration.properties로 지정하는 것이 좋습니다.

이 구성 파일은 매개변수를 정의하는 키/값 쌍을 포함해야 합니다. 구성 파일은 최소한 Cloud Search 데이터 소스에 액세스하는 데 필요한 다음 매개변수를 지정해야 합니다.

설정 매개변수
데이터 소스 ID api.sourceId = 1234567890abcdef
필수. Google Workspace 관리자가 설정한 Cloud Search 소스 ID입니다.
서비스 계정 api.serviceAccountPrivateKeyFile = ./PrivateKey.json
필수. Google Workspace 관리자가 색인 생성기 플러그인의 접근성을 위해 만든 Cloud Search 서비스 계정 키 파일입니다.

다음 예는 sdk-configuration.properties 파일을 보여줍니다.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

구성 파일에는 Google에서 제공하는 구성 매개변수도 포함됩니다. 이러한 매개변수는 플러그인이 Google Cloud Search API에 데이터를 푸시하는 방식에 영향을 줄 수 있습니다. 예를 들어 batch.* 매개변수 집합은 커넥터가 요청을 결합하는 방식을 식별합니다.

구성 파일에 매개변수를 정의하지 않으면 기본값이(존재하는 경우) 사용됩니다. 각 매개변수에 대한 자세한 설명은 Google 제공 커넥터 매개변수를 참조하세요.

색인 생성기 플러그인을 구성하여 색인이 생성되는 콘텐츠의 메타데이터와 구조화된 데이터를 채울 수 있습니다. 메타데이터 및 구조화된 데이터 필드에 채울 값은 색인이 생성되는 HTML 콘텐츠의 메타 태그에서 추출하거나 구성 파일에 기본값을 지정할 수 있습니다.

설정 매개변수
제목 itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
기본적으로 이 플러그인은 HTML title을 색인이 생성되는 문서의 제목으로 사용합니다. 제목이 없으면 문서 제목에 해당하는 값을 포함하는 메타데이터 속성을 참조하거나 기본값을 설정할 수 있습니다.
생성된 타임스탬프 itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
문서 생성 타임스탬프 값이 포함된 메타데이터 속성입니다.
최종 수정 시간 itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
문서의 마지막 수정 타임스탬프 값이 포함된 메타데이터 속성입니다.
문서 언어 itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
색인이 생성되는 문서의 콘텐츠 언어입니다.
스키마 객체 유형 itemMetadata.objectType=movie
데이터 소스 스키마 객체 정의에 명시된 대로 사이트에서 사용되는 객체 유형입니다. 이 속성을 지정하지 않으면 커넥터가 구조화된 데이터의 색인을 생성하지 않습니다.

참고: 이 구성 속성은 메타데이터 속성이 아닌 값을 가리키며 .field.defaultValue 서픽스는 지원되지 않습니다.

날짜/시간 형식

날짜/시간 형식은 메타데이터 속성에 필요한 형식을 지정합니다. 구성 파일에 이 매개변수가 없으면 기본값이 사용됩니다. 다음 표에서는 이 매개변수를 보여줍니다.

설정

매개변수

추가 날짜/시간 패턴

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

추가 java.time.format.DateTimeFormatter 패턴의 세미콜론으로 구분된 목록입니다. 이 패턴은 메타데이터 또는 스키마에서 날짜 또는 날짜-시간 필드의 문자열 값을 파싱할 때 사용됩니다. 기본값은 빈 목록이지만 RFC 3339 및 RFC 1123 형식은 항상 지원됩니다.

3단계: Norconex HTTP Collector 구성

zip 보관 파일 norconex-committer-google-cloud-search-{version}.zip에는 샘플 구성 파일 minimum-config.xml이 포함되어 있습니다.

샘플 파일을 복사하여 구성을 시작하는 것이 좋습니다.

  1. Norconex HTTP Collector 디렉터리(
    )로 변경합니다. $ cd ~/norconex/norconex-collector-http-{version}/
  2. 구성 파일
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml을 복사합니다.
  3. 새로 만든 파일 (이 예에서는 gcs-crawl-config.xml)을 수정하고 아래 표의 설명대로 기존 <committer><tagger> 노드를 추가하거나 바꿉니다.
설정 매개변수
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

필수. 플러그인을 사용 설정하려면 <committer> 노드를 루트 <httpcollector> 노드의 하위 노드로 추가해야 합니다.
<UploadFormat> <uploadFormat>raw</uploadFormat>
선택사항입니다. 색인 생성기 플러그인이 문서 콘텐츠를 Google Cloud Search Indexer API에 푸시하는 형식입니다. 유효한 값은 다음과 같습니다.
  • raw: 색인 생성기 플러그인이 변환되지 않은 원본 문서 콘텐츠를 푸시합니다.
  • text: 색인 생성기 플러그인이 추출된 텍스트 콘텐츠를 푸시합니다.

기본값은 raw입니다.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
<UploadFormat>의 값이 raw인 경우에 필요합니다. 이 경우 색인 생성기 플러그인을 위해 문서의 바이너리 콘텐츠 필드를 사용할 수 있어야 합니다.

BinaryContentTagger <tagger> 노드를 <importer> / <preParseHandlers> 노드의 하위 요소로 추가해야 합니다.

다음 예는 gcs-crawl-config.xml에 필요한 수정사항을 보여줍니다.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

4단계: 웹 크롤링 구성

웹 크롤링을 시작하기 전에 먼저 조직에서 검색 결과에 제공하려는 정보만 포함하도록 크롤링을 구성해야 합니다. 웹 크롤링에 가장 중요한 설정은 <crawler> 노드의 일부이며 다음을 포함할 수 있습니다.

  • 시작 URL
  • 크롤링의 최대 깊이
  • 스레드 수

필요한 경우 이 구성 값을 변경합니다. 웹 크롤링 설정에 대한 자세한 내용과 사용 가능한 구성 매개변수의 전체 목록은 HTTP Collector의 구성 페이지를 참조하세요.

5단계: 웹 크롤링 시작 및 콘텐츠 업로드

색인 생성기 플러그인을 설치하고 설정한 후에는 로컬 모드에서 자체적으로 실행할 수 있습니다.

다음의 예는 필수 구성요소가 Linux 시스템의 로컬 디렉토리에 있다는 가정을 전제로 합니다. 다음 명령어를 실행합니다.

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

JEF Monitor로 크롤러 모니터링

Norconex JEF(Job Execution Framework) Monitor는 Norconex Web Crawler(HTTP Collector) 프로세스 및 작업의 진행 상황을 모니터링하기 위한 그래픽 도구입니다. 이 유틸리티를 설정하는 방법에 대한 전체 가이드는 Monitor your crawler's progress with JEF Monitor(JEF Monitor로 크롤러 진행 상태 모니터링)를 참조하세요.