Triển khai trình bổ trợ Norconex HTTP Collector Indexer

Hướng dẫn này dành cho quản trị viên chịu trách nhiệm tải xuống, triển khai và duy trì trình bổ trợ lập chỉ mục Norconex HTTP Collector của Google Cloud Search. Bạn nên làm quen với Linux, các nguyên tắc cơ bản về thu thập thông tin trên web, XML và Norconex HTTP Collector.

Hướng dẫn này bao gồm hướng dẫn về cách:

  • Tải phần mềm trình bổ trợ lập chỉ mục xuống.
  • Định cấu hình Cloud Search.
  • Định cấu hình Norconex HTTP Collector và tính năng thu thập thông tin trên web.
  • Bắt đầu thu thập thông tin trên web và tải nội dung lên.

Thông tin về các tác vụ mà quản trị viên Google Workspace phải thực hiện không xuất hiện trong hướng dẫn này. Để biết thông tin về các tác vụ đó, hãy xem bài viết Quản lý nguồn dữ liệu bên thứ ba.

Tổng quan về trình bổ trợ lập chỉ mục Norconex HTTP Collector

Theo mặc định, Cloud Search có thể phát hiện, lập chỉ mục và phân phát nội dung từ các sản phẩm của Google Workspace, chẳng hạn như Google Tài liệu và Gmail. Bạn có thể mở rộng tính năng này để bao gồm nội dung trên web bằng cách triển khai trình bổ trợ lập chỉ mục cho Norconex HTTP Collector, một trình thu thập dữ liệu web nguồn mở dành cho doanh nghiệp.

Tệp thuộc tính cấu hình

Để cho phép trình bổ trợ thu thập thông tin và tải nội dung lên, bạn phải cung cấp thông tin cụ thể trong hai tệp cấu hình:

  • {gcs-crawl-config.xml}: chế độ cài đặt cho Norconex HTTP Collector.
  • sdk-configuration.properties: chế độ cài đặt cho Cloud Search.

Thu thập thông tin trên web và tải nội dung lên

Sau khi điền vào các tệp cấu hình, bạn có thể bắt đầu thu thập thông tin trên web. Norconex HTTP Collector thu thập thông tin trên web và tải nội dung tài liệu văn bản hoặc nhị phân gốc lên API Lập chỉ mục Cloud Search.

Yêu cầu về hệ thống

  • Hệ điều hành: Chỉ Linux.
  • Phiên bản Norconex: Phiên bản 2.8.0.
  • Phần mềm: Java JRE 1.8.

Hỗ trợ ACL

Trình bổ trợ lập chỉ mục hỗ trợ Danh sách kiểm soát quyền truy cập (ACL) để kiểm soát quyền truy cập vào tài liệu trong miền Google Workspace.

Nếu bạn bật ACL mặc định trong cấu hình trình bổ trợ (đặt defaultAcl.mode thành giá trị khác none), thì trình bổ trợ sẽ áp dụng các giá trị mặc định này. Nếu không, trình bổ trợ sẽ cấp quyền đọc cho toàn bộ miền. Xem các tham số trình kết nối do Google cung cấp.

Điều kiện tiên quyết

Trước khi triển khai trình bổ trợ lập chỉ mục, hãy thu thập các thành phần sau:

Các bước triển khai

  1. Cài đặt Norconex HTTP Collector và phần mềm trình bổ trợ
  2. Định cấu hình Cloud Search
  3. Định cấu hình Norconex HTTP Collector
  4. Định cấu hình tính năng thu thập thông tin trên web
  5. Bắt đầu thu thập thông tin trên web và tải nội dung lên

Bước 1: Cài đặt Norconex HTTP Collector và phần mềm trình bổ trợ

  1. Tải phần mềm trình cam kết Norconex xuống từ trang tải xuống Norconex.
  2. Giải nén phần mềm vào ~/norconex/.
  3. Nhân bản trình bổ trợ trình cam kết:

    git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
    cd norconex-committer-plugin
    
  4. Kiểm tra phiên bản bạn đã chọn và tạo trình bổ trợ:

    git checkout tags/v1-0.0.3
    mvn package
    

    Để bỏ qua các bài kiểm thử, hãy sử dụng mvn package -DskipTests.

  5. Sao chép tệp JAR vào thư mục lib của Norconex:

    cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib
    
  6. Giải nén tệp ZIP đã tạo:

    unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
    cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    
  7. Chạy tập lệnh cài đặt và cung cấp đường dẫn đầy đủ đến thư mục lib của Norconex:

    sh install.sh
    

    Nếu được nhắc về các tệp trùng lặp, hãy chọn tuỳ chọn 1.

Bước 2: Định cấu hình Cloud Search

Tạo sdk-configuration.properties trong thư mục Norconex. Tệp này phải chỉ định các tham số sau:

Cài đặt Tham số
Mã nguồn dữ liệu api.sourceId = 1234567890abcdef
Bắt buộc. Mã nguồn do quản trị viên Google Workspace của bạn cung cấp.
Tài khoản dịch vụ api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Bắt buộc. Tệp khoá tài khoản dịch vụ.

Ví dụ về sdk-configuration.properties:

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

Bạn cũng có thể thêm các tham số như batch.* để kiểm soát cách trình bổ trợ đẩy dữ liệu. Xem các tham số trình kết nối do Google cung cấp.

Để điền siêu dữ liệu, hãy định cấu hình các tham số không bắt buộc sau:

Cài đặt Tham số
Tiêu đề itemMetadata.title.field=movieTitle
Loại đối tượng giản đồ itemMetadata.objectType=movie

Bước 3: Định cấu hình Norconex HTTP Collector

Trình bổ trợ bao gồm một tệp mẫu, minimum-config.xml.

  1. Chuyển sang thư mục Norconex và sao chép mẫu:

    cd ~/norconex/norconex-collector-http-VERSION/
    cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
    
  2. Chỉnh sửa gcs-crawl-config.xml để thêm hoặc thay thế <committer><tagger> các nút:

Cài đặt Tham số
Nút <committer> <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Bắt buộc. Thêm nút này trong nút <httpcollector>.
<uploadFormat> <uploadFormat>raw</uploadFormat>
Không bắt buộc. raw hoặc text. Giá trị mặc định là raw.

Ví dụ về gcs-crawl-config.xml:

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Bước 4: Định cấu hình tính năng thu thập thông tin trên web

Định cấu hình các nút <crawler> cho nhu cầu của bạn, bao gồm:

  • URL bắt đầu
  • Độ sâu thu thập thông tin tối đa
  • Số lượng luồng

Xem trang cấu hình Norconex.

Bước 5: Bắt đầu thu thập thông tin trên web và tải nội dung lên

Chạy trình thu thập thông tin ở chế độ cục bộ:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Theo dõi trình thu thập thông tin bằng JEF Monitor

Norconex JEF (Job Execution Framework) Monitor cung cấp chế độ xem đồ hoạ về tiến trình. Xem bài viết Theo dõi trình thu thập thông tin bằng JEF Monitor.