Hướng dẫn này dành cho quản trị viên chịu trách nhiệm tải xuống, triển khai và duy trì trình bổ trợ lập chỉ mục Norconex HTTP Collector của Google Cloud Search. Bạn nên làm quen với Linux, các nguyên tắc cơ bản về thu thập thông tin trên web, XML và Norconex HTTP Collector.
Hướng dẫn này bao gồm hướng dẫn về cách:
- Tải phần mềm trình bổ trợ lập chỉ mục xuống.
- Định cấu hình Cloud Search.
- Định cấu hình Norconex HTTP Collector và tính năng thu thập thông tin trên web.
- Bắt đầu thu thập thông tin trên web và tải nội dung lên.
Thông tin về các tác vụ mà quản trị viên Google Workspace phải thực hiện không xuất hiện trong hướng dẫn này. Để biết thông tin về các tác vụ đó, hãy xem bài viết Quản lý nguồn dữ liệu bên thứ ba.
Tổng quan về trình bổ trợ lập chỉ mục Norconex HTTP Collector
Theo mặc định, Cloud Search có thể phát hiện, lập chỉ mục và phân phát nội dung từ các sản phẩm của Google Workspace, chẳng hạn như Google Tài liệu và Gmail. Bạn có thể mở rộng tính năng này để bao gồm nội dung trên web bằng cách triển khai trình bổ trợ lập chỉ mục cho Norconex HTTP Collector, một trình thu thập dữ liệu web nguồn mở dành cho doanh nghiệp.
Tệp thuộc tính cấu hình
Để cho phép trình bổ trợ thu thập thông tin và tải nội dung lên, bạn phải cung cấp thông tin cụ thể trong hai tệp cấu hình:
{gcs-crawl-config.xml}: chế độ cài đặt cho Norconex HTTP Collector.sdk-configuration.properties: chế độ cài đặt cho Cloud Search.
Thu thập thông tin trên web và tải nội dung lên
Sau khi điền vào các tệp cấu hình, bạn có thể bắt đầu thu thập thông tin trên web. Norconex HTTP Collector thu thập thông tin trên web và tải nội dung tài liệu văn bản hoặc nhị phân gốc lên API Lập chỉ mục Cloud Search.
Yêu cầu về hệ thống
- Hệ điều hành: Chỉ Linux.
- Phiên bản Norconex: Phiên bản 2.8.0.
- Phần mềm: Java JRE 1.8.
Hỗ trợ ACL
Trình bổ trợ lập chỉ mục hỗ trợ Danh sách kiểm soát quyền truy cập (ACL) để kiểm soát quyền truy cập vào tài liệu trong miền Google Workspace.
Nếu bạn bật ACL mặc định trong cấu hình trình bổ trợ (đặt defaultAcl.mode thành giá trị khác none), thì trình bổ trợ sẽ áp dụng các giá trị mặc định này. Nếu không, trình bổ trợ sẽ cấp quyền đọc cho toàn bộ miền. Xem
các tham số trình kết nối do Google cung cấp.
Điều kiện tiên quyết
Trước khi triển khai trình bổ trợ lập chỉ mục, hãy thu thập các thành phần sau:
- Khoá riêng tư của Google Workspace (chứa mã tài khoản dịch vụ). Xem bài viết Định cấu hình quyền truy cập vào API Cloud Search.
- Mã nguồn dữ liệu Google Workspace. Xem bài viết Quản lý nguồn dữ liệu bên thứ ba.
Các bước triển khai
- Cài đặt Norconex HTTP Collector và phần mềm trình bổ trợ
- Định cấu hình Cloud Search
- Định cấu hình Norconex HTTP Collector
- Định cấu hình tính năng thu thập thông tin trên web
- Bắt đầu thu thập thông tin trên web và tải nội dung lên
Bước 1: Cài đặt Norconex HTTP Collector và phần mềm trình bổ trợ
- Tải phần mềm trình cam kết Norconex xuống từ trang tải xuống Norconex.
- Giải nén phần mềm vào
~/norconex/. Nhân bản trình bổ trợ trình cam kết:
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git cd norconex-committer-pluginKiểm tra phiên bản bạn đã chọn và tạo trình bổ trợ:
git checkout tags/v1-0.0.3 mvn packageĐể bỏ qua các bài kiểm thử, hãy sử dụng
mvn package -DskipTests.Sao chép tệp JAR vào thư mục
libcủa Norconex:cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/libGiải nén tệp ZIP đã tạo:
unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3Chạy tập lệnh cài đặt và cung cấp đường dẫn đầy đủ đến thư mục
libcủa Norconex:sh install.shNếu được nhắc về các tệp trùng lặp, hãy chọn tuỳ chọn
1.
Bước 2: Định cấu hình Cloud Search
Tạo sdk-configuration.properties trong thư mục Norconex. Tệp này phải chỉ định các tham số sau:
| Cài đặt | Tham số |
| Mã nguồn dữ liệu | api.sourceId = 1234567890abcdef
Bắt buộc. Mã nguồn do quản trị viên Google Workspace của bạn cung cấp. |
| Tài khoản dịch vụ | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Bắt buộc. Tệp khoá tài khoản dịch vụ. |
Ví dụ về sdk-configuration.properties:
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
Bạn cũng có thể thêm các tham số như batch.* để kiểm soát cách trình bổ trợ đẩy dữ liệu. Xem
các tham số trình kết nối do Google cung cấp.
Để điền siêu dữ liệu, hãy định cấu hình các tham số không bắt buộc sau:
| Cài đặt | Tham số |
| Tiêu đề | itemMetadata.title.field=movieTitle |
| Loại đối tượng giản đồ | itemMetadata.objectType=movie |
Bước 3: Định cấu hình Norconex HTTP Collector
Trình bổ trợ bao gồm một tệp mẫu, minimum-config.xml.
Chuyển sang thư mục Norconex và sao chép mẫu:
cd ~/norconex/norconex-collector-http-VERSION/ cp examples/minimum/minimum-config.xml gcs-crawl-config.xmlChỉnh sửa
gcs-crawl-config.xmlđể thêm hoặc thay thế<committer>và<tagger>các nút:
| Cài đặt | Tham số |
Nút <committer> |
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Bắt buộc. Thêm nút này trong nút <httpcollector>. |
<uploadFormat> |
<uploadFormat>raw</uploadFormat>
Không bắt buộc. raw hoặc text. Giá trị mặc định là
raw. |
Ví dụ về gcs-crawl-config.xml:
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
Bước 4: Định cấu hình tính năng thu thập thông tin trên web
Định cấu hình các nút <crawler> cho nhu cầu của bạn, bao gồm:
- URL bắt đầu
- Độ sâu thu thập thông tin tối đa
- Số lượng luồng
Bước 5: Bắt đầu thu thập thông tin trên web và tải nội dung lên
Chạy trình thu thập thông tin ở chế độ cục bộ:
./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
Theo dõi trình thu thập thông tin bằng JEF Monitor
Norconex JEF (Job Execution Framework) Monitor cung cấp chế độ xem đồ hoạ về tiến trình. Xem bài viết Theo dõi trình thu thập thông tin bằng JEF Monitor.