Hướng dẫn này dành cho trình lập chỉ mục Trình thu thập HTTP Norconex của Google Cloud Search quản trị viên plugin, tức là bất kỳ ai chịu trách nhiệm tải xuống, triển khai, định cấu hình và duy trì trình bổ trợ trình lập chỉ mục. Hướng dẫn giả định mà bạn đã quen thuộc, hệ điều hành Linux, nguyên tắc cơ bản về web thu thập dữ liệu, XML và Norconex HTTP Collector (Trình thu thập HTTP Norconex).
Hướng dẫn này cung cấp thông tin về cách thực hiện các tác vụ chính liên quan đến trình lập chỉ mục triển khai trình bổ trợ:
- Tải phần mềm trình bổ trợ trình lập chỉ mục xuống
- Định cấu hình Google Cloud Search
- Định cấu hình Norconex HTTP Collector và thu thập thông tin trên web
- Bắt đầu thu thập thông tin web và tải nội dung lên
Thông tin về những việc cần làm mà quản trị viên Google Workspace phải thực hiện để ánh xạ Google Cloud Search với trình bổ trợ chỉ mục Norconex HTTP Collector không xuất hiện trong hướng dẫn này. Để biết thông tin về những nhiệm vụ đó, hãy xem Quản lý nguồn dữ liệu của bên thứ ba.
Tổng quan về trình bổ trợ chỉ mục Cloud Search Norconex HTTP Collector
Theo mặc định, Cloud Search có thể khám phá, lập chỉ mục và phân phối nội dung từ Các sản phẩm của Google Workspace, chẳng hạn như Google Tài liệu và Gmail. Bạn có thể mở rộng phạm vi tiếp cận của Google Cloud Search để bao gồm cả việc phân phát nội dung trên web cho người dùng bằng cách triển khai trình bổ trợ trình lập chỉ mục cho Norconex HTTP Collector (Trình thu thập HTTP Norconex) trình thu thập dữ liệu web nguồn mở dành cho doanh nghiệp.
Tệp thuộc tính cấu hình
Để cho phép trình bổ trợ trình lập chỉ mục thực hiện thu thập thông tin trên web và tải nội dung lên API lập chỉ mục, bạn, với tư cách là quản trị viên trình bổ trợ chỉ mục, cung cấp thông tin cụ thể trong các bước định cấu hình được mô tả trong tài liệu này trong Các bước triển khai.
Để sử dụng trình bổ trợ trình lập chỉ mục, bạn phải đặt các thuộc tính trong 2 tệp cấu hình:
{gcs-crawl-config.xml}
-- chứa các chế độ cài đặt dành cho Trình thu thập HTTP Norconex.sdk-configuration.properties
-- chứa các chế độ cài đặt dành cho Google Cloud Search.
Các thuộc tính trong mỗi tệp bật trình bổ trợ chỉ mục Google Cloud Search và Norconex HTTP Collector để giao tiếp với nhau.
Thu thập thông tin web và tải nội dung lên
Sau khi bạn đã điền sẵn các tệp cấu hình, bạn có thông tin cần thiết để bắt đầu thu thập thông tin trên web. Thu thập thông tin của Norconex HTTP Collector trên web, khám phá nội dung tài liệu có liên quan đến cấu hình và tải các phiên bản nhị phân (hoặc văn bản) gốc của nội dung tài liệu lên Đám mây API lập chỉ mục tìm kiếm, nơi API được lập chỉ mục và sau cùng được phân phát cho người dùng của bạn.
Hệ điều hành được hỗ trợ
Bạn phải cài đặt Trình bổ trợ chỉ mục của Google Cloud Search Norconex HTTP Collector trên Linux.
Phiên bản Norconex HTTP Collector được hỗ trợ
Trình bổ trợ chỉ mục của Google Cloud Search Norconex HTTP Collector hỗ trợ phiên bản 2.8.0.
Hỗ trợ Danh sách kiểm soát quyền truy cập (ACL)
Trình bổ trợ trình lập chỉ mục hỗ trợ việc kiểm soát quyền truy cập vào tài liệu trong Miền Google Workspace bằng cách sử dụng Danh sách kiểm soát quyền truy cập (ACL).
Nếu ACL mặc định được bật trong cấu hình trình bổ trợ Google Cloud Search
(defaultAcl.mode
được đặt thành khác none
và được định cấu hình bằng defaultAcl.*
),
trước tiên, trình bổ trợ trình lập chỉ mục sẽ cố gắng tạo và áp dụng Danh sách kiểm soát quyền truy cập (ACL) mặc định.
Nếu ACL mặc định không được bật, trình bổ trợ sẽ quay lại cấp quyền đọc cho toàn bộ miền Google Workspace.
Để biết mô tả chi tiết về các tham số cấu hình ACL, hãy xem Các thông số của trình kết nối do Google cung cấp.
Điều kiện tiên quyết
Trước khi triển khai trình bổ trợ trình lập chỉ mục, hãy đảm bảo rằng bạn có: thành phần bắt buộc:
- Java JRE 1.8 được cài đặt trên máy tính chạy trình bổ trợ trình lập chỉ mục
Thông tin cần thiết về Google Workspace để thiết lập mối quan hệ giữa Cloud Search và Norconex HTTP Collector:
- Khoá riêng tư trên Google Workspace (chứa mã tài khoản dịch vụ)
- Mã nguồn dữ liệu trên Google Workspace
Thông thường, quản trị viên Google Workspace của miền có thể cung cấp những thông tin này thông tin xác thực cho bạn.
Các bước triển khai
Để triển khai trình bổ trợ trình lập chỉ mục, hãy làm theo các bước sau:
- Cài đặt Norconex HTTP Collector và phần mềm trình bổ trợ lập chỉ mục
- Định cấu hình Google Cloud Search
- Định cấu hình Trình thu thập HTTP Norconex
- Định cấu hình tính năng thu thập thông tin web
- Bắt đầu thu thập thông tin trên web và tải nội dung lên
Bước 1: Cài đặt Norconex HTTP Collector và phần mềm plugin cho trình lập chỉ mục
- Tải phần mềm cam kết Norconex xuống từ này.
- Giải nén phần mềm đã tải xuống vào thư mục
~/norconex/
- Sao chép trình bổ trợ uỷ quyền trên GitHub.
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
và sau đó làcd norconex-committer-plugin
- Kiểm tra phiên bản trình bổ trợ cam kết mà bạn muốn và tạo tệp ZIP:
git checkout tags/v1-0.0.3
vàmvn package
(Để bỏ qua các kiểm thử khi tạo bản dựng trình kết nối, hãy dùngmvn package -DskipTests
.) cd target
- Sao chép tệp jar trình bổ trợ đã tạo vào thư mục norconex lib.
cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
- Giải nén tệp ZIP bạn vừa tạo rồi giải nén tệp:
unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
- Thực thi tập lệnh cài đặt để sao chép .jar của trình bổ trợ và tất cả nội dung cần thiết
vào thư mục của trình thu thập http:
- Thay đổi đối với trình bổ trợ trình uỷ quyền đã giải nén đã giải nén ở trên:
cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
- Thực thi
$ sh install.sh
và cung cấp đường dẫn đầy đủ cho Mục tiêu lànorconex/norconex-collector-http-{version}/lib
khi được nhắc. - Nếu tìm thấy các tệp jar trùng lặp, hãy chọn lựa chọn
1
(Chỉ sao chép nguồn Jar) nếu phiên bản cao hơn hoặc giống với phiên bản Jar mục tiêu sau khi đổi tên mục tiêu Jar).
- Thay đổi đối với trình bổ trợ trình uỷ quyền đã giải nén đã giải nén ở trên:
Bước 2: Định cấu hình Google Cloud Search
Để trình bổ trợ trình lập chỉ mục kết nối với Norconex HTTP Collector và lập chỉ mục
nội dung phù hợp, bạn phải tạo tệp cấu hình Cloud Search trong
Thư mục Norconex nơi cài đặt Trình thu thập HTTP Norconex. Google đề xuất
bạn đặt tên cho tệp cấu hình Cloud Search
sdk-configuration.properties
.
Tệp cấu hình này phải chứa cặp giá trị/khoá xác định thông số. Tệp cấu hình phải chỉ định ít nhất các thông số sau, đó là để truy cập vào nguồn dữ liệu Cloud Search.
Xem xét | Thông số |
Mã nguồn dữ liệu | api.sourceId = 1234567890abcdef
Bắt buộc. Mã nguồn trên Cloud Search do quản trị viên Google Workspace thiết lập. |
Tài khoản dịch vụ | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Bắt buộc. Tệp khoá tài khoản dịch vụ Cloud Search do quản trị viên Google Workspace tạo để hỗ trợ tiếp cận của trình bổ trợ chỉ mục. |
Ví dụ sau đây cho thấy một tệp sdk-configuration.properties
.
#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#
Tệp cấu hình cũng có thể chứa các tham số cấu hình do Google cung cấp.
Những tham số này có thể ảnh hưởng đến cách trình bổ trợ này đẩy dữ liệu vào Google Cloud Search API. Ví dụ: tập hợp tham số batch.*
xác định cách trình kết nối kết hợp các yêu cầu.
Nếu bạn không xác định thông số trong tệp cấu hình, giá trị mặc định nếu có. Để biết nội dung mô tả chi tiết về từng thông số, hãy xem Các thông số của trình kết nối do Google cung cấp.
Bạn có thể định cấu hình trình bổ trợ trình lập chỉ mục để điền siêu dữ liệu và dữ liệu có cấu trúc cho nội dung được lập chỉ mục. Các giá trị sẽ được điền sẵn cho siêu dữ liệu và dữ liệu có cấu trúc có thể trích xuất các trường từ thẻ meta trong nội dung HTML đang được lập chỉ mục hoặc có thể chỉ định giá trị mặc định trong tệp cấu hình.
Chế độ cài đặt | Tham số |
Tiêu đề | itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Theo mặc định, trình bổ trợ sử dụng HTML title làm tiêu đề cho tài liệu được lập chỉ mục. Trong trường hợp thiếu tiêu đề, bạn có thể tham khảo
thuộc tính siêu dữ liệu chứa giá trị tương ứng với tiêu đề tài liệu hoặc đặt một giá trị mặc định.
|
Dấu thời gian đã tạo | itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
Thuộc tính siêu dữ liệu chứa giá trị của dấu thời gian tạo tài liệu. |
Lần sửa cuối | itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
Thuộc tính siêu dữ liệu chứa giá trị dấu thời gian của lần sửa đổi gần đây nhất đối với tài liệu. |
Ngôn ngữ của giấy tờ | itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
Ngôn ngữ nội dung cho tài liệu được lập chỉ mục. |
Loại đối tượng giản đồ | itemMetadata.objectType=movie
Loại đối tượng mà trang web sử dụng, như đã xác định trong định nghĩa đối tượng giản đồ nguồn dữ liệu. Trình kết nối sẽ không lập chỉ mục bất kỳ dữ liệu có cấu trúc nếu thuộc tính này không được chỉ định.
Lưu ý: Thuộc tính cấu hình này trỏ đến một giá trị thay vì
so với thuộc tính siêu dữ liệu và |
Định dạng ngày giờ
Định dạng ngày giờ chỉ định định dạng dự kiến trong các thuộc tính siêu dữ liệu. Nếu tệp cấu hình không chứa tham số này, giá trị mặc định là đã sử dụng. Bảng sau đây cho thấy thông số này.
Chế độ cài đặt
Tham số
Mẫu ngày giờ bổ sung
structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX
Danh sách java.time.format.DateTimeFormatter bổ sung được phân tách bằng dấu chấm phẩy mẫu. Các mẫu này được sử dụng khi phân tích cú pháp giá trị chuỗi cho bất kỳ ngày hoặc giờ ngày giờ nào trong siêu dữ liệu hoặc giản đồ. Giá trị mặc định là một danh sách trống, nhưng các định dạng RFC 3339 và RFC 1123 luôn được hỗ trợ.
Bước 3: Định cấu hình Trình thu thập HTTP Norconex
Kho lưu trữ zip norconex-committer-google-cloud-search-{version}.zip
bao gồm
tệp cấu hình mẫu, minimum-config.xml
.
Bạn nên bắt đầu định cấu hình bằng cách sao chép tệp mẫu:
- Thay đổi thành thư mục Norconex HTTP Collector:
$ cd ~/norconex/norconex-collector-http-{version}/
- Sao chép tệp cấu hình:
$ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
- Chỉnh sửa tệp mới tạo (trong ví dụ này là
gcs-crawl-config.xml
) và thêm hoặc thay thế các nút<committer>
và<tagger>
hiện có như mô tả trong bảng sau.
Xem xét | Thông số |
<committer> node
|
<committer class="com.norconex.committer.googlecloudsearch.
GoogleCloudSearchCommitter">
Bắt buộc. Để bật trình bổ trợ này, bạn phải thêm nút <committer> làm nút con của nút <httpcollector> gốc.
|
<UploadFormat>
|
<uploadFormat>raw</uploadFormat>
Không bắt buộc. Định dạng mà trình bổ trợ trình lập chỉ mục đẩy nội dung tài liệu vào API trình lập chỉ mục của Google Cloud Search. Các giá trị hợp lệ là:
Giá trị mặc định là raw .
|
BinaryContent Tagger <tagger> node
|
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
Bắt buộc nếu giá trị của <UploadFormat> là raw . Trong trường hợp này, trình bổ trợ trình lập chỉ mục cần có trường nội dung nhị phân của tài liệu.
Bạn phải thêm nút BinaryContentTagger <tagger> làm phần tử con của nút <importer> / <preParseHandlers> .
|
Ví dụ sau đây cho thấy
sửa đổi thành
gcs-crawl-config.xml
.
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
Bước 4: Định cấu hình thu thập thông tin web
Trước khi bắt đầu thu thập thông tin trang web, bạn phải định cấu hình thu thập thông tin để nó chỉ
bao gồm thông tin mà tổ chức của bạn muốn cung cấp trong tìm kiếm
kết quả. Các chế độ cài đặt quan trọng nhất để thu thập thông tin trên web là một phần của <crawler>
nút và có thể bao gồm:
- URL bắt đầu
- Chiều sâu tối đa của việc thu thập thông tin
- Số lượng chuỗi
Thay đổi các giá trị cấu hình này theo nhu cầu của bạn. Để biết thêm chi tiết thông tin về cách thiết lập thu thập thông tin web, cũng như danh sách đầy đủ các các thông số cấu hình khác, hãy xem HTTP Collector Cấu hình .
Bước 5: Bắt đầu thu thập thông tin trên web và tải nội dung lên
Sau khi cài đặt và thiết lập trình bổ trợ trình lập chỉ mục, bạn có thể chạy trình bổ trợ đó trên của riêng mình ở chế độ cục bộ.
Ví dụ sau đây giả định các thành phần bắt buộc được đặt trong thư mục trên hệ thống Linux. Chạy lệnh sau:
$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
Giám sát trình thu thập thông tin bằng Trình theo dõi JEF
Trình theo dõi Norconex JEF (Job Execution Framework) là một công cụ đồ hoạ dành cho theo dõi tiến trình của các quy trình Trình thu thập dữ liệu web của Norconex (HTTP Collector) và việc làm. Để xem hướng dẫn đầy đủ về cách thiết lập tiện ích này, hãy truy cập Theo dõi tiến trình của trình thu thập thông tin bằng Trình theo dõi JEF.