Panduan ini ditujukan untuk administrator plugin pengindeks Norconex HTTP Collector Google Cloud Search, yaitu siapa pun yang bertanggung jawab untuk mendownload, menerapkan, mengonfigurasi, dan mengelola plugin pengindeks. Panduan ini menganggap bahwa Anda memahami sistem operasi Linux, dasar-dasar crawling web, XML dan Norconex HTTP Collector.
Panduan ini mencakup petunjuk untuk melakukan tugas utama yang terkait dengan penerapan plugin pengindeks:
- Mendownload software plugin pengindeks
- Mengonfigurasikan Google Cloud Search
- Mengonfigurasikan Norconex HTTP Collector dan crawl web
- Memulai crawl web dan upload konten
Informasi tentang tugas yang harus dimiliki administrator Google Workspace berperforma untuk memetakan Google Cloud Search ke plugin pengindeks Norconex HTTP Collector tidak muncul dalam panduan ini. Untuk informasi tentang tugas-tugas tersebut, lihat Mengelola sumber data pihak ketiga.
Ringkasan plugin pengindeks Norconex HTTP Collector Cloud Search
Secara default, Cloud Search dapat menemukan, mengindeks, dan menyajikan konten dari Produk Google Workspace, seperti Google Dokumen dan Gmail. Anda dapat memperpanjang jangkauan Google Cloud Search untuk menyertakan penayangan konten web kepada pengguna Anda dengan untuk men-deploy plugin pengindeks untuk Norconex HTTP Collector, web crawler perusahaan open source.
File properti konfigurasi
Untuk mengaktifkan plugin pengindeks agar melakukan crawl web dan mengupload konten ke API pengindeksan, Anda, sebagai administrator plugin pengindeks, harus memberikan informasi spesifik selama menjalankan langkah-langkah konfigurasi yang dijelaskan dalam dokumen ini pada Langkah-langkah penerapan.
Untuk menggunakan plugin pengindeks, Anda harus mengatur properti di dua file konfigurasi:
{gcs-crawl-config.xml}
-- berisi setelan untuk Norconex HTTP Collector.sdk-configuration.properties
-- berisi setelan untuk Google Cloud Search.
Dengan properti di setiap file, plugin pengindeksan Google Cloud Search dan Norconex HTTP Collector dapat saling berkomunikasi.
Crawl web dan upload konten
Setelah mengisi file konfigurasi, Anda memiliki setelan yang diperlukan untuk memulai crawl web. Norconex HTTP Collector melakukan crawl web, menemukan konten dokumen yang berkaitan dengan konfigurasinya dan mengupload versi biner asli konten dokumen (atau teks) ke API pengindeksan Cloud Search yang akan diindeks dan akhirnya ditayangkan kepada pengguna Anda.
Sistem operasi yang didukung
Plugin pengindeks Norconex HTTP Collector Google Cloud Search harus diinstal di Linux.
Versi Norconex HTTP Collector yang didukung
Plugin pengindeks Norconex HTTP Collector Google Cloud Search mendukung versi 2.8.0.
Dukungan ACL
Plugin pengindeks mendukung akses kontrol ke dokumen di Domain Google Workspace dengan menggunakan Daftar Kontrol Akses (ACL).
Jika ACL default diaktifkan dalam konfigurasi plugin Google Cloud Search
(defaultAcl.mode
ditetapkan ke selain none
dan dikonfigurasi dengan defaultAcl.*
),
plugin pengindeks pertama mencoba membuat
dan menerapkan ACL default.
Jika ACL default tidak diaktifkan, plugin akan kembali untuk memberikan izin baca ke seluruh domain Google Workspace.
Untuk mengetahui deskripsi mendetail tentang parameter konfigurasi ACL, lihat parameter konektor yang disediakan Google.
Prasyarat
Sebelum menerapkan plugin pengindeks, pastikan Anda memiliki komponen yang diperlukan berikut ini:
- Java JRE 1.8 yang diinstal di komputer yang menjalankan plugin pengindeks
Informasi Google Workspace yang diperlukan untuk membangun hubungan antara Cloud Search dan Norconex HTTP Collector:
- Kunci pribadi Google Workspace (yang berisi ID akun layanan)
- ID sumber data Google Workspace
Biasanya, administrator Google Workspace untuk domain dapat menyediakan yang sesuai untuk Anda.
Langkah-langkah penerapan
Untuk menerapkan plugin pengindeks, ikuti langkah-langkah ini:
- Menginstal Norconex HTTP Collector dan software plugin pengindeks
- Mengonfigurasi Google Cloud Search
- Mengonfigurasi Norconex HTTP Collector
- Mengonfigurasi crawl web
- Memulai crawl web dan upload konten
Langkah 1: Instal Norconex HTTP Collector dan software plugin pengindeks
- Download software commiter Norconex dari halaman ini.
- Ekstrak software yang didownload ke folder
~/norconex/
- Clone plugin commiter dari GitHub.
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
dan lalucd norconex-committer-plugin
- Periksa versi plugin commiter yang diinginkan dan buat file ZIP:
git checkout tags/v1-0.0.3
danmvn package
(Untuk melewati pengujian saat membangun konektor, gunakanmvn package -DskipTests
.) cd target
- Salin file jar plugin yang telah dibuat ke direktori norconex lib.
cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
- Ekstrak file ZIP yang baru saja Anda buat, lalu ekstrak file tersebut:
unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
- Jalankan skrip penginstalan untuk menyalin .jar plugin dan semua yang diperlukan
library ke direktori http collector:
- Ubah ke plugin commiter yang diekstrak dan diekstrak di atas:
cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
- Jalankan
$ sh install.sh
dan berikan jalur lengkap kenorconex/norconex-collector-http-{version}/lib
sebagai target saat diminta. - Jika file jar duplikat ditemukan, pilih opsi
1
(Salin sumber Jar saja jika versi yang lebih besar atau sama dengan Jar target setelah mengganti nama Jar target).
- Ubah ke plugin commiter yang diekstrak dan diekstrak di atas:
Langkah 2: Konfigurasikan Google Cloud Search
Agar plugin pengindeks terhubung ke Norconex HTTP Collector dan mengindeks konten yang relevan, Anda harus membuat file konfigurasi Cloud Search di direktori Norconex tempat Norconex HTTP Collector diinstal. Google merekomendasikan
beri nama file konfigurasi Cloud Search
sdk-configuration.properties
.
File konfigurasi ini harus berisi key-value pair yang menentukan parameter. File konfigurasi harus menentukan setidaknya parameter berikut, yang diperlukan untuk mengakses sumber data Cloud Search.
Setelan | Parameter |
ID sumber data | api.sourceId = 1234567890abcdef
Wajib diisi. ID sumber Cloud Search yang disiapkan oleh administrator Google Workspace. |
Akun layanan | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Wajib diisi. File kunci akun layanan Cloud Search yang dibuat oleh administrator Google Workspace untuk aksesibilitas plugin pengindeks. |
Contoh berikut menunjukkan file sdk-configuration.properties
.
#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#
File konfigurasi juga dapat berisi parameter konfigurasi yang disediakan Google.
Parameter ini dapat memengaruhi cara plugin ini mendorong data ke Google Cloud Search API. Misalnya, kumpulan parameter batch.*
mengidentifikasi cara konektor menggabungkan permintaan.
Jika Anda tidak menentukan parameter dalam file konfigurasi, nilai default, jika tersedia, akan digunakan. Untuk deskripsi mendetail tentang setiap parameter, lihat parameter konektor yang disediakan Google.
Anda dapat mengonfigurasi plugin pengindeks untuk mengisi metadata dan data terstruktur untuk konten yang diindeks. Nilai yang akan diisi untuk metadata dan bidang data terstruktur dapat diekstrak dari tag meta dalam konten HTML yang diindeks atau nilai-nilai default dapat ditentukan dalam file konfigurasi.
Setelan | Parameter |
Judul | itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Secara default, plugin menggunakan HTML title sebagai judul dokumen yang sedang diindeks. Jika judul tidak ada, Anda dapat merujuk atribut metadata yang berisi nilai yang sesuai dengan judul dokumen atau menetapkan nilai default.
|
Stempel waktu pembuatan | itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
Atribut metadata yang berisi nilai untuk stempel waktu pembuatan dokumen. |
Waktu terakhir diubah | itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
Atribut metadata yang berisi nilai stempel waktu terakhir diubah untuk dokumen. |
Bahasa dokumen | itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
Bahasa konten untuk dokumen yang sedang diindeks. |
Jenis objek skema | itemMetadata.objectType=movie
Jenis objek yang digunakan oleh situs, seperti yang didefinisikan dalam definisi objek skema sumber data. Konektor tidak akan mengindeks apa pun jika properti ini tidak ditentukan.
Catatan: Properti konfigurasi ini menunjuk ke nilai, bukan
daripada atribut metadata, dan |
Format tanggal dan waktu
Format tanggal dan waktu menentukan format yang diharapkan dalam atribut metadata. Jika file konfigurasi tidak berisi parameter ini, nilai defaultnya adalah data Tabel berikut menunjukkan parameter tersebut.
Setelan
Parameter
Pola tanggal dan waktu tambahan
structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX
Daftar yang dipisahkan titik koma dari daftar java.time.format.DateTimeFormatter tambahan pola-pola tersebut. Pola digunakan saat mengurai nilai string untuk kolom tanggal atau waktu pada metadata atau skema. Nilai default adalah daftar kosong, tetapi format RFC 3339 dan RFC 1123 selalu didukung.
Langkah 3: Konfigurasi Norconex HTTP Collector
Arsip zip norconex-committer-google-cloud-search-{version}.zip
berisi
contoh file konfigurasi, minimum-config.xml
.
Google merekomendasikan agar memulai konfigurasi dengan menyalin file sampel:
- Ubah ke direktori Norconex HTTP Collector:
$ cd ~/norconex/norconex-collector-http-{version}/
- Salin file konfigurasi:
$ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
- Edit file yang baru dibuat (dalam contoh ini,
gcs-crawl-config.xml
) dan tambahkan atau ganti node<committer>
dan<tagger>
yang ada seperti yang dijelaskan di pada tabel berikut.
Setelan | Parameter |
<committer> node
|
<committer class="com.norconex.committer.googlecloudsearch.
GoogleCloudSearchCommitter">
Wajib diisi. Untuk mengaktifkan plugin, Anda harus menambahkan node <committer> sebagai turunan dari node root <httpcollector> .
|
<UploadFormat>
|
<uploadFormat>raw</uploadFormat>
Opsional. Format yang digunakan plugin pengindeks mengirim konten dokumen ke API pengindeks Google Cloud Search. Nilai yang valid adalah:
Nilai defaultnya adalah raw .
|
BinaryContent Tagger <tagger> node
|
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
Wajib jika nilai <UploadFormat> adalah raw . Dalam hal ini, plugin pengindeks membutuhkan tersedianya kolom konten biner dokumen.
Anda harus menambahkan node BinaryContentTagger <tagger> sebagai elemen turunan dari node <importer> / <preParseHandlers> .
|
Contoh berikut menunjukkan
modifikasi menjadi
gcs-crawl-config.xml
.
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
Langkah 4: Konfigurasikan crawl web
Sebelum memulai crawl web, Anda harus mengonfigurasi crawl sehingga hanya mencakup informasi yang ingin disediakan organisasi Anda dalam hasil pencarian. Setelan terpenting untuk crawl web adalah bagian dari <crawler>
node dan dapat mencakup:
- URL awal
- Kedalaman maksimum crawl
- Jumlah thread
Ubah nilai konfigurasi ini sesuai dengan kebutuhan Anda. Untuk informasi yang lebih mendetail tentang pengaturan crawl web, serta daftar lengkap parameter konfigurasi yang tersedia, lihat halaman Konfigurasi HTTP Collector.
Langkah 5: Mulai crawl web dan upload konten
Setelah Anda menginstal dan mengatur plugin pengindeks, Anda dapat menjalankannya sendiri dalam mode lokal.
Contoh berikut mengasumsikan bahwa komponen yang diperlukan berada di direktori lokal pada sistem Linux. Jalankan perintah berikut:
$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
Memantau crawler dengan JEF Monitor
Norconex JEF (Job Execution Framework) Monitor adalah alat grafis untuk memantau kemajuan proses dan pekerjaan Norconex Web Crawler (HTTP Collector). Untuk tutorial lengkap tentang cara mengatur utilitas ini, kunjungi Memantau kemajuan crawler Anda dengan JEF Monitor.