Menerapkan Plugin Pengindeks Norconex HTTP Collector

Panduan ini ditujukan untuk administrator plugin pengindeks Norconex HTTP Collector Google Cloud Search, yaitu siapa pun yang bertanggung jawab untuk mendownload, menerapkan, mengonfigurasi, dan mengelola plugin pengindeks. Panduan ini menganggap bahwa Anda memahami sistem operasi Linux, dasar-dasar crawling web, XML dan Norconex HTTP Collector.

Panduan ini mencakup petunjuk untuk melakukan tugas utama yang terkait dengan penerapan plugin pengindeks:

  • Mendownload software plugin pengindeks
  • Mengonfigurasikan Google Cloud Search
  • Mengonfigurasikan Norconex HTTP Collector dan crawl web
  • Memulai crawl web dan upload konten

Informasi tentang tugas yang harus dilakukan administrator Google Workspace untuk memetakan Google Cloud Search ke plugin pengindeks Norconex HTTP Collector tidak muncul dalam panduan ini. Untuk informasi tentang tugas-tugas tersebut, lihat Mengelola sumber data pihak ketiga.

Ringkasan plugin pengindeks Norconex HTTP Collector Cloud Search

Secara default, Cloud Search dapat menemukan, mengindeks, dan menayangkan konten dari produk Google Workspace, seperti Google Dokumen dan Gmail. Anda dapat memperluas jangkauan Google Cloud Search untuk menyertakan penayangan konten web kepada pengguna Anda dengan men-deploy plugin pengindeks untuk Norconex HTTP Collector, crawler web perusahaan open source.

File properti konfigurasi

Untuk mengaktifkan plugin pengindeks agar melakukan crawl web dan mengupload konten ke API pengindeksan, Anda, sebagai administrator plugin pengindeks, harus memberikan informasi spesifik selama menjalankan langkah-langkah konfigurasi yang dijelaskan dalam dokumen ini pada Langkah-langkah penerapan.

Untuk menggunakan plugin pengindeks, Anda harus mengatur properti di dua file konfigurasi:

  • {gcs-crawl-config.xml}-- berisi setelan untuk Norconex HTTP Collector.
  • sdk-configuration.properties-- berisi setelan untuk Google Cloud Search.

Dengan properti di setiap file, plugin pengindeksan Google Cloud Search dan Norconex HTTP Collector dapat saling berkomunikasi.

Crawl web dan upload konten

Setelah mengisi file konfigurasi, Anda memiliki setelan yang diperlukan untuk memulai crawl web. Norconex HTTP Collector melakukan crawl web, menemukan konten dokumen yang berkaitan dengan konfigurasinya dan mengupload versi biner asli konten dokumen (atau teks) ke API pengindeksan Cloud Search yang akan diindeks dan akhirnya ditayangkan kepada pengguna Anda.

Sistem operasi yang didukung

Plugin pengindeks Norconex HTTP Collector Google Cloud Search harus diinstal di Linux.

Versi Norconex HTTP Collector yang didukung

Plugin pengindeks Norconex HTTP Collector Google Cloud Search mendukung versi 2.8.0.

Dukungan ACL

Plugin pengindeks mendukung kontrol akses ke dokumen di domain Google Workspace menggunakan Daftar Kontrol Akses (ACL).

Jika ACL default diaktifkan di konfigurasi plugin Google Cloud Search (defaultAcl.mode ditetapkan ke selain none dan dikonfigurasi dengan defaultAcl.*), plugin pengindeks akan terlebih dahulu mencoba membuat dan menerapkan ACL default.

Jika ACL default tidak diaktifkan, plugin akan kembali untuk memberikan izin baca ke seluruh domain Google Workspace.

Untuk mengetahui deskripsi mendetail tentang parameter konfigurasi ACL, lihat parameter konektor yang disediakan Google.

Prasyarat

Sebelum menerapkan plugin pengindeks, pastikan Anda memiliki komponen yang diperlukan berikut ini:

  • Java JRE 1.8 yang diinstal di komputer yang menjalankan plugin pengindeks
  • Informasi Google Workspace yang diperlukan untuk membangun hubungan antara Cloud Search dan Norconex HTTP Collector:

    Biasanya, administrator Google Workspace untuk domain dapat menyediakan kredensial ini untuk Anda.

Langkah-langkah penerapan

Untuk menerapkan plugin pengindeks, ikuti langkah-langkah ini:

  1. Menginstal Norconex HTTP Collector dan software plugin pengindeks
  2. Mengonfigurasi Google Cloud Search
  3. Mengonfigurasi Norconex HTTP Collector
  4. Mengonfigurasi crawl web
  5. Memulai crawl web dan upload konten

Langkah 1: Instal Norconex HTTP Collector dan software plugin pengindeks

  1. Download software commiter Norconex dari halaman ini.
  2. Ekstrak software yang didownload ke folder ~/norconex/
  3. Clone plugin commiter dari GitHub. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git, lalu cd norconex-committer-plugin
  4. Lihat versi plugin commiter yang diinginkan dan buat file ZIP: git checkout tags/v1-0.0.3 dan mvn package (Untuk melewati pengujian saat membuat konektor, gunakan mvn package -DskipTests.)
  5. cd target
  6. Salin file jar plugin yang dibuat ke direktori norconex lib. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. Ekstrak file ZIP yang baru saja Anda buat, lalu ekstrak file: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. Jalankan skrip penginstalan untuk menyalin .jar plugin dan semua library yang diperlukan ke direktori http collector:
    1. Ubah ke plugin commiter yang diekstrak dan ekstrak di atas: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. Jalankan $ sh install.sh dan berikan jalur lengkap ke norconex/norconex-collector-http-{version}/lib sebagai direktori target jika diminta.
    3. Jika ditemukan file jar duplikat, pilih opsi 1 (Salin Jar sumber hanya jika lebih besar atau versi yang sama dengan Jar target setelah mengganti nama Jar target).

Langkah 2: Konfigurasikan Google Cloud Search

Agar plugin pengindeks terhubung ke Norconex HTTP Collector dan mengindeks konten yang relevan, Anda harus membuat file konfigurasi Cloud Search di direktori Norconex tempat Norconex HTTP Collector diinstal. Google merekomendasikan agar Anda memberi nama file konfigurasi Cloud Search sdk-configuration.properties.

File konfigurasi ini harus berisi key-value pair yang menentukan parameter. File konfigurasi harus menentukan setidaknya parameter berikut, yang diperlukan untuk mengakses sumber data Cloud Search.

Setelan Parameter
ID sumber data api.sourceId = 1234567890abcdef
Wajib. ID sumber Cloud Search yang disiapkan oleh administrator Google Workspace.
Akun layanan api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Wajib. File kunci akun layanan Cloud Search yang dibuat oleh administrator Google Workspace untuk aksesibilitas plugin pengindeks.

Contoh berikut menunjukkan file sdk-configuration.properties.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

File konfigurasi juga dapat berisi parameter konfigurasi yang disediakan Google. Parameter ini dapat memengaruhi cara plugin ini mendorong data ke dalam Google Cloud Search API. Misalnya, kumpulan parameter batch.* mengidentifikasi cara konektor menggabungkan permintaan.

Jika Anda tidak menentukan parameter dalam file konfigurasi, nilai default, jika tersedia, akan digunakan. Untuk deskripsi mendetail tentang setiap parameter, lihat parameter konektor yang disediakan Google.

Anda dapat mengonfigurasi plugin pengindeks untuk mengisi metadata dan data terstruktur untuk konten yang diindeks. Nilai yang akan diisi untuk metadata dan bidang data terstruktur dapat diekstrak dari tag meta dalam konten HTML yang diindeks atau nilai-nilai default dapat ditentukan dalam file konfigurasi.

Setelan Parameter
Judul itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Secara default, plugin menggunakan HTML title sebagai judul dokumen yang diindeks. Jika judul tidak ada, Anda dapat merujuk atribut metadata yang berisi nilai yang sesuai dengan judul dokumen atau menetapkan nilai default.
Stempel waktu pembuatan itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
Atribut metadata yang berisi nilai untuk stempel waktu pembuatan dokumen.
Waktu terakhir diubah itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
Atribut metadata yang berisi nilai untuk stempel waktu dokumen terakhir diubah.
Bahasa dokumen itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
Bahasa konten untuk dokumen yang diindeks.
Jenis objek skema itemMetadata.objectType=movie
Jenis objek yang digunakan oleh situs, seperti yang ditetapkan dalam definisi objek skema sumber data. Konektor tidak akan mengindeks data terstruktur apa pun jika properti ini tidak ditentukan.

Catatan: Properti konfigurasi ini mengarah ke nilai, bukan atribut metadata, dan akhiran .field dan .defaultValue tidak didukung.

Format tanggal dan waktu

Format tanggal dan waktu menentukan format yang diharapkan dalam atribut metadata. Jika file konfigurasi tidak berisi parameter ini, nilai default akan digunakan. Tabel berikut menunjukkan parameter tersebut.

Setelan

Parameter

Pola tanggal dan waktu tambahan

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

Daftar pola java.time.format.DateTimeFormatter tambahan yang dipisahkan titik koma. Pola digunakan saat mengurai nilai string untuk kolom tanggal atau waktu pada metadata atau skema. Nilai default adalah daftar kosong, tetapi format RFC 3339 dan RFC 1123 selalu didukung.

Langkah 3: Konfigurasi Norconex HTTP Collector

Arsip zip norconex-committer-google-cloud-search-{version}.zip menyertakan contoh file konfigurasi, minimum-config.xml.

Google merekomendasikan agar memulai konfigurasi dengan menyalin file sampel:

  1. Ubah ke direktori Norconex HTTP Collector:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. Salin file konfigurasi:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. Edit file yang baru dibuat (dalam contoh ini, gcs-crawl-config.xml) dan tambahkan atau ganti node <committer> dan <tagger> yang ada seperti yang dijelaskan dalam tabel berikut.
Pembahasan Parameter
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

Wajib. Untuk mengaktifkan plugin, Anda harus menambahkan node <committer> sebagai turunan dari node <httpcollector> root.
<UploadFormat> <uploadFormat>raw</uploadFormat>
Opsional. Format yang digunakan plugin pengindeks yang mengirim konten dokumen ke API pengindeks Google Cloud Search. Nilai yang valid adalah:
  • raw: plugin pengindeks mendorong konten dokumen asli yang belum dikonversi.
  • text: plugin pengindeks yang mendorong konten tekstual yang diekstrak.

Nilai defaultnya adalah raw.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
Wajib jika nilai <UploadFormat> adalah raw. Dalam hal ini, plugin pengindeks membutuhkan tersedianya kolom konten biner dokumen.

Anda harus menambahkan node BinaryContentTagger <tagger> sebagai elemen turunan dari node <importer> / <preParseHandlers>.

Contoh berikut menunjukkan modifikasi yang diperlukan untuk gcs-crawl-config.xml.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Langkah 4: Konfigurasikan crawl web

Sebelum memulai crawl web, Anda harus mengonfigurasi crawl sehingga hanya mencakup informasi yang ingin disediakan organisasi Anda dalam hasil pencarian. Setelan paling penting untuk crawl web adalah bagian dari node <crawler> dan dapat mencakup:

  • URL awal
  • Kedalaman maksimum crawl
  • Jumlah thread

Ubah nilai konfigurasi ini sesuai dengan kebutuhan Anda. Untuk informasi yang lebih mendetail tentang pengaturan crawl web, serta daftar lengkap parameter konfigurasi yang tersedia, lihat halaman Konfigurasi HTTP Collector.

Langkah 5: Mulai crawl web dan upload konten

Setelah Anda menginstal dan mengatur plugin pengindeks, Anda dapat menjalankannya sendiri dalam mode lokal.

Contoh berikut mengasumsikan bahwa komponen yang diperlukan berada di direktori lokal pada sistem Linux. Jalankan perintah berikut:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Memantau crawler dengan JEF Monitor

Norconex JEF (Job Execution Framework) Monitor adalah alat grafis untuk memantau kemajuan proses dan pekerjaan Norconex Web Crawler (HTTP Collector). Untuk tutorial lengkap tentang cara mengatur utilitas ini, kunjungi Memantau kemajuan crawler Anda dengan JEF Monitor.