ใช้งานปลั๊กอิน Norconex HTTP Collector Indexer

คู่มือนี้มีไว้สำหรับผู้ดูแลระบบที่รับผิดชอบในการดาวน์โหลด ทำให้ใช้งานได้ และดูแลรักษาปลั๊กอินตัวจัดทำดัชนี Norconex HTTP Collector ของ Google Cloud Search คุณควรมีความคุ้นเคยกับ Linux, หลักการพื้นฐานของการรวบรวมข้อมูลเว็บ, XML และ Norconex HTTP Collector

คู่มือนี้มีวิธีการดังนี้

  • ดาวน์โหลดซอฟต์แวร์ปลั๊กอินตัวจัดทำดัชนี
  • กำหนดค่า Cloud Search
  • กำหนดค่า Norconex HTTP Collector และการรวบรวมข้อมูลเว็บ
  • เริ่มการรวบรวมข้อมูลเว็บและอัปโหลดเนื้อหา

ข้อมูลเกี่ยวกับงานที่ผู้ดูแลระบบ Google Workspace ต้องดำเนินการจะไม่ปรากฏในคู่มือนี้ หากต้องการดูข้อมูลเกี่ยวกับงานเหล่านั้น โปรดดูหัวข้อ จัดการแหล่งข้อมูลของบุคคลที่สาม

ภาพรวมของปลั๊กอินตัวจัดทำดัชนี Norconex HTTP Collector

โดยค่าเริ่มต้น Cloud Search สามารถค้นพบ จัดทำดัชนี และแสดงเนื้อหาจากผลิตภัณฑ์ของ Google Workspace เช่น Google เอกสารและ Gmail คุณสามารถขยายขอบเขตให้รวมเนื้อหาเว็บได้โดยทำให้ใช้งานได้ ปลั๊กอินตัวจัดทำดัชนีสำหรับ Norconex HTTP Collector ซึ่งเป็น Web Crawler แบบโอเพนซอร์สสำหรับองค์กร

ไฟล์พร็อพเพอร์ตี้การกำหนดค่า

หากต้องการให้ปลั๊กอินรวบรวมข้อมูลและอัปโหลดเนื้อหา คุณต้องระบุข้อมูลที่เฉพาะเจาะจงในไฟล์การกำหนดค่า 2 ไฟล์ ดังนี้

  • {gcs-crawl-config.xml}: การตั้งค่าสำหรับ Norconex HTTP Collector
  • sdk-configuration.properties: การตั้งค่าสำหรับ Cloud Search

การรวบรวมข้อมูลเว็บและการอัปโหลดเนื้อหา

หลังจากป้อนข้อมูลในไฟล์การกำหนดค่าแล้ว คุณจะ เริ่มการรวบรวมข้อมูลเว็บ ได้ Norconex HTTP Collector จะรวบรวมข้อมูลเว็บและอัปโหลดเนื้อหาเอกสารไบนารีหรือข้อความต้นฉบับไปยัง Cloud Search Indexing API

ข้อกำหนดของระบบ

  • ระบบปฏิบัติการ: Linux เท่านั้น
  • Norconex เวอร์ชัน: เวอร์ชัน 2.8.0
  • ซอฟต์แวร์: Java JRE 1.8

การรองรับ ACL

ปลั๊กอินตัวจัดทำดัชนีรองรับรายการควบคุมการเข้าถึง (ACL) เพื่อควบคุมการเข้าถึงเอกสารในโดเมน Google Workspace

หากคุณเปิดใช้ ACL เริ่มต้นในการกำหนดค่าปลั๊กอิน (defaultAcl.mode ตั้งค่าเป็นค่าอื่นที่ไม่ใช่ none) ปลั๊กอินจะใช้ค่าเริ่มต้นเหล่านี้ ไม่เช่นนั้น ปลั๊กอินจะให้สิทธิ์อ่านแก่ทั้งโดเมน ดู พารามิเตอร์ตัวเชื่อมต่อที่ Google จัดหาให้

ข้อกำหนดเบื้องต้น

รวบรวมคอมโพเนนต์ต่อไปนี้ก่อนทำให้ใช้งานได้ปลั๊กอินตัวจัดทำดัชนี

ขั้นตอนการทำให้ใช้งานได้

  1. ติดตั้ง Norconex HTTP Collector และซอฟต์แวร์ปลั๊กอิน
  2. กำหนดค่า Cloud Search
  3. กำหนดค่า Norconex HTTP Collector
  4. กำหนดค่าการรวบรวมข้อมูลเว็บ
  5. เริ่มการรวบรวมข้อมูลเว็บและการอัปโหลดเนื้อหา

ขั้นตอนที่ 1: ติดตั้ง Norconex HTTP Collector และซอฟต์แวร์ปลั๊กอิน

  1. ดาวน์โหลดซอฟต์แวร์ Committer ของ Norconex จากหน้า ดาวน์โหลด ของ Norconex
  2. แตกไฟล์ซอฟต์แวร์ไปยัง ~/norconex/
  3. โคลนปลั๊กอิน Committer โดยใช้คำสั่งต่อไปนี้

    git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
    cd norconex-committer-plugin
    
  4. ตรวจสอบเวอร์ชันที่เลือกและสร้างปลั๊กอินโดยใช้คำสั่งต่อไปนี้

    git checkout tags/v1-0.0.3
    mvn package
    

    หากต้องการข้ามการทดสอบ ให้ใช้คำสั่ง mvn package -DskipTests

  5. คัดลอกไฟล์ JAR ไปยังไดเรกทอรี lib ของ Norconex โดยใช้คำสั่งต่อไปนี้

    cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib
    
  6. แตกไฟล์ ZIP ที่สร้างขึ้นโดยใช้คำสั่งต่อไปนี้

    unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
    cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    
  7. เรียกใช้สคริปต์การติดตั้งและระบุเส้นทางแบบเต็ม ไปยังไดเรกทอรี lib ของ Norconex โดยใช้คำสั่งต่อไปนี้

    sh install.sh
    

    หากระบบแจ้งให้เลือกไฟล์ที่ซ้ำกัน ให้เลือกตัวเลือก 1

ขั้นตอนที่ 2: กำหนดค่า Cloud Search

สร้างไฟล์ sdk-configuration.properties ในไดเรกทอรี Norconex ไฟล์ต้องระบุพารามิเตอร์ต่อไปนี้

การตั้งค่า พารามิเตอร์
รหัสแหล่งข้อมูล api.sourceId = 1234567890abcdef
ต้องระบุ รหัสแหล่งข้อมูลจากผู้ดูแลระบบ Google Workspace
บัญชีบริการ api.serviceAccountPrivateKeyFile = ./PrivateKey.json
ต้องระบุ ไฟล์คีย์บัญชีบริการ

ตัวอย่างไฟล์ sdk-configuration.properties

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

นอกจากนี้ คุณยังใส่พารามิเตอร์ เช่น batch.* เพื่อควบคุมวิธีที่ปลั๊กอินส่งข้อมูลได้ด้วย ดู พารามิเตอร์ตัวเชื่อมต่อที่ Google จัดหาให้

หากต้องการป้อนข้อมูลเมตา ให้กำหนดค่าพารามิเตอร์ที่ไม่บังคับต่อไปนี้

การตั้งค่า พารามิเตอร์
ชื่อ itemMetadata.title.field=movieTitle
ประเภทออบเจ็กต์สคีมา itemMetadata.objectType=movie

ขั้นตอนที่ 3: กำหนดค่า Norconex HTTP Collector

ปลั๊กอินมีไฟล์ตัวอย่าง minimum-config.xml

  1. เปลี่ยนไปยังไดเรกทอรี Norconex และคัดลอกตัวอย่างโดยใช้คำสั่งต่อไปนี้

    cd ~/norconex/norconex-collector-http-VERSION/
    cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
    
  2. แก้ไข gcs-crawl-config.xml เพื่อเพิ่มหรือแทนที่ <committer> และ <tagger> โหนด:

การตั้งค่า พารามิเตอร์
<committer> โหนด <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
ต้องระบุ เพิ่มโหนดนี้ภายใต้โหนด <httpcollector>
<uploadFormat> <uploadFormat>raw</uploadFormat>
ไม่บังคับ raw หรือ text ค่าเริ่มต้นคือ raw

ตัวอย่างไฟล์ gcs-crawl-config.xml

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

ขั้นตอนที่ 4: กำหนดค่าการรวบรวมข้อมูลเว็บ

กำหนดค่าโหนด <crawler> ตามความต้องการของคุณ ซึ่งรวมถึง

  • URL เริ่มต้น
  • ความลึกสูงสุดของการรวบรวมข้อมูล
  • จำนวนเธรด

ดูหน้าการกำหนดค่า Norconex page

ขั้นตอนที่ 5: เริ่มการรวบรวมข้อมูลเว็บและการอัปโหลดเนื้อหา

เรียกใช้ Collector ในโหมด Local โดยใช้คำสั่งต่อไปนี้

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

ตรวจสอบโปรแกรมรวบรวมข้อมูลด้วย JEF Monitor

Norconex JEF (Job Execution Framework) Monitor แสดงความคืบหน้าในรูปแบบกราฟิก ดูหัวข้อ ตรวจสอบโปรแกรมรวบรวมข้อมูลด้วย JEF Monitor