ใช้งานปลั๊กอิน Norconex HTTP Collector Indexer

คู่มือนี้มีไว้สำหรับผู้ดูแลระบบปลั๊กอินเครื่องมือจัดทำดัชนี Norconex HTTP Collector ของ Google Cloud Search กล่าวคือ ผู้ที่มีหน้าที่รับผิดชอบในการดาวน์โหลด ติดตั้งใช้งาน กำหนดค่า และดูแลรักษาปลั๊กอินเครื่องมือจัดทำดัชนี คู่มือนี้ถือว่าคุณคุ้นเคยกับระบบปฏิบัติการ Linux, พื้นฐานของการ Crawl เว็บ, XML และ Norconex HTTP Collector

คู่มือนี้มีวิธีการทํางานสําคัญที่เกี่ยวข้องกับการติดตั้งใช้งานตัวจัดทําดัชนีและปลั๊กอิน

  • ดาวน์โหลดซอฟต์แวร์ของปลั๊กอินเครื่องมือจัดทำดัชนี
  • กำหนดค่า Google Cloud Search
  • กำหนดค่าเครื่องมือรวบรวมข้อมูล HTTP ของ Norconex และการ Crawl เว็บ
  • เริ่มการ Crawl เว็บและอัปโหลดเนื้อหา

ข้อมูลเกี่ยวกับงานที่ผู้ดูแลระบบ Google Workspace ต้องดำเนินการเพื่อแมป Google Cloud Search กับปลั๊กอินเครื่องมือจัดทำดัชนี Norconex HTTP Collector จะไม่ปรากฏในคู่มือนี้ ดูข้อมูลเกี่ยวกับงานเหล่านั้นได้ที่หัวข้อจัดการแหล่งข้อมูลของบุคคลที่สาม

ภาพรวมของปลั๊กอินเครื่องมือจัดทำดัชนี Norconex HTTP Collector ของ Cloud Search

โดยค่าเริ่มต้น Cloud Search จะค้นพบ จัดทำดัชนี และแสดงเนื้อหาจากผลิตภัณฑ์ Google Workspace เช่น Google เอกสารและ Gmail คุณสามารถขยายการเข้าถึงของ Google Cloud Search ให้รวมการแสดงเนื้อหาเว็บต่อผู้ใช้ด้วยการติดตั้งใช้งานปลั๊กอินเครื่องมือจัดทำดัชนีสำหรับ Norconex HTTP Collector ซึ่งเป็น Crawler เว็บโอเพนซอร์สสำหรับองค์กร

ไฟล์พร็อพเพอร์ตี้การกําหนดค่า

หากต้องการเปิดใช้ปลั๊กอินเครื่องมือจัดทำดัชนีเพื่อทำการ Crawl เว็บและอัปโหลดเนื้อหาไปยัง Indexing API คุณต้องระบุข้อมูลเฉพาะในระหว่างขั้นตอนการกําหนดค่าที่อธิบายไว้ในเอกสารนี้ในส่วนขั้นตอนการทําให้ใช้งานได้ในฐานะผู้ดูแลระบบปลั๊กอินเครื่องมือจัดทำดัชนี

หากต้องการใช้ปลั๊กอินเครื่องมือจัดทำดัชนี คุณต้องตั้งค่าพร็อพเพอร์ตี้ในไฟล์การกําหนดค่า 2 ไฟล์ ดังนี้

  • {gcs-crawl-config.xml}-- มีการตั้งค่าสําหรับเครื่องมือรวบรวมข้อมูล HTTP ของ Norconex
  • sdk-configuration.properties-- มีการตั้งค่าสําหรับ Google Cloud Search

พร็อพเพอร์ตี้ในแต่ละไฟล์ช่วยให้ปลั๊กอินเครื่องมือจัดทำดัชนีของ Google Cloud Search และเครื่องมือรวบรวม HTTP ของ Norconex สื่อสารกันได้

การ Crawl เว็บและการอัปโหลดเนื้อหา

หลังจากป้อนข้อมูลไฟล์การกําหนดค่าแล้ว คุณจะมีการตั้งค่าที่จําเป็นเพื่อเริ่มการ Crawl เว็บ Norconex HTTP Collector จะทำการ Crawl เว็บเพื่อค้นหาเนื้อหาเอกสารที่เกี่ยวข้องกับการกําหนดค่า และอัปโหลดเนื้อหาเอกสารเวอร์ชันไบนารี (หรือข้อความ) ต้นฉบับไปยัง Cloud Search Indexing API ซึ่งจะได้รับการจัดทำดัชนีและแสดงต่อผู้ใช้ในท้ายที่สุด

ระบบปฏิบัติการที่รองรับ

คุณต้องติดตั้งปลั๊กอินเครื่องมือจัดทำดัชนี Norconex HTTP Collector ของ Google Cloud Search ใน Linux

เวอร์ชันเครื่องมือรวบรวม HTTP ของ Norconex ที่รองรับ

ปลั๊กอินเครื่องมือจัดทำดัชนี Norconex HTTP Collector ของ Google Cloud Search รองรับเวอร์ชัน 2.8.0

การรองรับ ACL

ปลั๊กอินเครื่องมือจัดทำดัชนีรองรับการควบคุมการเข้าถึงเอกสารในโดเมน Google Workspace โดยใช้รายการควบคุมการเข้าถึง (ACL)

หากเปิดใช้ ACL เริ่มต้นในการกําหนดค่าปลั๊กอิน Google Cloud Search (defaultAcl.mode ตั้งค่าเป็นค่าอื่นที่ไม่ใช่ none และกําหนดค่าด้วย defaultAcl.*) ปลั๊กอินเครื่องมือจัดทำดัชนีจะพยายามสร้างและใช้ ACL เริ่มต้นก่อน

หากไม่ได้เปิดใช้ ACL เริ่มต้น ปลั๊กอินจะเปลี่ยนกลับไปให้สิทธิ์อ่านแก่โดเมน Google Workspace ทั้งหมด

ดูคำอธิบายโดยละเอียดของพารามิเตอร์การกำหนดค่า ACL ได้ที่พารามิเตอร์ของเครื่องมือเชื่อมต่อที่ Google มีให้

ข้อกำหนดเบื้องต้น

ก่อนทำให้พลิแกนตัวจัดทําดัชนีใช้งานได้ โปรดตรวจสอบว่าคุณมีคอมโพเนนต์ที่จําเป็นต่อไปนี้

  • Java JRE 1.8 ที่ติดตั้งในคอมพิวเตอร์ที่ใช้ปลั๊กอินเครื่องมือจัดทำดัชนี
  • ข้อมูล Google Workspace ที่จําเป็นสําหรับการสร้างความสัมพันธ์ระหว่าง Cloud Search กับ Norconex HTTP Collector

    โดยปกติแล้ว ผู้ดูแลระบบ Google Workspace ของโดเมนจะระบุข้อมูลเข้าสู่ระบบเหล่านี้ให้คุณได้

ขั้นตอนการทำให้ใช้งานได้

หากต้องการติดตั้งใช้งานปลั๊กอินเครื่องมือจัดทำดัชนี ให้ทำตามขั้นตอนต่อไปนี้

  1. ติดตั้ง Norconex HTTP Collector และซอฟต์แวร์ปลั๊กอินเครื่องมือจัดทำดัชนี
  2. กำหนดค่า Google Cloud Search
  3. กําหนดค่าเครื่องมือรวบรวมข้อมูล HTTP ของ Norconex
  4. กําหนดค่าการ Crawl เว็บ
  5. เริ่มการ Crawl เว็บและการอัปโหลดเนื้อหา

ขั้นตอนที่ 1: ติดตั้ง Norconex HTTP Collector และซอฟต์แวร์ปลั๊กอินเครื่องมือจัดทำดัชนี

  1. ดาวน์โหลดซอฟต์แวร์คอมมิต Norconex จากหน้านี้
  2. แตกไฟล์ซอฟต์แวร์ที่ดาวน์โหลดมาลงในโฟลเดอร์ ~/norconex/
  3. โคลนปลั๊กอิน Commiter จาก GitHub git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git และ จากนั้น cd norconex-committer-plugin
  4. ตรวจสอบปลั๊กอิน Commiter เวอร์ชันที่ต้องการและสร้างไฟล์ ZIP โดยทำดังนี้ git checkout tags/v1-0.0.3 และ mvn package (หากต้องการข้ามการทดสอบเมื่อสร้างตัวเชื่อมต่อ ให้ใช้ mvn package -DskipTests)
  5. cd target
  6. คัดลอกไฟล์ jar ของปลั๊กอินที่คอมไพล์แล้วไปยังไดเรกทอรี norconex lib cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. แตกไฟล์ ZIP ที่คุณเพิ่งสร้าง แล้วแตกไฟล์ unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. เรียกใช้สคริปต์การติดตั้งเพื่อคัดลอกไฟล์ .jar ของปลั๊กอินและไลบรารีที่จำเป็นทั้งหมดไปยังไดเรกทอรีของเครื่องมือรวบรวมข้อมูล HTTP โดยทำดังนี้
    1. เปลี่ยนปลั๊กอิน Commiter ที่แตกไฟล์ด้านบน cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. เรียกใช้ $ sh install.sh และระบุเส้นทางแบบเต็มไปยัง norconex/norconex-collector-http-{version}/lib เป็นไดเรกทอรีเป้าหมายเมื่อได้รับข้อความแจ้ง
    3. หากพบไฟล์ jar ซ้ำ ให้เลือกตัวเลือก 1 (คัดลอกไฟล์ jar ต้นทางเท่านั้น หากเวอร์ชันสูงกว่าหรือเท่ากับไฟล์ jar เป้าหมายหลังจากเปลี่ยนชื่อไฟล์ jar เป้าหมาย)

ขั้นตอนที่ 2: กำหนดค่า Google Cloud Search

หากต้องการให้ปลั๊กอินเครื่องมือจัดทำดัชนีเชื่อมต่อกับ Norconex HTTP Collector และจัดทำดัชนีเนื้อหาที่เกี่ยวข้อง คุณต้องสร้างไฟล์การกําหนดค่า Cloud Search ในไดเรกทอรี Norconex ที่ติดตั้ง Norconex HTTP Collector Google ขอแนะนำให้คุณตั้งชื่อไฟล์การกำหนดค่า Cloud Search ว่า sdk-configuration.properties

ไฟล์การกําหนดค่านี้ต้องมีคู่คีย์/ค่าที่กําหนดพารามิเตอร์ ไฟล์การกําหนดค่าต้องระบุพารามิเตอร์ต่อไปนี้เป็นอย่างน้อย ซึ่งจําเป็นสําหรับการเข้าถึงแหล่งข้อมูล Cloud Search

การตั้งค่า พารามิเตอร์
รหัสแหล่งข้อมูล api.sourceId = 1234567890abcdef
ต้องระบุ รหัสแหล่งที่มาของ Cloud Search ที่ผู้ดูแลระบบ Google Workspace ตั้งค่าไว้
บัญชีบริการ api.serviceAccountPrivateKeyFile = ./PrivateKey.json
ต้องระบุ ไฟล์คีย์บัญชีบริการ Cloud Search ที่ผู้ดูแลระบบ Google Workspace สร้างขึ้นเพื่อให้เข้าถึงปลั๊กอินเครื่องมือจัดทำดัชนีได้

ตัวอย่างต่อไปนี้แสดงsdk-configuration.propertiesไฟล์

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

ไฟล์การกําหนดค่าอาจมีพารามิเตอร์การกําหนดค่าที่ Google ระบุไว้ด้วย พารามิเตอร์เหล่านี้อาจส่งผลต่อวิธีที่ปลั๊กอินนี้ส่งข้อมูลไปยัง Google Cloud Search API เช่น ชุดพารามิเตอร์ batch.* จะระบุวิธีที่ตัวเชื่อมต่อรวมคําขอ

หากคุณไม่ได้กําหนดพารามิเตอร์ในไฟล์การกําหนดค่า ระบบจะใช้ค่าเริ่มต้น (หากมี) ดูคำอธิบายโดยละเอียดของพารามิเตอร์แต่ละรายการได้ที่พารามิเตอร์ของเครื่องมือเชื่อมต่อที่ Google มีให้

คุณสามารถกําหนดค่าปลั๊กอินเครื่องมือจัดทำดัชนีให้ป้อนข้อมูลเมตาและ Structured Data สำหรับเนื้อหาที่จัดทำดัชนีได้ ระบบจะดึงค่าที่จะป้อนสำหรับช่องข้อมูลเมตาและ Structured Data ได้จากเมตาแท็กในเนื้อหา HTML ที่จัดทําดัชนี หรือจะระบุค่าเริ่มต้นในไฟล์การกําหนดค่าก็ได้

การตั้งค่า พารามิเตอร์
ชื่อ itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
โดยค่าเริ่มต้น ปลั๊กอินจะใช้ HTML title เป็นชื่อของเอกสารที่จะได้รับการจัดทำดัชนี ในกรณีที่ไม่มีชื่อ คุณสามารถอ้างอิงแอตทริบิวต์ข้อมูลเมตาซึ่งมีค่าที่สอดคล้องกับชื่อเอกสาร หรือตั้งค่าเริ่มต้นก็ได้
การประทับเวลาที่สร้าง itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
แอตทริบิวต์ข้อมูลเมตาที่มีค่าการประทับเวลาการสร้างเอกสาร
เวลาที่แก้ไขล่าสุด itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
แอตทริบิวต์ข้อมูลเมตาที่มีค่าสำหรับการประทับเวลาการแก้ไขล่าสุดของเอกสาร
ภาษาของเอกสาร itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
ภาษาของเนื้อหาสำหรับเอกสารที่จัดทําดัชนี
ประเภทออบเจ็กต์สคีมา itemMetadata.objectType=movie
ประเภทออบเจ็กต์ที่เว็บไซต์ใช้ตามที่ระบุไว้ใน คำจำกัดความออบเจ็กต์สคีมาแหล่งข้อมูล เครื่องมือเชื่อมต่อจะไม่จัดทำดัชนี Structured Data หากไม่ได้ระบุพร็อพเพอร์ตี้นี้

หมายเหตุ: พร็อพเพอร์ตี้การกําหนดค่านี้จะชี้ไปยังค่าแทนแอตทริบิวต์ข้อมูลเมตา และระบบไม่รองรับส่วนต่อท้าย .field และ .defaultValue

รูปแบบเวลาและวันที่

รูปแบบวันที่และเวลาจะระบุรูปแบบที่คาดไว้ในแอตทริบิวต์ข้อมูลเมตา หากไฟล์การกําหนดค่าไม่มีพารามิเตอร์นี้ ระบบจะใช้ค่าเริ่มต้น ตารางต่อไปนี้แสดงพารามิเตอร์นี้

การตั้งค่า

พารามิเตอร์

รูปแบบวันที่และเวลาเพิ่มเติม

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

รายการรูปแบบ java.time.format.DateTimeFormatter เพิ่มเติมที่คั่นด้วยเซมิโคลอน ระบบจะใช้รูปแบบเมื่อแยกวิเคราะห์ค่าสตริงสำหรับช่องวันที่หรือวันที่และเวลาในข้อมูลเมตาหรือสคีมา ค่าเริ่มต้นคือรายการว่าง แต่ระบบจะรองรับรูปแบบ RFC 3339 และ RFC 1123 เสมอ

ขั้นตอนที่ 3: กำหนดค่าเครื่องมือรวบรวมข้อมูล HTTP ของ Norconex

ไฟล์ ZIP norconex-committer-google-cloud-search-{version}.zip มีไฟล์การกำหนดค่าตัวอย่าง minimum-config.xml

Google ขอแนะนำให้คุณเริ่มการกําหนดค่าโดยการคัดลอกไฟล์ตัวอย่าง ดังนี้

  1. การเปลี่ยนแปลงในไดเรกทอรีเครื่องมือรวบรวม HTTP ของ Norconex:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. คัดลอกไฟล์การกําหนดค่า
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. แก้ไขไฟล์ที่สร้างขึ้นใหม่ (ในตัวอย่างนี้คือ gcs-crawl-config.xml) และเพิ่มหรือแทนที่โหนด <committer> และ <tagger> ที่มีอยู่ตามที่อธิบายไว้ในตารางต่อไปนี้
การตั้งค่า พารามิเตอร์
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

ต้องระบุ หากต้องการเปิดใช้ปลั๊กอิน คุณต้องเพิ่มโหนด <committer> เป็นโหนดย่อยของโหนดรูท <httpcollector>
<UploadFormat> <uploadFormat>raw</uploadFormat>
ไม่บังคับ รูปแบบที่ปลั๊กอินเครื่องมือจัดทําดัชนีส่งเนื้อหาเอกสารไปยัง API เครื่องมือจัดทําดัชนีของ Google Cloud Search ค่าที่ใช้ได้มีดังนี้
  • raw: ปลั๊กอินเครื่องมือจัดทำดัชนีจะส่งเนื้อหาเอกสารต้นฉบับที่ยังไม่ได้แปลง
  • text: ปลั๊กอินเครื่องมือจัดทำดัชนีจะส่งเนื้อหาข้อความที่ดึงมา

ค่าเริ่มต้นคือ raw
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
ต้องระบุหากค่าของ <UploadFormat> คือ raw ในกรณีนี้ พารามิเตอร์การจัดทำดัชนีต้องมีช่องเนื้อหาไบนารีของเอกสาร

โดยคุณต้องเพิ่มโหนด BinaryContentTagger <tagger> เป็นองค์ประกอบย่อยของโหนด <importer> / <preParseHandlers>

ตัวอย่างต่อไปนี้แสดงการแก้ไขที่จำเป็นสำหรับ gcs-crawl-config.xml

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

ขั้นตอนที่ 4: กำหนดค่าการ Crawl เว็บ

ก่อนเริ่มการ Crawl เว็บ คุณต้องกำหนดค่าการ Crawl เพื่อให้รวมเฉพาะข้อมูลที่องค์กรต้องการให้แสดงในผลการค้นหา การตั้งค่าที่สําคัญที่สุดสำหรับการ Crawl เว็บเป็นส่วนหนึ่งของ<crawler> โหนดและอาจรวมถึงสิ่งต่อไปนี้

  • URL เริ่มต้น
  • ความลึกสูงสุดของการ Crawl
  • จำนวนเธรด

เปลี่ยนค่าการกําหนดค่าเหล่านี้ตามต้องการ ดูรายละเอียดเพิ่มเติมเกี่ยวกับการตั้งค่าการ Crawl เว็บ รวมถึงรายการพารามิเตอร์การกําหนดค่าทั้งหมดที่ใช้ได้ได้ที่หน้าการกําหนดค่าของ HTTP Collector

ขั้นตอนที่ 5: เริ่มการ Crawl เว็บและการอัปโหลดเนื้อหา

หลังจากติดตั้งและตั้งค่าปลั๊กอินเครื่องมือจัดทำดัชนีแล้ว คุณจะเรียกใช้ปลั๊กอินดังกล่าวในโหมดในเครื่องได้

ตัวอย่างต่อไปนี้จะถือว่าคอมโพเนนต์ที่จำเป็นอยู่ในไดเรกทอรีในเครื่องบนระบบ Linux เรียกใช้คำสั่งต่อไปนี้

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

ตรวจสอบ Crawler ด้วย JEF Monitor

Norconex JEF (Job Execution Framework) Monitor เป็นเครื่องมือกราฟิกสำหรับตรวจสอบความคืบหน้าของกระบวนการและงานของ Norconex Web Crawler (HTTP Collector) ดูบทแนะนำฉบับเต็มเกี่ยวกับวิธีตั้งค่ายูทิลิตีนี้ได้ที่หัวข้อตรวจสอบความคืบหน้าของ Crawler ด้วย JEF Monitor