ใช้งานปลั๊กอิน Norconex HTTP Collector Indexer

คำแนะนำนี้มีไว้สำหรับผู้ดูแลระบบปลั๊กอินเครื่องมือจัดทำดัชนี HTTP Collector ของ Google Cloud Search Norconex กล่าวคือ ผู้ที่มีหน้าที่ดาวน์โหลด ทำให้ใช้งานได้ กำหนดค่า และดูแลรักษาปลั๊กอินเครื่องมือจัดทำดัชนี คู่มือนี้จะสมมติว่าคุณคุ้นเคยกับระบบปฏิบัติการ Linux, พื้นฐานของการรวบรวมข้อมูลเว็บ, XML และ Norconex HTTP Collector

คำแนะนำนี้ประกอบด้วยวิธีทำงานสำคัญที่เกี่ยวข้องกับการทำให้ปลั๊กอินตัวจัดทำดัชนีใช้งานได้

  • ดาวน์โหลดซอฟต์แวร์ปลั๊กอินตัวจัดทำดัชนี
  • กำหนดค่า Google Cloud Search
  • กำหนดค่า Norconex HTTP Collector และการรวบรวมข้อมูลเว็บ
  • เริ่มการ Crawl เว็บและอัปโหลดเนื้อหา

ข้อมูลเกี่ยวกับงานที่ผู้ดูแลระบบ Google Workspace ต้องดำเนินการเพื่อแมป Google Cloud Search กับปลั๊กอินเครื่องมือจัดทำดัชนี HTTP Collector ของ Norconex จะไม่ปรากฏในคู่มือนี้ ดูรายละเอียดเกี่ยวกับงานเหล่านี้ได้ที่หัวข้อจัดการแหล่งข้อมูลของบุคคลที่สาม

ภาพรวมของปลั๊กอินเครื่องมือจัดทำดัชนี HTTP Collector ของ Cloud Search Norconex

โดยค่าเริ่มต้น Cloud Search จะค้นหา จัดทำดัชนี และแสดงเนื้อหาจากผลิตภัณฑ์ของ Google Workspace ได้ เช่น Google เอกสารและ Gmail คุณสามารถขยายการเข้าถึง Google Cloud Search ให้ครอบคลุมการแสดงเนื้อหาเว็บแก่ผู้ใช้โดยการทำให้ปลั๊กอินเครื่องมือจัดทำดัชนีใช้งานได้สำหรับ Norconex HTTP Collector ซึ่งเป็นโปรแกรมรวบรวมข้อมูลเว็บแบบโอเพนซอร์สสำหรับองค์กร

ไฟล์คุณสมบัติการกำหนดค่า

หากต้องการเปิดใช้ปลั๊กอินเครื่องมือจัดทำดัชนีเพื่อทำการ Crawl เว็บและอัปโหลดเนื้อหาไปยัง API การจัดทำดัชนี คุณในฐานะผู้ดูแลระบบปลั๊กอินเครื่องมือจัดทำดัชนีจะต้องระบุข้อมูลที่เจาะจงในระหว่างขั้นตอนการกำหนดค่าตามที่อธิบายไว้ในเอกสารนี้ในขั้นตอนการทำให้ใช้งานได้

หากต้องการใช้ปลั๊กอินตัวจัดทำดัชนี คุณต้องตั้งค่าพร็อพเพอร์ตี้ในไฟล์การกำหนดค่า 2 ไฟล์ ดังนี้

  • {gcs-crawl-config.xml} มีการตั้งค่าสำหรับ Norconex HTTP Collector
  • sdk-configuration.properties-- มีการตั้งค่าสำหรับ Google Cloud Search

พร็อพเพอร์ตี้ในแต่ละไฟล์ช่วยให้ปลั๊กอินตัวจัดทำดัชนีของ Google Cloud Search และ Norconex HTTP Collector สื่อสารกันได้

การรวบรวมข้อมูลเว็บและการอัปโหลดเนื้อหา

หลังจากที่ป้อนข้อมูลไฟล์การกำหนดค่าแล้ว คุณจะมีการตั้งค่าที่จำเป็นในการเริ่มต้นการ Crawl เว็บ Norconex HTTP Collector จะรวบรวมข้อมูลเว็บโดยค้นหาเนื้อหาเอกสารที่เกี่ยวข้องกับการกำหนดค่าและอัปโหลดเนื้อหาเอกสารเวอร์ชันไบนารี (หรือข้อความ) ต้นฉบับไปยัง API การจัดทำดัชนีของ Cloud Search ซึ่งได้รับการจัดทำดัชนีและนำไปแสดงแก่ผู้ใช้ในท้ายที่สุด

ระบบปฏิบัติการที่รองรับ

ต้องติดตั้งปลั๊กอินเครื่องมือจัดทำดัชนี HTTP Collector ของ Google Cloud Search Norconex บน Linux

เวอร์ชัน Norconex HTTP Collector ที่สนับสนุน

ปลั๊กอินเครื่องมือจัดทำดัชนี HTTP Collector ของ Google Cloud Search Norconex รองรับเวอร์ชัน 2.8.0

การรองรับ ACL

ปลั๊กอินเครื่องมือจัดทำดัชนีรองรับการควบคุมการเข้าถึงเอกสารในโดเมน Google Workspace โดยใช้รายการควบคุมการเข้าถึง (ACL)

หากเปิดใช้ ACL เริ่มต้นในการกำหนดค่าปลั๊กอิน Google Cloud Search (ตั้งค่า defaultAcl.mode เป็นอย่างอื่นที่ไม่ใช่ none และกำหนดค่าด้วย defaultAcl.*) ปลั๊กอินเครื่องมือจัดทำดัชนีจะพยายามสร้างและใช้ ACL เริ่มต้นก่อน

หากไม่ได้เปิดใช้ ACL ที่เป็นค่าเริ่มต้น ปลั๊กอินจะกลับไปให้สิทธิ์อ่านแก่ทั้งโดเมน Google Workspace

ดูคำอธิบายโดยละเอียดเกี่ยวกับพารามิเตอร์การกำหนดค่า ACL ได้ที่พารามิเตอร์เครื่องมือเชื่อมต่อที่ Google มีให้

สิ่งที่ต้องดำเนินการก่อน

ก่อนที่จะทำให้ปลั๊กอินเครื่องมือจัดทำดัชนีใช้งานได้ โปรดตรวจสอบว่าคุณมีคอมโพเนนต์ที่จำเป็นต่อไปนี้

  • Java JRE 1.8 ที่ติดตั้งบนคอมพิวเตอร์ที่เรียกใช้ปลั๊กอินตัวจัดทำดัชนี
  • ข้อมูลของ Google Workspace ที่จำเป็นในการสร้างความสัมพันธ์ระหว่าง Cloud Search กับ Norconex HTTP Collector

    โดยปกติแล้ว ผู้ดูแลระบบ Google Workspace ของโดเมนจะให้ข้อมูลเข้าสู่ระบบเหล่านี้แก่คุณได้

ขั้นตอนการทำให้ใช้งานได้

หากต้องการใช้งานปลั๊กอินตัวจัดทำดัชนี ให้ทำตามขั้นตอนต่อไปนี้

  1. ติดตั้ง Norconex HTTP Collector และซอฟต์แวร์ปลั๊กอินตัวจัดทำดัชนี
  2. กำหนดค่า Google Cloud Search
  3. กำหนดค่า Norconex HTTP Collector
  4. กำหนดค่าการ Crawl เว็บ
  5. เริ่มการ Crawl เว็บและอัปโหลดเนื้อหา

ขั้นตอนที่ 1: ติดตั้ง Norconex HTTP Collector และซอฟต์แวร์ปลั๊กอินตัวจัดทำดัชนี

  1. ดาวน์โหลดซอฟต์แวร์คอมมิต Norconex จาก หน้านี้
  2. แตกไฟล์ ZIP ของซอฟต์แวร์ที่ดาวน์โหลดลงในโฟลเดอร์ ~/norconex/
  3. โคลนปลั๊กอินคอมมิตจาก GitHub git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git จากนั้นจ่าย cd norconex-committer-plugin
  4. ตรวจสอบเวอร์ชันปลั๊กอิน Comer ที่ต้องการและสร้างไฟล์ ZIP: git checkout tags/v1-0.0.3 และ mvn package (หากต้องการข้ามการทดสอบเมื่อสร้างเครื่องมือเชื่อมต่อ ให้ใช้ mvn package -DskipTests)
  5. cd target
  6. คัดลอกไฟล์ Jar ของปลั๊กอินที่สร้างแล้วลงในไดเรกทอรี Norconex lib cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. แตกไฟล์ ZIP ที่คุณเพิ่งสร้าง จากนั้นแตกไฟล์: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. เรียกใช้สคริปต์การติดตั้งเพื่อคัดลอก .jar ของปลั๊กอินและไลบรารีที่จำเป็นทั้งหมดลงในไดเรกทอรีของตัวรวบรวม HTTP ดังนี้
    1. เปลี่ยนเป็นปลั๊กอินสำหรับคอมมิตที่ดึงข้อมูลมาซึ่งคลายการบีบอัดด้านบน: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. เรียกใช้ $ sh install.sh และระบุเส้นทางแบบเต็มไปยัง norconex/norconex-collector-http-{version}/lib เป็นไดเรกทอรีเป้าหมายเมื่อระบบแจ้ง
    3. หากพบไฟล์ Jar ที่ซ้ำกัน ให้เลือกตัวเลือก 1 (คัดลอก Jar ต้นทางเฉพาะเมื่อเวอร์ชันสูงกว่าหรือเหมือนกับ Jar เป้าหมายหลังจากเปลี่ยนชื่อ Jar เป้าหมาย)

ขั้นตอนที่ 2: กำหนดค่า Google Cloud Search

เพื่อให้ปลั๊กอินเครื่องมือจัดทำดัชนีเชื่อมต่อกับ Norconex HTTP Collector และจัดทำดัชนีเนื้อหาที่เกี่ยวข้อง คุณต้องสร้างไฟล์การกำหนดค่า Cloud Search ในไดเรกทอรี Norconex ที่มีการติดตั้ง Norconex HTTP Collector ไว้ Google ขอแนะนำให้คุณตั้งชื่อไฟล์การกำหนดค่า Cloud Search เป็น sdk-configuration.properties

ไฟล์การกำหนดค่านี้ต้องมีคู่คีย์/ค่าที่กำหนดพารามิเตอร์ ไฟล์การกำหนดค่าต้องระบุพารามิเตอร์ต่อไปนี้อย่างน้อย พารามิเตอร์ที่จำเป็นสำหรับการเข้าถึงแหล่งข้อมูล Cloud Search

การเกริ่นนำ พารามิเตอร์
รหัสแหล่งข้อมูล api.sourceId = 1234567890abcdef
ต้องระบุ รหัสแหล่งที่มาของ Cloud Search ที่ผู้ดูแลระบบ Google Workspace เป็นผู้ตั้งค่า
บัญชีบริการ api.serviceAccountPrivateKeyFile = ./PrivateKey.json
ต้องระบุ ไฟล์คีย์บัญชีบริการ Cloud Search ที่ผู้ดูแลระบบ Google Workspace สร้างขึ้นสำหรับการช่วยเหลือพิเศษของปลั๊กอินตัวจัดทำดัชนี

ตัวอย่างต่อไปนี้จะแสดง sdk-configuration.properties ไฟล์

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

นอกจากนี้ ไฟล์การกำหนดค่าอาจมีพารามิเตอร์การกำหนดค่าที่ Google มีให้ พารามิเตอร์เหล่านี้อาจส่งผลต่อวิธีที่ปลั๊กอินนี้พุชข้อมูลไปยัง Google Cloud Search API ตัวอย่างเช่น ชุดพารามิเตอร์ batch.* จะระบุวิธีที่เครื่องมือเชื่อมต่อรวมคำขอ

ถ้าคุณไม่กำหนดพารามิเตอร์ในไฟล์การกำหนดค่า ระบบจะใช้ค่าเริ่มต้น หากมี ดูคำอธิบายโดยละเอียดของพารามิเตอร์แต่ละรายการได้ที่พารามิเตอร์เครื่องมือเชื่อมต่อที่ Google มีให้

คุณกำหนดค่าปลั๊กอินตัวจัดทำดัชนีเพื่อเติมข้อมูลเมตาและข้อมูลที่มีโครงสร้างสำหรับเนื้อหาที่กำลังจัดทำดัชนีได้ ค่าที่จะเติมให้กับช่องข้อมูลเมตาและช่องข้อมูลที่มีโครงสร้างจะดึงมาจากเมตาแท็กในเนื้อหา HTML ที่จัดทำดัชนีอยู่ หรือจะระบุค่าเริ่มต้นในไฟล์การกำหนดค่าก็ได้

การตั้งค่า พารามิเตอร์
ชื่อ itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
โดยค่าเริ่มต้น ปลั๊กอินจะใช้ HTML title เป็นชื่อเอกสารที่กำลังจัดทำดัชนี ในกรณีที่ไม่มีชื่อ คุณอาจอ้างอิงแอตทริบิวต์ข้อมูลเมตาที่มีค่าที่สอดคล้องกับชื่อเอกสารหรือตั้งค่าเริ่มต้นก็ได้
การประทับเวลาที่สร้าง itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
แอตทริบิวต์ข้อมูลเมตาที่มีค่าสำหรับการประทับเวลาการสร้างเอกสาร
เวลาที่แก้ไขล่าสุด itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
แอตทริบิวต์ข้อมูลเมตาที่มีค่าสำหรับการประทับเวลาการแก้ไขล่าสุดของเอกสาร
ภาษาในเอกสาร itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
ภาษาของเนื้อหาสำหรับเอกสารที่จะจัดทำดัชนี
ประเภทออบเจ็กต์สคีมา itemMetadata.objectType=movie
ประเภทออบเจ็กต์ที่เว็บไซต์ใช้ตามที่ระบุไว้ใน คำจำกัดความของออบเจ็กต์สคีมาแหล่งข้อมูล เครื่องมือเชื่อมต่อจะไม่จัดทำดัชนี Structured Data หากไม่ได้ระบุพร็อพเพอร์ตี้นี้

หมายเหตุ: พร็อพเพอร์ตี้การกำหนดค่านี้จะชี้ไปยังค่าแทนที่จะเป็นแอตทริบิวต์ข้อมูลเมตา และระบบไม่รองรับคำต่อท้าย .field และ .defaultValue

รูปแบบวันที่และเวลา

รูปแบบวันที่และเวลาจะระบุรูปแบบที่ควรอยู่ในแอตทริบิวต์ของข้อมูลเมตา ถ้าไฟล์การกำหนดค่าไม่มีพารามิเตอร์นี้ ระบบจะใช้ค่าเริ่มต้น ตารางต่อไปนี้แสดงพารามิเตอร์นี้

การตั้งค่า

พารามิเตอร์

รูปแบบวันที่และเวลาเพิ่มเติม

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

รายการรูปแบบ java.time.format.DateTimeFormatter เพิ่มเติมที่คั่นด้วยเครื่องหมายอัฒภาค โดยจะใช้รูปแบบนี้เมื่อแยกวิเคราะห์ค่าสตริงสำหรับช่องวันที่หรือวันที่และเวลาในข้อมูลเมตาหรือสคีมา ค่าเริ่มต้นคือรายการว่างเปล่า แต่จะรองรับรูปแบบ RFC 3339 และ RFC 1123 เสมอ

ขั้นตอนที่ 3: กำหนดค่าเครื่องมือรวบรวม HTTP ของ Norconex

ไฟล์ ZIP norconex-committer-google-cloud-search-{version}.zip จะมีตัวอย่างไฟล์การกำหนดค่า minimum-config.xml

Google ขอแนะนำให้คุณเริ่มการกำหนดค่าโดยคัดลอกไฟล์ตัวอย่าง ดังนี้

  1. เปลี่ยนเป็นไดเรกทอรี HTTP Collector ของ Norconex:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. คัดลอกไฟล์การกำหนดค่า:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. แก้ไขไฟล์ที่สร้างขึ้นใหม่ (ในตัวอย่างนี้คือ gcs-crawl-config.xml) และเพิ่มหรือแทนที่โหนด <committer> และ <tagger> ที่มีอยู่ตามที่อธิบายไว้ในตารางต่อไปนี้
การเกริ่นนำ พารามิเตอร์
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

ต้องระบุ หากต้องการเปิดใช้ปลั๊กอิน คุณต้องเพิ่มโหนด <committer> เป็นโหนดย่อยของโหนด <httpcollector> ระดับรูท
<UploadFormat> <uploadFormat>raw</uploadFormat>
ไม่บังคับ รูปแบบที่ปลั๊กอินเครื่องมือจัดทำดัชนีพุชเนื้อหาเอกสารไปยัง API เครื่องมือจัดทำดัชนีของ Google Cloud Search ค่าที่ถูกต้องคือ:
  • raw: ปลั๊กอินตัวจัดทำดัชนีจะพุชเนื้อหาของเอกสารต้นฉบับที่ไม่ได้แปลง
  • text: ปลั๊กอินตัวจัดทำดัชนีจะพุชเนื้อหาที่เป็นข้อความที่ดึงมา

ค่าเริ่มต้นคือ raw
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
ต้องระบุหากค่าของ <UploadFormat> คือ raw ในกรณีนี้ ปลั๊กอินตัวจัดทำดัชนีต้องมีช่องเนื้อหาไบนารีของเอกสาร

คุณต้องเพิ่มโหนด BinaryContentTagger <tagger> เป็นองค์ประกอบย่อยของโหนด <importer> / <preParseHandlers>

ตัวอย่างต่อไปนี้แสดงการแก้ไขที่จำเป็นใน gcs-crawl-config.xml

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

ขั้นตอนที่ 4: กำหนดค่าการ Crawl เว็บ

ก่อนที่จะเริ่มการ Crawl เว็บ คุณต้องกำหนดค่าการ Crawl เพื่อให้มีเฉพาะข้อมูลที่องค์กรของคุณต้องการให้แสดงในผลการค้นหา การตั้งค่าที่สำคัญที่สุดสำหรับการรวบรวมข้อมูลเว็บเป็นส่วนหนึ่งของ <crawler> โหนด และอาจรวมสิ่งต่อไปนี้

  • URL เริ่มต้น
  • ความลึกสูงสุดของการ Crawl
  • จำนวนชุดข้อความ

เปลี่ยนค่าการกำหนดค่าเหล่านี้ตามความต้องการของคุณ สำหรับข้อมูลโดยละเอียดเพิ่มเติมเกี่ยวกับการตั้งค่าการรวบรวมข้อมูลเว็บ และรายการพารามิเตอร์การกำหนดค่าที่ใช้ได้ทั้งหมด โปรดดูหน้าการกำหนดค่าของเครื่องมือรวบรวม HTTP

ขั้นตอนที่ 5: เริ่มการ Crawl เว็บและอัปโหลดเนื้อหา

หลังจากที่ติดตั้งและตั้งค่าปลั๊กอินตัวจัดทำดัชนีแล้ว คุณจะเรียกใช้ปลั๊กอินดังกล่าวด้วยตัวเองในโหมดภายในได้

ตัวอย่างต่อไปนี้จะสมมติว่าคอมโพเนนต์ที่จำเป็นอยู่ในไดเรกทอรีในเครื่องในระบบ Linux เรียกใช้คำสั่งต่อไปนี้

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

ตรวจสอบ Crawler ด้วย JEF Monitor

Norconex JEF (Job Execution Framework) Monitor เป็นเครื่องมือแบบกราฟิกสำหรับตรวจสอบความคืบหน้าของกระบวนการและงานของ Norconex Web Crawler (HTTP Collector) ดูบทแนะนำทั้งหมดเกี่ยวกับวิธีตั้งค่ายูทิลิตีนี้ได้ที่ ตรวจสอบความคืบหน้าของ Crawler ด้วย JEF Monitor