หน้านี้ได้รับการแปลโดย Cloud Translation API

ใช้งานปลั๊กอิน Norconex HTTP Collector Indexer

คำเตือน: ตัวเชื่อมต่อข้อมูลอ้างอิง Cloud Search มีให้ใช้งาน "ตามที่เป็นอยู่" เป็นโค้ดตัวอย่างเพื่อใช้ในการสร้างตัวเชื่อมต่อที่ใช้งานได้ของคุณเอง โค้ดตัวอย่างนี้ต้องมีการปรับแต่งและการทดสอบอย่างมากก่อนที่จะนำไปใช้ในสภาพแวดล้อมการพิสูจน์แนวคิดหรือสภาพแวดล้อมจริง สำหรับการใช้งานจริง เราขอแนะนําอย่างยิ่งให้ขอความช่วยเหลือจากพาร์ทเนอร์ Cloud Search หากต้องการความช่วยเหลือเพิ่มเติมในการค้นหาพาร์ทเนอร์ Cloud Search ที่เหมาะสม โปรดติดต่อผู้จัดการฝ่ายดูแลลูกค้าของ Google

คู่มือนี้มีไว้สำหรับผู้ดูแลระบบปลั๊กอินเครื่องมือจัดทำดัชนี Norconex HTTP Collector ของ Google Cloud Search กล่าวคือ ผู้ที่มีหน้าที่รับผิดชอบในการดาวน์โหลด ติดตั้งใช้งาน กำหนดค่า และดูแลรักษาปลั๊กอินเครื่องมือจัดทำดัชนี คู่มือนี้ถือว่าคุณคุ้นเคยกับระบบปฏิบัติการ Linux, พื้นฐานของการ Crawl เว็บ, XML และ Norconex HTTP Collector

คู่มือนี้มีวิธีการทํางานสําคัญที่เกี่ยวข้องกับการติดตั้งใช้งานตัวจัดทําดัชนีและปลั๊กอิน

ดาวน์โหลดซอฟต์แวร์ของปลั๊กอินเครื่องมือจัดทำดัชนี
กำหนดค่า Google Cloud Search
กำหนดค่าเครื่องมือรวบรวมข้อมูล HTTP ของ Norconex และการ Crawl เว็บ
เริ่มการ Crawl เว็บและอัปโหลดเนื้อหา

ข้อมูลเกี่ยวกับงานที่ผู้ดูแลระบบ Google Workspace ต้องดำเนินการเพื่อแมป Google Cloud Search กับปลั๊กอินเครื่องมือจัดทำดัชนี Norconex HTTP Collector จะไม่ปรากฏในคู่มือนี้ ดูข้อมูลเกี่ยวกับงานเหล่านั้นได้ที่หัวข้อจัดการแหล่งข้อมูลของบุคคลที่สาม

ภาพรวมของปลั๊กอินเครื่องมือจัดทำดัชนี Norconex HTTP Collector ของ Cloud Search

โดยค่าเริ่มต้น Cloud Search จะค้นพบ จัดทำดัชนี และแสดงเนื้อหาจากผลิตภัณฑ์ Google Workspace เช่น Google เอกสารและ Gmail คุณสามารถขยายการเข้าถึงของ Google Cloud Search ให้รวมการแสดงเนื้อหาเว็บต่อผู้ใช้ด้วยการติดตั้งใช้งานปลั๊กอินเครื่องมือจัดทำดัชนีสำหรับ Norconex HTTP Collector ซึ่งเป็น Crawler เว็บโอเพนซอร์สสำหรับองค์กร

ไฟล์พร็อพเพอร์ตี้การกําหนดค่า

หากต้องการเปิดใช้ปลั๊กอินเครื่องมือจัดทำดัชนีเพื่อทำการ Crawl เว็บและอัปโหลดเนื้อหาไปยัง Indexing API คุณต้องระบุข้อมูลเฉพาะในระหว่างขั้นตอนการกําหนดค่าที่อธิบายไว้ในเอกสารนี้ในส่วนขั้นตอนการทําให้ใช้งานได้ในฐานะผู้ดูแลระบบปลั๊กอินเครื่องมือจัดทำดัชนี

หากต้องการใช้ปลั๊กอินเครื่องมือจัดทำดัชนี คุณต้องตั้งค่าพร็อพเพอร์ตี้ในไฟล์การกําหนดค่า 2 ไฟล์ ดังนี้

{gcs-crawl-config.xml}-- มีการตั้งค่าสําหรับเครื่องมือรวบรวมข้อมูล HTTP ของ Norconex
sdk-configuration.properties-- มีการตั้งค่าสําหรับ Google Cloud Search

พร็อพเพอร์ตี้ในแต่ละไฟล์ช่วยให้ปลั๊กอินเครื่องมือจัดทำดัชนีของ Google Cloud Search และเครื่องมือรวบรวม HTTP ของ Norconex สื่อสารกันได้

การ Crawl เว็บและการอัปโหลดเนื้อหา

หลังจากป้อนข้อมูลไฟล์การกําหนดค่าแล้ว คุณจะมีการตั้งค่าที่จําเป็นเพื่อเริ่มการ Crawl เว็บ Norconex HTTP Collector จะทำการ Crawl เว็บเพื่อค้นหาเนื้อหาเอกสารที่เกี่ยวข้องกับการกําหนดค่า และอัปโหลดเนื้อหาเอกสารเวอร์ชันไบนารี (หรือข้อความ) ต้นฉบับไปยัง Cloud Search Indexing API ซึ่งจะได้รับการจัดทำดัชนีและแสดงต่อผู้ใช้ในท้ายที่สุด

ระบบปฏิบัติการที่รองรับ

คุณต้องติดตั้งปลั๊กอินเครื่องมือจัดทำดัชนี Norconex HTTP Collector ของ Google Cloud Search ใน Linux

เวอร์ชันเครื่องมือรวบรวม HTTP ของ Norconex ที่รองรับ

ปลั๊กอินเครื่องมือจัดทำดัชนี Norconex HTTP Collector ของ Google Cloud Search รองรับเวอร์ชัน 2.8.0

การรองรับ ACL

ปลั๊กอินเครื่องมือจัดทำดัชนีรองรับการควบคุมการเข้าถึงเอกสารในโดเมน Google Workspace โดยใช้รายการควบคุมการเข้าถึง (ACL)

หากเปิดใช้ ACL เริ่มต้นในการกําหนดค่าปลั๊กอิน Google Cloud Search (defaultAcl.mode ตั้งค่าเป็นค่าอื่นที่ไม่ใช่ none และกําหนดค่าด้วย defaultAcl.*) ปลั๊กอินเครื่องมือจัดทำดัชนีจะพยายามสร้างและใช้ ACL เริ่มต้นก่อน

หากไม่ได้เปิดใช้ ACL เริ่มต้น ปลั๊กอินจะเปลี่ยนกลับไปให้สิทธิ์อ่านแก่โดเมน Google Workspace ทั้งหมด

ดูคำอธิบายโดยละเอียดของพารามิเตอร์การกำหนดค่า ACL ได้ที่พารามิเตอร์ของเครื่องมือเชื่อมต่อที่ Google มีให้

ข้อกำหนดเบื้องต้น

ก่อนทำให้พลิแกนตัวจัดทําดัชนีใช้งานได้ โปรดตรวจสอบว่าคุณมีคอมโพเนนต์ที่จําเป็นต่อไปนี้

Java JRE 1.8 ที่ติดตั้งในคอมพิวเตอร์ที่ใช้ปลั๊กอินเครื่องมือจัดทำดัชนี
ข้อมูล Google Workspace ที่จําเป็นสําหรับการสร้างความสัมพันธ์ระหว่าง Cloud Search กับ Norconex HTTP Collector
- คีย์ส่วนตัวของ Google Workspace (ซึ่งมีรหัสบัญชีบริการ)
- รหัสแหล่งข้อมูล Google Workspace
โดยปกติแล้ว ผู้ดูแลระบบ Google Workspace ของโดเมนจะระบุข้อมูลเข้าสู่ระบบเหล่านี้ให้คุณได้

ขั้นตอนการทำให้ใช้งานได้

หากต้องการติดตั้งใช้งานปลั๊กอินเครื่องมือจัดทำดัชนี ให้ทำตามขั้นตอนต่อไปนี้

ติดตั้ง Norconex HTTP Collector และซอฟต์แวร์ปลั๊กอินเครื่องมือจัดทำดัชนี
กำหนดค่า Google Cloud Search
กําหนดค่าเครื่องมือรวบรวมข้อมูล HTTP ของ Norconex
กําหนดค่าการ Crawl เว็บ
เริ่มการ Crawl เว็บและการอัปโหลดเนื้อหา

ขั้นตอนที่ 1: ติดตั้ง Norconex HTTP Collector และซอฟต์แวร์ปลั๊กอินเครื่องมือจัดทำดัชนี

ดาวน์โหลดซอฟต์แวร์คอมมิต Norconex จากหน้านี้
แตกไฟล์ซอฟต์แวร์ที่ดาวน์โหลดมาลงในโฟลเดอร์ ~/norconex/
โคลนปลั๊กอิน Commiter จาก GitHub git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git และ จากนั้น cd norconex-committer-plugin
ตรวจสอบปลั๊กอิน Commiter เวอร์ชันที่ต้องการและสร้างไฟล์ ZIP โดยทำดังนี้ git checkout tags/v1-0.0.3 และ mvn package (หากต้องการข้ามการทดสอบเมื่อสร้างตัวเชื่อมต่อ ให้ใช้ mvn package -DskipTests)
cd target
คัดลอกไฟล์ jar ของปลั๊กอินที่คอมไพล์แล้วไปยังไดเรกทอรี norconex lib cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
แตกไฟล์ ZIP ที่คุณเพิ่งสร้าง แล้วแตกไฟล์ unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
เรียกใช้สคริปต์การติดตั้งเพื่อคัดลอกไฟล์ .jar ของปลั๊กอินและไลบรารีที่จำเป็นทั้งหมดไปยังไดเรกทอรีของเครื่องมือรวบรวมข้อมูล HTTP โดยทำดังนี้
1. เปลี่ยนปลั๊กอิน Commiter ที่แตกไฟล์ด้านบน cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
2. เรียกใช้ $ sh install.sh และระบุเส้นทางแบบเต็มไปยัง norconex/norconex-collector-http-{version}/lib เป็นไดเรกทอรีเป้าหมายเมื่อได้รับข้อความแจ้ง
3. หากพบไฟล์ jar ซ้ำ ให้เลือกตัวเลือก 1 (คัดลอกไฟล์ jar ต้นทางเท่านั้น หากเวอร์ชันสูงกว่าหรือเท่ากับไฟล์ jar เป้าหมายหลังจากเปลี่ยนชื่อไฟล์ jar เป้าหมาย)

ขั้นตอนที่ 2: กำหนดค่า Google Cloud Search

หากต้องการให้ปลั๊กอินเครื่องมือจัดทำดัชนีเชื่อมต่อกับ Norconex HTTP Collector และจัดทำดัชนีเนื้อหาที่เกี่ยวข้อง คุณต้องสร้างไฟล์การกําหนดค่า Cloud Search ในไดเรกทอรี Norconex ที่ติดตั้ง Norconex HTTP Collector Google ขอแนะนำให้คุณตั้งชื่อไฟล์การกำหนดค่า Cloud Search ว่า sdk-configuration.properties

ไฟล์การกําหนดค่านี้ต้องมีคู่คีย์/ค่าที่กําหนดพารามิเตอร์ ไฟล์การกําหนดค่าต้องระบุพารามิเตอร์ต่อไปนี้เป็นอย่างน้อย ซึ่งจําเป็นสําหรับการเข้าถึงแหล่งข้อมูล Cloud Search

การตั้งค่า	พารามิเตอร์
รหัสแหล่งข้อมูล	`api.sourceId = 1234567890abcdef` ต้องระบุ รหัสแหล่งที่มาของ Cloud Search ที่ผู้ดูแลระบบ Google Workspace ตั้งค่าไว้
บัญชีบริการ	`api.serviceAccountPrivateKeyFile = ./PrivateKey.json` ต้องระบุ ไฟล์คีย์บัญชีบริการ Cloud Search ที่ผู้ดูแลระบบ Google Workspace สร้างขึ้นเพื่อให้เข้าถึงปลั๊กอินเครื่องมือจัดทำดัชนีได้

ตัวอย่างต่อไปนี้แสดงsdk-configuration.propertiesไฟล์

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

ไฟล์การกําหนดค่าอาจมีพารามิเตอร์การกําหนดค่าที่ Google ระบุไว้ด้วย พารามิเตอร์เหล่านี้อาจส่งผลต่อวิธีที่ปลั๊กอินนี้ส่งข้อมูลไปยัง Google Cloud Search API เช่น ชุดพารามิเตอร์ batch.* จะระบุวิธีที่ตัวเชื่อมต่อรวมคําขอ

หากคุณไม่ได้กําหนดพารามิเตอร์ในไฟล์การกําหนดค่า ระบบจะใช้ค่าเริ่มต้น (หากมี) ดูคำอธิบายโดยละเอียดของพารามิเตอร์แต่ละรายการได้ที่พารามิเตอร์ของเครื่องมือเชื่อมต่อที่ Google มีให้

คุณสามารถกําหนดค่าปลั๊กอินเครื่องมือจัดทำดัชนีให้ป้อนข้อมูลเมตาและ Structured Data สำหรับเนื้อหาที่จัดทำดัชนีได้ ระบบจะดึงค่าที่จะป้อนสำหรับช่องข้อมูลเมตาและ Structured Data ได้จากเมตาแท็กในเนื้อหา HTML ที่จัดทําดัชนี หรือจะระบุค่าเริ่มต้นในไฟล์การกําหนดค่าก็ได้

การตั้งค่า	พารามิเตอร์
ชื่อ	`itemMetadata.title.field=movieTitle` `itemMetadata.title.defaultValue=Gone with the Wind` โดยค่าเริ่มต้น ปลั๊กอินจะใช้ `HTML title` เป็นชื่อของเอกสารที่จะได้รับการจัดทำดัชนี ในกรณีที่ไม่มีชื่อ คุณสามารถอ้างอิงแอตทริบิวต์ข้อมูลเมตาซึ่งมีค่าที่สอดคล้องกับชื่อเอกสาร หรือตั้งค่าเริ่มต้นก็ได้
การประทับเวลาที่สร้าง	`itemMetadata.createTime.field=releaseDate` `itemMetadata.createTime.defaultValue=1940-01-17` แอตทริบิวต์ข้อมูลเมตาที่มีค่าการประทับเวลาการสร้างเอกสาร
เวลาที่แก้ไขล่าสุด	`itemMetadata.updateTime.field=releaseDate` `itemMetadata.updateTime.defaultValue=1940-01-17` แอตทริบิวต์ข้อมูลเมตาที่มีค่าสำหรับการประทับเวลาการแก้ไขล่าสุดของเอกสาร
ภาษาของเอกสาร	`itemMetadata.contentLanguage.field=languageCode` `itemMetadata.contentLanguage.defaultValue=en-US` ภาษาของเนื้อหาสำหรับเอกสารที่จัดทําดัชนี
ประเภทออบเจ็กต์สคีมา	`itemMetadata.objectType=movie` ประเภทออบเจ็กต์ที่เว็บไซต์ใช้ตามที่ระบุไว้ใน คำจำกัดความออบเจ็กต์สคีมาแหล่งข้อมูล เครื่องมือเชื่อมต่อจะไม่จัดทำดัชนี Structured Data หากไม่ได้ระบุพร็อพเพอร์ตี้นี้ หมายเหตุ: พร็อพเพอร์ตี้การกําหนดค่านี้จะชี้ไปยังค่าแทนแอตทริบิวต์ข้อมูลเมตา และระบบไม่รองรับส่วนต่อท้าย `.field` และ `.defaultValue`

รูปแบบเวลาและวันที่

รูปแบบวันที่และเวลาจะระบุรูปแบบที่คาดไว้ในแอตทริบิวต์ข้อมูลเมตา หากไฟล์การกําหนดค่าไม่มีพารามิเตอร์นี้ ระบบจะใช้ค่าเริ่มต้น ตารางต่อไปนี้แสดงพารามิเตอร์นี้

การตั้งค่า

พารามิเตอร์

รูปแบบวันที่และเวลาเพิ่มเติม

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

รายการรูปแบบ java.time.format.DateTimeFormatter เพิ่มเติมที่คั่นด้วยเซมิโคลอน ระบบจะใช้รูปแบบเมื่อแยกวิเคราะห์ค่าสตริงสำหรับช่องวันที่หรือวันที่และเวลาในข้อมูลเมตาหรือสคีมา ค่าเริ่มต้นคือรายการว่าง แต่ระบบจะรองรับรูปแบบ RFC 3339 และ RFC 1123 เสมอ

ขั้นตอนที่ 3: กำหนดค่าเครื่องมือรวบรวมข้อมูล HTTP ของ Norconex

ไฟล์ ZIP norconex-committer-google-cloud-search-{version}.zip มีไฟล์การกำหนดค่าตัวอย่าง minimum-config.xml

Google ขอแนะนำให้คุณเริ่มการกําหนดค่าโดยการคัดลอกไฟล์ตัวอย่าง ดังนี้

การเปลี่ยนแปลงในไดเรกทอรีเครื่องมือรวบรวม HTTP ของ Norconex:
$ cd ~/norconex/norconex-collector-http-{version}/
คัดลอกไฟล์การกําหนดค่า
$ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
แก้ไขไฟล์ที่สร้างขึ้นใหม่ (ในตัวอย่างนี้คือ gcs-crawl-config.xml) และเพิ่มหรือแทนที่โหนด <committer> และ <tagger> ที่มีอยู่ตามที่อธิบายไว้ในตารางต่อไปนี้

การตั้งค่า	พารามิเตอร์
`<committer> node`	`<committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">` ต้องระบุ หากต้องการเปิดใช้ปลั๊กอิน คุณต้องเพิ่มโหนด `<committer>` เป็นโหนดย่อยของโหนดรูท `<httpcollector>`
`<UploadFormat>`	`<uploadFormat>raw</uploadFormat>` ไม่บังคับ รูปแบบที่ปลั๊กอินเครื่องมือจัดทําดัชนีส่งเนื้อหาเอกสารไปยัง API เครื่องมือจัดทําดัชนีของ Google Cloud Search ค่าที่ใช้ได้มีดังนี้ `raw`: ปลั๊กอินเครื่องมือจัดทำดัชนีจะส่งเนื้อหาเอกสารต้นฉบับที่ยังไม่ได้แปลง `text`: ปลั๊กอินเครื่องมือจัดทำดัชนีจะส่งเนื้อหาข้อความที่ดึงมา ค่าเริ่มต้นคือ `raw`
`BinaryContent Tagger <tagger> node`	`<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>` ต้องระบุหากค่าของ `<UploadFormat>` คือ `raw` ในกรณีนี้ พารามิเตอร์การจัดทำดัชนีต้องมีช่องเนื้อหาไบนารีของเอกสาร โดยคุณต้องเพิ่มโหนด `BinaryContentTagger <tagger>` เป็นองค์ประกอบย่อยของโหนด `<importer> / <preParseHandlers>`

ตัวอย่างต่อไปนี้แสดงการแก้ไขที่จำเป็นสำหรับ gcs-crawl-config.xml

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

ขั้นตอนที่ 4: กำหนดค่าการ Crawl เว็บ

ก่อนเริ่มการ Crawl เว็บ คุณต้องกำหนดค่าการ Crawl เพื่อให้รวมเฉพาะข้อมูลที่องค์กรต้องการให้แสดงในผลการค้นหา การตั้งค่าที่สําคัญที่สุดสำหรับการ Crawl เว็บเป็นส่วนหนึ่งของ<crawler> โหนดและอาจรวมถึงสิ่งต่อไปนี้

URL เริ่มต้น
ความลึกสูงสุดของการ Crawl
จำนวนเธรด

เปลี่ยนค่าการกําหนดค่าเหล่านี้ตามต้องการ ดูรายละเอียดเพิ่มเติมเกี่ยวกับการตั้งค่าการ Crawl เว็บ รวมถึงรายการพารามิเตอร์การกําหนดค่าทั้งหมดที่ใช้ได้ได้ที่หน้าการกําหนดค่าของ HTTP Collector

ขั้นตอนที่ 5: เริ่มการ Crawl เว็บและการอัปโหลดเนื้อหา

หลังจากติดตั้งและตั้งค่าปลั๊กอินเครื่องมือจัดทำดัชนีแล้ว คุณจะเรียกใช้ปลั๊กอินดังกล่าวในโหมดในเครื่องได้

ตัวอย่างต่อไปนี้จะถือว่าคอมโพเนนต์ที่จำเป็นอยู่ในไดเรกทอรีในเครื่องบนระบบ Linux เรียกใช้คำสั่งต่อไปนี้

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

ตรวจสอบ Crawler ด้วย JEF Monitor

Norconex JEF (Job Execution Framework) Monitor เป็นเครื่องมือกราฟิกสำหรับตรวจสอบความคืบหน้าของกระบวนการและงานของ Norconex Web Crawler (HTTP Collector) ดูบทแนะนำฉบับเต็มเกี่ยวกับวิธีตั้งค่ายูทิลิตีนี้ได้ที่หัวข้อตรวจสอบความคืบหน้าของ Crawler ด้วย JEF Monitor