วัตถุประสงค์
บทแนะนำการตรวจสอบที่อยู่ปริมาณมากจะแนะนำสถานการณ์ต่างๆ ที่สามารถใช้การตรวจสอบที่อยู่ปริมาณมาก ในบทแนะนำนี้ เราจะแนะนำรูปแบบการออกแบบต่างๆ ภายใน Google Cloud Platform สำหรับการเรียกใช้การตรวจสอบที่อยู่ปริมาณมาก
เราจะเริ่มต้นด้วยภาพรวมเกี่ยวกับการเรียกใช้ Address Validation ปริมาณมากใน Google Cloud Platform ด้วย Cloud Run, Compute Engine หรือ Google Kubernetes Engine สำหรับการดำเนินการแบบครั้งเดียว จากนั้นเราจะดูวิธีรวมความสามารถนี้เป็นส่วนหนึ่งของไปป์ไลน์ข้อมูล
เมื่ออ่านบทความนี้จบ คุณควรจะมีความเข้าใจที่ดีเกี่ยวกับตัวเลือกต่างๆ ในการเรียกใช้ Address Validation ปริมาณมากในสภาพแวดล้อม Google Cloud
สถาปัตยกรรมอ้างอิงใน Google Cloud Platform
ส่วนนี้จะเจาะลึกรูปแบบการออกแบบต่างๆ สำหรับการตรวจสอบความถูกต้องของที่อยู่ปริมาณมากโดยใช้ Google Cloud Platform การเรียกใช้ใน Google Cloud Platform ช่วยให้คุณผสานรวมกับกระบวนการและไปป์ไลน์ข้อมูลที่มีอยู่ได้
การเรียกใช้การตรวจสอบความถูกต้องของที่อยู่ปริมาณมาก 1 ครั้งใน Google Cloud Platform
ด้านล่างนี้คือสถาปัตยกรรมอ้างอิงของวิธีสร้างการผสานรวมใน Google Cloud Platform ซึ่งเหมาะสําหรับการดําเนินการแบบครั้งเดียวหรือการทดสอบมากกว่า
ในกรณีนี้ เราขอแนะนำให้อัปโหลดไฟล์ CSV ไปยัง Bucket ของ Cloud Storage จากนั้นจะเรียกใช้สคริปต์ Address Validation ปริมาณมากจากสภาพแวดล้อม Cloud Run ได้ อย่างไรก็ตาม คุณสามารถเรียกใช้ในสภาพแวดล้อมรันไทม์อื่นๆ เช่น Compute Engine หรือ Google Kubernetes Engine นอกจากนี้ คุณยังอัปโหลด CSV เอาต์พุตไปยัง Bucket ของ Cloud Storage ได้ด้วย
ทำงานเป็นไปป์ไลน์ข้อมูลของ Google Cloud Platform
รูปแบบการติดตั้งใช้งานที่แสดงในส่วนก่อนหน้าเหมาะสำหรับการทดสอบการตรวจสอบที่อยู่ปริมาณมากอย่างรวดเร็วสำหรับการใช้งานครั้งเดียว อย่างไรก็ตาม หากคุณต้องการใช้เป็นประจำในไปป์ไลน์ข้อมูล คุณจะใช้ประโยชน์จากความสามารถดั้งเดิมของ Google Cloud Platform ได้ดียิ่งขึ้นเพื่อให้มีความแข็งแกร่งมากขึ้น การเปลี่ยนแปลงบางอย่างที่คุณทำได้ ได้แก่

- ในกรณีนี้ คุณสามารถทิ้งไฟล์ CSV ในที่เก็บข้อมูล Cloud Storage ได้
- งาน Dataflow สามารถเลือกที่อยู่ที่จะประมวลผลแล้วแคชใน BigQuery
- ไลบรารี Python ของ Dataflow สามารถขยายให้มีตรรกะสำหรับการตรวจสอบที่อยู่ปริมาณมากเพื่อตรวจสอบที่อยู่จากงาน Dataflow ได้
การเรียกใช้สคริปต์จากไปป์ไลน์ข้อมูลเป็นกระบวนการที่เกิดซ้ำเป็นเวลานาน
อีกแนวทางที่ใช้กันโดยทั่วไปคือการตรวจสอบที่อยู่เป็นกลุ่มซึ่งเป็นส่วนหนึ่งของไปป์ไลน์ข้อมูลการสตรีมเป็นกระบวนการที่เกิดขึ้นซ้ำ นอกจากนี้ คุณอาจมีที่อยู่ในที่เก็บข้อมูล BigQuery ด้วย ในแนวทางนี้ เราจะดูวิธีสร้างไปป์ไลน์ข้อมูลที่เกิดซ้ำ (ซึ่งต้องทริกเกอร์ทุกวัน/สัปดาห์/เดือน)

- อัปโหลดไฟล์ CSV เริ่มต้นไปยัง Bucket ของ Cloud Storage
- ใช้ Memorystore เป็นที่เก็บข้อมูลแบบถาวรเพื่อรักษาสถานะ ชั่วคราวสำหรับกระบวนการที่ใช้เวลานาน
- แคชที่อยู่สุดท้ายในที่เก็บข้อมูล BigQuery
- ตั้งค่า Cloud Scheduler เพื่อเรียกใช้สคริปต์เป็นระยะๆ
สถาปัตยกรรมนี้มีข้อดีดังนี้
- คุณสามารถตรวจสอบความถูกต้องของที่อยู่เป็นระยะๆ ได้โดยใช้ Cloud Scheduler คุณอาจต้องตรวจสอบที่อยู่อีกครั้งทุกเดือน หรือตรวจสอบที่อยู่ใหม่ทุกเดือน/ไตรมาส สถาปัตยกรรมนี้ช่วยแก้ปัญหา Use Case ดังกล่าวได้
หากข้อมูลลูกค้าอยู่ใน BigQuery คุณจะแคชที่อยู่ที่ตรวจสอบแล้วหรือ Flag การตรวจสอบได้โดยตรง หมายเหตุ: คุณดูรายละเอียดเกี่ยวกับสิ่งที่แคชได้และวิธีการแคชได้ในบทความการตรวจสอบที่อยู่ปริมาณมาก
การใช้ Memorystore จะช่วยให้มีความยืดหยุ่นสูงขึ้นและประมวลผลที่อยู่ได้มากขึ้น ขั้นตอนนี้จะเพิ่มสถานะให้กับไปป์ไลน์การประมวลผลทั้งหมด ซึ่งจำเป็นสำหรับการจัดการชุดข้อมูลที่อยู่ขนาดใหญ่มาก คุณยังใช้เทคโนโลยีฐานข้อมูลอื่นๆ เช่น Cloud SQL[https://cloud.google.com/sql] หรือฐานข้อมูลรูปแบบอื่นๆ ที่ Google Cloud Platform มีให้บริการได้ด้วย อย่างไรก็ตาม เราเชื่อว่า Memorystore แบบไร้เซิร์ฟเวอร์ตอบโจทย์ความต้องการด้านการปรับขนาดและความเรียบง่ายได้อย่างลงตัว จึงควรเป็นตัวเลือกแรก
บทสรุป
การใช้รูปแบบที่อธิบายไว้ที่นี่จะช่วยให้คุณใช้ Address Validation API สำหรับ Use Case ต่างๆ และจาก Use Case ต่างๆ ใน Google Cloud Platform ได้
เราได้เขียนไลบรารี Python แบบโอเพนซอร์สเพื่อช่วยให้คุณเริ่มต้นใช้งานกรณีการใช้งานที่อธิบายไว้ข้างต้นได้ เรียกใช้ได้จากบรรทัดคำสั่งในคอมพิวเตอร์ หรือจาก Google Cloud Platform หรือผู้ให้บริการระบบคลาวด์อื่นๆ
ดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีใช้คลังได้จากบทความนี้
ขั้นตอนถัดไป
ดาวน์โหลดเอกสารไวท์เปเปอร์ปรับปรุงการชำระเงิน การนำส่ง และการดำเนินงานด้วยที่อยู่ที่เชื่อถือได้ และดูวิดีโอสัมมนาทางเว็บการปรับปรุงการชำระเงิน การนำส่ง และการดำเนินงานด้วยการตรวจสอบที่อยู่
อ่านเพิ่มเติมที่
- เอกสารประกอบของ Address Validation API
- การเข้ารหัสพิกัดภูมิศาสตร์และ Address Validation
- ดูการสาธิต Address Validation
ผู้ร่วมให้ข้อมูล
Google เป็นผู้ดูแลบทความนี้ ผู้มีส่วนร่วมต่อไปนี้เป็นผู้เขียนบทความนี้
ผู้เขียนหลัก
Henrik Valve | วิศวกรโซลูชัน
Thomas Anglaret | วิศวกรโซลูชัน
Sarthak Ganguly | วิศวกรโซลูชัน