ออกแบบรูปแบบสำหรับการตรวจสอบที่อยู่ปริมาณมากใน Google Cloud Platform

วัตถุประสงค์

บทแนะนำการตรวจสอบที่อยู่ปริมาณมากจะอธิบายสถานการณ์ต่างๆ ที่สามารถใช้การตรวจสอบที่อยู่ปริมาณมากได้ ในบทแนะนำนี้ เราจะแนะนำรูปแบบการออกแบบที่แตกต่างกันภายใน Google Cloud Platform สำหรับการเรียกใช้การตรวจสอบที่อยู่ปริมาณมาก

เราจะเริ่มจากภาพรวมเกี่ยวกับการเรียกใช้การตรวจสอบที่อยู่ปริมาณมากใน Google Cloud Platform ด้วย Cloud Run, Compute Engine หรือ Google Kubernetes Engine สำหรับการดำเนินการครั้งเดียว จากนั้นเราจะดูว่าสามารถรวมความสามารถนี้ไว้ในไปป์ไลน์ข้อมูลได้อย่างไร

ท้ายบทความนี้ คุณควรเข้าใจตัวเลือกต่างๆ สำหรับการเรียกใช้การตรวจสอบที่อยู่ปริมาณมากในสภาพแวดล้อม Google Cloud

สถาปัตยกรรมอ้างอิงบน Google Cloud Platform

ส่วนนี้จะเจาะลึกรายละเอียดเกี่ยวกับรูปแบบการออกแบบที่แตกต่างกันสำหรับการตรวจสอบที่อยู่ปริมาณมากโดยใช้ Google Cloud Platform การใช้งานบน Google Cloud Platform ช่วยให้คุณผสานรวมกับกระบวนการและไปป์ไลน์ข้อมูลที่มีอยู่ได้

การเรียกใช้การตรวจสอบที่อยู่ปริมาณมาก 1 ครั้งบน Google Cloud Platform

ด้านล่างนี้เป็นสถาปัตยกรรมอ้างอิงของวิธีสร้างการผสานรวม บน Google Cloud Platform ซึ่งเหมาะกับการดำเนินการหรือการทดสอบแบบครั้งเดียวมากกว่า

รูปภาพ

ในกรณีนี้ เราขอแนะนำให้อัปโหลดไฟล์ CSV ไปยังที่เก็บข้อมูล Cloud Storage จากนั้นเรียกใช้สคริปต์การตรวจสอบที่อยู่ปริมาณมากจากสภาพแวดล้อม Cloud Run แต่คุณสามารถเรียกใช้สภาพแวดล้อมรันไทม์อื่นใดก็ได้ เช่น Compute Engine หรือ Google Kubernetes Engine นอกจากนี้ CSV เอาต์พุตยังอัปโหลดไปยังที่เก็บข้อมูล Cloud Storage ได้อีกด้วย

การทำงานเป็นไปป์ไลน์ข้อมูลของ Google Cloud Platform

รูปแบบการทำให้ใช้งานได้ที่แสดงในส่วนก่อนหน้านี้นั้นเหมาะอย่างยิ่งสำหรับการทดสอบการตรวจสอบความถูกต้องของที่อยู่ปริมาณมากสำหรับการใช้งานครั้งเดียวได้อย่างรวดเร็ว อย่างไรก็ตาม หากคุณจำเป็นต้องใช้ไปป์ไลน์ข้อมูลเป็นประจำ คุณสามารถใช้ประโยชน์จากความสามารถของ Google Cloud Platform แบบดั้งเดิมเพื่อให้มีประสิทธิภาพมากขึ้นได้ การเปลี่ยนแปลงบางส่วนที่คุณทำได้มีดังนี้

รูปภาพ

  • ในกรณีนี้ คุณสามารถถ่ายโอนไฟล์ CSV ในที่เก็บข้อมูล Cloud Storage ได้
  • งาน Dataflow สามารถเลือกที่อยู่เพื่อประมวลผลแล้วแคชใน BigQuery
  • คุณขยายไลบรารี Dataflow Python ได้เพื่อให้มีตรรกะสำหรับการตรวจสอบที่อยู่ปริมาณมากเพื่อตรวจสอบที่อยู่จากงาน Dataflow

เรียกใช้สคริปต์จากไปป์ไลน์ข้อมูลเป็นกระบวนการที่เกิดซ้ำและยาวนาน

วิธีการทั่วไปอีกวิธีหนึ่งคือการตรวจสอบกลุ่มที่อยู่ซึ่งเป็นส่วนหนึ่งของไปป์ไลน์ข้อมูลสตรีมมิงเป็นกระบวนการที่เกิดซ้ำ คุณอาจมีที่อยู่ในที่เก็บข้อมูล BigQuery ด้วย ในแนวทางนี้ เราจะได้เห็นวิธีสร้างไปป์ไลน์ข้อมูลที่เกิดซ้ำ (ซึ่งจำเป็นต้องทริกเกอร์เป็นรายวัน/รายสัปดาห์/รายเดือน)

รูปภาพ

  • อัปโหลดไฟล์ CSV เริ่มต้นไปยังที่เก็บข้อมูล Cloud Storage
  • ใช้ Memorystore เป็นพื้นที่เก็บข้อมูลถาวรเพื่อบำรุงรักษา สถานะระดับกลางสำหรับกระบวนการที่ใช้เวลานาน
  • แคชที่อยู่สุดท้ายในที่เก็บข้อมูล BigQuery
  • ตั้งค่า Cloud Scheduler เพื่อเรียกใช้สคริปต์เป็นระยะๆ

สถาปัตยกรรมนี้มีข้อดีดังต่อไปนี้

  • คุณสามารถใช้ Cloud Scheduler เพื่อตรวจสอบที่อยู่เป็นระยะๆ คุณอาจต้องการตรวจสอบที่อยู่อีกครั้งทุกเดือน หรือยืนยันที่อยู่ใหม่ทุกเดือน/ไตรมาส สถาปัตยกรรมนี้ช่วยแก้ไขกรณีการใช้งานดังกล่าว
  • หากข้อมูลลูกค้าอยู่ใน BigQuery คุณจะแคชที่อยู่ที่ตรวจสอบแล้วหรือแฟล็กการตรวจสอบความถูกต้องได้โดยตรง หมายเหตุ: ข้อมูลที่สามารถแคชได้และอธิบายไว้โดยละเอียดในบทความเกี่ยวกับการตรวจสอบที่อยู่ปริมาณมาก

  • การใช้ Memorystore ให้ความยืดหยุ่นและความสามารถในการประมวลผลที่อยู่ที่มากขึ้น ขั้นตอนนี้จะเพิ่มการเก็บสถานะให้กับไปป์ไลน์การประมวลผลทั้งหมด ซึ่งจำเป็นสำหรับการจัดการชุดข้อมูลที่อยู่ที่มีขนาดใหญ่มาก เทคโนโลยีฐานข้อมูลอื่นๆ เช่น Cloud SQL[https://cloud.google.com/sql] หรือรสชาติฐานข้อมูลอื่นๆ ที่ Google Cloud Platform นำเสนอจะใช้ได้ที่นี่เช่นกัน แต่เราเชื่อว่าพื้นที่เก็บข้อมูลหน่วยความจำที่สมบูรณ์แบบทำให้ขนาดความต้องการและความเรียบง่ายสมดุลกัน จึงเป็นตัวเลือกแรก

บทสรุป

การนำรูปแบบที่อธิบายในที่นี้มาใช้จะช่วยให้คุณใช้ Address Validation API สำหรับ Use Case และกรณีการใช้งานต่างๆ ใน Google Cloud Platform ได้

เราได้เขียนไลบรารี Python แบบโอเพนซอร์สเพื่อช่วยให้คุณเริ่มต้น Use Case ตามที่อธิบายไว้ข้างต้น คุณจะเรียกใช้จากบรรทัดคำสั่งในคอมพิวเตอร์หรือจาก Google Cloud Platform หรือผู้ให้บริการระบบคลาวด์อื่นๆ ก็ได้

ดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีใช้คลังจากบทความนี้

ขั้นตอนถัดไป

ดาวน์โหลดสมุดปกขาวปรับปรุงการชำระเงิน การนำส่ง และการดำเนินการด้วยที่อยู่ที่เชื่อถือได้ และดูการสัมมนาผ่านเว็บเรื่องการปรับปรุงการชำระเงิน การนำส่ง และการดำเนินการด้วยการยืนยันที่อยู่

แนะนำให้อ่านเพิ่มเติม

ผู้ร่วมให้ข้อมูล

ซึ่ง Google เป็นผู้ดูแลจัดการบทความนี้ ผู้เขียนต่อไปนี้เขียนขึ้นเป็นคนแรก
ผู้เขียนหลัก:

วาล์ว Henrik | วิศวกรโซลูชัน
Thomas Anglaret | วิศวกรโซลูชัน
Sarthak Ganguly | วิศวกรโซลูชัน