مدیریت حوادث پلتفرم نقشه های گوگل

چرخه حیات یک حادثه

Google Maps Platform به چارچوب مدیریت رویداد Google Cloud Platform پایبند است.

هنگامی که قطعی یا خرابی سرویس رخ می دهد، تیم مهندسی محصول و تیم پشتیبانی پلتفرم Google Maps با یکدیگر همکاری می کنند تا این حادثه را حل کرده و آن را به شما اطلاع دهند.

چرخه زندگی

تشخیص

Google از نظارت داخلی و جعبه سیاه برای شناسایی حوادث و ایجاد هشدار به مهندسان ما برای بررسی استفاده می‌کند. برای اطلاعات بیشتر، به فصل 6 کتاب مهندسی قابلیت اطمینان سایت مراجعه کنید.

اگر حادثه‌ای را شناسایی کردید که هنوز در ردیاب مشکل گزارش نشده است، به صفحه پشتیبانی پلتفرم Google Maps Create a Case (در کنسول Google Cloud) بروید و یک مورد پشتیبانی جدید ایجاد کنید.

پاسخ اولیه

وقتی Google حادثه‌ای را تشخیص می‌دهد، تیم پشتیبانی با شما ارتباط برقرار می‌کند. اطلاع رسانی اولیه از یک حادثه اغلب پراکنده است و اغلب فقط محصول مورد نظر را همراه با علائم کلیدی ذکر می کند. این به این دلیل است که ما اعلان سریع را بر جزئیات اولویت داریم. همانطور که بیشتر می آموزیم، جزئیات بیشتری در به روز رسانی های بعدی ارائه می شود.

پاسخ

کانال های ارتباطی حادثه

برای ارائه مقدار مناسب اطلاعات، تیم پشتیبانی پلتفرم Google Maps بسته به دامنه و شدت یک مشکل، کانال‌های ارتباطی مختلفی را ارائه می‌کند:

داشبورد وضعیت عمومی Maps اولین جایی است که وقتی متوجه می‌شوید مشکلی بر شما تأثیر می‌گذارد، بررسی می‌شود. داشبورد حوادثی را نشان می‌دهد که بر بسیاری از مشتریان تأثیر می‌گذارد، بنابراین اگر حادثه‌ای را مشاهده کردید، احتمالاً به مشکل شما مرتبط است. برای نشان دادن شدت، داشبورد وضعیت حوادث را به عنوان یک قطع سرویس، اختلال یا اطلاعات علامت‌گذاری می‌کند.

گروه اعلان‌های پلتفرم Google Maps یک گروه عمومی Google است که در آن تمام قطعی‌های گسترده، به‌علاوه سایر به‌روزرسانی‌های فنی در مورد APIهای پلتفرم Google Maps گزارش می‌شود. همه اعضای گروه یک اعلان ایمیلی دریافت خواهند کرد که در ابتدا قطعی با به‌روزرسانی‌های بعدی شناسایی شود تا زمانی که مشکل برطرف شود.

کارت وضعیت Maps Platform یک پیام اطلاعاتی است که همیشه در بخش Maps Support کنسول Cloud قابل مشاهده است و وضعیت فعلی APIها و سرویس‌های Maps Platform را نشان می‌دهد. هنگامی که یک حادثه فعال وجود دارد، پیامی مبنی بر شناسایی محصول آسیب دیده وجود خواهد داشت و شامل پیوندی به داشبورد وضعیت عمومی Maps است که در آن می توانید حوادث فعال را مشاهده کنید.

قطع شدن

Issue Tracker حاوی فهرست مرجعی از تمام حوادث شناخته شده است. شما می توانید حوادث باز را مشاهده کنید، پیشرفت آنها را با مشترک شدن در آنها دنبال کنید، و نظرات خود را اضافه کنید تا به تیم های ما در بررسی کمک کنید. همچنین می‌توانید پیوند ردیاب مشکل را در اسناد پشتیبانی پلتفرم Google Maps بیابید.

موارد پشتیبانی در صورتی استفاده می‌شود که ممکن است مشکل در پروژه(های) شما مجزا باشد یا بر تعداد محدودی از مشتریان تأثیر بگذارد. اگر هیچ حادثه ای اعلام نشده است، اما همچنان با مشکل مواجه هستید، به صفحه پشتیبانی پلتفرم Google Maps Create a Case (در کنسول Cloud) بروید و یک مورد پشتیبانی جدید ایجاد کنید.

تحقیق

تیم های مهندسی محصول مسئول بررسی علت اصلی حوادث هستند. مدیریت رویداد اغلب توسط مهندسان قابلیت اطمینان سایت انجام می شود، اما بسته به موقعیت و محصول ممکن است توسط مهندسان نرم افزار یا دیگران انجام شود. برای اطلاعات بیشتر، به فصل 12 کتاب مهندسی قابلیت اطمینان سایت مراجعه کنید.

کاهش/رفع

یک مشکل تنها زمانی برطرف می‌شود که تغییراتی ایجاد شده باشد که Google مطمئن باشد این تأثیر را برای مدت نامحدودی پایان می‌دهد. به عنوان مثال، راه حل ممکن است به عقب برگرداندن یک تغییر که باعث بروز یک حادثه شده است.

در حالی که یک حادثه در حال انجام است، تیم‌های پشتیبانی و محصول تلاش خواهند کرد تا مشکل را کاهش دهند . کاهش زمانی اتفاق می‌افتد که می‌توان تأثیر یا دامنه یک مسئله را کاهش داد، به عنوان مثال با ارائه موقت منابع اضافی به سرویسی که بار اضافی دارد.

اگر هیچ اقدام کاهشی یافت نشد، در صورت امکان، تیم پشتیبانی راه‌حل‌های راه‌حل را پیدا کرده و با آنها ارتباط برقرار می‌کند. راه‌حل‌ها گام‌هایی هستند که می‌توانید برای رفع نیاز اساسی با وجود حادثه انجام دهید. یک راه حل ممکن است استفاده از تنظیمات مختلف برای یک تماس API برای جلوگیری از یک مسیر کد مشکل ساز باشد.

پیگیری کنید

در حالی که یک حادثه در جریان است، تیم پشتیبانی به‌روزرسانی‌های منظم را ارائه می‌کند. به‌روزرسانی‌ها معمولاً ارائه می‌دهند:

  • اطلاعات بیشتر در مورد حادثه، مانند پیام‌های خطا، ویژگی‌هایی که تحت تأثیر قرار می‌گیرند و میزان گسترده آن.
  • پیشرفت به سمت کاهش، از جمله هر راه حل.
  • جدول زمانی برای ارتباط، متناسب با حادثه.
  • تغییرات در وضعیت، مانند زمانی که یک حادثه ثابت شده است.

پس از مرگ

همه حوادث منجر به تجزیه و تحلیل داخلی پس از مرگ (بعد از حادثه) برای درک کامل حادثه و شناسایی پیشرفت‌های قابل اطمینانی می‌شوند که Google می‌تواند انجام دهد. سپس این پیشرفت ها ردیابی و اجرا می شوند. برای اطلاعات بیشتر در مورد مرگ پس از مرگ در Google، به فصل 15 کتاب مهندسی قابلیت اطمینان سایت مراجعه کنید.

گزارش حادثه

هنگامی که حوادث تأثیر بسیار گسترده و جدی دارند، Google گزارش‌هایی را ارائه می‌کند که علائم، تأثیر، علت اصلی، اصلاح و پیشگیری از حوادث را در آینده نشان می‌دهد. مانند پس از مرگ، ما توجه ویژه ای به مراحلی داریم که برای درس گرفتن از موضوع و بهبود قابلیت اطمینان انجام می دهیم. هدف Google از نوشتن و انتشار موارد پس از مرگ، شفاف بودن و نشان دادن تعهد ما به ایجاد خدمات پایدار برای مشتریان است.

سوالات متداول

می‌خواهم در صورت قطعی مداوم مطلع شوم. چه کار کنم؟

  • به گروه اعلان‌های پلتفرم نقشه‌های گوگل بپیوندید تا از مسائل جاری مطلع شوید و پیشرفت حادثه را به‌طور هم‌زمان دنبال کنید. این گروه همچنین به شما کمک می کند تا از اطلاعیه های محصولات و پلتفرم ها به روز بمانید.
  • از پیوندهای RSS Feed یا JSON History در پایین داشبورد وضعیت عمومی Maps برای مشاهده فید حوادث فعلی و گذشته استفاده کنید. هر پستی در داشبورد، یک پست در فید را راه‌اندازی می‌کند. برای به روز نگه داشتن شما، هر پست فید شامل همه پیام ها و به روز رسانی های مربوط به رویداد داشبورد مربوطه می شود. به این ترتیب، نیازی به بررسی تاریخچه فید خود نخواهید داشت تا نحوه پیشرفت کارها را با هم ترکیب کنید. فیدهای RSS در قالب XML منتشر می شوند. افزونه‌های مرورگر مانند RSS Subscription Extension (توسط Google) به شما امکان می‌دهد محتوای فید را پیش‌نمایش کنید و از طریق RSS Reader مورد علاقه خود مشترک شوید. تاریخچه JSON یک فید وب JSON از حوادث گذشته است. طیف وسیعی از کتابخانه‌های نرم‌افزار و چارچوب‌های وب از پیوند محتوا از طریق JSON Feed پشتیبانی می‌کنند .

چه نوع اطلاعات وضعیتی را می توانم در صفحه اصلی داشبورد پیدا کنم؟

داشبورد وضعیت عمومی نقشه‌های Google اطلاعاتی درباره APIها و سرویس‌هایی که بخشی از پلتفرم Google Maps هستند ارائه می‌کند. اگر یک حادثه فعال وجود داشته باشد، اطلاعات برای هر API و سرویس خاص در پلتفرم Google Maps در اینجا پست می‌شود. نشانگرهای وضعیت همیشه نشان داده می‌شوند که سلامت کلی هر API و سرویس را از یکی از موارد زیر نشان می‌دهند:

  • قطع سرویس : یک سیستم تولید یا سرویس از کار افتاده است. راه حل در دسترس نیست یا به راحتی اجرا نمی شود.
  • اختلال در خدمات : یک سیستم تولید یا خدمات تا حدی آسیب دیده است و/یا همانطور که انتظار می رود کار نمی کند. راه حل وجود دارد.
  • اطلاعات خدمات : یک سیستم تولید یا خدمات تا حدی آسیب دیده است و/یا همانطور که انتظار می رود کار نمی کند. به طور کلی، این سرویس هنوز در دسترس است، تأثیر آن جزئی است و تعداد کمی از کاربران را تحت تأثیر قرار می دهد.
  • موجود : سرویس کاملاً کاربردی است و همانطور که انتظار می رود کار می کند.

آیا داشبورد بلادرنگ است؟

داشبورد وضعیت عمومی Maps برای ارائه وضعیت تقریباً هم‌زمان محصولاتی است که عموماً در دسترس هستند و تحت پوشش Google Maps Platform SLA هستند. همه حوادث ابتدا قبل از ارسال تأیید می شوند. بنابراین ممکن است از زمانی که برای اولین بار شناسایی شدند کمی تاخیر وجود داشته باشد. به این ترتیب، داشبورد نباید برای اهداف ردیابی زمان استفاده شود.

آیا می توانم از داشبورد برای نظارت بر زمان آپدیت پلتفرم نقشه های گوگل استفاده کنم؟

داشبورد وضعیت عمومی Maps برای نظارت بر وضعیت سرویس‌های GMP بر اساس GMP SLA در نظر گرفته نشده است، زیرا مدت زمان خاموشی نشان داده شده در داشبورد ممکن است «زمان توقف» واقعی (همانطور که در SLA تعریف شده است) را برای پروژه شما، به ویژه برای موارد پایین‌تر نشان دهد. حوادث شدید علاوه بر این، مدت زمان نشان داده شده ممکن است شامل زمان اضافی پس از رفع مشکل برای تأیید کامل رفع باشد.

برای نظارت بر استفاده از API، ایجاد داشبورد، و ایجاد هشدار، از Google Maps Platform Monitoring دیدن کنید.

اگر اتفاقی روی داشبورد ندیدم چه می‌شود؟

همه مشتریان و پروژه ها تحت تأثیر هر حادثه ای قرار نمی گیرند. فقط حوادث گسترده و شدید روی داشبورد منعکس می شود. اگر با مشکلی مواجه شدید که در داشبورد فهرست نشده است، با پشتیبانی تماس بگیرید .

از کجا می توانم اطلاعاتی در مورد اختلالات و قطعی سرویس های گذشته پیدا کنم؟

صفحه تاریخچه در داشبورد وضعیت عمومی Maps مخزن اختلالات و قطعی‌های 365 روز گذشته است. روی یک حادثه کلیک کنید تا پست‌های مربوط به حادثه را در حالی که در جریان بود مرور کنید، و همچنین هر گونه گزارش حادثه منتشر شده توسط تیم پشتیبانی.

چه کسی داشبورد را به روز می کند؟

تیم جهانی پشتیبانی پلتفرم نقشه‌های گوگل، وضعیت سرویس‌ها را با استفاده از انواع سیگنال‌های مختلف نظارت می‌کند و در صورت بروز مشکلی گسترده، داشبورد را به‌روزرسانی می‌کند. در صورت نیاز، آنها همچنین گزارش تجزیه و تحلیل مفصلی را پس از حل یک حادثه ارسال می کنند.

تفاوت بین "حادثه" و "قطع" چیست؟

اگرچه این عبارات اغلب به جای یکدیگر استفاده می‌شوند، داشبورد وضعیت عمومی Maps و ارتباطات خارجی ما از «حادثه» برای اشاره به هر دوره خدمات ضعیف و «قطع» فقط برای اشاره به جدی‌ترین آسیب‌ها استفاده می‌کنند، جایی که یک سرویس تا حدی که کار نمی‌کند. تجربه مشتریان ما را به طور موثر بی فایده می کند.