چرخه حیات یک حادثه
Google Maps Platform به چارچوب مدیریت رویداد Google Cloud Platform پایبند است.
هنگامی که قطعی یا خرابی سرویس رخ می دهد، تیم مهندسی محصول و تیم پشتیبانی پلتفرم Google Maps با یکدیگر همکاری می کنند تا این حادثه را حل کرده و آن را به شما اطلاع دهند.
تشخیص
Google از نظارت داخلی و جعبه سیاه برای شناسایی حوادث و ایجاد هشدار به مهندسان ما برای بررسی استفاده میکند. برای اطلاعات بیشتر، به فصل 6 کتاب مهندسی قابلیت اطمینان سایت مراجعه کنید.
اگر حادثهای را شناسایی کردید که هنوز در ردیاب مشکل گزارش نشده است، به صفحه پشتیبانی پلتفرم Google Maps Create a Case (در کنسول Google Cloud) بروید و یک مورد پشتیبانی جدید ایجاد کنید.
پاسخ اولیه
وقتی Google حادثهای را تشخیص میدهد، تیم پشتیبانی با شما ارتباط برقرار میکند. اطلاع رسانی اولیه از یک حادثه اغلب پراکنده است و اغلب فقط محصول مورد نظر را همراه با علائم کلیدی ذکر می کند. این به این دلیل است که ما اعلان سریع را بر جزئیات اولویت داریم. همانطور که بیشتر می آموزیم، جزئیات بیشتری در به روز رسانی های بعدی ارائه می شود.
کانال های ارتباطی حادثه
برای ارائه مقدار مناسب اطلاعات، تیم پشتیبانی پلتفرم Google Maps بسته به دامنه و شدت یک مشکل، کانالهای ارتباطی مختلفی را ارائه میکند:
داشبورد وضعیت عمومی Maps اولین جایی است که وقتی متوجه میشوید مشکلی بر شما تأثیر میگذارد، بررسی میشود. داشبورد حوادثی را نشان میدهد که بر بسیاری از مشتریان تأثیر میگذارد، بنابراین اگر حادثهای را مشاهده کردید، احتمالاً به مشکل شما مرتبط است. برای نشان دادن شدت، داشبورد وضعیت حوادث را به عنوان یک قطع سرویس، اختلال یا اطلاعات علامتگذاری میکند.
گروه اعلانهای پلتفرم Google Maps یک گروه عمومی Google است که در آن تمام قطعیهای گسترده، بهعلاوه سایر بهروزرسانیهای فنی در مورد APIهای پلتفرم Google Maps گزارش میشود. همه اعضای گروه یک اعلان ایمیلی دریافت خواهند کرد که در ابتدا قطعی با بهروزرسانیهای بعدی شناسایی شود تا زمانی که مشکل برطرف شود.
کارت وضعیت Maps Platform یک پیام اطلاعاتی است که همیشه در بخش Maps Support کنسول Cloud قابل مشاهده است و وضعیت فعلی APIها و سرویسهای Maps Platform را نشان میدهد. هنگامی که یک حادثه فعال وجود دارد، پیامی مبنی بر شناسایی محصول آسیب دیده وجود خواهد داشت و شامل پیوندی به داشبورد وضعیت عمومی Maps است که در آن می توانید حوادث فعال را مشاهده کنید.
Issue Tracker حاوی فهرست مرجعی از تمام حوادث شناخته شده است. شما می توانید حوادث باز را مشاهده کنید، پیشرفت آنها را با مشترک شدن در آنها دنبال کنید، و نظرات خود را اضافه کنید تا به تیم های ما در بررسی کمک کنید. همچنین میتوانید پیوند ردیاب مشکل را در اسناد پشتیبانی پلتفرم Google Maps بیابید.
موارد پشتیبانی در صورتی استفاده میشود که ممکن است مشکل در پروژه(های) شما مجزا باشد یا بر تعداد محدودی از مشتریان تأثیر بگذارد. اگر هیچ حادثه ای اعلام نشده است، اما همچنان با مشکل مواجه هستید، به صفحه پشتیبانی پلتفرم Google Maps Create a Case (در کنسول Cloud) بروید و یک مورد پشتیبانی جدید ایجاد کنید.
تحقیق
تیم های مهندسی محصول مسئول بررسی علت اصلی حوادث هستند. مدیریت رویداد اغلب توسط مهندسان قابلیت اطمینان سایت انجام می شود، اما بسته به موقعیت و محصول ممکن است توسط مهندسان نرم افزار یا دیگران انجام شود. برای اطلاعات بیشتر، به فصل 12 کتاب مهندسی قابلیت اطمینان سایت مراجعه کنید.
کاهش/رفع
یک مشکل تنها زمانی برطرف میشود که تغییراتی ایجاد شده باشد که Google مطمئن باشد این تأثیر را برای مدت نامحدودی پایان میدهد. به عنوان مثال، راه حل ممکن است به عقب برگرداندن یک تغییر که باعث بروز یک حادثه شده است.
در حالی که یک حادثه در حال انجام است، تیمهای پشتیبانی و محصول تلاش خواهند کرد تا مشکل را کاهش دهند . کاهش زمانی اتفاق میافتد که میتوان تأثیر یا دامنه یک مسئله را کاهش داد، به عنوان مثال با ارائه موقت منابع اضافی به سرویسی که بار اضافی دارد.
اگر هیچ اقدام کاهشی یافت نشد، در صورت امکان، تیم پشتیبانی راهحلهای راهحل را پیدا کرده و با آنها ارتباط برقرار میکند. راهحلها گامهایی هستند که میتوانید برای رفع نیاز اساسی با وجود حادثه انجام دهید. یک راه حل ممکن است استفاده از تنظیمات مختلف برای یک تماس API برای جلوگیری از یک مسیر کد مشکل ساز باشد.
پیگیری کنید
در حالی که یک حادثه در جریان است، تیم پشتیبانی بهروزرسانیهای منظم را ارائه میکند. بهروزرسانیها معمولاً ارائه میدهند:
- اطلاعات بیشتر در مورد حادثه، مانند پیامهای خطا، ویژگیهایی که تحت تأثیر قرار میگیرند و میزان گسترده آن.
- پیشرفت به سمت کاهش، از جمله هر راه حل.
- جدول زمانی برای ارتباط، متناسب با حادثه.
- تغییرات در وضعیت، مانند زمانی که یک حادثه ثابت شده است.
پس از مرگ
همه حوادث منجر به تجزیه و تحلیل داخلی پس از مرگ (بعد از حادثه) برای درک کامل حادثه و شناسایی پیشرفتهای قابل اطمینانی میشوند که Google میتواند انجام دهد. سپس این پیشرفت ها ردیابی و اجرا می شوند. برای اطلاعات بیشتر در مورد مرگ پس از مرگ در Google، به فصل 15 کتاب مهندسی قابلیت اطمینان سایت مراجعه کنید.
گزارش حادثه
هنگامی که حوادث تأثیر بسیار گسترده و جدی دارند، Google گزارشهایی را ارائه میکند که علائم، تأثیر، علت اصلی، اصلاح و پیشگیری از حوادث را در آینده نشان میدهد. مانند پس از مرگ، ما توجه ویژه ای به مراحلی داریم که برای درس گرفتن از موضوع و بهبود قابلیت اطمینان انجام می دهیم. هدف Google از نوشتن و انتشار موارد پس از مرگ، شفاف بودن و نشان دادن تعهد ما به ایجاد خدمات پایدار برای مشتریان است.
سوالات متداول
میخواهم در صورت قطعی مداوم مطلع شوم. چه کار کنم؟
- به گروه اعلانهای پلتفرم نقشههای گوگل بپیوندید تا از مسائل جاری مطلع شوید و پیشرفت حادثه را بهطور همزمان دنبال کنید. این گروه همچنین به شما کمک می کند تا از اطلاعیه های محصولات و پلتفرم ها به روز بمانید.
- از پیوندهای RSS Feed یا JSON History در پایین داشبورد وضعیت عمومی Maps برای مشاهده فید حوادث فعلی و گذشته استفاده کنید. هر پستی در داشبورد، یک پست در فید را راهاندازی میکند. برای به روز نگه داشتن شما، هر پست فید شامل همه پیام ها و به روز رسانی های مربوط به رویداد داشبورد مربوطه می شود. به این ترتیب، نیازی به بررسی تاریخچه فید خود نخواهید داشت تا نحوه پیشرفت کارها را با هم ترکیب کنید. فیدهای RSS در قالب XML منتشر می شوند. افزونههای مرورگر مانند RSS Subscription Extension (توسط Google) به شما امکان میدهد محتوای فید را پیشنمایش کنید و از طریق RSS Reader مورد علاقه خود مشترک شوید. تاریخچه JSON یک فید وب JSON از حوادث گذشته است. طیف وسیعی از کتابخانههای نرمافزار و چارچوبهای وب از پیوند محتوا از طریق JSON Feed پشتیبانی میکنند .
چه نوع اطلاعات وضعیتی را می توانم در صفحه اصلی داشبورد پیدا کنم؟
داشبورد وضعیت عمومی نقشههای Google اطلاعاتی درباره APIها و سرویسهایی که بخشی از پلتفرم Google Maps هستند ارائه میکند. اگر یک حادثه فعال وجود داشته باشد، اطلاعات برای هر API و سرویس خاص در پلتفرم Google Maps در اینجا پست میشود. نشانگرهای وضعیت همیشه نشان داده میشوند که سلامت کلی هر API و سرویس را از یکی از موارد زیر نشان میدهند:
- قطع سرویس : یک سیستم تولید یا سرویس از کار افتاده است. راه حل در دسترس نیست یا به راحتی اجرا نمی شود.
- اختلال در خدمات : یک سیستم تولید یا خدمات تا حدی آسیب دیده است و/یا همانطور که انتظار می رود کار نمی کند. راه حل وجود دارد.
- اطلاعات خدمات : یک سیستم تولید یا خدمات تا حدی آسیب دیده است و/یا همانطور که انتظار می رود کار نمی کند. به طور کلی، این سرویس هنوز در دسترس است، تأثیر آن جزئی است و تعداد کمی از کاربران را تحت تأثیر قرار می دهد.
- موجود : سرویس کاملاً کاربردی است و همانطور که انتظار می رود کار می کند.
آیا داشبورد بلادرنگ است؟
داشبورد وضعیت عمومی Maps برای ارائه وضعیت تقریباً همزمان محصولاتی است که عموماً در دسترس هستند و تحت پوشش Google Maps Platform SLA هستند. همه حوادث ابتدا قبل از ارسال تأیید می شوند. بنابراین ممکن است از زمانی که برای اولین بار شناسایی شدند کمی تاخیر وجود داشته باشد. به این ترتیب، داشبورد نباید برای اهداف ردیابی زمان استفاده شود.
آیا می توانم از داشبورد برای نظارت بر زمان آپدیت پلتفرم نقشه های گوگل استفاده کنم؟
داشبورد وضعیت عمومی Maps برای نظارت بر وضعیت سرویسهای GMP بر اساس GMP SLA در نظر گرفته نشده است، زیرا مدت زمان خاموشی نشان داده شده در داشبورد ممکن است «زمان توقف» واقعی (همانطور که در SLA تعریف شده است) را برای پروژه شما، به ویژه برای موارد پایینتر نشان دهد. حوادث شدید علاوه بر این، مدت زمان نشان داده شده ممکن است شامل زمان اضافی پس از رفع مشکل برای تأیید کامل رفع باشد.
برای نظارت بر استفاده از API، ایجاد داشبورد، و ایجاد هشدار، از Google Maps Platform Monitoring دیدن کنید.
اگر اتفاقی روی داشبورد ندیدم چه میشود؟
همه مشتریان و پروژه ها تحت تأثیر هر حادثه ای قرار نمی گیرند. فقط حوادث گسترده و شدید روی داشبورد منعکس می شود. اگر با مشکلی مواجه شدید که در داشبورد فهرست نشده است، با پشتیبانی تماس بگیرید .
از کجا می توانم اطلاعاتی در مورد اختلالات و قطعی سرویس های گذشته پیدا کنم؟
صفحه تاریخچه در داشبورد وضعیت عمومی Maps مخزن اختلالات و قطعیهای 365 روز گذشته است. روی یک حادثه کلیک کنید تا پستهای مربوط به حادثه را در حالی که در جریان بود مرور کنید، و همچنین هر گونه گزارش حادثه منتشر شده توسط تیم پشتیبانی.
چه کسی داشبورد را به روز می کند؟
تیم جهانی پشتیبانی پلتفرم نقشههای گوگل، وضعیت سرویسها را با استفاده از انواع سیگنالهای مختلف نظارت میکند و در صورت بروز مشکلی گسترده، داشبورد را بهروزرسانی میکند. در صورت نیاز، آنها همچنین گزارش تجزیه و تحلیل مفصلی را پس از حل یک حادثه ارسال می کنند.
تفاوت بین "حادثه" و "قطع" چیست؟
اگرچه این عبارات اغلب به جای یکدیگر استفاده میشوند، داشبورد وضعیت عمومی Maps و ارتباطات خارجی ما از «حادثه» برای اشاره به هر دوره خدمات ضعیف و «قطع» فقط برای اشاره به جدیترین آسیبها استفاده میکنند، جایی که یک سرویس تا حدی که کار نمیکند. تجربه مشتریان ما را به طور موثر بی فایده می کند.