إدارة الحوادث في "منصة خرائط Google"

مراحل نشاط المشكلة

تلتزم "منصّة خرائط Google" بإطار عمل إدارة الحوادث في Google Cloud Platform.

عند حدوث انقطاع في الخدمة أو انخفاض في جودتها، يعمل فريق هندسة المنتجات و فريق دعم "منصّة خرائط Google" معًا لحلّ المشكلة وإبلاغك بها.

مراحل النشاط

رصد

تستخدم Google مراقبة داخلية ومراقبة بالصندوق الأسود لرصد الحوادث وإطلاق تنبيهات إلى مهندسينا لإجراء التحقيق. لمزيد من المعلومات، راجِع الفصل 6 من كتاب Site Reliability Engineering.

إذا رصدت مشكلة لم يتم الإبلاغ عنها بعد في نظام تتبُّع المشاكل، انتقِل إلى صفحة "إنشاء طلب دعم" في فريق دعم "منصة خرائط Google" (في وحدة تحكّم Google Cloud) وأنشئ طلب دعم جديدًا.

الردّ الأولي

عندما ترصد Google حادثة، يتولّى فريق الدعم التواصل معك. غالبًا ما يكون الإشعار الأولي بحدوث حادثة متناثرًا، وغالبًا ما يشير فقط إلى المنتج المعنيّ مع الأعراض الرئيسية. ويرجع ذلك إلى أنّنا نعطي الأولوية للإشعار السريع على التفاصيل. وسنقدّم تفاصيل إضافية في التحديثات اللاحقة عندما نحصل على المزيد من المعلومات.

رد

قنوات التواصل بشأن الحوادث

لتقديم القدر المناسب من المعلومات، يقدّم فريق دعم "منصّة خرائط Google" قنوات اتصال مختلفة للتواصل بشأن المشاكل، استنادًا إلى نطاق المشكلة وشدتها:

لوحة بيانات الحالة العامة في "خرائط Google" هي المكان الأول الذي يجب التحقّق منه عند اكتشاف مشكلة تؤثّر فيك. تعرض لوحة البيانات المشاكل التي تؤثر في العديد من العملاء، لذلك إذا رأيت مشكلة مُدرَجة، من المرجّح أن تكون مرتبطة بمشكلتك. لتحديد مدى شدّة المشكلة، تصنِّف لوحة البيانات الخاصة بالحالة الحوادث على أنّها إما انقطاع في الخدمة أو تعطّل أو معلومات.

مجموعة إشعارات "منصّة خرائط Google" هي مجموعة علنية على Google يتم فيها الإبلاغ عن جميع الأعطال الواسعة النطاق، بالإضافة إلى آخر الأخبار التقنية حول واجهة برمجة التطبيقات في "منصّة خرائط Google". سيتلقّى جميع أعضاء المجموعة إشعارًا عبر البريد الإلكتروني عند رصد انقطاع في الخدمة في البداية، مع تلقيهم التحديثات اللاحقة إلى أن يتم حل المشكلة.

بطاقة حالة "منصة خرائط Google" هي رسالة معلوماتية تظهر دائمًا في القسم دعم "خرائط Google" في وحدة تحكّم Cloud، وتعرض الحالة الحالية لواجهات برمجة تطبيقات "منصة خرائط Google" وخدماتها. عند حدوث مشكلة نشطة، ستظهر رسالة تحدّد المنتج المتأثّر، وتتضمّن رابطًا يؤدي إلى لوحة بيانات الحالة العامة في "خرائط Google" حيث يمكنك الاطّلاع على المشاكل النشطة.

انقطاع الخدمة

يتضمّن نظام تتبُّع المشاكل قائمة مرجعية بجميع الحوادث المعروفة. يمكنك الاطّلاع على المشاكل المفتوحة وتتبُّع مستوى تقدّمها من خلال الاشتراك فيها وإضافة تعليقات لمساعدة فِرقنا في التحقيق فيها. يمكنك أيضًا العثور على الرابط المؤدّي إلى أداة تتبُّع المشاكل في مستندات دعم منصة "خرائط Google".

يتم استخدام طلبات الدعم إذا كانت المشكلة محصورة في مشاريعك أو تؤثر في عدد محدود من العملاء. إذا لم يتم الإبلاغ عن أيّ مشكلة، ولكنّك لا تزال تواجه مشكلة، انتقِل إلى صفحة "إنشاء طلب دعم" في فريق دعم "منصة خرائط Google" (في وحدة تحكّم Cloud) وأنشئ طلب دعم جديدًا.

التحقيق

تتولى فِرق هندسة المنتجات مسؤولية التحقيق في السبب الجذري وراء الحوادث. غالبًا ما يتولّى مهندسو موثوقية الموقع إدارة الحوادث، ولكن قد يتولّى مهندسو البرامج أو غيرهم هذه المهمة، وذلك حسب الحالة والمنتج. لمزيد من المعلومات، يمكنك الاطّلاع على الفصل 12 من كتاب Site Reliability Engineering.

الحد من تأثير المشكلة أو إصلاحها

تُعدّ المشكلة محلولة فقط عندما تكون فِرق Google على ثقة بأنّ التغييرات التي تم إجراؤها ستُنهي التأثير السلبي بشكلٍ نهائي. على سبيل المثال، يمكن أن يكون الإصلاح هو التراجع عن تغيير أدّى إلى حدوث مشكلة.

عندما تكون المشكلة مستمرة، سيحاول فريقا الدعم والمنتجات الحدّ من تأثيرها. ويتم الحد من تأثير المشكلة عندما يمكن تقليل تأثيرها أو نطاقها، على سبيل المثال، من خلال توفير موارد إضافية مؤقتًا لخدمة تواجه حمولة زائدة.

إذا لم يتم العثور على أي تدابير تخفيف، سيبحث فريق الدعم عن حلول بديلة ويشاركها معك عندما يكون ذلك ممكنًا. الحلول البديلة هي خطوات يمكنك اتّخاذها لتلبية الحاجة الأساسية على الرغم من المشكلة. يمكن أن يكون الحل البديل هو استخدام إعدادات مختلفة لاستدعاء واجهة برمجة التطبيقات بهدف تجنُّب مسار رمز برمجي يتسبب في حدوث مشاكل.

المتابعة

في الفترة التي تستمر فيها المشكلة، يقدّم فريق الدعم آخر المعلومات بشأنها بشكل منتظم. تقدّم التحديثات عادةً ما يلي:

  • مزيد من المعلومات عن الحادثة، مثل رسائل الخطأ والميزات المتأثّرة ومدى انتشارها
  • مستوى التقدّم في معالجة المشكلة، بما في ذلك أي حلول بديلة
  • المخططات الزمنية للتواصل، المخصّصة للحادثة
  • التغييرات في الحالة، مثل وقت حلّ مشكلة

Postmortem

تؤدي جميع الحوادث إلى إجراء تحليل داخلي لما بعد حدوثها (بعد الحادث) بهدف فهم الحادثة بالكامل وتحديد التحسينات التي يمكن أن تجريها Google لتعزيز موثوقية الخدمة. وبعد ذلك، يتم تتبُّع هذه التحسينات وتنفيذها. لمزيد من المعلومات حول عمليات تحليل الأخطاء في Google، راجِع الفصل 15 من كتاب Site Reliability Engineering.

تقرير عن الحادثة

عندما يكون للأحداث تأثير واسع وجادّ، تقدّم Google تقارير عن الحوادث تهدف إلى توضيح الأعراض والتأثير والسبب الأساسي وحلّ المشاكل ومنع حدوثها في المستقبل. كما هو الحال مع عمليات تحليل الأخطاء، نولي اهتمامًا خاصًا بالخطوات التي نتّخذها للاستفادة من المشكلة وتحسين الموثوقية. يهدف فريق Google إلى تحقيق الشفافية وإظهار التزامه بإنشاء خدمات ثابتة لعملائنا من خلال كتابة تقارير ما بعد حدوث المشكلة ونشرها.

الأسئلة الشائعة

أريد أن يتم إعلامي عند حدوث انقطاع مستمر في الخدمة. ماذا يجب أن أفعل؟

  • يمكنك الانضمام إلى مجموعة إشعارات Google Maps Platform للحصول على إشعارات بشأن المشاكل الجارية وتتبُّع مستوى تقدّم المشكلة في الوقت الفعلي. ستساعدك هذه المجموعة أيضًا في الاطّلاع على آخر الأخبار حول المنتجات والمنصات.
  • استخدِم روابط خلاصة RSS أو سجلّ JSON في أسفل لوحة البيانات العامة للحالة في "خرائط Google" لعرض خلاصة بالمشاكل الحالية والسابقة. ستؤدي كل مشاركة في "لوحة البيانات" إلى نشر مشاركة في الخلاصة. لإطلاعك على آخر الأخبار، ستتضمّن كل مشاركة في الخلاصة جميع الرسائل والتعديلات المتعلّقة بالحدث المقابل في لوحة البيانات. بهذه الطريقة، لن تحتاج إلى البحث في سجلّ الخلاصة لمعرفة مستوى التقدّم. يتم نشر خلاصات RSS بتنسيق XML. تتيح لك إضافات المتصفّح، مثل إضافة اشتراك RSS (من Google)، معاينة محتوى الخلاصة والاشتراك من خلال قارئ RSS المفضّل لديك. "سجلّ JSON" هو خلاصة JSON على الويب للأحداث السابقة. تتيح مجموعة من مكتبات البرامج وأطر عمل الويب نشر المحتوى من خلال خلاصة JSON.

ما هو نوع معلومات الحالة التي يمكنني العثور عليها في الصفحة الرئيسية للوحة البيانات؟

تقدّم لوحة البيانات العامة للحالة في "خرائط Google" معلومات عن واجهات برمجة التطبيقات والخدمات التي تشكّل جزءًا من "منصة خرائط Google". في حال حدوث مشكلة نشطة، سيتم نشر معلومات هنا بشأن كل واجهة برمجة تطبيقات وخدمة معيّنة ضمن "منصّة خرائط Google". يتم دائمًا عرض مؤشرات الحالة التي تمثّل الصحة العامة لكل واجهة برمجة تطبيقات وخدمة، وذلك من خلال أحد الخيارَين التاليَين:

  • تعطُّل الخدمة: تعطُّل أحد أنظمة الإنتاج أو الخدمات الحل البديل غير متاح أو لا يمكن تنفيذه بسهولة.
  • انقطاع الخدمة: يتعذّر استخدام نظام الإنتاج أو الخدمة جزئيًا و/أو لا تعمل على النحو المتوقّع. يتوفّر حل بديل.
  • معلومات الخدمة: هناك مشكلة جزئية في نظام الإنتاج أو الخدمة و/أو لا تعمل على النحو المتوقّع. بشكل عام، تظل الخدمة متاحة، والتأثير بسيط، ويؤثر في عدد قليل من المستخدمين.
  • متاحة: تعمل الخدمة بشكل كامل على النحو المتوقّع.

هل لوحة البيانات في الوقت الفعلي؟

تهدف "لوحة بيانات الحالة العامة" في "خرائط Google" إلى توفير حالة المنتجات المتاحة بشكل عام والمشمولة بعقد مستوى الخدمة في "منصة خرائط Google" في الوقت الفعلي تقريبًا. يتم التحقّق من جميع الحوادث أولاً قبل نشرها، لذلك قد يحدث تأخير بسيط في ظهورها في لوحة البيانات. وبالتالي، يجب عدم استخدام لوحة البيانات لأغراض تتبُّع وقت التشغيل.

هل يمكنني استخدام لوحة البيانات لتتبُّع وقت عمل Google Maps Platform؟

لا يُقصد باستخدام "لوحة بيانات الحالة العامة" في "خرائط Google" مراقبة حالة خدمات GMP استنادًا إلى اتفاقية مستوى الخدمة في GMP لأنّ مدد الانقطاع المعروضة في لوحة البيانات قد لا تعكس "وقت الاستراحة" الفعلي (على النحو المحدّد في اتفاقية مستوى الخدمة) لمشروعك، خاصةً في ما يتعلّق بالمشاكل الأقل خطورة. بالإضافة إلى ذلك، قد تتضمّن المدّات الزمنية المعروضة وقتًا إضافيًا بعد تخفيف المشكلة لتأكيد الإصلاح بالكامل.

لمراقبة استخدام واجهة برمجة التطبيقات وإنشاء لوحات البيانات والتنبيهات، يُرجى الانتقال إلى مراقبة Google Maps Platform.

ماذا أفعل إذا لم أرَ أيّ حادثة في لوحة البيانات؟

لا تتأثّر كل المشاريع والعملاء بكلّ مشكلة. لا تظهر في لوحة البيانات سوى الحوادث الواسعة النطاق والحادة. إذا واجهت مشكلة غير مُدرَجة في لوحة البيانات، تواصَل مع فريق الدعم .

أين يمكنني العثور على معلومات عن حالات انقطاع الخدمة السابقة؟

إنّ صفحة السجلّ في لوحة بيانات الحالة العلنية في "خرائط Google" هي مستودع يتضمّن حالات الانقطاعات والأعطال التي حدثت خلال آخر 365 يومًا. انقر على حادثة لمراجعة المشاركات المتعلّقة بها أثناء حدوثها، بالإضافة إلى أي تقارير عن الحوادث نشرها فريق الدعم.

مَن يُعدّل لوحة البيانات؟

يرصد فريق الدعم العالمي في "منصة خرائط Google" حالة الخدمات باستخدام العديد من أنواع الإشارات المختلفة، ويُعدّل لوحة البيانات في حال حدوث مشكلة واسعة النطاق. عند الضرورة، سنشر الفريق أيضًا تقرير تحليل مفصّلاً بعد حلّ أيّ مشكلة.

ما الفرق بين "الحادث" و "انقطاع الخدمة"؟

على الرغم من أنّه يتم استخدام هذين المصطلحين غالبًا بشكل متبادل، فإنّ لوحة بيانات حالة "خرائط Google" العلنية ومقالات التواصل الخارجية تستخدمان كلمة "الحادث" للإشارة إلى أي فترة من فترة ضعف الأداء وكلمة "الانقطاع" للإشارة فقط إلى أخطر حالات الضعف، حيث لا تعمل الخدمة إلى حدٍ يجعل تجربة عملائنا غير مجدية بشكل فعّال.