Breaking News

تسببت نقطة فشل واحدة في انقطاع خدمة أمازون مما أثر على الملايين



وفي المقابل، امتد التأخير في عمليات نشر حالة الشبكة إلى موازن أحمال الشبكة الذي تعتمد عليه خدمات AWS لتحقيق الاستقرار. ونتيجة لذلك، واجه عملاء AWS أخطاء في الاتصال من منطقة US-East-1. تضمنت وظائف شبكة AWS المتأثرة إنشاء مجموعات Redshift وتعديلها، واستدعاءات Lambda، وإطلاق مهام Fargate مثل مسارات العمل المُدارة لـ Apache Airflow، وعمليات دورة حياة Outposts، ومركز دعم AWS.

في الوقت الحالي، قامت أمازون بتعطيل DynamoDB DNS Planner وأتمتة DNS Enactor في جميع أنحاء العالم بينما تعمل على إصلاح حالة السباق وإضافة وسائل حماية لمنع تطبيق خطط DNS غير الصحيحة. يقوم المهندسون أيضًا بإجراء تغييرات على EC2 وموازن تحميل الشبكة الخاص به.

حكاية تحذيرية

حددت Ookla عاملاً مساهمًا لم تذكره أمازون: تركيز العملاء الذين يوجهون اتصالهم عبر نقطة النهاية US-East-1 وعدم القدرة على التنقل حول المنطقة. وأوضح أوكلا:

يُعد مركز US‑EAST‑1 المتأثر هو مركز AWS الأقدم والأكثر استخدامًا. ويعني التركيز الإقليمي أنه حتى التطبيقات العالمية غالبًا ما تقوم بتثبيت تدفقات الهوية أو الحالة أو البيانات الوصفية هناك. عندما تفشل التبعية الإقليمية كما كان الحال في هذا الحدث، تنتشر التأثيرات في جميع أنحاء العالم لأن العديد من المداخن “العالمية” تمر عبر فرجينيا في مرحلة ما.

تعمل التطبيقات الحديثة على ربط الخدمات المُدارة معًا مثل التخزين وقوائم الانتظار والوظائف بدون خادم. إذا لم يتمكن DNS من حل نقطة نهاية مهمة بشكل موثوق (على سبيل المثال، DynamoDB API المتضمنة هنا)، فستتتابع الأخطاء عبر واجهات برمجة التطبيقات الأولية وتتسبب في فشل واضح في التطبيقات التي لا يرتبط بها المستخدمون مع AWS. هذا هو بالضبط ما سجله Downdetector عبر Snapchat وRoblox وSignal وRing وHMRC وغيرها.

يعد هذا الحدث بمثابة قصة تحذيرية لجميع الخدمات السحابية: الأهم من منع ظروف السباق والأخطاء المماثلة هو القضاء على نقاط الفشل الفردية في تصميم الشبكة.

وقال أوكلا: “إن الطريق إلى الأمام ليس الفشل الصفري بل احتواء الفشل، والذي يتم تحقيقه من خلال التصميمات متعددة المناطق، وتنوع التبعية، والاستعداد المنضبط للحوادث، مع الإشراف التنظيمي الذي يتحرك نحو التعامل مع السحابة كمكونات نظامية للمرونة الوطنية والاقتصادية.”