تقنية

يلقي OpenAI اللوم في انقطاع ChatGPT الهائل على “خدمة القياس عن بعد الجديدة”

تلقي شركة OpenAI اللوم في واحدة من أطول حالات انقطاع الخدمة في تاريخها على فشل “خدمة القياس عن بعد الجديدة”.

وفي يوم الأربعاء، تم إطلاق ChatGPT، منصة chatbot المدعومة بالذكاء الاصطناعي من OpenAI؛ مولد الفيديو الخاص به، سورا؛ وواجهت واجهة برمجة التطبيقات (API) التي تواجه المطورين اضطرابات كبيرة بدءًا من حوالي الساعة 3 مساءً بتوقيت المحيط الهادئ. اعترفت شركة OpenAI بالمشكلة بعد فترة وجيزة، وبدأت العمل على حلها. لكن الأمر سيستغرق من الشركة ما يقرب من ثلاث ساعات لاستعادة جميع الخدمات.

في مرحلة ما بعد الوفاة نشرت في وقت متأخر من يوم الخميس، كتبت OpenAI أن الانقطاع لم يكن بسبب حادث أمني أو إطلاق منتج مؤخرًا، ولكن بسبب خدمة القياس عن بعد التي تم نشرها يوم الأربعاء لجمع مقاييس Kubernetes. Kubernetes هو برنامج مفتوح المصدر يساعد في إدارة الحاويات أو حزم التطبيقات والملفات ذات الصلة التي تُستخدم لتشغيل البرامج في بيئات معزولة.

“تتمتع خدمات القياس عن بعد ببصمة واسعة جدًا، لذا فإن تكوين هذه الخدمة الجديدة تسبب عن غير قصد في … عمليات واجهة برمجة التطبيقات Kubernetes كثيفة الاستخدام للموارد،” كتب OpenAI في تقرير ما بعد الوفاة. “[Our] أصبحت خوادم Kubernetes API مرهقة، مما أدى إلى تعطيل مستوى التحكم في Kubernetes في معظم خوادمنا الكبيرة [Kubernetes] مجموعات.”

هذا كثير من المصطلحات، ولكن في الأساس، أثرت خدمة القياس عن بعد الجديدة على عمليات Kubernetes الخاصة بـ OpenAI، بما في ذلك المورد الذي تعتمد عليه العديد من خدمات الشركة لحل DNS. يقوم تحليل DNS بتحويل عناوين IP إلى أسماء النطاقات؛ وهذا هو السبب وراء قدرتك على كتابة “Google.com” بدلاً من “142.250.191.78”.

إن استخدام OpenAI للتخزين المؤقت لنظام أسماء النطاقات (DNS)، والذي يحتوي على معلومات حول أسماء النطاقات التي تم البحث عنها مسبقًا (مثل عناوين مواقع الويب) وعناوين IP المقابلة لها، أدى إلى تعقيد الأمور بسبب “التأخير”[ing] “الرؤية”، كتب OpenAI، و”السماح بالطرح [of the telemetry service] للاستمرار قبل فهم النطاق الكامل للمشكلة.

تقول OpenAI إنها تمكنت من اكتشاف المشكلة “بضع دقائق” قبل أن يبدأ العملاء في نهاية المطاف في رؤية التأثير، لكنها لم تكن قادرة على تنفيذ الإصلاح بسرعة لأنه كان عليها العمل حول خوادم Kubernetes المثقلة.

وكتبت الشركة: “كان هذا نتيجة التقاء أنظمة وعمليات متعددة تفشل في وقت واحد وتتفاعل بطرق غير متوقعة”. “لم تتمكن اختباراتنا من اكتشاف تأثير التغيير على مستوى التحكم في Kubernetes [and] كان العلاج بطيئًا جدًا بسبب تأثير الإغلاق.

تقول OpenAI إنها ستتبنى العديد من الإجراءات لمنع وقوع حوادث مماثلة في المستقبل، بما في ذلك تحسينات على عمليات النشر المرحلية مع مراقبة أفضل لتغييرات البنية التحتية وآليات جديدة لضمان قدرة مهندسي OpenAI على الوصول إلى خوادم Kubernetes API الخاصة بالشركة في أي ظرف من الظروف.

كتب OpenAI: “نعتذر عن التأثير الذي سببه هذا الحادث لجميع عملائنا – بدءًا من مستخدمي ChatGPT إلى المطورين إلى الشركات التي تعتمد على منتجات OpenAI”. “لقد فشلنا في تحقيق توقعاتنا.”

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى