Работа сервиса Google Cloud Engine прервалась на несколько часов

13e00ecc18239c970dd6e71b16877397

19 февраля случился первый серьёзный сбой в Google Cloud Engine с момента запуска этого облачного сервиса. Пользователи, среди которых были и корпоративные клиенты, на несколько часов оказались отключёнными от GCE. Не получалось авторизоваться в системе, а также получить доступ к требуемым внутренним ресурсам. Первоначально во многих пользовательских блогах появлялись сообщения о том, что причина кроется в хакерской атаке DDoS, которая была планомерно проведена на ресурсы компании. Затем оказалось, что всё это носит исключительно внутренний характер.

Корпорация Google в тот же день опубликовала в своём блоге заметку под номером 15045 (порядковый номер записей, или инцидента). В ней сообщается, что проблема существовала около двух часов. Расследование, которое окончательно ещё не завершено, показало наличие дефектных элементов в коде программного обеспечения, установленного на этих серверах. Виртуальная сеть GCE работает на специально разработанном ПО, которое не имеет контактов с остальными ячейками сервиса. Это сделано именно для того, чтобы злоумышленники не смогли скомпрометировать систему в результате атаки.

В итоге программа сервиса Cloud Engine внезапно прекратила обновлять информацию, связанную с маршрутизацией серверов. Исходящий трафик перестал отправляться в нужном количестве, а в какой-то момент целевые запросы и вовсе оборвались. Оставалась информация в кэше системы, которая некоторое время всё-таки позволяла сервису работать. Затем срок её годности подошёл к завершению, что и привело к окончательному обрыву соединения.

Как сообщает в отчёте Google, работоспособность GCE можно назвать неприемлемой за последние сутки. Оканчивалась заметка информацией о том, что инженеры компании работают над исправлением ошибок, а также обещают клиентам не допускать подобной ситуации в будущем. Предыдущие сбои Cloud Engine, хоть и имели место быть, обычно не превышали нескольких минут времени.