Даунтайм в десятую процента: почему зависают «облака» и правда ли дешевле хранить данные локально?

60 секунд, две, полчаса даунтайма: от таковой неприятности не застрахован никто. Кроме того наибольшие и ветшайшие из интернет-бизнесов иногда сталкиваются с неполадками, каковые выбрасывают их из Сети. Но случившееся в последние семь дней больше напоминает эпидемию, нежели череду случайностей. Друг за другом, с отличием в день–двое, «упали» сервисы и сайты нескольких брендов мирового значения — покинув миллионы пользователей в удивлении, а клиентов и партнёров – не у дел. Самое время задуматься о обеспечениях на аптайм…

Первой — устроив необычную прелюдию — ушла в офлайн газета New York Times. Сайт одного из информационных столпов английского Веба выключился 14 августа на два часа, и обстоятельство не установлена до сих пор. Предполагается, что это не было атакой: легко случайность (совокупность упала практически за 60 секунд до планировавшейся рутинной проверки). Редакция держалась молодцом, сохранив кроме того чувство юмора (в редакционном “Твиттере” дали обещание, что в случае если починить сайт не удастся, то свежие материалы будут публиковаться в 140-символьном формате), что, но, не помешало котировкам издательства упасть вниз, а соперникам (в частности, Wall Street Journal) подсуетиться и переманить к себе часть аудитории, предоставив на ту же самую несколько часов бесплатный доступ ко всем своим материалам.

Следующей стала Микрософт, израсходовавшая всю вторую половину семь дней на попытки вернуть обычную работоспособность почтовика Outlook.com, облачного накопителя SkyDrive и некоторых вторых популярных сервисов. Трое дней они пребывали в неадекватном состоянии, отшивая хоть не и всех, но большая часть пользователей. Формальную обстоятельство поломки как словно бы установили (из-за нестыковок клиентского и серверного софта оказалось что-то наподобие самопроизвольного DDoS’а), но восстановительных работ это не ускорило: Outlook вернули в строй лишь на выходных.

И ещё перед тем, как Микрософт закончила собственный ремонт, эстафету приняла Гугл. 17 августа «отключились» её большинство сервисов и центральный сайт: Gmail, Drive, Blogger, YouTube, другие. в течении нескольких мин. три четверти запросов к серверам Гугл возвращались с неточностью. Что-то не трудилось совсем (поиск), что-то сохранило работоспособность частично (по поводу YouTube имеется различные сведения), но — факт: согласно данным как минимум одного стороннего наблюдателя (GoSquared), число просматриваемых пользователями Сети веб-страниц в момент уменьшилась на 40%. К счастью, апокалипсис был недолгим: уже пять мин. спустя Гугл возвратилась к норме — но обстоятельство произошедшего осталась малоизвестной.

Наконец, в данный понедельник блэкаут настиг наибольшего интернет-ритейлера Amazon.com. И центральный сайт (как минимум для США и Канады), и облачные Amazon Web Services (компания, но, настаивает, что их работа не прерывалась, проблемы с административным доступом) пробыли в отключке полчаса. И были возвращены к судьбе снова же без упоминания обстоятельств.

Деловая пресса, взбудораженная невиданным стечением событий, ринулась оценивать ущерб, нанесённый простоем, но, погудев мало, сошлась на том, что он минимален. Amazon, считая по среднестатистическим продажам в 60 секунд, недополучила около трёх миллионов долларов выручки. Гугл за пять мин. недопоказала рекламы на полмиллиона. Всё это, как вы осознаёте, чуть заметно на фоне миллиардных квартальных оборотов. В случаях же с Микрософт и New York Times главный ущерб и вовсе логичней измерять не деньгами, а репутацией.

Сложней подсчитать убытки клиентов. какое количество, например, утратили компании, пользующиеся Гугл Drive, GMail либо Outlook, оставшись совсем без либо практически без документов и почты на срок от пяти мин. до трёх дней?

Но, давайте возвратимся к этому вопросу позднее, а до тех пор пока обратите внимание на необычную подробность, объединяющую все вышеперечисленные инциденты: обстоятельства их содержатся в тайне (а также майкрософтовское объяснение думается скорее PR-отпиской, нежели важным обоснованием). Из-за чего? Или они ещё не установлены, или компании не хотят выносить сор из избы — выставляя в негативном свете собственную ИТ-инфраструктуру. Так как Amazon, Гугл, Микрософт — это не три сервера, посаженных на домашний интернет-канал. Гугл тратит на расширение и поддержание собственной инфраструктуры практически полтора миллиарда долларов в квартал, Amazon – ещё больше! Их совокупности диверсифицированы, продублированы, оптимизированы на случай высоких непредвиденных обстоятельств и нагрузок — и, честно говоря, совсем неясно, как имели возможность они разом забрать и «сломаться», в случае если не сильный места, удар по которым приведёт к поломке сходу всей конструкции, должны отсутствовать у них по определению.

Гугл гарантирует для собственного облака аптайм в 99,9%, что свидетельствует около восьми часов непредвиденного простоя в год (запланированные техработы ко мне в большинстве случаев не включаются). Amazon даёт гарантию уже на 99,95% аптайма в месяц. По факту и та и вторая снабжают кроме того отличных показателей. Достигается это фантастически сложными средствами. Та же Гугл принципиально держит лишь серверы собственной разработки с минимально нужной конфигурацией (просматривайте: минимумом малоизвестных дыр), хранит пользовательские данные в файловых совокупностях с избыточным кодированием, распределёнными по дюжине дата-центров, разбросанных по всем континентам Почвы, за исключением Антарктиды (кое-кто, но, считает, что в действительности гугловских дата-центров в разы больше, легко компания этого скрывает). Так что ни пожар, ни землетрясение, никакой по большому счету локальный катаклизм теоретически не в состоянии ни повредить эти, ни тем более «отключить» сервисы Гугл.

Что ж, тот факт, что такие поломки всё-таки случаются, напоминает: идеал недостижим, даунтайм у туч будет, и клиенты, от них зависящие, неизбежно будут мучиться. Что, со своей стороны, подводит некий фундамент под утверждение: тучам ни при каких обстоятельствах не достигнуть надёжности, сравнимой с локальными совокупностями (лишь за последние полгода это вывод звучало в комментариях неоднократно). Но я предлагаю вам задуматься вот над чем. Перекроют ли убытки, причинённые несколькоминутным простоем, скажем, сервисов Гугл, тех затрат, каковые нужны, дабы выстроить дома либо в офисе ИТ-инфраструктуру, сравнимую с гугловской по надёжности (обеспечить те самые 99,9% рабочего времени)? Точно дешевле потерпеть.

И позже, согласитесь, девять из десяти рядовых компьютерных пользователей, столкнувшись с минутным зависанием их любимого сайта, вероятнее, кроме того не осознают, где как раз неприятность. «Не работает интернет»? Позвонить провайдеру либо сисадмину, перезагрузить компьютер. Ну а до тех пор пока загрузится, сайт уже и починили.

О современных технологиях

Даунтайм в десятую процента: почему зависают «облака» и правда ли дешевле хранить данные локально?

Опыт применения Xiaomi Redmi Note 5

Похожие статьи: