Борьба с энтропией в больших данных

К концу прошлого года Российская Федерация накопила 155 эксабайт, либо 2,4% дешёвых человечеству данных. Общее же количество оцифрованной информации в мире сейчас превышает 6,5 зеттабайт и всегда растёт. В случае если раньше темпы прироста составляли до трети суммарного количества в год, то на ближайшие пять лет прогнозируется резкий скачок – до двух третей каждый год. Наряду с этим только пятая часть всех данных неповторима и воображает практическую сокровище.

Происходит это не столько из-за технических сложностей, сколько из-за низкой культуры работы с данными. Всё начинается с привычек домашних пользователей, каковые они приносят в корпоративную среду. В случае если человек разумное существо, то ему стоит бороться с повышением энтропии хотя бы на уровне собственных повседневных задач. Не преумножать мусор сверх меры, не накапливать и не создавать хлам. Словом – аккуратно относиться к любым ресурсам независимо от их рыночной стоимости и формы.

Борьба с энтропией в больших данных

Рост интернет-трафика (изображение: cisco.com).

Мы совсем бездумно обращаемся с информацией, считая её нематериальной. Наряду с этим любой байт записывается на в полной мере осязаемые физические носители, занимает место в оперативной памяти при обработке и канал связи при передаче данных. Лишь вдумайтесь: уже в текущем году в мире накопится около восьми зеттабайт. Эту прорву разрешённых надо хранить, резервировать, пересылать на высоких скоростях и делать дешёвой в один клик либо тап.

Виртуальный мир начинается за счёт настоящего. Дабы справится с задачей обработки возрастающего количества данных, мы все тратим некое количество собственных средств и сил, а основное – времени. Мы живём так, словно бы жизнь нескончаема и не воображает сокровище кроме того для нас самих.

Люди берут терабайтные винчестеры и мастерят дома NAS не вследствие того что создают большое количество полезного контента. Большая часть плодит бесчисленные дубликаты фильмов и картин из интернета, снимает видео и фото с высоким разрешением, но без полезного сюжета, записывает имеющиеся файлы ещё раз, в то время, когда не имеет возможности их отыскать. Свободное место воспринимается как неосвоенный ресурс. Исходя из этого его забивают чем попало, стараясь скачать что-то увлекательное на всякий случай. Запрос «скачать безвозмездно» неизменно остаётся в топе любого поисковика.

Борьба с энтропией в больших данных

Структура интернет-трафика (изображение: cisco.com).

Создавать клонов в сети ещё легче. Очередная фотка капучино обязана показаться в памяти смартфона, Instagram и облаке ещё перед тем, как напиток остынет. Мы делаем ретвиты и репосты любой записи, что стала причиной эмоциональный отклик, постим одно да и то же в различные соцсети, плодим «баяны» и ругаемся на их засилие. Кроме того культура письма изменилась сейчас. на данный момент принято цитировать в новом деловом сообщении всю прошлую переписку по данной теме. Считается, что это комфортно. Открываешь новое письмо, а в нём «благодарю!» и ниже вся история общения – продолжительный процесс согласования, обоюдные обещания, десятки и ссылки однотипных автографов.

Простое текстовое письмо без витиеватого оформления и вложений легко может занимать мегабайт либо два. Казалось бы, ну и что? Поразмыслишь, пара мегабайт для дела! Какой-нибудь дурной ролик про кота с YouTube занимает на порядок больше – никто не жалуется. Никто, не считая тех, кто заставляет трудиться дата-центры под лавиной мусора и придумывает новые методы выуживания из него полезных данных. Каждому ИТ-специалисту приходится обслуживать в разы возрастающие количества данных, разрабатывать и внедрять принципиально новые подходы для их обработки. Вследствие того что рост количества с какого-либо момента требует качественных трансформаций. Как пелось в знаменитом ремиксе: “А сервер с каждым годом держать им тяжелей”.

Борьба с энтропией в больших данных

Через пять лет любой ИТ-эксперт будет обрабатывать в пять раза больше данных (изображение: IDC).

Само собой разумеется, текст постоянно занимает считанные проценты от общего сетевого трафика, но вы лишь представьте, какова избыточность сложившегося подхода в переписке! В прошедшем сезоне почтовые серверы каждый день принимали 28 млрд писем из категории «спам». Это только малая часть из того, что просочилось через ветхие фильтры на базе байесовских классификаторов и новые, применяющие репутационные отправителя и характеристики письма.

Период с середины нулевых и до 2013 года был ещё хуже в плане ненужных данных. Часть спама стабильно росла и продолжительное время превышала две трети трафика. Лишь на данный момент она стала понемногу понижаться, но почтовым серверам не стало легче. Сейчас они вынуждены гонять по кругу одинаковые тексты легко вследствие того что пользователи не могут трудиться с почтовыми клиентами, настраивать отображение сообщений в виде цепочек и просто организовывать собственную работу.

Борьба с энтропией в больших данных

Спам убывает, но трафик растёт (изображение: Symantec.

Современные пользователи уже ленятся лишний раз тыкнуть пальцем в сенсорный экран. Они желают полной автоматизации, исходя из этого умный софт медлено начинает принимать решения за них. Gmail поменял Inbox – клиент, что пробует предугадать важность каждого письма, его удобный способ и групповую принадлежность отображения всей почты. Трудится это вследствие того что Гугл Now отслеживает не только всю переписку, но и личную судьбу. Он постоянно помнит историю поиска, перечень дел и контактов, где вы покинули машину и как в большинстве случаев добираетесь из дома на работу. Совокупности не сильный ИИ нянчатся с нами, как с убогими, а мы продолжаем весело деградировать. «ОК, Гугл! Где моя тачка?». «Siri, какая на данный момент погода?». «Cortana, как пройти прямо?».

Борьба с энтропией в больших данных

Разум. Его принято искать на вторых планетах.

В IBM неспешно делают замечательнейшую совокупность ИИ Watson пригодной для ответа всё большего круга задач – от придумывания рецептов и угадывания слов блюд до обобщения медицинских данных с целью подбора оптимального способа лечения. Разработчики стараются сделать платформу универсальнее, дешевее и разглядывают возможность со временем вывести её за пределы научных коллективов.

Приспособить интерфейс для широкой аудитории несложно, но вот найдутся ли у обывателей хорошие задачи? У Дугласа Адамса была на данный счёт совершенная фраза, сказанная от имени литературного персонажа – андроида Марвина: «Вот он я – мозг размером с планету, а они приказывают мне проводить вас в рубку».

Футуролог Рэй Курцвейл в собственных прогнозах отводит ИИ одну из главных ролей и рисует в собственном воображении наступление технологической сигнулярности до конца века. Как возразил бы Марвин: «Я могу вычислить ваши шансы на выживание, но вам они не понравятся».

Игорь Ашманов — аналитика Big Data. Все секреты громадных данных с конференции eTarget (полное видео)


Похожие статьи: