В Нью-Йорке завершилась конференция для экспертов по “громадным данным” Strata + Hadoop World, устроенная издательством O’Reilly Media и компанией Cloudera. Частью мероприятия был смотр стартапов, занимающихся разработками обработки данных. Из пары десятков претендентов особое жюри выбрало три самые интересные компании.
Конференция Strata + Hadoop World (фото; O’Reilly Media).Affinio
Affinio выросла из другого проекта, которым занимались его основатели. Пара лет назад они создали iTether – популярное приложение для подключения компьютера к интернету через iPhone. Одно из исследований рынка аудитории iTether дало неожиданный побочный итог – разработку, которая легла в базу новой компании.
Основателей Affinio Тима Бурка и Стивена Хэнкинсона интересовало, на что годятся общедоступные сведения, каковые возможно почерпнуть из Twitter либо Facebook. Они высказали предположение, что анализ социальных связей разрешит выстроить более надежный портрет обычного пользователя приложения, чем эти, каковые лежат на поверхности.
Проверить эту догадку выяснилось не так уж легко. Граф связей между пользователями iTether, извлечённый из социальных сетей, оказался поразительно громадным: около 500 миллионов вершин и приблизительно 40 миллиардов рёбер. Это, мягко говоря, не те количества, каковые возможно загрузить в Excel.
Для начала Хэнкинсон выстроил кластер, складывающийся из шести узлов, и поставил на него Cassandra – распространённую нереляционную совокупность управления базами данных. Не обращая внимания на все усилия, производительность оставалась плачевной. HBase, ещё одно NoSQL-ответ, продемонстрировало себя не лучше. Облачное хранилище данных Amazon Redshift вело себя приличнее, но и с ним нужные вычисления растягивались на полчаса.
Хэнкинсон решил подойти к задаче иначе и начал разработку специального хранилища данных, ориентированного на операции с графами. Программа стала называться Graph Engine и срочно привлекла интерес инвесторов. На конференции Strata + Hadoop World поступила информация, что венчурный фонд Build Ventures положил в Affinio $1,5 млн.
Graph Engine оптимизирован для стремительной работы с твердотельными накопителями и разрешает “на лету” перерабатывать огромные массивы данных. В совокупность встроены инструменты для анализа информации, представленной в виде графа, а также средства коллаборативной фильтрации, поиска малейшего пути между вершинами и подсчёта треугольников.
Первым продуктом Affinio, базирующимся на Graph Engine, стала совокупность анализа социальных сетей для маркетологов и рекламщиков, но на ней амбиции компании не заканчиваются. Бурк и Хэнкинсон считают, что у технологии Graph Engine имеется масса перспективных применений, не связанных с маркетингом, рекламой а также соцсетями.
Appuri
Если доверять Деймону Даниэли, одному из основателей Appuri, он воображает самую мелкую компанию, участвующую в смотре стартапов на конференции Strata + Hadoop World. И, вероятнее, это вправду так. Не считая самого Даниэли, в Appuri трудится лишь один человек – второй основатель Билал Аслам.
Не обращая внимания на масштабы, Appuri совсем не несложна. Эта компания совсем не похожа на иные стартапы, хвастающиеся богатыми инвесторами, но не отыскавшие ни единого платёжеспособного клиента. Тут мы имеем дело с обратным случаем: у Appuri нет инвесторов, но имеются клиенты – и какие конкретно! Её продуктом пользуются Activision, один из наибольших издателей компьютерных игр в мире с годовым оборотом порядка трёх миллиардов американских долларов, и HBO, известный кабельный канал, снимающий сериалы “Игра престолов”, “Настоящая кровь” и “Подпольная империя”.
Оба основателя Appuri – уроженцы Микрософт. Даниэли был одним из ведущих разработчиков сетевого сервиса Xbox Live, а после этого пара лет занимал пост технического директора Z2Live – преуспевающей компании – разработчика мобильных игр. Его напарник Аслам известен в качестве создателя магазина облачных сервисов Windows Azure Store.
Их новое детище, но, не имеет отношения к прежним заслугам. Продукт Appuri представляет собой интеллектуальный ETL-конвейер, талантливый обрабатывать много миллионов событий в сутки и без особенного труда справляющийся с комплектами данных, количество которых превышает петабайт (миллион гигабайтов).
Сокращение ETL расшифровывается как Extract-Tranform-Load, либо, в случае если перевести на русский язык, “извлечь-преобразовать-загрузить”. Эти три слова обозначают стадии предварительной обработки информации. Сперва её извлекают из вне, после этого “причёсывают” и, наконец, загружают в хранилище данных.
ПО Appuri принимает данные при помощи основанного на HTTP программного интерфейса либо через особые “коннекторы”, поддерживающие распространённые источники данных, структурирует её (схема создаётся машинально), а после этого отправляет в облачное хранилище Amazon Redshift.
Для чего это необходимо? Дело в том, что информацию о клиентах, накопленные компаниями, редко бывают дешёвы в форме, готовой для анализа. То и дело видится обстановка, в то время, когда разные нюансы пользовательской информации сохраняются раздельно: маркетинговые эти – в одном месте, а сведения, к примеру, о продажах – в другом. В итоге многие ответственные результаты выясняются фактически недостижимыми. Продукт Appuri призван решить эту проблему.
Metric Insights
Чем больше компания, чем продолжительнее она применяет информационные разработки, тем запутаннее её компьютерные совокупности. Кроме того в случае если изначальный план был несложен и красив, через пара лет от него ничего не остаётся. Он тонет под весом расширений и многочисленных перестроек, каковые приходится делать чтобы приспособить совокупность к изменяющимся требованиям.
В случае если Appuri борется с хаосом при сохранении данных, то компания Metric Insights, победившая в смотре стартапов на конференции Strata + Hadoop World, пробует навести порядок на стадии выдачи результата обработки.
Согласно точки зрения главы Metric Insights Мариуса Московичи, избыток аналитических продуктов с панелями управления и разными интерфейсами, применяемых в одной компании, ведёт к информационной перегрузке. “Пользователи тонут в этих панелях, – говорит Московичи. – У них нет ни единого шанса отыскать в том месте то, что вправду имеет значение”.
Metric Insights предлагает свести воедино все показатели из разных продуктов. Панель управления должна быть лишь одна, и нужно, дабы она была несложнее приборной доски космического “шаттла”. Для этого нужна разработка, которая машинально отсеивает всё неважное.
Совокупность Push Intelligence, созданная в Metric Insights, извлекает много измерений из всевозможных хранилищ, средств бизнес-аналитики, таких источников и облачных сервисов, как Hadoop, Cassandra либо MongoDB, дополняет их нужными метаданными, а после этого отбирает только те из них, каковые существенно отклонились от нормы.
В число клиентов Metric Insights входят наибольшая в Соединённых Штатах сеть книжных магазинов Barnes Noble, компания United Online, у которых в собствености американский прототип соцсети “Одноклассники”, и туристический сервис Homeaway. Как мы знаем, что компания сумела достигнуть прибыльности.