Как “большие данные” помогают исследовать живую природу

“Неопознанный биологический вид возможно повстречать у себя во дворе с той же возможностью, что и в джунглях Амазонии”, – говорят учёные из консорциума International Barcode of Life (iBOL). Число таких видов на отечественной планете может составлять от десяти до ста миллионов, причём треть, по подсчётам исследователей, может вымереть до конца века.

В iBOL входят университеты, музеи естественных наук и исследовательские университеты. Цель консорциума – при помощи последних достижений науки и техники идентифицировать и классифицировать все земные организмы. И не только классифицировать, но и собрать в единую базу всю дешёвую данные о них. Используй учёные классические подходы, задача была бы невыполнимой, но краудсорсинг и технологии “громадных разрешённых” могут изменить всё.

В iBOL попросили людей в мире поучаствовать в сборе образцов. После этого учёные идентифицируют эти образцы в лабораториях способом секвенирования отрезков ДНК (процедуры, известной как генетический баркодинг). В следствии оказалась база данных, содержащая много миллионов записей, и предполагается, что в следующем году она станет ещё больше.

В скором времени в iBOL собираются перенести все данные в HANA – аналитическую платформу компании SAP, выстроенную на базе реляционной базы данных, которая полностью загружается в память. Решения, основанные на HANA, нередки в корпоративной среде, но с не меньшим успехом платформа подойдёт и для научного применения.

Платформа SAP HANA (расшифровывается как High Performance Analytic Appliance) – это не просто база данных. Не считая СУБД, в неё входят алгоритмы и разнообразные приложения для обработки данных в оперативной памяти. В HANA входят библиотеки для предиктивного анализа, планирования, работы с текстом, пространственной информацией и бизнес-аналитики, а помимо этого – средства для визуализации, веб-набор и сервер для разработки интерфейсов. Сильная сторона HANA – в возможности стремительной обработки громадных массивов данных и анализа “на лету”.

Записи iBOL сводятся с другими комплектами данных. К примеру, добавив в базу данные о погоде, исследователи смогут реализовать предиктивный метод, прогнозирующий изменение ареала того либо иного вида а также вычислять связи в миграции различных видов. Результаты анализа разрешают осознать, как внешние условия – от экспансии видов до смены климата – воздействуют на внешнюю среду и как руководить сельскохозяйственными землями и дикой природой более экологически устойчиво, не нанося ущерба окружающей среде.

В SAP уверены в том, что в ближайшие пять–десять лет у людей покажется возможность на месте идентифицировать вид животного либо растения посредством мобильного приложения для баркодинга ДНК, над которым в SAP трудятся совместно с iBOL. А в ближайшее время компания подготавливается запустить приложение, которое разрешит любому не только загружать фотографии растений, но и отправлять образцы для анализа.

Похожими изучениями занимаются и в IBM. В том месте также используют краудсорсинг для сбора научной информации а также создали собственную платформу, служащую данной цели. В исследовательской лаборатории IBM в бразильском городе Сан-Паулу были созданы мобильное приложение и сайт под неспециализированным заглавием Missions. “Миссии” позволяют пользователям любого уровня и возраста образования оказать помощь IBM собирать данные о разнообразии биологических видов в амазонских тропических лесах.

Серхио Боргер – начальник команды исследователей IBM, трудящейся в Сан-Паулу, – внес предложение применять краудсорсинг по окончании того, как в 2010 году к компании обратилось бразильское Минэкологии и инноваций, которое нуждалось в централизованном хранилище информации о тропических лесах. Так была создана платформа Missions. С её помощью пользователи загружают фотографии различных видов растений, вводят такие характеристики, как размер и цвет, сравнивают снимки с фото в каталоге и классифицируют растения. В оценке успешности классификации также оказывает помощь пользовательский рейтинг.

В Missions предусмотрены различные метрики для различных биологических видов. Так, для деревьев предусмотрена графа, в которую положено вписывать диаметр ствола. Записываются и информацию о внешних условиях; помимо этого, имеется возможность отследить изменение разнообразных параметров с течением времени. на данный момент команда Боргера занята изучением способов отслеживать более подвижные организмы, другими словами следить за животными (к примеру, лягушками) и насекомыми.

До Missions Боргер уже реализовывал краудсорсинговые проекты в IBM. К примеру, в компании устраивали коллективный сбор данных совместно с национальной водной работой Калифорнии. Приложение Creekwatch давало гражданам возможность оказать помощь правительству отслеживать высыхание местных водосборов. Люди загружали фотографии и оценивали уровень воды, количество мусора и скорость потока. В IBM кроме этого создали приложение Accessible Way, разрешающее отправлять отчёты о недоступных для калек местах в городе.

Подобные инициативы организуются не только большими компаниями: к примеру, в Области залива Сан-Франциско действует несколько добровольцев Nerds for Nature (“Нерды за природу”). “Нерды” уже организовали пара мероприятий называющиеся “биоблиц”, на которых они занимаются документированием биологического разнообразия, применяя мобильное приложение iNaturalist. Они кроме того сотрудничают с маленькой биотехнической компанией и хакерспейсами, проводя свободный баркодинг ДНК.

Любопытно, что и корпорации не торопятся брать деньги с учёных. Так, SAP безвозмездно предоставляет для iBOL ПО HANA. Для желающих разбирать базу данных биологического разнообразия будет открыт бесплатный доступ к iBOL. “В этом случае мы не реализовываем продукты компании, – говорит Дэвид Джонкер, глава департамента маркетинга громадных данных SAP. – Мы вдохновлены возможностью применения отечественной технологии для применения и общей пользы её для публично нужных изучений”.

Но, доброта SAP и IBM имеют под собой в полной мере прагматичную базу – по крайней мере если доверять аналитику Forrester Research Майку Галтьери. Он утвержает, что большие ИТ-компании заинтересованы в том, дабы безвозмездно распространять собственные продукты среди некоммерческой аудитории из-за появления борьбы со стороны свободного ПО. Всему виной популярность распределённой базы данных Hadoop, реализующей метод Map/Reduce и довольно часто используемой для анализа “громадных данных” как в бизнесе, так и в науке. Hadoop напрямую угрожает спросу на продукты гигантов индустрии.

Не смотря на то, что нет уверенности, что Hadoop заменит собой технологии более больших игроков, Галтьери уверен в том, что им нужно будет сотрудничать с Hadoop: “Они заметили тут угрозу, исходя из этого сочли за лучшее выпустить продукт в веса, разрешить людям применять собственные технологии; делая собственные разработки дешёвыми, компании повышают уровень осведомлённости среднего пользователя”. В следствии, согласно расчетам Галтьери, нас ожидает растущее число краудсорсинговых проектов по анализу и сбору научно-исследовательских данных с участием больших ИТ-компаний и созданных ими платформ.

У вложений SAP и IBM имеется шанс окупиться, в то время, когда они дадут начало новым коммерческим разработкам. Одним из применений смогут стать краудсорсинговые потребительские изучения. Недавние скандалы с ошибочно маркированными продуктами могут служить показателем: конина, маскирующаяся под говядину, лисье мясо под видом ослиного, неверно маркированная рыба и другие вызывающие большие сомнения случаи. Благодаря новым разработкам у обладателей магазинов может показаться шанс контролировать продукты, идентифицируя их прямо на месте посредством баркодинга ДНК. В SAP уже ведут переговоры с несколькими партнёрами о коммерциализации данной разработки.

«Философия свободы. Когнитивные технологии»: в гостях у М. Ковальчука, 24.03.2013 г.


Похожие статьи: