Фото: Dell Inc. / Flickr.com

Деньги из ничего

Как данные спасают жизни, помогают бороться с преступностью и делают нас богаче

Читать введение

Спикер: Александр Дьяконов

Интервьюер: Денис Гуляйкин

О том, как данные спасают жизни, помогают бороться с преступностью и сделают вас богаче, рассказал профессор кафедры математических методов прогнозирования факультета вычислительной математики и кибернетики МГУ Александр Дьяконов.

Александр Дьяконов — доктор физико-математических наук. Награжден золотой медалью РАН для молодых учёных. Победитель международных соревнований по прикладному анализу данных. Область научных интересов: распознавание образов, дискретная математика, прикладные задачи анализа данных (data mining). Автор учебного пособия и свыше 30 научных публикаций.
Закрыть

Откуда появился термин «большие данные» и почему о них сейчас так много говорят?

Одна из основных причин в том, что технологии хранения данных уже дошли до той стадии, когда хранить огромный массив информации стало дёшево. Поэтому компании и агитируют использовать эти технологии, повышать качество работы с пользователями с помощью анализа данных.

Исторически сложилось так, что в интернете такие данные появились впервые. Они быстро росли в объеме и были нужного качества для решения задач интеллектуального анализа данных. Поскольку они сохраняются автоматически, их легко использовалось для повышения качества сайта.

Вы говорите об информации, которую можно получить из интернета. Какие источники больших данных есть в «реальном мире»?

Любой источник данных потенциально может стать источником больших данных. Они могут быть не только цифровые. Например, обычные магазины не обладают цифровыми данными, но вполне могут их собирать. Скажем, висят камеры в магазине, которые следят за перемещением покупателей. Если эту информацию правильно оцифровать и проанализировать, то она может быть использована для улучшения магазина.

Множество организаций готовы платить за то, чтобы пользоваться информацией о вас

Другой причиной роста объема данных является миниатюризация устройств. Например, сейчас у всех есть мобильные телефоны. Они совсем небольшие по объему и весу, и, кроме того, туда много чего понапичкано, начиная от того же банального интернета и заканчивая тем, что там есть датчики: акселерометр, гироскоп и т. д. Эти датчики могут быть использованы для того, чтобы отслеживать ваш стиль ношения телефона: кто-то носит его в кармане брюк, кто-то в сумке.

MONEY_FOR_NOTHING_PIC1

Тепловая карта, составленная на основе анализа видео с камер наблюдения магазина, наглядно демонстрирует, какие прилавки и товары привлекают покупателей, а какие из них остаются без внимания

Как определить, какие данные могут быть полезны, а какие нет?

Сами данные никакой ценности не имеют. Во-первых, чтобы данные получили ценность, нужна какая-то дополнительная информация о них. Во-вторых, все зависит от наших способностей извлекать из данных ценность. Если я знаю, что курс какой-то валюты завтра вырастет, для кого-то эта информация может не представлять ценности, даже если ему объяснить, что к чему. Для меня это тоже может не иметь никакой ценности, потому что я не торгую на бирже. А для человека, который на этом специализируется, это, наоборот, очень ценная информация. Поэтому вопрос, сможем ли мы эту информацию извлечь, как извлечь, будет ли она доведена до того человека, для которого эта информация, действительно представляет ценность.

С какими трудностями вы сталкиваетесь, когда решаете задачи для города?

Не все источники данных действительно на сто процентов открыты. Это проблема, которая уже сейчас существует, когда решаются какие-то городские задачи.

Скажем, сотовые операторы не могут предоставлять полную детализированную информацию, кто где проживает или где абонент находился с телефоном, — это просто запрещено законом. Естественно, когда мы заботимся о безопасности данных, чтобы никто не мог ими воспользоваться в корыстных целях, понижается качество решений задач, которые мы рассматриваем.

Но какие-то данные открыты. Например, государство обладает большим количеством данных, и часть из них находится в открытом доступе. Из нее можно извлечь что-то полезное?

Если брать нашу страну и данные, которые есть на российских ресурсах, то здесь нет ценных данных, которые где-то могли быть качественно использованы. Мы специально разведывали российские источники открытых данных, сейчас многие правительственные организации, мэрии городов выкладывают что-то в сеть, есть ресурсы, посвященные открытым данным. Да, есть по Москве, например, координаты всех катков, прокатов велосипедов и т. д. Но это справочная информация, это не ценный источник данных, который можно подвергнуть аналитике, что-то для себя из них понять. Для сравнения, правительство Лос-Анджелеса выложило в сеть данные по преступлениям и просит создать алгоритм, который будет предсказывать, в каком районе какие виды преступлений могут быть совершены, для того, чтобы эффективно распределять полицейские патрули. Это уже данные, которые представляют интерес. Во-первых, здесь есть четкая задача с ними связанная. Во-вторых, есть потребность в решении этой задачи. Поэтому открытые данные, если они просто лежат, они бессмысленны. Должны быть задачи, которые с ними сопряжены, должен быть заказчик этих задач.

Очень хочется использовать эту информацию в своих корыстных целях. Как я могу это сделать?

Например, можно предсказывать колебания на цену недвижимости. Существует связь между преступностью и этими ценами. То есть, если в каком-то районе уровень преступности вдруг возрастает, то, соответственно, люди пытаются уехать из этого района, продают квартиры, неохотно туда въезжают. Если вы можете такое предсказать, то на этом можно спекулировать. Но в российских источниках информации я не видел подобных сводок об уровне преступности. В Америке они в открытом виде публикуются сейчас, а у нас это такая более-менее закрытая информация. Если есть кто-то, кто владеет подобного рода информацией, может ее правильно проанализировать, если она может быть использована для прогнозирования каких-то процессов, если она может быть использована для того, чтобы получить от этого выгоду, то, соответственно, эта информация уже начинает пользу приносить не всем жителям, а одному конкретному человеку.

Российские источники открытых данных — это справочная информация, а не ценный ресурс для анализа

Сегодня горожане по сути являются главными производителями данных, но при этом выгоду от них получают большие компании, которые собирают и продают информацию. В будущем такое положение дел может измениться?

В последнее время ведется много разговоров о проектах продажи своих данных. Например, о создании такой соцсети, которая будет гарантировать сохранность вашей информации, но при этом вы сами сможете ее продать. Например, есть агентства, которые запрашивают такую информацию, те же скоринговые агентства, город, клиники и множество других организаций, готовых заплатить какую-то символическую сумму за то, чтобы этой информацией пользоваться. Во-первых, вы сможете проконтролировать, кому вы эту информацию передаете, во-вторых, как и на каких условиях она будет использоваться, и, в-третьих, сколько вы за это получите. Сама социальная сеть при этом становится посредником и свой процент за это получает. В этой схеме не заложен элемент риска, что данные могут украсть, они становятся объектом торговли. Причем, если такие социальные сети появятся, это, возможно, вызовет переток в них, потому что у пользователя появится возможность на своих данных зарабатывать.

MONEY_FOR_NOTHING_PIC3

Сервис PrivacyFix позволяет оценить, сколько Facebook или Google зарабатывают на ваших данных

Как еще будет развиваться рынок данных?

Вообще, анализ данных в последнее время развивается благодаря денежным вливаниям. Естественно, основное его применение — как раз в интернете, в рекламе, в ретейле, где есть заказчики, которые готовы платить за качество анализа данных, за доступ к данным. Это бизнес.

Технологии первичны, а данные — вторичны

Также рынок развивается в системе здравоохранения, где это связано со спасением жизней людей, когда новые лекарства изобретают только благодаря тому, что мы берем статистику по различным химическим соединениям, которые уже были созданы в лаборатории, и, анализируя все эти свойства, предсказываем, какие свойства будут у новых соединений, и фактически мы предсказываем формулу нового вещества, не проводя лабораторных экспериментов.

Но это тоже связано с бизнесом, потому что это экономия: вместо того чтобы проводить трудоемкие лабораторные испытания, мы уже автоматически предугадываем, какую формулу можно сделать.

Как ни странно, какие бы применения мы ни взяли, они все катализируются явными потребностями, которые есть у бизнеса. Поэтому все применения по законам этого принципа и развиваются. Если что-то будет выгодно покупателю, или он сам будет идти на это, на продажу данных, на разрешение доступа к ним ради обладания какой-то услугой, тогда этот рынок будет благополучно развиваться, несмотря на то что данные могут представлять некую опасность.

Сами эти данные и вообще big data — это всё вторично, на мой взгляд. Ведь нужно понимать, что для того чтобы появились первые данные, должен заработать интернет, должен развиваться сектор IT, и после этого данные начинают приносить ценность. Если бы не было интернета, то огромный пласт данных был бы недоступен. Так что технологии первичны, а данные — вторичны. Какие данные будут через 10 лет — никто не знает, потому что никто не знает, какие технологии выйдут на первый план, что будет основным генератором данных.