Авторский блог Христина Третьякова 22:56 18 августа 2019

Тотальная слежка или Big Data?

Артур Хачуян о том, как работают большие данные

"ЗАВТРА". Артур, что же такое большие данные или Big Datа?

Артур ХАЧУЯН, программист, предприниматель, генеральный директор Tazeros Global Systems. Это набор алгоритмов и подходов к извлечению новых знаний из сверхбольших массивов данных. То есть это не какая-то определённая дисциплина, а столкновение множества разных исследовательских теорий.

"ЗАВТРА". Расскажите о масштабе компании в цифрах, например, какое количество информации вы в день обрабатываете из общего доступа?

Артур ХАЧУЯН. Сейчас суммарно с 10-го года мы обработали уже 9,7, почти 10 петабайт информации. Это соцсети, блоги, форумы, текстовый контент, фотографии, лица. В базу ежедневно попадает в районе 200-350 миллионов текстовых сообщений, определённых людей, именно отфильтрованных. Порядка 15-20 миллионов фотографий – это то, что мы оставляем, сохраняем, остальное мы просто индексируем, понимаем, что нам это не интересно.

"ЗАВТРА". Что происходит с данными после того, как вы их получаете? Опишите цепочку преобразования обезличенной информации в какое-то знание, которое уже можно впоследствии продать.

Артур ХАЧУЯН. Да, есть алгоритмы, которые путешествуют по интернету, собирают информацию в чистом виде. Это могут быть записи на форумах, публикации какие-то или ещё что-то. Они перекладывают их в основное хранилище, где данные находятся в сыром виде такими, какими они были в источнике. Дальше в работу вступают алгоритмы, которые занимаются обогащением полученных данных. Они берут, например, сырую фотографию, извлекают из неё дополнительные знания: задний фон, кто или что изображено, пол, возраст людей. Если это текст, то лингвистически обрабатывают его, понимают, кто и что сказал, где и как. Очищенные и структурированные данные перекладываются в хранилище №2, где хранится очищенная красивая дата, к которой можно обращаться и делать какие-то выводы. Следующий этап это наборы алгоритмов, которые обращаются к очищенному хранилищу, они собирают и анализируют информацию, агрегируют, обезличивают и передают её клиентам в виде исследований либо обновляемых панелей.

"ЗАВТРА". Как выглядит профиль человека, который есть в вашей базе данных? Какой набор информации он может содержать?

Артур ХАЧУЯН. Это мультипрофиль, в нём могут быть профили в социальных сетях, фотографии, геолокации, публикации, какие-то извлечённые знания. Если этот человек не запретил индексацию своей страницы в соцсетях, если он не закрыл её от друзей, она собственно доступна как через нас, так и через какой-нибудь поиск.

"ЗАВТРА". Что у нас происходит в законодательной сфере относительно распространения, использования открытых данных. Насколько легальна ваша деятельность?

Артур ХАЧУЯН. Сейчас всё легально, считается, что это "серая" зона, но по факту, юридически то, что делаем мы и другие компании не запрещено. Есть в законе много пунктов о том, что подобную обработку можно проводить, если это статистическое исследование, если это не политическая агитация и т.д. В данной сфере действует закон "О персональных данных "152 ФЗ, от 2006-го года. Сейчас хотят внести поправки, уже придумали странный термин "большие пользовательские данные", но трудно понять, что под ними подразумевается, потому что в законе написано, что персональные данные – это те, по которым вас можно идентифицировать: пол, возраст, телефон, домашний адрес. Я, например, могу вас идентифицировать по клавиатурному почерку, по тому, как вы взаимодействуете с интерфейсом, по тому контенту, который вы лайкаете. Поэтому современные технологии «переросли» этот закон. Посмотрим, что будет. По крайней мере, Европа приняла резолюцию об обработке персональных данных, но компании как работали, так и работают.

"ЗАВТРА". Как вы для себя это объясняете этический вопрос о том, что вы обрабатываете данные о человеке без его согласия?

Артур ХАЧУЯН. Данные, которые вы опубликовали в открытый доступ, то есть выложили на сайте, который можно проиндексировать поисковиком, в свой открытый профиль в социальных сетях, являются доступными всем. По факту этический вопрос очень простой: если бы вы не хотели, чтоб это кто-то анализировал, вы бы это не выложили. Люди начинают кричать о нарушениях приватности, а по факту не регистрируют закрытые аккаунты. Если вы реально хотите, чтобы о вас что-то знали, не опубликуйте это или закрывайте профиль.

"ЗАВТРА". По каким параметрам ваш искусственный интеллект собирает информацию с фотографии? Как коммерческие компании могут пользоваться этими данными?

Артур ХАЧУЯН. Можно понять, кто на фотографии, распознать задний план, понять, примерно, что за достопримечательность, какая страна или это дача, вычислить объекты. О самом человеке можно узнать: цвет волос, глаз, объёмы его фигуры. Мы из фото извлекаем знания о человеке, а потом будем их сравнивать с другими, полученными с других снимков. Например, машина, с которой вы сфотографировались это ваша или нет? Если вы за год-полтора публиковали её раз пять, был один и тот же номер, марка, цвет, она при этом не была замечена ни на "Авто.ру", ни на "Дром.ру" и её нет среди ваших друзей, то тогда мы этот автомобиль присвоим к вам, поймем ваш примерный достаток, и потом, когда вы поедите по МКАДу, и вас встретит Digital-суперсайт, то есть большой телевизор, на котором стоит распознавание номеров автомобилей, он за 300 метров его считает, передаст нам, а мы скажем какую рекламу показывать, потому что мы знаем, каким контентом человек интересовался. По потребленному контенту можно вообще понять всё что угодно – кто этот человек: домохозяйка, мама с ребенком, какие у неё интересы и что самое главное, с точки зрения бизнеса, на основании этого можно сделать прогноз, какой продукт человек купит через неделю, полгода, год. У нас есть мужчина, у него только что родился ребенок, мы знаем, что у него есть машина, мы ему сразу предлагаем детское кресло.

"ЗАВТРА". Для чего, в конечном счёте, это нужно?

Артур ХАЧУЯН. Есть история, она не наша, связанная с анализом Wi-Fi в торговых центрах. Это очень специфичная, темная материя, потому что вроде как поставщики оборудования ввели новые протоколы, которые мешают отслеживанию, а с другой стороны Apple не очень хорошо реализовал его и всё равно можно получать МАС-адреса. Работает это следующим образом: человек приходит в ТЦ, подключается к Wi-Fi, его МАС-адрес начинает отслеживаться и вследствие этого появляется возможность выяснить, как человек перемещался. Затем ТЦ, в котором стоит такая система, делится данными с компанией по аналитике. Если речь идет о Wi-Fi в метро, то можно узнать на какой станции вы сели, на какой вышли. Собирая о вас данные пару дней, можно понять, где вы живете и работаете. Практически для всех то, что ближе к центру это работа то, что дальше это дом. Вообще по времени захода и выхода человека из метро можно понять его стиль поведения: рабочий, студент, приезжий, мама с детьми, есть статистические зависимости. Уточняя эту выборку, по каким-то параметрам есть возможность примерно узнать должность, с помощью сервисов по поиску работы выяснить среднюю зарплату в этой компании для этой вакансии, плюс добавить фото из соцсетей. В дальнейшем этот человек обязательно поедет в какую-то страну, сделает публикацию в Facebook с подписью: «Я лечу в Панаму», соответственно, можно посмотреть сколько стоят билеты в это время на такое количество людей в это место, выяснить стоимость отеля в это время и, следовательно, понять сколько люди тратят на отпуск, как часто они путешествуют, какие у них есть свободные средства и на основании этого делать прогноз. Примерно таким образом могут набираться знания, на основании которых можно продавать этим людям, например, банковские продукты, управление финансами, либо в налоговую его сдать, потому что он индивидуальный предприниматель и у него карточка привязана к юридическому лицу, он сдает налоги на 100 тысяч, а тут новую машину себе купил – такое тоже есть.

"ЗАВТРА". Как такие гиганты как Google и Facebook зарабатывает на том, что обрабатывают большие данные?

Артур ХАЧУЯН. Более 90% бюджета Facebook – это реклама. Понятно, что они зарабатывают на том, что пользователям её показывают. У них нет какой-то особой волшебной магии того, что они делают с данными. По сути дела, Google тоже в основном зарабатывает на рекламе. Но ещё у них есть возможность перепродавать знания. Нужно сказать, что это около закрытый рынок, но компании обмениваются знаниями о людях между собой. Google, например, может продать кому-то данные о поисковых запросах этих обезличенных идентификаторов, а условно, You Tube потом – какие они видеоролики смотрели, то есть чисто теоретически может быть кто-то, кто все эти знания соберёт, собственно говоря, куда мы движемся.

"ЗАВТРА". Но ключевой момент в то, что эти данные обезличены, не так ли?

Артур ХАЧУЯН. Конечно, всё привязано к уникальным идентификаторам пользователей, по которым невозможно понять имя, фамилию, пол, возраст и т.д. Это некий человек 123-15, который зашёл на сайт, мы знаем, что он до этого лайкал кошек, и мы ему показываем кошек. Понятно, что знания и параметры гораздо сложнее – там есть и психометрия, физиогномика, и прогнозирование поведения человека, но, по сути дела, всё обезличено. Мы не продаем контактные данные конкретных людей, мы собираем все вокруг какого-то события, мероприятия, географической точки и извлекаем оттуда знание без привязки к конкретным людям. Мало, кто в это верит, но этого нет на большом серьёзном рынке по одной простой причине – контактные данные можно передать и продать только один раз, а знания, привязанные к обезличенным идентификаторам, можно продавать бесчисленное количество раз, обновляя их.

"ЗАВТРА". У многих людей есть некая паранойя, что гаджеты следят за ними, собирают данные, через микрофон в телефоне, через камеру в ноутбуке, читают их личную переписку в соцсетях, а потом предлагают им какую-то рекламу, насколько оправданы эти страхи?

Артур ХАЧУЯН. Если люди очень сильно переживают из-за того, что, например, Яндекс навигатор услышал их диалог, а потом они начали получать рекламу, связанную с предметом разговора, то есть три пути развития этой параноидальной истории. В первом случае, людям просто показалось, они забыли, что потребляли какой-то контент. Также есть вариант, что они попали в статистическую выборку, согласно которой люди их возраста, интересов и их паттерна поведения в этот момент должны заинтересоваться курсами английского языка. Но на самом деле есть третья история, я много раз проводил такие эксперименты, делал два чистых аккаунта в соцсетях, с одного в другой писал сообщение: "Друг, поехали в Сыктывкар". Через два три дня начинаешь получать рекламу о турах туда, то есть соцсеть сканирует личные сообщения, что вроде как и нарушает соглашение с ней, но вы это никак не докажите. Нужно сказать, что действительно существует общий анализ аудио, но это не потоковый анализ в реальном времени, а распознавание ключевых слов, которые ищутся в речи, для того чтобы вы сказали: пицца, рыбалка, а потом по сути дела на вас навешиваются такие ярлыки. Но реального распознавания аудио в реальном времени нет по одной простой причине – это максимально невыгодно экономически. Что касается фото, то я уверен, что фронтальная камера телефона не снимает, я доверяю проведенным исследованиям, сам его не проводил, потому что не специалист. В ноутбуке веб-камеру не заклеиваю, потому что нельзя активировать матрицу камеры, не включив лампочку, а она подключена хитрым образом в цепь электропитания.

"ЗАВТРА". Существует ли сегодня анонимность в интернете?

Артур ХАЧУЯН. Анонимность существует по той причине, что с развитием всех технологий отслеживания, точно также развиваются технологии, которые блокируют его, потому что одни люди занимаются алгоритмами, другие тем, что ломают их, нельзя сказать, что одни умнее других. Если человек захочет от кого-то скрыться, установит VPN, плагины, то его и не отследят. Вопрос в том, что у людей, на мой взгляд, реальная паранойя очень сильно завышена. Они боятся, но сами не знают, чего, потому что в худшем случае, им кто-то покажет не ту рекламу. Вряд ли к ним домой кто-то придёт и что-то о них узнает страшное.

"ЗАВТРА". Получается, что если человеку нечего боятся, он не выкладывал каких-то своих личных секретных данных, которые он бы не хотел обнародовать, то ему это никакого вреда не принесёт?

Артур ХАЧУЯН. Да, конечно, но вопрос в том, что у современного поколения атрофируется понимание того, что находящееся в Интернете, по факту находится в открытом доступе. Для них Facebook – это что-то личное, собственное, да, но очень много людей и паспорта выкладывают.

"ЗАВТРА". Удалить опубликованные данные возможно?

Артур ХАЧУЯН. Нет, вообще никак. Из интернета ничего удалить нельзя, кто бы, что ни говорил. Вы можете написать соцсети о том, чтобы она согласно закону о забвении удалила данные о вас, но она уберет только ссылки. Реально "вычистить" из интернета ничего невозможно.

"ЗАВТРА". Как большие данные могут повлиять на взаимодействие государства и человека? У вас есть концепция тотальной открытости, которая говорит о том, что всё взаимооткрыто как для граждан, так и для государства.

Артур ХАЧУЯН. Проблема очень простая – государству очень сложно обмануть гражданина, гражданину очень сложно обмануть государство. Это вряд ли приведёт к тому, что всё станет хорошо. Я в это не верю, к сожалению, в силу природы человека. Сейчас появились условные госзакупки, пусть ещё далеко не на 100% прозрачные. Мало кто из журналистов умеет этим пользоваться и правильно вычленять оттуда знания о коррумпированных чиновниках. По крайней мере, я научил старшую по подъезду подобные вещи делать. Так что через лет пять этим научатся пользоваться все.

"ЗАВТРА". Как государство может использовать большие данные в сфере медицины, образования, безопасности?

Артур ХАЧУЯН. Понятно, что основное направление это безопасность, всё, что связано с поиском террористов, экстремистов. Тема предотвращения преступлений сейчас одна из самых активных. Основной из кейсов, который у нас есть – система расстановки патрульно-постовых служб. Это алгоритм, который генерирует рекомендации, куда нужно поставить ППС в зависимости от задачи: фанатов мы хотим задержать, либо необходимо снизить уровень криминогенной активности, домашних краж, поймать наркоторговцев. Мы собираем определенный набор данных, делаем из этого выводы, смотрим на нашу статистику и говорим куда, в какое время, по какому маршруту они должны ехать. Наш максимум по Подмосковью это снижение криминогенной активности на 7-8 %. Также существует алгоритмы, которые позволяют вычислить преступников, а затем строят рекомендации о том, на кого нужно обратить внимание в первую очередь. Никого, конечно, в тюрьму не сажают. Что касается медицины и, в общем, социальной сферы, сейчас практически всё направлено на улучшение качества предоставления услуг. Это анализ обращений на всевозможных сайтах для того, чтобы уменьшить очереди и понять что людям нужно. Это около политические исследования, в рамках которых берётся аудитория региона, города и мы выясняем какие у них есть проблемы. В образовании в основном всё связано с анализом "цифрового следа" студента, школьника, для того, чтобы правильно его карьерный путь как-то сформулировать.

"ЗАВТРА". Как возможности современных технологий обработки данных могут преобразовывать городскую среду?

Артур ХАЧУЯН. Это геоинформационная аналитика – её можно использовать для определения правильных мест перестановки лавочек также есть возможность понять, как перемещается пассажиропоток людей внутри города, с какими он рекламными конструкциями взаимодействует, в какие больницы ходит. На основании этих данных можно полностью перепланировать городскую инфраструктуру для того, чтобы людям удобно было двигаться.

"ЗАВТРА". Нужен ли он нам сегодня цифровой профиль гражданина?

Артур ХАЧУЯН. Он, безусловно, нужен, но не сегодня. По факту для того, чтобы сделать цифровой профиль гражданина, нужно сначала данные оцифровать. Все смотрят на китайский опыт, но забывают простой факт, что Китай потратил 15 лет на цифровизацию всего. У них данные здравоохранения, образования, пограничной службы, собраны в идеальных электронных системах, только после этого они создали профиль. Почему говорю, в идеальных электронных системах, потому что у нас либо электронных систем нет, либо они есть, но неидеальны. Наши госуслуги и китайские – это же небо и земля.

"ЗАВТРА". Какую роль большие данные сыграли в выборах США?

Артур ХАЧУЯН. Я думаю, что это очень преувеличенная история. Это микротаргетинг. Мы берем всю аудиторию, проводим исследование по определению проблем цифровой активности и разбиваем их на группы. Теперь у нас есть мексиканцы-учителя, чистопородные американцы-учителя. Мы приходим к первым и говорим: "Мы увеличим квоту для мексиканцев". А вторым наоборот: "Мы вообще мексиканцев уберём". Не очень честно, но Трампа часто ловили на том, что он разным категориям людей обещает противоречивые вещи. Как видите, ему это особо не помешало. Но реально технологий там было 20-30%.

"ЗАВТРА". С учётом развития технологий связанных с Big Datа, какими возможностями сегодня обладают спецслужбы разных стран?

Артур ХАЧУЯН. Америка в этом плане наиболее интересная страна, потому что если я кого из своих либеральных знакомых спрошу, где свобода слова, они скажут, что в Америке. Но при этом сотрудник ЦРУ второго, третьего уровня имеет право по одной кнопочке получить доступ к банку, к телефонным разговорам, геоперемещениям, фотографиям, ко всему чему угодно. Но при этом там жители не думают об этом, как о тоталитарном контроле, они делегировали свою свободу, права и живут себе спокойно. Если делать рейтинг, то Америка на первом месте, Китай на втором, мы, наверное, на третьем или на четвертом, после «Моссада».

"ЗАВТРА". Если у наших правоохранителей такой доступ к данным?

Артур ХАЧУЯН. Я сейчас скажу, но мне никто не поверит, что ФСБ нужно судебное разрешение на доступ к личным сообщениям во ВКонтакте. У рядовых следователей есть проблемы с доступом к данным, у нас в отличие от ЦРУ нет такой кнопочки, по которой можно получить разного рода личную информацию. У меня есть специальный номер, на который мне периодически следователи пишут с просьбой о помощи, потому что ребенка украли, кого-то убили, ничего сделать не можем. Если данные есть в открытом доступе, то мы можем чем-то помочь. Типичная ситуация это когда спустя год, мобильный оператор выдал 300 тысяч номеров телефонов, следователь же не может их проанализировать. Есть такие истории, когда данные могут не довести дело до суда, потому что мы можем доказать, что человек вообще не в этой стране был.

"ЗАВТРА". Сегодня перед миром стоят глобальные угрозы, которые связаны с возможным дефицитом ресурсов, изменением экологии, третьей мировой войной. Как большие данные могут повлиять на эту сферу?

Артур ХАЧУЯН. Одна из опасностей искусственного интеллекта, как раз применение его в военных целях, от прорабатывания стратегии до автопилотов для дронов. Все этого очень боятся, пытаются это зарегулировать и, наверное, правильно. Но всё-таки закон, запрещающий вам дома собрать ядерную боеголовку, это не закон, запрещающий сделать искусственный интеллект, потому что для боеголовки вам придётся где-то купить уран или плутоний, а что касается искусственного интеллекта, то скачать из интернета исходники и начать разрабатывать, может любой мало-мальски грамотный программист. Поэтому если регуляция какая-то и будет, то она направленна на какие-то определённые темы в искусственном интеллекте. Но вопрос в том, как это будут контролировать. Наверное, самая перспективная история – это экология, потому что экологических данных очень много: радиенты ветров, модели, распространение микрочастиц – это всё очень сложно и интересно. Это другая сфера, но сейчас есть очень много проектов, связанных с цифровым сельским хозяйством сюда входят дроны и алгоритмы, которые по картам спутника сельхозугодья распределяют, вычисляют, где желтеет трава, а где – нет. Подобные вещи есть.

"ЗАВТРА". Что мы теряем и приобретаем, используя большие данные?

Артур ХАЧУЯН. Мы приобретаем, по сути дела, в идеальной концепции мира, свободное время, потому что алгоритмы подобрали одежду, партнёра, что-то купили, продали. Это время мы можем его потратить на путешествия, изучение новых языков или ещё что-то. К сожалению, мы теряем не сколько свободу, но навыки, которые делегируем алгоритму, например, мы уже практически перестали считать в уме.

"ЗАВТРА". Ваш прогноз на ближайшие годы в сфере технологий.

Артур ХАЧУЯН. Я лично жду глобального прорыва в синтезе речи, на мой взгляд, эта та сфера, сейчас очень активно развивается и до сих пор в ней нет каких-то супер подвижек, потому что Алиса прикольная, но говорит она пока коряво, в будущем компьютер будет говорить так, что мы не отличим его от человека. Эпоха DeepFace началась сейчас и в будущем очень сильно разовьётся. Это когда с помощью нейросети накладывается какое-то лицо. Недавно один художник из США наложил на себя лицо Обамы и сказал: "Я люблю Трампа, голосуйте за Трампа". Он потом объяснил, что это была шутка, но качество было потрясающее, надо сказать, что там был постпродакшен. Эпоха DeepFace будет развиваться в ближайшие три года. Контент будет неотличим от правды, мы увидим несуществующие военные конфликты, теракты, все что угодно, потому что комбинированная фотография и нейросеть сейчас рисуют что угодно, делают вообще потрясающие вещи, пусть пока не идеально, но через лет пять. Обязательно в ближайшее время появится единый центр хранения обезличенных данных здравоохранения. Можно будет дать стороннему сервису допуск к своей истории болезни, появятся услуги для прогнозирования заболеваний, персональная медицина. Еще одна важная тенденция касается увеличения объёма информации, вследствие которого люди совершенно теряют навык определения правды – это плохо. Если в ближайшие пять лет не произойдет какой-то перелом в этом вопросе, то мы все утонем в информации.

1.0x