Авторский блог Владимир Овчинский 21:10 17 апреля 2014

Большие данные

В последние годы Большие Данные являются общепризнанным трендом экономического и технологического развития. Им посвящены тысячи публикаций. Они относятся к числу наиболее популярных тем, как в специализированных изданиях, так и в различного рода СМИ, рассчитанных на самую широкую аудиторию. В результате возникло впечатление, что Большие Данные – это нечто само собой разумеющееся, ясное, понятное. Широко распространена иллюзия о повсеместном применении Больших Данных в России.

Владимир Овчинский

«Завтра» начинает публикацию серии статей Елены Лариной и Владимира Овчинского, посвящённых т.н. «Большим Данным» (англ. Big Data). Ряд исследователей считает данный термин надуманным, мифическим, тем не менее наш главный стратегический конкурент - США уделяют проблеме Больших Данных приоритетное внимание. Достаточно напомнить, что ещё в марте 2012 года администрация президента США Барака Обамы объявила об инициативе по исследованию и разработкам в области «Больших Данных». Шести американским государственным агентствам выделено свыше 200 миллионов долларов на анализ и организацию больших объёмов цифровых данных.

В начале апреля этого года опубликованы результаты исследования компании IDC«Цифровая Вселенная». Учёные считают, что к 2020 году произойдёт 10кратный рост объёмов информации -с 4,4 до 44 зетабайт. Причём, развивающиеся рынки (Бразилия, Китай, Мексика и Россия) к 2020 году сдвинут баланс производства Больших Данных в свою сторону от сформировавшихся рынков (Германия, Япония и США). Кроме того, рост объёмов данных опережает рост ёмкости систем хранения.

Для России проблема «Больших Данных» приобретает стратегическое значение. В 2014 году по оценке исследователей лишь 1, 5% российской цифровой Вселенной представляли собой «насыщенные данные», которые являются управляемой сферой анализа. Несмотря на то, что в России ведутся работы в сфере исследований «Больших Данных» (например, центром исследований и разработок ЕМС в Сколково), данная проблема требует как можно более широкого обсуждения.

Между тем, дело обстоит совсем не так. Беспристрастный анализ фактических данных показывает, что наша страна существенно отстает в сфере Больших Данных. Значительная часть компаний только используют термин «Большие Данные» в маркетинговых целях, а по сути, применяют старую, хорошо известную бизнес-аналитику, которая заметно отличается от Больших Данных. В стране практически нет спроса на специалистов по Большим Данным. Достаточно посмотреть наиболее популярные порталы работ, чтобы убедиться, что спрос на специалистов по Большим Данным у нас на порядки меньше, чем в США, Европе, Японии, Китае. В то время как во всем мире издаются сотни профессиональных и общедоступных книг по отдельным аспектам Больших Данных, в России только в этом году вышла первая книга по Большим Данным – работа В. Майер-Шенбергера и К.Кукьера «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим». Да и эта книга носит не профессиональный характер, а написана в жанре нон-фикшн.

Происходящее вызывает особую тревогу в условиях, когда ведущие наднациональные мировые структуры и транснациональные корпорации, правительства ведущих стран мира, бизнес самых различных масштабов, системы управления производственной и социальной инфраструктурой и, конечно же, военно-разведывательный комплекс всех основных стран мира уже используют Большие Данные как важнейший стратегический ресурс.

В этой связи в предлагаемом цикле статей авторы имеют в виду постараться показать скрытые, а в немалой степени сознательно скрываемые возможности и последствия использования Больших Данных не только и не столько в экономической, сколько в политической, социальной и иных сферах жизнедеятельности общества.

Достаточно парадоксально, что до сих пор при широком использовании технологий Больших Данных нет общеупотребительного их определения. Наиболее часто используется популярностью определение Майкла Франклина из Университета в Беркли: «Большие Данные – это любые данные, работа с которыми требует значительных затрат и из которых трудно извлечь информацию». Данное определение кочует из книги в книгу, из работы в работу. Между тем, оно является лучшим подтверждением тезиса о том, что наука о Больших Данные и практические технологии Больших Данных живут в параллельных реальностях. Соответственно, наука о Больших Данных не столько выступает надежным базисом для инженерии данных, сколько намерено или ненамеренно скрывает революционную суть технологий Больших Данных.

В самом деле, определение через большие затраты и трудность обработки может указывать не только на специфические характеристики данных, но и на неэффективность применяемых технологий. По сути, это определение ничего не говорит о том, чем Большие Данные отличаются от просто данных. Казалось бы, штука эта безобидная и носит исключительно академический характер. Однако, на практике это не так. Когда лица, принимающие решения, возможно и не обладающие глубокими профессиональными познаниями, но в подавляющем числе наделенные недюжинным здравым смыслом, встречаются с подобными определениями, у них возникает подозрение, что они имеют дело с очередной маркетинговой уловкой. Суть этой уловки в том, чтобы просто извлечь из организации деньги, заставив ее заплатить за старые решения под новым названием. Несомненно, что непонятность Больших Данных для лиц, принимающих решения, в том числе и у нас, принципиальное отличие технологий Больших Данных от того, что было раньше, стали одними из важных причин, почему Россия и целый ряд других стран, располагающих всеми необходимыми предпосылками для использования этих технологий, на сегодняшний день отстают в гонке цифровых вооружений.

Чтобы разобраться с тем, что такое Большие Данные и в чем принципиальная новизна их технологий, надо для начала отследить время возникновения термина. Сам по себе термин «Большие Данные» появился пять лет назад после публикации специального выпуска ведущего американского научного журнала Nature, целиком посвященного этой теме. Затем тема, как по команде, была растиражирована сначала специализированными IT изданиями, а затем подхвачена элитными СМИ, типа Foreign Affairs, Wall Street Journal и т.п.

Что же произошло пять лет назад? Есть ли какие-то документальные доказательства, что мы не имеем дело с чем-то принципиально новым, а не с хорошо продуманной маркетинговой кампанией по принуждению правительств и корпораций к покупке нового, дорогостоящего софта? Ведь таких примеров в истории IT индустрии было немало. В данном случае твердые документальные доказательства перехода некоего Рубикона имеют место быть.

Во-первых, он связан с достижением интернетом уровня контентной зрелости и перехода в фазу ярко выраженного экспоненциального развития. Эта фаза получила название «информационный взрыв». Примерно, с 2008 года объем информации вновь генерируемой в сети стал удваиваться в течение примерно полутора-двух лет. На сегодняшний день можно привести следующие ключевые характеристики информационного взрыва.

По данным компании Cisco, объем сгенерированных данных в 2012 году составил 2,8 зеттабайт и увеличится до 40 зеттабайт к 2020 г. Примерно треть передаваемых данных составляют автоматически сгенерированные данные, т.е. управляющие сигналы и информация, характеризующие работу машин, оборудования, устройств, присоединенных к интернету, или к интернету вещей. Причем с каждым годом доля интернета вещей или как его сегодня еще называют «интернета всего» растет в общем объеме мировых информационных потоков. На 40% ежегодно увеличивается объем корпоративной информации, передаваемой и хранящейся в сети интернет.

Число пользователей интернета в мире к концу 2013 года составило 2,7 млрд. человек, или 39% населения земли, а к 2016 году эта доля составит 65-75% населения по данным Центра новостей ООН. Как ожидается, количество корпоративных пользователей интернета во всем мире увеличится с 1,6 миллиарда в 2011 году до 2,3 миллиарда в 2016 году.

Во-вторых, примерно в этот период времени появились и стали доступны для корпоративных пользователей принципиально новые IT решения, позволяющие в режиме реального времени обрабатывать практически безразмерные массивы данных самого различного формата. Причем, эти решения сразу же стали реализовываться не только как программные платформы, устанавливаемые на серверы, но и как облачные вычисления, где от организации не требовалось наличия огромной инфраструктуры компьютерного железа.

В-третьих, к концу нулевых годов западные, прежде всего, американские поведенческие и когнитивные науки, с одной стороны получили широкое признание со стороны бизнес-сообщества и государств, а с другой, из фазы исследований и разработок перешли в стадию производства эффективных технологий. Косвенным показателем этого процесса стал тот факт, что в течение нулевых годов три виднейших представителя поведенческих наук: Д.Канеман, Дж.Акерлоф и П.Шиллер получили Нобелевские премии по экономике. Экономика была выбрана лишь потому, что Нобелевских премий в сфере наук о человеке просто не существует.

Теперь давайте вдумаемся, чем же, по сути, является интернет. Причем, без разницы, о каком интернете мы говорим – об интернете людей или об интернете вещей. Не надо обладать глубокими техническими знаниями, чтобы понять, что фактически интернет является хранилищем, своеобразным архивом следов человеческой деятельности. Причем, не только той деятельности, которая реализована в конкретных поступках, действиях, событиях, но и архивом намерений, мнений, мыслей и отношений. Не зря знаменитый американский автор бестселлеров Маршалл Смит уподобил интернет толще земли, в которой можно обнаружить след доисторического животного, умершего миллионы лет назад. По сути, в интернете ничего не исчезает. Даже популярные в постсноуденовскую эпоху различного рода сервисы удаления аккаунтов и других следов пребывания в сети, удаляют лишь те следы, которые доступны для наблюдения простыми пользователями, не вооруженными специальными программами, доступными для корпораций и государств.

Соответственно формирование огромного, постоянно пополняющегося архива поведенческой активности самых различных субъектов, от отдельных государств и огромных компаний до небольших групп и отдельных индивидуумов собственно и послужило базисом появления Больших Данных. C тех пор направление Больших Данных стало ведущим в сфере информационных технологий.

Анализ накопленного за последние годы опыта применения технологий Больших Данных позволяет выделить несколько ключевых черт, отличающих Большие Данные от всех других информационных технологий. К ним относятся:

- во-первых, огромные массивы разнородной информации о процессах, явлениях, событиях, различного рода объектах и т.п., пополняемые непрерывно в режиме он-лайн. Согласно имеющейся статистике 60% этой информации носит неструктурированный, в основном текстовой характер и 40% составляет структурированная, или табличная информация. В последние годы в общем объеме Больших Данных постоянно нарастает доля информации структурированного характера, поступающей от вещей, соединенных с интернетом – от холодильника, до городской системы регулирования светофоров и т.п.;

- во-вторых, специально спроектированные программные платформы, где Большие Данные любого объема могут храниться в удобном для вычислений виде. Особо надо подчеркнуть, что эти архивы отличаются от привычных баз данных, которые приспособлены только для структурированной или табличной информации. Отличительной чертой этих хранилищ является то, что структурированная и неструктурированная информация могут обрабатываться совместно, как единое целое;

- в-третьих, наличие различного рода математического, прежде всего, статистического инструментария для обработки Больших Данных и получение результатов в виде, понятном для человека. Причем, при анализе Больших Данных используются не только традиционные методы математической статистики, но и алгоритмы распознавания образов, нейронные сети, построенные по дальней аналогии с работой человеческого мозга и т.п.

По данным различных исследований, не более 0,6% всей имеющейся сейчас информации подпадает под категорию Больших Данных, т.е. накапливается, хранится и перерабатывается. В этих же исследованиях указывается, что потенциально в качестве Больших Данных может использоваться 23% всей хранимой в настоящее время информации. Т.е. фактически сейчас из всей этой информации используется как Большие Данные, т.е. обрабатывается, анализируется чуть больше 3%. Между тем, последние достижения в области создания платформ накопления, хранения и обработки объемов данных всех форматов позволяют увеличить потенциальные Большие Данные с 23 до примерно 40% всей передаваемой в сетях информации.

Еще в 2011 году McKinsey Global Institute объявил Большие Данные "следующим рубежом для инноваций, конкуренции и производительности". По данным целого ряда ведущих международных деловых изданий, уже сегодня Большие Данные дают заметный эффект в бизнесе. Например, выяснилось, что в транснациональных компаниях, входящих в список Fortune 500, где, казалось бы, до мелочей отлажены все процедуры и процессы, внедрение технологий Больших Данных на 5-7% увеличило эффективность использования ресурсов – труда, основных производственных фондов, энергии и т.п. и на 7-9% обеспечило рост объемов продаж. Для среднего бизнеса показатели оказались в полтора-два раза выше. Причем, следует отметить, что данные получены в условиях, когда мировая экономика испытывает на себе последствия глубочайшего финансово-экономического кризиса и экономический рост измеряется в лучшем случае 1-2%.

На чем же базируется эффективность Больших Данных? Технологии Больших Данных и прежде всего, методы статистического анализа, компьютерного распознавания образов и т.п., применяемые на огромных, постоянно пополняемых массивах данных позволяют:

- проводить самые различные и сколь угодно подробные классификации той или иной совокупности людей, компаний, иных объектов по самым разнообразным признакам. Такие классификации обеспечивают точное понимание взаимосвязи тех или иных характеристик любого объекта – от человека до компании или организации, с теми или иными его действиями;

- осуществлять многомерный статистический и иной математический анализ. Этот анализ позволяет находить корреляции между самыми различными параметрами, характеристиками, событиями и т.п. Корреляции не отвечают на вопрос – почему. Они показывают вероятность, с которой при изменении одного фактора изменяется и другой. В каком-то смысле Большие Данные представляют собой альтернативный традиционной науке метод. Наука на основе теоретических моделей отвечает на вопрос – почему, а затем, получив ответ, делает рекомендации, как действовать. В случае корреляции стадия поиска причины ликвидируется, а действие происходит в тех случаях, когда факторы тесно взаимосвязаны и на один из факторов легко или возможно осуществить целенаправленное воздействие;

- прогнозировать. На основе классификаций и аналитических выкладок осуществляется прогнозирование. Суть прогнозирования состоит в том, чтобы на основе корреляции определить наиболее легкий способ воздействия для того, чтобы один набор факторов, характеризующих тот или иной объект, лицо, компанию, событие и т.п. был преобразован в другой.

Как любой новый технологический пакет, Большие Данные тут же обросли мифами и заблуждениями. Многие из них постоянно усиливаются как самими производителями программных продуктов в сфере Больших Данных, так и средствами массовой информации, вынужденными адаптировать сложные вопросы информационных технологий до читателей, не обремененных излишними знаниями.

Из всей совокупности мифов стоит выделить три главных. Именно они наносят наибольший вред технологиям Больших Данных и тормозят их практическое применение, в том числе в нашей стране.

Прежде всего, в маркетинговых целях прикладываются немалые усилия, чтобы представить технологии Больших Данных неким новым Святым Граалем. На них необоснованно возлагается роль панацеи от всех бед. Между тем, очевидно, что любой технологический пакет имеет строго определенные условия для своего применения. Касательно Больших Данных таким ограничением является сопоставимость текущей ситуации с ранее наблюдавшимися ситуациями, процессами, периодами времени и т.п. В качестве примера можно привести прогнозирование потребительского поведения. Каждый человек на собственном опыте знает, что в ситуации умеренной инфляции он будет делать одни покупки, а при гиперинфляции его потребительское поведение коренным образом изменится. Если уже имеются Большие Данные как по периоду с низким уровнем инфляции, так и ситуации гиперинфляционного шока, то технологии Больших Данных будут полезны. Они позволят распознать, к какому классу относится текущая ситуация, обратиться к соответствующим поведенческим паттернам, характеризуемым теми или иными параметрами, и позволят дать достаточно достоверный прогноз. А вот если Больших Данных по периоду гиперинфляции нет, а она наступила, то в такой ситуации технологии Больших Данных будут бесполезны. Более того, их применение чревато непоправимыми ошибками. Этот пример показывает: технологический пакет Больших Данных, также как и другие технологические пакеты имеют строгие условия, где его применение эффективно, а где – нет.

Бытует мнение, что Большие Данные могут применяться только государственными структурами и транснациональными корпорациями, и недоступны для других субъектов. Связано это с дороговизной как серверной части, так и программного продукта, требуемого для работы с Большими Данными. И, наконец, с высокой зарплатой специалистов по Большим Данным. На практике в последние пару лет пользу из Больших Данных извлекают не только гигантские, но и небольшие структуры. Это стало доступным благодаря облачным вычислениям. В этом случае небольшие структуры выступают конечными пользователями технологического пакета, который получают как услугу. Использование этой технологии, как показывает опыт небольшого и среднего бизнеса в США, Западной Европе и Японии дает компаниям неоспоримые конкурентные преимущества по сравнению с бизнесами, которые подобными возможностями не располагают.

Наконец, очень серьезным заблуждением является рассмотрение технологического пакета Больших Данных как чисто машинной технологии. Многие государственные и корпоративные структуры впустую затратили огромные суммы средств только потому, что все ресурсы были направлены на закупку компьютерного железа и программных продуктов. При этом, затраты на кадры формировались по остаточному принципу. Между тем технологии Больших Данных требуют специалистов высочайшего уровня квалификации, как правило, обладающих образованием и профессиональными навыками не только в области информационных, но и гуманитарных наук. Сегодня, например, в США по оценкам экспертов не хватает от 50 до 70 тыс. специалистов по данным (data scientists). Большие Данные представляют собой не машинную, а человеко-машинную технологию.

Это наглядно показал пример любимого детища АНБ, компании П.Тиля Palantir. Одна из версий программы ориентирована на борьбу с мошенничествами в крупных финансовых структурах. Пока действовал чисто машинный вариант система давала множество ложных срабатываний. При этом, полностью выявлялись и реальные случаи хищений, но они были смешаны с неточными выводами. В результате за программу посадили ветеранов служб экономической безопасности в качестве операторов. За короткий срок они обучились работе с программой и, используя человеческий опыт, выбирали из всей совокупности сигналов лишь те, которые указывали на реальные хищения.

По этому поводу руководитель одной из самых перспективных компаний в области прогнозирования Quid, также принадлежащей П.Тилю Ш.Горли сказал: «Наибольший эффект Большие Данные дают тогда, когда возможности компьютеров в обработке гигантских массивов информации и выявлении нетривиальных связей соединены с человеческим опытом и профессиональной интуицией. А все, что вам рассказывает Р.Курцвейл про искусственный интеллект, это как минимум на ближайшее будущее просто красивые истории и PR ходы».

Подытоживая суть технологий Больших Данных, можно согласиться с краткой формулировкой консалтинговой компании Forrester: “Большие Данные объединяют техники и технологии, которые извлекают смысл из данных на экстремальном пределе практичности”.

Большие Данные в первую очередь были использованы в маркетинге, инвестиционном бизнесе, в продажах и т.п. Т.е. фактически там, где речь идет о косвенном, незаметном управлении поведением. Другой сферой применения Больших Данных стали процессы, описываемые множеством параметров, где за счет изменения режима можно получить экономию того или иного ресурса. В этой связи за пределами маркетинга и продаж самыми активными пользователями Больших Данных стали государственные учреждения и энергетический сектор экономики.

Но это лишь надводная часть айсберга. А подводная часть, как известно, всегда намного больше и, если можно так сказать, серьезнее. Подводной частью айсберга стало использование технологий Больших Данных в таких сферах как разведка и контрразведка, военное дело, геостратегия и то, что традиционно называлось информационными войнами, а фактически представляет собой форму жесткого когнитивного противоборства.

Большие Данные были быстро осознаны такими странами, как Соединенные Штаты, Великобритания и Япония, в качестве важнейшего ресурса стратегического значения. 29 марта 2012 года Администрация Б.Обамы выступила с инициативой «Big Data Research and Development Initiative» . Инициативой предусматриваются вложение значительных объемов ресурсов и проведение комплексных мероприятий в целях активного использования технологий Больших Данных на ключевых направлениях государственной политики США. В рамках инициативы в конце февраля этого года в Вашингтоне пройдет большая конференция «Big Data for government & defense».

В сентябре 2013 года правительство Японии опубликовало информацию о разработке национальной программы по Большим Данным. Летом минувшего года правительство Австралии заявило, что рассматривает Большие Данные как важнейший национальный стратегический ресурс и выдвинуло задачу стать головной страной в сфере использования технологий Больших Данных как на правительственном уровне, так и на всех других уровнях государственного аппарата в масштабах Британского Содружества Наций.