Авторский блог Дмитрий Перетолчин 15:14 21 марта 2017

А. Константинов; Л. Абрамова Новая информационная революция

Цивилизацию накрыла лавина данных, которые мы не успеваем обработать и осмыслить. Вроде и знали, что наступает информационная эра, но оказались не готовы к тому, что информации будет столько. Похоже, здесь работает всё тот же закон Мура, который говорит об удвоении за год-два мощности процессоров или столь же стремительном удешевлении анализа генома — словом, об экспоненциальном росте в областях, находящихся на острие научного прогресса.

Но лавинообразно растёт и количество статей в области data science, науки о данных. Мы учимся превращать потоки неструктурированных цифр и фактов в полезное и понятное знание. В сфере IT акцент давно сместился с «Т» на «I» — с технологий на информацию. Да и прочие крупные открытия и изобретения нового века связаны не с физическими нового века связаны не с физическими свойствами объектов, а с их информационной начинкой, делающей вещи «умными». Учёные всё чаще занимаются не экспериментированием и созданием теорий, и даже не компьютерным моделированием, а разработкой алгоритмов анализа данных.

Технологии анализа данных становятся базовой платформой для любого технологического развития, и с каждым годом будет всё сложнее найти вещь без компьютера внутри. Машины учатся анализировать данные за нас, и рост их интеллекта становится главным двигателем информационной революции. Но кто создаёт для них алгоритмы, наделяющие кремниевые создания способностью распознавать образы и находить закономерности?

Эпоха праздного любопытства закончилась. Как кибернетика воскресает и интеллект искусственный рождается

В мире, переживающем большой информационный взрыв, анализ данных стал центральной научной дисциплиной, объединяющей самые разные отрасли науки и практики. О том, какое будущее несёт прогресс в области анализа Больших данных, мы поговорили с академиком Александром Кулешовым, директором Института проблем передачи информации РАН, который был основан отцами советской кибернетики, а сегодня создаёт для всего мира самые передовые инструменты анализа информации.

Мы встретились в Олимпийской деревне — на этот раз туда со всего мира съехались не спортсмены, а математики, биологи, физики и другие учёные, вроде бы говорящие на совсем разных языках и ду-мающие о совсем разных проблемах. Они приехали обменяться идеями на междисциплинарную школу-конференцию молодых учёных «Информационные технологии и системы», которую ежегодно проводит Институт проблем передачи информации им. А. А. Харкевича РАН (ИПГТИ). Здесь говорили об элементарных частицах, человеческом старении, молекулярной эволюции, нейроинтерфейсах— и разнопрофильным специалистам удавалось понять друг друга, ведь, по сути, речь всегда шла о том, как придать смысл бесконечным рядам цифр, как добыть из них полезную информацию. Пока бурлили идеи и кипели споры, Александр Кулешов как радушный хозяин перемещался среди гостей, стараясь ни о ком не забыть.

Поскреби биолога —найдёшь математика

[КШ] Меня удивило, что на конференции про информационные технологии и системы, которую устраивает математический институт, половина участников — биологи.

[АК] А ИППИ никогда и не был математическим институтом. Это единственное научное учреждение в Советском Союзе, которое с самого начала было создано не как узкопрофильное, а как мультидисциплинарное. Он возник, когда встала острая необходимость решать проблемы теории ко-дирования. Создателями института были крупнейшие математики и, я бы сказал, настоящие визионеры: Колмогоров, Гельфанд, Харкевич. Они понимали, что передача информации в системах связи и в живых системах — вещи очень сильно пересекающиеся и, вероятно, подчиняющиеся общим законам. Сейчас все науки связывает математика, обработка данных. Наука о данных — это то, что пронизывает все направления деятельности нашего института, начиная с биоинформатики и заканчивая телекоммуникациями, живыми системами в самом общем смысле, компьютерной лингвистикой. Математика стала общим фундаментом, на котором только и можно строить мультидисциплинарное соединение. Поэтому у нас мультидисциплинарность не насаждается извне, как в институтах, где создают десять разных подразделений. Это глупости — люди там занимаются своими делами и не особо обращают внимание на соседние подразделения.

[КШ] А как у вас всё устроено?

[АК] У нас биологи-экспериментаторы приходят на математический семинар, рассказывают про свои проблемы, и часто оказывается, что для математиков это знакомые задачи и решаются они известными способами. То, что вы видите на конференции, и есть конвергенция наук. Очень полезно слушать про чужие задачи. Поэтому я и стараюсь сводить в институте специалистов разного профиля. Кому-то, конечно, неохота вникать в непонятные чужие проблемы. Но приходится. И чёрт его знает, что ему в голову взбредет, когда он всё это услышит! Взаимопроникновение наук через математику — это действительно мощнейший инструмент.

Идея конвергенции с самого начала отличала наш институт. У нас работал великий физиолог Бернштейн, создавший теорию построения движений, Гурфинкель, известный во всём мире как создатель теории локомоции, психолог Ярбус, первым предложивший отслеживать движения глаз...

[КШ] Но почему здесь так много именно биологов, а не финансовых аналитиков, например?

[АК] При всём уважении финансовую математику я в институте развивать не буду. У меня было много предложений — но не буду. Из принципиальных соображений. Финансовая математика перетягивает огромное количество ресурсов, огромное количество умных людей, которые не создают ничего. Они просто перераспределяют. Я к этому не хочу быть причастным.

[КШ] Но физика, химия! Это же области, где анализ данных, казалось бы, вовсю применяется. А всё-таки здесь больше биологов.

[АК] Сегодня физика и математика на высоком уровне практически не различаются. Человека, разрабатывающего теорию струн, кто-то называет физиком, а кто-то математиком.

Но самые интересные вещи сейчас творятся в биологии. Недавно я своими глазами видел парализованного наркодилера, которому полицейские перебили шейный позвонок. Фантастическая вещь: при помощи нейроин-терфейса он управляет механическими руками — может например, пить кофе. Это, как сказал бы астронавт Армстронг, маленький шаг для человека и гигантский — для человечества. Но прогресс нейронауки невозможен без анализа данных. Движения этих рук-манипуляторов очень разные, нужен математический аппарат, чтобы найти в них инварианты, что-то общее и устойчивое.

Если бы мне сейчас было 17 лет, я бы пошёл в нейронауку. А поскребите работающих у нас биологов — 99% из них окажутся переучившимися математиками или физиками. Мы сейчас очень активно всем этим занимаемся.

Самолёты, семена и свиньи

Математика всегда связывала прочие области знании, да и вообще — любая наука становилась наукой в полном смысле слова, лишь когда туда приходила математика. Но сейчас, кажется, что-то принципиально новое происходит.

[АК] Конечно. Появилась колоссальная вещь, которая по-настоящему связала все науки,— анализ данных. В 1950-е, во времена Брэдбери, Азимова и фантастических рассказов о роботах казалось, что мы вот-вот коснёмся этого всего. Что будет искусственный интеллект, человекоподобные роботы-помощники. Но оказалось, всё не так просто, теория вырвалась далеко вперёд по сравнению с технологиями и в конце концов стала неинтересной, заглохла — лет на двадцать. Не было технологической поддержки, технологий хранения, передачи и обработки информации. И не было такого количества данных. Я всё время говорю молодёжи: ребята, читайте старые статьи. Это собрание огромного количества новых идей. Всё забыто, люди начинают заново повторять идеи, которые были высказаны ещё в шестидесятые годы. Но все же технология развивалась со страшной скоростью, на моих глазах произошёл невероятный скачок. Пожалуйста, в мире уже установлено больше миллиарда камер — казалось бы, всех террористов можно выловить в аэропортах на раз. Но нет алгоритмов, которые это сделают. Все нужные технологии появились, а алгоритмов нет.

[КШ] Теперь практика обогнала теорию?

[АК] Да, возникла обратная ситуация: раньше был разрыв между теорией и практикой в пользу теории, а сейчас — в пользу практики. Технологии на порядки превосходят математические методы обработки данных. Оказалось, что все науки и, главное, огромное количество практических задач связаны с обработкой массивов данных таких размеров, о которых мы даже и подумать не могли в былые времена. И это вызвало колоссальный прилив интереса математического сообщества к этим задачам.

Сейчас в математике анализ данных — это тема номер один. Он невероятно востребован на практике, он нужен всем. Нашими инструментами обработки данных пользуются такие компании, как Airbus Group, Porsche, Mitsubishi, Toyota, Mi-chelin, Gas de France, Европейское космическое агентство, AREVA (французский Росатом. — «КШ»). Даже в сельском хозяйстве! Вторым по объёму после Airbus потребителем продуктов, разрабатываемых в нашем институте, является Limagrain, одна из крупнейших в мире компаний по селекции семян. Оказывается, чтобы производить чистые семена, необходима очень хорошая математика.

Вы не представляете, что такое современное сельскохозяйственное производство! В животноводстве, чтобы попасть к племенной свинье, надо пройти четыре зоны очистки, дважды принять душ. Там свиньям делают томографию, а софт, который мы производим, эти данные анализирует — всё это нужно для того, чтобы получить оптимальное соотношение мяса и жира. Представляете, что такое засунуть свинью в томограф? «Мадам, не двигайтесь!» Она же должна там минут пятнадцать простоять спокойно. Мы часто даже не понимаем уровень своей отсталости, а он безумный в таких вот областях.

Для математика что самолёты, что семена, что свиньи — это в некотором смысле одно и то же. У тебя есть чёрный ящик. Ты не знаешь, что в нём происходит. Но у тебя есть входные данные, выходные данные и некоторые ручки, поворачивая которые ты можешь вытянуть результат. Тебе нужно найти правильное положение ручек, чтобы результат был наилучшим. И в этом смысле вывод новых пород семян или получение новой формы крыла — это одна и та же задача. Вот этим мы, собственно, и занимаемся.

Шаманы нейронных сетей

[КШ] Что такое информация с точки зрения математики — можете на пальцах объяснить?

[АК] Я не буду морочить вам голову определением Колмогорова, определением Шеннона и так далее. Давайте исходить из другого: в бытовом смысле сегодня любая информация цифровизована. Информация — это всё, что представлено в виде ноликов и единичек. Фильм — это тоже нолики и единички, как и фотография, и текст. Всё это информация, и всю её можно анализировать математически.

[КШ] То есть мы в этих ноликах и единичках ищем какие-то закономерности, какие-то узоры, повторы?

[АК] Смысл анализа данных — это извлечение новых знаний из информации. Мы ищем закономерности, пытаемся понять, но главное — это предсказывать. Что произойдёт, если я изменю форму крыла самолёта? Что будет, если я изменю два типа скрещиваемых растений? Мы делаем предсказания, основанные на данных. И вот в этом смысле математика сейчас объединяет все науки. Они ведь изначально основаны на экспериментах, эксперимент — это всегда данные, а обработка данных — это математика.

[КШ] Вы в своей лекции привели много замечательных примеров применения такого метода анализа данных, как deep learning, глубокое обучение. Можете объяснить, что это такое?

[АК] Да это самый главный вопрос современности! И ответа на него не знает никто. Речь идёт о гигантских нейросетях, способных обучаться — примерно так, как обучается речи ребёнок, по аналогии, не зная никаких правил грамматики. Мы вводим в нейросеть информацию, она её изучает и выдаёт результат обработки, но как она его получила, мы не понимаем. И я очень сомневаюсь, что в ближайшие полвека поймём. Это тот случай, когда эксперимент бежит впереди объяснения. К тем, кто умеет проектировать такие сети, относятся как к гуру или шаманам — они сами толком не понимают, что делают, ориентируются на интуицию, но если у них получается, им готовы платить любые деньги.

[КШ] Нейронные сети в математическом смысле — это, насколько я понимаю, совсем не про реальные нейроны и мозг?

[АК] Конечно, хотя сначала думали, что нейронные сети — это некий аналог того, как работают нейроны в мозгу, впрочем никто точно этого не знает. Эта антропоморфность, на мой взгляд, — совершенно ложная вещь. Это как первый самолёт, похожий на летучую мышь, ещё до братьев Райт, который хлопал крыльями, — он даже как-то летал. Но не нужно самолёту хлопать крыльями, как птица. И стальные жеребцы у нас по дорогам не бегают. Почему мозг в этом смысле должен чем-то отличаться? Мы же знаем, что ещё в 1997 году Каспарова обыграл в шахматы Deep Blue, а в 2011-м Watson обыграл тогдашнего чемпиона в Jeopardy, — для этого не нужно быть похожим на мозг. Хотя какие-то разумные идеи приходят и из биологии и должны применяться в микроэлектронике и программах. Но никто не сказал, что будущий искусственный интеллект или робот, как из рассказов Азимова, будет устроен по образу и подобию человека. Скорее всего, нет, хотя я могу ошибаться.

Торжество кибернетики

[КШ] ИППИ создавали, вдохновляясь идеями модной тогда кибернетики?

[АК] Конечно. Отцы кибернетики Винер, Шеннон — они всё, что сейчас происходит, предвидели. Но, к сожалению, люди восприняли их идеи как ближайшее будущее, как следующий шаг. А когда следующий шаг не случился, интерес к этим идеям был потерян.

[КШ] Получается, сейчас настаёт время реального торжества идей кибернетики?

[АК] Конечно, конечно!

[КШ] Вы чувствуете связь с кибернетикой того времени?

[АК] Самую прямую. Возьмём теорию локомоций Гурфинкеля — казалось бы, какое отношение она имеет к роботам? А ведь Boston Dynamics лишь совсем недавно сумела сделать антропоморфного робота, который может ходить не только по гладкой поверхности. Раньше подложишь роботу спичечный коробок — пи-и-ип, и вся антропоморфность на этом заканчивалась. А сейчас хоть полено положи — он поймет и переступит. Эта сложнейшая технология, на разработку которой ушли десятилетия, во многом основывается на трудах Гурфинкеля и нашей лаборатории. Когда человек просто стоит, одновременно работают тридцать мышц. Стоять, кстати, сложнее, чем ходить, недаром перед парадом солдаты в обморок падают — в ожидании.

[КШ] Нынешние роботостроители говорят, что главный «тест Тьюринга», позволяющий отличить робота от человека, должен быть основан не на речи, а на движении: воспроизвести пластику человека гораздо сложнее, чем симулировать интеллект.

[АК] Мы приближаемся к реальности, которая описана в рассказах Азимова. Глубокое обучение — это замечательный пример создания устройств, про которые мы уже сами не понимаем, как они работают. Это очень важный рубеж, принципиальный. Инструмент, который может себя воссоздавать или совершенствовать, а мы даже не понимаем, как это происходит,— решающий шаг на пути к искусственному интеллекту, и он уже сделан. Человечество создало механизм, который делает невероятные с нашей точки зрения вещи и работает непонятным нам способом.

Опознать собаку и найти алмаз

[КШ] Почему свою лекцию, открывающую конференцию, вы назвали «Эпоха праздного любопытства закончена»?

[АК] Праздное любопытство — это когда я занимаюсь интернет-сёрфингом или в поезде журнал листаю: вдруг да попадётся что-то интересное? И не потому вовсе, что я не знаю, что меня интересует,—просто нет механизма, который найдёт это, и я занимаюсь неструктурированным поиском. Так вот, он уходит в прошлое. Поиск, когда мы просто пытаемся выловить что-нибудь интересное в окружающем мире, становится невозможным. Потому что количество информации растёт экспоненциально. И бродить без цели в этом море бессмысленно. Зато возникли инструменты, позволяющие найти любую информацию. Скоро, например, появится механизм поиска информации по фото и видео в интернете — это самое ближайшее будущее, завтрашний день. Как сейчас мы пользуемся ключевыми словами и фразами, когда ищем что-нибудь в интернете, точно так же будет устроен в скором времени и видеопоиск.

Девяносто процентов всех имеющихся на сегодня данных были получены за последние два года. Я сам сначала был крайне удивлён этой цифрой. Но коллега из MIT убедил меня на простом примере. Он сказал: «Смотри, вот выиграл наш хоккейный клуб Boston Bruins. А ты знаешь, что, когда кубок Стэнли провозили по городу, полтора миллиона человек снимали это на видео и клали в свои архивы?» Большая часть информации, которая сейчас хранится в Сети, — это видео. И если за последние двадцать лет мы более-менее научились обращаться с текстовой информацией, то с видеоинформацией мы работали мало.

[КШ] Чтобы научить систему узнавать изображения, нужно ведь как-то сопоставить их со словами?

[АК] Есть открытые сайты, где этим занимается масса людей, например ImageNet. Пользователи этого сайта разметили 14 миллионов фотографий — в виде пирамиды понятий. Вот у нас млекопитающие, вот собаки, вот терьеры, а вот бультерьеры, понимаете? Это делают китайцы на деньги правительства Соединённых Штатов. Представьте себе, сколько нужно людей и времени, чтобы вручную это сделать! А потом сеть всё это, условно говоря, прочла и поняла, где хаски, где сибирская лайка и так далее.

Ещё три месяца назад человек распознавал объекты на фотографиях чуть лучше, чем аналогичная гугловская платформа GoogleNet. Люди делали ошибки в 5% случаев, программа — в 6%. А сегодня гугловская сеть уже превзошла человека: она делает всего 4,5% ошибок. Но распознавание образов — это же страшная вещь! О прайвеси можно забыть. Тебя сфотографировали и тут же опознали. Вот спускаюсь я на эскалаторе и вижу девушку, которая поднимается. Я её не догнал, но фотографию сделал — тут же распознал, залез к ней в «Одноклассники», пожалуй, расхотел знакомиться.

[КШ] Это наше ближайшее будущее?

[АК] Да, хотя пока мы такие вещи делать не умеем. Зато, например, мы замечательно распознаём колёса. Наша программа распознаёт все типы колёс, которые только есть в мире. Или, скажем, алмазы — распознавание всех алмазов в мире сегодня происходит на нашем софте: на глаз ведь нельзя определить, есть ли в породе алмаз, а мы можем.

И ещё одна очень важная вещь про ближайшее будущее. С развитием методов экстракции знания из информации будет уменьшаться потребность в «синих воротничках». Не только в рабочих, а вообще в людях средней квалификации.

В Соединённых Штатах, например, первое, что бросается в глаза уже в аэропорту: на каждом углу стоит человек, ничего полезного, в общем-то, не делающий. Совершенно очевидно, что его работа — просто социальная функция. Надо чем-то занять людей. Современное общество может прокормить огромное количество людей, а занять не может. И, увы, многие готовы жить в архаичном обществе: жить впроголодь, но зато быть востребованными.

КОТ ШРЁДИНГЕРА

ДЕКАБРЬ 2015 г.

1.0x