ЦРУ — большие задачи и большие данные. На пути к созданию глобального информационного колпака

Какое отношение Google и Facebook имеют к работе ЦРУ? Что такое технология «Больших данных» в работе американских спецслужб? Как будет выглядеть глобальный колпак в ближайшем будущем по мнению его авторов? Айра Гас Хант, действующий Директор по технологиям ЦРУ, рассказывает о своем видении Big Data на службе ЦРУ, а также возникающие при этом задачи и методы их решения. Выступление состоялось на конференции, проходившей 20 марта в Нью-Йорке.

Мы приводим фрагменты этого выступления, с полной версией которого можно ознакомиться здесь:

http://www.youtube.com/watch?feature=player_embedded&v=GUPd2uMiXXg#!
«Я попытаюсь рассказать вам о том, как выглядит с нашей точки зрения всё, что происходит в мире, почему это для нас важно и затем, что по нашему мнению, следует изменить, чтобы мы сумели получить преимущество от использования Больших Данных.

Большая задача под номером один, возникшая еще четыре года назад, касалась наших способностей получить преимущество из больших информационных потоков, возникающих на планете. Это нужно, чтобы мы могли понимать, что в них происходит и защищать национальную безопасность. Как раз этим мы и занимаемся.

Это достаточно простые вещи и они вам хорошо известны, но безопасная мобильность для нас – это тема огромной важности. Мобильные технологии не безопасны. Повторите за мной: Мобильные технологии не безопасны. И это действительно так. Каким образом мы собираемся сделать их безопасными в нашем окружении, так чтобы мы могли получить из них пользу? Это серьезная задача.

Вторая вещь, приведенная здесь – то, что мы называем продвинутой аналитикой. На самом деле мы рассматриваем аналитику как сервис. Под этим мы понимаем всё, что нам потребуется делать с Большими Данными – выполнять работу, необходимую для поддержания безопасности нашей нации.

Третье, что у нас есть – виджеты и сервисы. Мы подошли к этому, используя такую вещь как Ozone Framework. Ozone – это фреймворк, который разведывательное сообщество разработало на базе фреймворка Google. Основная причина, по которой мы им пользуемся, совпадает с причинами, по которым вы пользуетесь своими смартфонами, iPad-ами и прочими штуковинами. Вы можете их персонализовать и поместить на них всякие разные штучки, необходимые для вашей деловой или личной жизни. Нам необходимо создать окружение, где наши аналитики и операторы и прочие сотрудники могут разместить необходимый для них функционал и персонализовать свой мир.

Четвертое: безопасность – это сервис. Мы не хотим, чтобы вам приходилось отстраивать систему безопасности сверху вниз каждый раз, когда вы поставляете нам или создаете для нас новую систему.

Пятое – данные. У нас есть концепция использования данных как сервиса и такое понятие, которые мы назвали ‘бухта данных’. Бухта данных не совсем четко очерченное место, но мы планируем там собрать мощные расчетные движки, подобные тем, которые вы видели в выставочном зале. Мы хотим создать окружение, в котором будут присутствовать все наши данные и массивные вычислительные инфраструктуры, так чтобы для нас было легко отрабатывать новые идеи или наши новые навыки на верхнем уровне, приводя в движение то, что у нас есть внизу. Чтобы делать все эти вещи, необходимы большие мощности для вычислений и эта маленькая забавная штучка называется Облако.

Я хочу быстренько пробежаться по тому насколько велико понятие ‘большой’ в Больших Данных. Вы все знаете Google. Google большой провайдер всяких интересных вещей. В 2010 году они говорили, что у них около 100 петабайт данных, более чем триллиона индексов URL. Это достаточно много.

Facebook. Как вы знаете, Facebook, где-то в августе прошлого года превысил миллиард пользователей, так что сейчас у них уже больше чем миллиард. Я обнаружил одну интересную вещь – последние цифры показывают, что приблизительно 35% всех мировых фотографий размешены именно в Facebook.

Youtube. Мы считаем, что Youtube единственное хранилище экзабайтного размера или больше, которое можно встретить на планете, по крайней мере, в публичном её секторе. По последним документам, которые к нам попадали, размер Youtube составлял около 768 петабайт.

Все говорят о Twitter и о том, насколько велик Twitter. В twitter проходит около 124 миллиардов твитов год, 4500 в секунду. Но даже это немного по сравнению с количеством звонков по сотовым телефонам в США. Только в США проходит 2.2 триллиона минут переговоров в год – 19 минут на человека в день.

Благодаря чему всё это происходит? Я думаю, что вы это всё знаете. Есть три фундаментальные движущие причины последних нескольких лет, а также одна маленькая любопытная штука — Социальное Мобильное Облако. Именно она принесла нам большую часть Больших Данных. В социальном мире, вещи очень быстро распространяются как вирусы и поэтому им необходимо информационное пространство, эластично масштабируемое в существенно больших пределах, чем оно было задумано изначально, когда Облако еще только начало существовать. Все хотят быть в социуме и обмениваться информацией. Всё это, рассматриваемое в целом, и создаёт то, о чем мы и говорим – Большие Данные.

Для нашего мира это значит, что Социальные Мобильные Облака существенно ускорили социальное общение способами, которых мы не ожидали, и я полагаю, что они вообще не существовали до появления этих технологий в реальной жизни. Классический пример – арабская весна. Способность групп граждан, участвовавших в арабской весне, продолжать оставаться на связи, несмотря на тоталитарные правительства, всячески пытавшиеся им препятствовать, дала возможность процессам и протестам арабской весны развиваться, и как бы то ни было, но прийти к своему осуществлению, что мы здесь и собираемся увидеть через какое-то время. Мы всё еще пытаемся понять, что всё это значит.

Что важнее всего, в нашем мире, что такая вещь как Социальное Мобильное Облако полностью изменила поток информации на целой планете. Когда я начинал работать в ЦРУ много лет назад аналитиком, мир был устроен достаточно просто. Если говорить в терминах информационных потоков, то это было движение от нескольких-ко-многим. Были NBC и CNN, еще советский ТАСС и американский Times, а еще Washington Post. То, чем вы занимались было классический моделью, когда несколько генераторов информации говорили остальным, что и как им надо думать, и вещи распространялись именно таким образом. Социальное Мобильное Облако перевернуло эту модель с ног на голову, и перешло к сложной модели ‘многие-ко-многим’, и я, конечно, должен сказать, что нам, на самом деле, больше нравится модель ‘несколько-ко-многим’. Получить преимущество в этой модели было достаточно просто. Ведь что интересно, когда все говорят и обмениваются информацией, то, несмотря на большой уровень шума, здесь присутствует полезный сигнал, который нам необходимо найти. И это, я полагаю, одна из больших проблем Больших Данных в мире: как найти сигнал в постоянно увеличивающихся океанах шума.

Ксть еще три возникающих силы: Нано, Био и Сенсоры. Вы уже являетесь ходячей платформой для сенсоров, и я надеюсь, что вы это знаете. Ваши мобильные устройства – ваш смартфон, ваш iPad, чтобы там еще не было – у всех есть множество этих штуковин. Я думаю, что есть закрытый список того, что установлено внутри этих устройств и того что возникает внутри этих пространств. По мере того, как вы прогуливаетесь по округе, как мобильная сенсорная платформа – и помните, я говорил вам, что ваши устройства не безопасны – вы должны быть в курсе, что кое-кто может знать, где вы находились все время, потому что у вас есть мобильное устройство. Даже если ваше мобильное устройство отключено. Надеюсь, что вы это знаете. Да? Нет? Если нет, то вам следует это знать. Потому что это действительно важно.

Также он может стать вашей мобильной платформой, следящей за вашим здоровьем. Прямо сейчас вы можете купить дополнительные устройства для вашего кардиостимулятора, которые будут заниматься мониторингом вашего сахара в крови, контролировать инсулин и прочие полезные для здоровья штуки. Сама индустрия здравоохранения очень упорно ищет способы, которыми бы она могла делать удаленный мониторинг вашего здоровья, так что они могут всегда позаниматься тем, что происходит с вами и вашим телом, и затем смогут делать удалённую подстройку ваших проблем. Вы думаете: Гас говорит очень быстро – так вот, я очень обеспокоен о том, что кто-то собирается удалённо хакнуть мои удалённые настройки и ускорить мой маленький кардиостимулятор, чтобы я говорил с вами еще быстрее. И это как раз то, о чем нам приходится беспокоиться, если вы думаете, что кибер-атаки по мере того как они возникают, направлены не только против вашего бизнеса. В конце концов, они могут быть направлены против вас и вашего здоровья. И если вы не будете предпринимать мер предосторожности, у вас возникнут серьезные риски.

На самом деле, если вы думаете о вашей сенсорной платформе, существует маленькая классная программка – Activity Tracker. Это небольшая программа для Android – знакомы с ней? Для сбора данных программой, как правило, используется ваш трехосный акселерометр на вашем телефоне. Это обычный простой трёхосный акселерометр. Мы любим эти штуковины, потому что у них нет…. Впрочем, я не буду тут сильно углубляться в специфику. Что обычно происходит: они собирают информацию, и по просматриваемым данным, которые могут собираться с высокой точностью, можно установить ваш пол, узнать ваш рост — высокий вы или низкий, большой у вас вес или нет, но что более удивительно — всё это может быть установлено по вашей манере ходьбы — по тому, как вы двигаетесь, когда ходите.

Но вообще-то это может быть реально хорошей вещью. Представьте, что это программа безопасности. Если вы куда-то идёте и вам нужен доступ к вашему банковскому коду, может быть будет немного проще, потому что в банке будут знать с абсолютной точностью что вы – это вы, установив это по вашей походке и после этого разрешат вам провести операции в банке. С другой стороны, если вы не хотите себя обнаруживать или вы хотите себя защитить, вы не захотите, чтобы кто-то знал, как выглядит ваша походка, так чтобы никто не мог понять, где вы были всё это время.
Что любопытно, по мере того как вы начинаете сводить все эти вещи воедино, то неодушевленное становится разумным. Мы уже видим, что это происходит. IBM говорит об их проекте Smarter Planet. У Google есть машина, которая ездит сама по себе. У вас уже есть техника, которая знает, что вам надо – вы могли ее видеть на последнем CES. Вы разве не читали статью про холодильник, считывающий продукты? Он это делает по мере того, как вы их ставите или вынимаете, а потом присылает вам почту на ваш смартфон: «Купите молока». Я рисую себе несколько мрачную картину будущего: вечер пятницы, я очень устал, я работал допоздна, я сажусь в мою самоуправляющуюся машину, говорю «отвези меня домой» и куда она меня везёт? Безопасным образом, объезжая все препятствия она везет меня за чертовым молоком. Почему? Потому что она лучше знает, что вам, в конце концов, будет нужно молоко! Так что, конечно, тут есть ряд хороших вещей, но некоторые вещи могут оказаться не такими замечательными.

Проблема, с которой мы сталкиваемся; помните, я говорил о большом мире данных из Социального Мобильного Облака, в котором вы размещаете мир сенсоров и конечно, это становится местом реально интересных проблем, особенно для нас, потому что сенсоры ничем не ограничены. Это просто небольшие кусочки кремния, которые мы бы хотели разместить везде, они могут перемещаться куда угодно, и их достаточно просто сделать. Сенсоры прозрачны, они никогда не будут обрабатывать непредназначенный для них сигнал. И они не делают никакой разницы: они обрабатывают любой принимаемый сигнал.

И когда мы это применяем к интернету, полному сущностей, о которых мы говорили ранее, все становится подсоединено, все оснащено сенсорами, так что всё обменивается информацией и разговаривает друг с другом, и громкость этого разговора только растет. Возможности людей выглядят бледно в сравнении с тем, что может возникать в мире, подсоединенном к сенсорам. И это очень большой вызов для нашего будущего.

Вы можете себя спросить — почему мы должны об этом думать? Мы об этом заботимся, потому что во всей этой информации есть важные для нас сигналы, помогающие обеспечивать национальную безопасность. Нас это волнует, потому что мы должны понимать что происходит или собирается произойти в окружающем мире, так чтобы мы могли ставить в известность людей, отвечающих за нашу политику, еще до того как оформятся тренды и до того как возникнут проблемные ситуации.

И еще нас это заботит потому, что существующая сейчас информация существенно отличается о той, которая была в мире, где разведывательная деятельность была полностью подконтрольна человеку. Какое влияние Большие Данные оказывают на нас? В основном, это помогает нам понимать, что происходит в мире и знать то, что мы знаем; понимать, где у нас есть белые пятна, так чтобы мы могли делать нашу работу лучше.

А это нужно, чтобы понимать, что происходит в мире информации – мы должны всё сводить воедино, мы должны понимать планы наших оппонентов, нам нужно соединять между собой все ключевые точки.

Проблема больших данных заключена в следующем – база данных бесполезной информации составляет 500 миллионов гигабайт, в том время как база полезной информации составляет всего 5К. Наша проблема заключается в определении того, что входит в эти 5000? На протяжении всей нашей длинной истории, мы уже уяснили, что информация имеет ценность во времени, подобно тому, как деньги имеют ценность во времени, и ценность любой информации становится известной, когда вы её можете соединить с чем-то ещё, что встанет на своё место в будущем. Если в нашем мире, какая-то информация будет неосмотрительно выброшена, потому что вы посчитали, что у неё нет никакой ценности, или вы решили её не учитывать и не собирать, потому что подумали, что она не соответствует потребностям текущего момента, то по мере того, как в мире будут появляться новые события и новая информация, у вас не будет связующего звена в общей картине. Вопрос в том, что если мы не можем найти и соединить все звенья в нашей цепочке сейчас, то это заставляет нас постоянно пытаться соединять всё вместе позже и мы вынуждены зависнуть на этом вопросе навсегда.

Наша цель заключается в приближении момента, когда я буду в состоянии передать мощь Больших Данных и аналитику в руки среднего пользователя. Мы хотим, чтобы завтра появлялись элегантные, легкие в использовании инструменты, пусть машины занимаются тяжелой работой, а нам нужны простые вещи типа того же поиска.

Мы понимаем все эти вещи, мы можем назвать семь универсальных конструктов, по которым мы хотим делать аналитику. Мы приглядываем за людьми, местами и организациями, нас заботят время, события, определенные вещи и концепции. Чего мы хотим для аналитиков, чтобы это всё было также просто, как использовать функции в Excel. Вы заходите в Excel, пишете там ваши маленькие уравнения — суммы, стандартные отклонения, открываете скобку, выбираете список значений, закрываете скобку – и тут же получаете ответ. И вы видите — правилен он или нет. Мы хотим аналогичный инструмент, скажем для анализа группы людей, – мне надо, допустим, увидеть между ними связь, и было бы здорово, если бы мы открыли скобку, ввели список имён, закрыли скобку. И чтобы мне хотелось получить? Красивый сетевой граф, из которого было бы видно, как люди связаны между собой любыми разными способами, основанном на том, что мне надо.

Мы уже стоим совсем рядом с возможностью обрабатывать всю информацию накопленную человечеством. Что уже является свершившимся фактом, так это то, что мир движется быстрее, чем за ним успевает правительство и законодательство. Я могу поспорить, что он движется быстрее, чем вы за ним можете поспеть. Вы можете задать вопрос, а какие у вас права и кто владеет вашими данными? Бьюсь об заклад, что вы обязательно поднимите этот вопрос. Как я говорил ранее, он вызывает социальные изменения такими темпами и способами, которых мы даже не можем ожидать, и всё это создаёт очень интересный мир.