Если вам есть, что сказать сообществу профессионалов ИБ и ИТ – заведите здесь свой блог
Персональные данные около 200 млн избирателей США находились в открытом доступе в течение 14 дней в июне 2017 года, утечку допустила аналитическая компания Deep Root Analytics, работавшая по контракту с Республиканской партией США. Базу данных объемом 25 Тбайт мог скачать любой пользователь из облачного хранилища файлов компании Amazon.
Ущерб
База данных компании Deep Root Analytics содержит имена, даты рождения, электронную почту, физические адреса, религиозные и политические пристрастия, а также расовую принадлежность 61% населения США — 198 млн американцев. Более того, в базе содержится смоделированные данные о вероятных позициях избирателя по самым «горячим» вопросам: от «насколько вероятно, что он проголосовал за Обаму в 2012 году», согласны ли они с внешней политикой Трампа «America First» до отношения к ношению оружия и запрету абортов.
Позиция пострадавшей стороны
Компания Deep Root, работавшая по контракту с Республиканской партией США, подтвердила свою причастность к базе, но утверждает, что ИТ-инфраструктура компании не была взломана, а утечка данных произошла из-за уязвимости в системе безопасности. В заявлении основателя Deep Root Алекса Ландри (Alex Lundry) говорится, что компания несет полную ответственность за эту ситуацию. По его словам, база данных содержит конфиденциальную информацию, а также общедоступные сведения об избирателях, предоставляемые государством. «Мы обновили настройки доступа для предотвращения дальнейшего доступа к файлам», — сказал Ландри.
История вопроса
Похожие крупные утечки случались ранее.
Во всех случая скомпрометированными оказывались персональные данные и другая чувствительная информация большинства граждан.
Как правило, о таких масштабных утечках критичной информации официальные лица говорят либо неохотно, либо не говорят вовсе.
Пояснения Аналитического центра InfoWatch
Общемировой объем утечек записей ПДн и финансовых данных в 2016 году увеличился в три раза и превысил 3 млрд единиц, из которых более 125 млн записей были скомпрометированы из организаций, работающих в России.
Причины такого роста во многом объясняются спецификой развития технологий анализа больших данных. Если раньше не стояло задачи обеспечивать полноту базы данных – включать в нее дополнительную информацию из-за отсутствия средств обработки таких объемов данных, то с развитием технологичеких возможностей машинной обработки больших массивов данных, заинтересованные организации стали собирать буквально всю информацию о своих пользователях, которую только могут извлечь. В этом смысле Big Data можно рассматривать уже не просто как объект, а как подход, идеологию использования информации. Такой подход предполагает неограниченный рост количества параметров в базах данных, объема баз.
С удешевлением технологий анализа больших данных информация приобрела реальную ценность. Использование больших данных становится серьезным орудием — достаточно вспомнить подробности последнего избирательного цикла в США, где анализ данных избирателей позволил штабу Трампа разработать детальные целевые сообщения (месседжи) для отдельных сегментов аудитории — недостижимый ранее уровень политической технологии.
Те же подходы, очевидно, применимы в массовом маркетинге, в позиционировании продуктов, в прогнозировании спроса и оценке рынков.
Объем и детализация баз данных растет, а средства защиты, которые всегда появляются вслед за развитием технологий, не успевают за новыми угрозами. В результате «революции» в области обработки и анализа данных, критического роста ценности агрегированной информации, мы имеем ситуацию, когда объекты защиты, условно говоря, «живут» в постинформационной эре, а средства защиты не могут выйти за рамки подходов и приемов, характерных для предыдущей — информационной эры.
Число крупных утечек информации (в том числе детализированных, объемных баз агрегированных данных) будет расти — к этому есть все предпосылки, и пока нет ни одного реализованного фактора, который может воспрепятствовать этому росту.
Многомиллионные утечки персональных данных избирателей по всему миру, безусловно, относятся к классу «мега-утечек».
В 2016 году мы зарегистрировали 44 «мега-утечки» данных. В результате каждой из «мега-утечек» скомпрометированы более 10 млн записей о персональных данных. Годом ранее таких утечек было в два раза меньше – в 2015 году зафиксирован 21 подобный случай.
И дело не столько в растущем объеме скомпрометированных данных. Сам по себе количественный рост не несет критической угрозы, так как у киберпреступников сегодня есть довольно ограниченный набор способов использования сведений о физлицах. Например, существует не так много возможных способов использования «кражи личности» — это может быть мошенничество с налоговыми декларациями и вычетами, подделка личных документов и прочие типовые схемы, противодействие которым легко масштабировать. В этом смысле со стороны защиты разница между утечкой одной или миллиона записей состоит только в количестве типовых действий.
Подлинная угроза, связанная с утечками больших (свыше 10 млн) объемов информации, связана как раз не с количественными, а с качественными изменениями. Современные средства анализа позволяют извлекать из больших объемов информации такие выводы, которые, на первый взгляд, не содержатся в исходном наборе данных. Это может быть сделано как постфактум самим злоумышленником при наличии базы в несколько миллионов записей, так и заранее легитимными владельцами данных, как это сделали в компании Deep Root Analytics.
На наш взгляд, следует говорить не только о проблеме обеспечения конфиденциальности данных, но и об использовании больших данных – задуматься о необходимости и способах регулирования этого вопроса на уровне национального законодательства или международного договора.
Практически двукратный ежегодный рост числа «мега-утечек» означает, что рано или поздно у киберпреступников всех мастей появятся сведения обо всех жителях Земли, включая потребительские предпочтения, сексуальную ориентацию, платежеспособность, кредитную историю, сведения о судимости и т.д. Список ограничен только фантазией, поскольку практически любые сведения можно будет вывести из уже имеющихся данных (если не по конкретному человеку, то по социальной группе). Добавим сюда историю платежей, историю поиска в интернете, данные геолокации, логи «умных устройств» Интернета вещей, и получим всеобъемлющее жизнеописание любого жителя планеты. Причем это могут быть не только статистические сведения, но и база для прогнозных исследований — где окажется человек в следующую минуту, что купит в магазине, что прочитает в интернете — на все эти вопросы появятся ответы. Очевидно, что проблема такого масштаба требует выработки новых норм регулирования на глобальном уровне.
Поэтому уже сейчас нужно начинать разговор о том, что делать с утекающими данными, как урегулировать использование больших массивов информации.