Лингвистика в DLP-системах

Автор: Екатерина Пшехотская, руководитель отдела лингвистики компании InfoWatch

Как развивался раздел лингвистики, изучающий возможности автоматического распознавания письменной и устной речи?

Первые исследования возможностей автоматического распознавания устной речи приходятся на 50-е годы 20-го столетия, тогда же появились и первые устройства, способные выполнять эту задачу. В основном они использовались людьми с ограниченными возможностями, например, с травмами руки. Они были не в состоянии набирать большое количество текста, а эти программы позволяли просто наговорить его. Решения такого типа (например, Dragon NaturallySpeaking, VoiceNavigator и др.) переводят голос пользователя в текст, таким образом, разгружая его руки.

Постепенно круг применения программ для автоматического распознавания речи расширился, и сегодня они применяются в call-центрах, системах голосового поиска и вопросно-ответных системах. Возьмем для примера компанию Google, которая добавила персональное распознавание в голосовой поиск телефонов под управлением Android в 2010 году, а также в свой браузер Chrome в 2011 году. На данный момент Google распознает 230 миллиардов слов. Так же, как и система Google Voice Search, система Siri корпорации Apple может сгенерировать ответ на заданный вопрос. Причем на данном этапе уже можно говорить даже о «чувстве юмора» системы.

Следует понимать, что распознавание устной речи – очень сложная задача. Первая проблема, с которой приходится столкнуться – вариативность произношения одного и того же слова. При общей тенденции к ускорению темпа речи, данный аспект становится особенно важным. На входящий сигнал также могут влиять шумы и искажения. Плюс к этому, в разговорной речи часто встречаются слова-паразиты. «Смазанные», границы слов, нечеткое произношение – всё это затрудняет работу системы.

Во-вторых, некоторые системы распознавания устной речи чувствительны к эмоциональной окраске, привносимой говорящим. Здесь появляется сразу несколько параметров, которые необходимо учитывать для корректного распознавания: это спектрально-временные признаки (среднее значение спектра речевого сигнала, длительность фонемы и др.), кепстральные признаки (они используются для отделения сигнала возбуждения от сигнала речевого), амплитудно-частотные признаки (эти признаки несут достаточную информацию для человека по речевому сигналу при минимальном времени восприятия), а также ряд других признаков.

В-третьих, системы распознавания устной речи можно разделить на два типа: те, которые способны работать только с изолированными командами (подобные системы часто используются в телефонии), и те, которые способны распознавать связную речь. Естественно, вторая задача является более трудоемкой. И, в-четвертых, существуют трудности, связанные со спецификой славянских языков, в том числе русского. Для русского языка характерны свободный порядок слов и богатая морфология, что требует большого числа речевых корпусов.

Но, тем не менее, технологии распознавания устной речи считаются очень перспективным направлением не только в России, но и во всем мире.

Автоматическое распознавание письменной речи стало активно развиваться в 70-х годах прошлого века, если не раньше. Текст разбивался на куски определенного размера, с каждого из которых снимался хеш. Если некоторая последовательность хешей встречалась в двух текстах одновременно, то с очень большой вероятностью тексты в этих областях совпадали. Эта методика сравнения текстов позволяла находить значимые цитаты и впоследствии легла в основу технологии копирайтного анализа.

Как работает распознавание письменной речи в современных в DLP-системах?

Изначально лингвистические технологии систем защиты от утечек использовали технологию детектирования стоп-слов («совершенно секретно», «конфиденциально» грифы и т.д.). Все подобные слова считались маркерами конфиденциальной информации и заносились в словарь, далее передаваемые сообщения просто проверялись системой на наличие этих стоп-слов. Однако эта технология довольно быстро была признана неэффективной. С одной стороны, она давала слишком много ложноположительных срабатываний: стоп-слова часто встречаются в личной переписке, по вопросам, никак не затрагивающим информационную безопасность компании. С другой стороны, злоумышленники могли легко обойти систему, просто избегая употребления столь явных маркеров.

Со временем появились технологии антиспама, которые отчасти основаны на принципах детектирования ключевых слов и анализа ссылок в сообщениях. Но и тут тоже спамеры быстро нашли простые контрметоды – замена букв на похожие символы из других кодировок, цифры, транслит, случайным образом расставленные пробелы, подчеркивания или переходы строк в тексте.

Очевидно, что для эффективного предотвращения утечек использования этой технологии не достаточно, т.к. она позволяет получить только бинарный результат – спам / не спам. Однако от DLP-системы требуется категоризации информации, например, определение отраслевой принадлежности информации – нефтегазовый сектор, банковский, телеком и др. Кроме того, требуется разделение информации по функциональной принадлежности – финансовая, юридическая, технологическая, производственная, маркетинговая и прочая информация. Плюс внутри каждой подобной категории возможна подкатегория, например, у категории «Финансы» могут быть подкатегории «Бухгалтерия», «Счета», «Налоги» и др. Такой анализ текста делается на основании встречающихся в нем терминов и их сочетаний. Например, в нашем решении InfoWatch Traffic Monitor Enterprise различает 10 отраслевых категорий и множество подкатегорий в каждой.

Всю информацию, обращающуюся в компании, можно условно разделить на два типа – статическая (неизменяемая) и динамическая (изменяемая).

Для детектирования статической информации, т.е. редко изменяемых документов, таких как договора, хорошо подходит технология копирайтного анализа или цифровых отпечатков. Также существуют типы данных, которые всегда соответствуют определенному шаблону. В качестве примера можно привести данные паспорта гражданина РФ – они всегда выглядят как последовательность четырех и шести цифр или номера кредитных карт – всегда последовательность 16 цифр. Для отслеживания такой информации применяется технология текстовых шаблонов. В системе хранится база шаблонов, и она проверяет передаваемые данные на соответствие им.

Однако по оценкам экспертов только около 20% конфиденциальных данных структурировано, 10% изменяется ежедневно, а вновь созданные документы составляют примерно 10% всей конфиденциальной информации компании. Для анализа динамической информации применяются лингвистические методы и технологии, такие, как морфологический анализ. На данный момент наиболее эффективным является одновременное применение нескольких технологий анализа. В InfoWatch Traffic Monitor Enterprise реализовано множество возможностей, позволяющих анализировать и категоризировать информацию с самых разных сторон. Так, система позволяет обнаружить передачу выгрузки из базы данных или заполненных форм, детектирует наличие печатей на пересылаемых документах, содержит детектор копий паспортов и многое другое.

Как можно видеть, сила одной технологии проявляется там, где слаба другая. Лингвистике не нужны образцы, она категоризирует данные на лету и может защищать информацию, с которой случайно или умышленно не был снят отпечаток. Отпечаток дает лучшую точность и поэтому предпочтительнее для использования в автоматическом режиме. Лингвистика отлично работает с текстами, отпечатки – с другими форматами хранения информации. Для полнофункциональной DLP-системы нужна синергия всех технологий.

Что должна уметь качественная DLP-система в плане лингвистики на сегодняшний день?

На мой взгляд, в первую очередь, система должна успешно категоризировать информацию, обращающуюся в компании. По нашему опыту, помимо непосредственно защиты для заказчика важен порядок в хранении документов, возможность использования системы как архива данных.

Жизненный цикл DLP-систем длится на три этапа: этап, предваряющий внедрение и подготавливающий заказчика к внедрению системы; развертывание и эксплуатация системы; использование DLP-системы в расследовании инцидентов, связанных, в том числе, с передачей результатов расследований в суд. Иначе говоря,

  • Pre-DLP – анализ корпоративной информации
  • DLP – защита информации от утечки
  • Post-DLP – расследование инцидентов, форензика

Соответственно, DLP-система должна обеспечивать эффективную работу на всех трех этапах.

На каком уровне находится лингвистика в DLP-системах, существующих на российском рынке?

Уровень решений, представленных на рынке, очень разнится. В основном, все производители DLP-систем используют довольно примитивные способы детектирования — цифровые отпечатки и текстовые объекты. У нас используется сразу несколько технологий, нацеленных и «заточенных» на все возможные типы данных. Вместе они позволяют осуществлять гибридный анализ. Получается своего рода умное детектирование.

Неоднородный уровень технологического развития DLP-систем на российском рынке связан с тем, что разработка серьезного лингвистического движка с категоризацией текстов более чем по двум категориям – наукоемкий и довольно сложный технологически процесс. Прикладная лингвистика – быстро развивающаяся наука, получившая сильный толчок в развитии с распространением интернет-поиска, но сегодня на рынке присутствуют единицы работоспособных движков категоризации. Поэтому на DLP-рынке существует лишь пара компаний, которые способны в полной мере категоризировать информацию "на лету".

Мы гордимся тем, на каком высоком уровне реализован лингвистический анализ в наших продуктах, но его нужно постоянно поддерживать и совершенствовать, ведь язык – разговорный, а не литературная норма – все время меняется. Для этого в InfoWatch есть штат лингвистов, ведутся собственная разработка и постоянные научные исследования в области автоматического распознавания письменной речи.

Например, необходимо учитывать, что в мессенджерах люди обмениваются короткими сообщениями в разговорном стиле, поэтому в InfoWatch Traffic Monitor Enterprise для анализа информации, передаваемой через ICQ, Jabber, Skype и прочие популярные клиенты, используется словарь с соответствующей терминологией.

Вообще преимущества лингвистического анализа заключаются в том, что он работает именно с контентом, оценивая содержание, а не оформление документа. У нас есть разработка «Автолингвист» – она позволяет автоматически категоризировать корпоративную информацию и использовать полученную базу категорий для анализа информации. Система сама строит БКФ, распределяет весовые коэффициенты. За счет такой простоты настройки и обучаемости системы сокращаются затраты на ее поддержание.

Достигнут ли некий предел возможностей DLP-систем по распознаванию речи, или еще есть, к чему стремиться?

Я думаю, что всегда есть новые горизонты, к которым нужно стремиться. Мне лично кажется очень перспективной интеграция технологий распознавания устной речи с нашими технологиями.

InfoWatch специализируется на технологиях распознавания письменной речи, но для защиты корпоративных данных необходимо учитывать и голосовой канал передачи информации. Поэтому совместно с партнерами мы разрабатываем решения с интеграцией технологий, позволяющих успешно распознавать как письменную, так и устную речь. Приведу пример необходимости использования подобных технологий в сфере информационной безопасности: современные организации в целях повышения эффективности бизнес-процессов разрешают своим сотрудникам использовать средства аудио- и видеоконференций для общения с клиентами, контрагентами, профессиональными сообществами. А для обеспечения некоторых сервисов, таких как техническая поддержка клиентов, call-центр, «продавцы на телефоне», использование подобных технологий является необходимостью. Контроль соблюдения политики безопасности без специализированного средства сводится к прослушиванию аудиозаписей оператором. Это требует значительных ресурсов, вводит дополнительный риск человеческого фактора и является сомнительным с юридической точки зрения.

Другим источником голосовой информации могут служить записанные внутри организации обучающие видео, инструкции, тренинги. Для компаний, предоставляющих сервисные услуги или работающих на конкурентном рынке, подобная информация является ноу-хау, а её утечка может нанести серьезный финансовый ущерб.

InfoWatch и «Центр речевых технологий» предлагают решение для автоматизированного контроля над исполнением политик безопасности при использовании средств голосовой связи и передачи информации голосовом формате. Решение состоит из интегрированных программных систем – STC Voice Monitor, разработки «Центра речевых технологий», и Traffic Monitor Enterprise компании InfoWatch. Коротко расскажу о том, как это работает: перехватчики голосового трафика передают данные на анализ STC Voice Monitor, где производится распознавание речи, поиск в ней ключевых слов и определение тематики. Набор ключевых слов и тематик определяется в рамках общей политики безопасности, которая задается в InfoWatch Traffic Monitor. После распознавания анализа копия трафика передается в хранилище InfoWatch Forensic Storage для дальнейшего рассмотрения офицером безопасности.

Я надеюсь, что подобная синергия технологий распознавания устной и письменной речи поможет нам вывести системы DLP на качественно новый уровень.


Другие статьи
Поделиться:
 
Вы сообщаете об ошибке в следующем тексте:
Нажмите кнопку «Сообщить об ошибке», чтобы отправить сообщение. Вы также можете добавить комментарий.