Большим данным –умный анализ и хранение

Автор: Андрей Данкевич, Руководитель отдела аналитики и спецпроектов компании InfoWatch

На тему Больших Данных сегодня не высказывался разве что ленивый. Неудивительно, ведь это актуальный тренд, поскольку объемы создаваемой, обрабатываемой и хранимой компаниями информации растут ежедневно в геометрической прогрессии. Так, согласно данным исследовательской компании IDC, к 2020-му году объем Big Data в компаниях вырастет в 50 раз по сравнению с текущим состоянием. Как справиться с этим лавинообразным ростом информационных потоков, более-менее представляют на Западе. Россия же, как всегда, отстает в этом вопросе от прогрессивного человечества.

По данным исследования сообщества аналитиков Wikibon, на период начала 2012 года мировой рынок Больших Данных, включая оборудование, программное обеспечение и услуги, превысил 5 млрд. долларов. Актуальность проблемы роста объёмов информации, возросший интерес к теме и технологическая готовность будут способствовать ежегодному росту рынка на 58% в период с 2012 по 2017 год.

Источник: Wikibon. Big Data Market Size and Vendor Revenues

IDC прогнозирует рост технологий и услуг рынка Больших Данных до $16.9 млрд. к 2015 году, при объёме $3.2 млрд. в 2010. Что даёт 40% роста в год (по миру).

В России же наблюдается в этом плане некоторое отставание. Четко сформулированных задач по анализу неструктурированных данных у российских заказчиков пока не наблюдается. Оно и понятно: бум социальных сетей в нашей стране начался не так давно, повсеместное внедрение систем геопозиционирования находится на начальном этапе, RFID-технологии взяты на вооружение госсектором, но пока недостаточно распространены в торговле и т.д.

На сегодняшний день спрос на технологии работы с Большими Данными формируют крупные компании и организации (телекоммуникации, ритейл, банки), решающие масштабные задачи взаимодействия с многочисленными клиентами. Другая категория российских потенциальных потребителей технологий Больших Данных — это государственные структуры. По роду своей деятельности, и особенно с учетом реализации задачи оказания услуг в электронной форме и решения других программ в области информатизации, они обладают гигантскими массивами данных, которые необходимо хранить, анализировать, обеспечивать обмен между ведомствами и обрабатывать для предоставления оперативных и качественных государственных услуг.

Для организаций, работающих в вышеперечисленных экономических секторах, анализ, категоризация и хранение больших объемов неструктурированных данных является актуальной задачей уже сегодня. И решить ее можно с помощью имеющихся на отечественном рынке технологий и разработок.

Что касается анализа Больших Данных, здесь основной проблемой является неструктурированность подавляющего объема обращаемой в организациях информации. Согласно наблюдениям аналитиков, более 80% информации в современных компаниях представлено в виде неструктурированных (содержащихся в виде различных документов, файлов, сообщений, отдельных реплик, фраз и т.п.) данных. При этом за три года объем неструктурированной информации в компаниях удваивается! На сегодняшний день существуют специализированные технологии анализа и категоризации неструктурированных данных, в основе которых лежит лингвистический анализ. Только данный метод обеспечивает высокий уровень детектирования в огромных и разнородных информационных массивах критичной для бизнеса информации, причем на любом этапе жизненного цикла - сразу после создания, на этапе активной работы с данными и в режиме покоя, хранения.

Информационные системы подавляющего большинства российских компаний представляют собой свалку различной информации, в которой с помощью технологий анализа данных можно навести практически идеальный порядок, тем самым решить главные проблемы Больших Данных: повысить доступность информации, скорость и качество поиска.

Сегодня как на российском, так и на международном рынке очень мало решений, осуществляющих глубокий анализ и категоризацию неструктурированных данных. Одно из немногих существующих – система мониторинга и анализа информации компании InfoWatch, конкурентным преимуществом которого является уникальная технология лингвистического анализа, с высокой степенью эффективности анализирующая как структурированные данные (структурированные форматы файлов, базы данных и проч.), так и неструктурированную информацию (большие объёмы неупорядоченной текстовой информации, графические изображения).

Корпоративная компьютерная сеть является основным инструментом для информационного обмена в рамках бизнес-процессов компании. С помощью электронной почты пересылается различная корпоративная документация - юридические, финансовые, проектные, конструкторские и другие внутренние документы. Сотрудники часто используют для передачи информации ресурсы сети Интернет, системы мгновенного обмена сообщениями. Документы могут быть распечатаны или скопированы на съемные носители. Таким образом, в компании ежедневно создается и плодится огромное количество различных данных, которые надо удобно хранить с целью их возможного дальнейшего использования. Поэтому система мониторинга информации InfoWatch позволяет анализировать, категоризировать все информационные потоки, а также архивировать их в специализированном хранилище InfoWatch Forensic Storage. Решение автоматически в режиме реального времени сохраняет в архив пересылаемые сотрудниками почтовые сообщения и вложения к ним, информацию, которую сотрудники публикуют в Интернете с помощью web-сервисов, а также передают через системы мгновенного обмена сообщениями и социальные сети.

Технологии InfoWatch позволяют разобрать все документы заказчика, определить категории информации, структурировать их, выявить из большого объема информации конфиденциальные данные. Концепция InfoWatch заключается в том, чтобы контролировать движение информации на всех этапах: начиная от аудита (где и в каком виде хранится информация), выявления контентных маршрутов движения информации (от кого - кому, какая категория данных передается), заканчивая контролем распространения конфиденциальной информации с помощью DLP-системы и настроенных политик информационной безопасности.

В частности, классификация данных становится достаточно острой проблемой в банковских учреждениях. Она заключается в том, что большие объёмы данных постоянно перемещаются в корпоративной сети, и с каждым годом становится все сложнее отследить, какая это информация, откуда она идёт, кто её получатель, и имеют ли данные сотрудники право на использование этой информации.

Начав использование автоматической категоризации информации, организация получает чёткую и прозрачную картину информационных потоков, на основе которой можно легко оптимизировать имеющиеся бизнес-процессы.

Система мониторинга и хранения информации InfoWatch ориентирована на работу с информационными потоками крупной организации. Объем хранимой информации ограничивается лишь возможностями СУБД и аппаратной платформы, что позволяет осуществлять хранение данных за неограниченный период времени. Решение масштабируемо при увеличении объемов передаваемой информации, вызванном ростом компании или интенсивностью информационного обмена, поэтому может использоваться в организациях с филиальной структурой.

Оцените материал:
Total votes: 113

Другие статьи
Поделиться:
 
 
Комментарии в Facebook
 

Вы сообщаете об ошибке в следующем тексте:
Нажмите кнопку «Сообщить об ошибке», чтобы отправить сообщение. Вы также можете добавить комментарий.