Цена: 65650 рублей
|
Цена: 19700 рублей
|
Цена: 35350 рублей
|
Цена: 7700 рублей
|
|
|
Заместитель директора по развитию Захаров Владимир.
Метод математической статистики в DLP защите
Статья является частью публикации «Защита секретной информации при помощи технологий DLP»
Идея создания компьютерного поиска по выбранным цитатам возникла еще в 70-х годах прошлого столетия. Участки текста разбивались на определенные куски, каждый из которого имел определенный хеш. И если искомый хеш идентифицировался с поисковым хешем – результат поиска признавался удовлетворительным.
Особенностями данной технологии всерьез заинтересовался русский историк Анатолий Фоменко, который разработал альтернативную хронологию. Кульминацией творческой деятельности ученого стало сравнение старинных русских летописей различных эпох.
Некоторые летописи, которые ранее относили к разным векам, практически совпадали совершенно непонятным образом. Тогда же ученым была выдвинута гипотеза, что используемая в истории хронологии несколько неточная, и ее необходимо подправить. В то же время на рынке появляется DLP технология, которая сконцентрирована на поиске определенных цитат из всего текста. Вполне возможно, что революционная технология являлась всего-навсего отражением разработки русского историка. Только обернутая в другую упаковку и преподнесенная с соответствующим шармом.
На чем основан статистический метод?
Статистический метод обработки текстов основан не на анализе возможного словосочетания, а на потенциальных комбинаций непосредственно буквенных символов. Следовательно, оптимальность работы технологии нисколько не зависит от языка, поскольку отслеживание символов русского языка почти ничем не отличается от отслеживания символов болгарского или китайского языков.
С точки зрения техники любое изображение или звуковой файл – также последовательный набор определенных символов. А это значит, что статистический метод анализа информации способен успешно работать не только с текстовыми документами. Совпадение хешей в аудио и видео файлах означает идентификацию искомых цитат.
Поэтому, статистический анализ информации способен обеспечить конфиденциальность мультимедийных файлов. Впрочем, статистика уже успешно используется для защиты авторских прав в:
- звуковых компаниях,
- кинокомпаниях.
Сложный хеш, который снимается в более масштабных объектах, принято называть «значимой цитатой». Ключевой особенностью хеша является снимаемый им шаг. Данный шаг или отпечаток имеет свои особенности и определенный размер. А теперь представьте банк средних размеров, в котором нужно снять все отпечатки с объектов. Потребуется значительное хранилище данных, поскольку каждый хеш обладает определенным, иногда сравнительно большим, весом.
От размера шага хеша и будет зависеть размер отпечатка. Зависимость обратно-пропорциональная, следовательно, при уменьшении шага будет значительно возрастать размер отпечатка. Если максимально уменьшить шаг до одного символа, размер отпечатка превысит размер самого файла. В противном случае, при увеличении шага значительно сокращается размер файла. Поэтому, когда будет установлен шаг в 10 000 символов – велика вероятность того, что все файлы меньшего размера будут признаны конфиденциальными и будут проскакивать в поисковых системах.
При увеличении точности распознавания текста не стоит слишком уменьшать размер шага. Когда шаг будет всего в несколько символов – возрастет процент выдачи неверных результатов. Иными словами, снимать хеш с каждого буквенного символа не рекомендуется, поскольку все слова состоят из букв. Устройство автоматически будет искать все слова, в которых присутствует данная буква, хотя это не было запланировано в начале поиска. Оптимальный шаг для снятия хеша рекомендуется выбирать в пределах размеров отпечатка от 3 (текстовый документ) до 15 (видео файлы) % от размеров файлов.
Заместитель директора по развитию Захаров Владимир.
Заместитель директора по развитию Захаров Владимир.
Что такое DLP защита информации и с чем её едят? Часть 2
Статья ...
|
Заместитель директора по развитию Захаров Владимир.
Особенности DLP систем в защите информации
Статья является ...
|
|