Принцип на работа на DLP. DLP системи - какво е това? Избор на DLP система. Няма цялостно решение

Днес пазарът на DLP системи е един от най-бързо развиващите се сред всички инструменти за информационна сигурност. Но местният сектор за информационна сигурност все още не е в крак със световните тенденции и следователно пазарът на DLP системи у нас има свои собствени характеристики.

Какво представляват DLP и как работят?

Преди да говорим за пазара на DLP системи, е необходимо да определим какво, строго погледнато, се има предвид, когато се говори за такива решения. DLP системите обикновено се разбират като софтуерни продукти, които защитават организациите от изтичане на поверителна информация. Самото съкращение DLP означава Data Leak Prevention, тоест предотвратяване на изтичане на данни.

Системи от този вид създават сигурен цифров „периметър“ около организацията, анализирайки цялата изходяща, а в някои случаи и входяща информация. Контролираната информация трябва да включва не само интернет трафик, но и редица други информационни потоци: документи, които се извеждат извън защитената защитна верига на външни носители, отпечатани на принтер, изпратени на мобилни медии чрез Bluetooth и др.

Тъй като DLP системата трябва да предотвратява изтичането на поверителна информация, тя трябва да има вградени механизми за определяне на степента на поверителност на документ, открит в прихванат трафик. По правило двата най-често срещани метода са: чрез анализиране на специални маркери на документи и чрез анализиране на съдържанието на документа. Втората опция вече е по-често срещана, защото е устойчива на модификации, направени в документа, преди да бъде изпратен, и също така ви позволява лесно да разширите броя на поверителни документи, с които системата може да работи.

"Странични" DLP задачи

В допълнение към основната си задача, свързана с предотвратяване на изтичане на информация, DLP системите са подходящи и за решаване на редица други задачи, свързани с наблюдението на действията на персонала.

Най-често DLP системите се използват за решаване на следните неосновни задачи:

  • наблюдение на използването на работното време и работните ресурси от служителите;
  • наблюдение на комуникациите на служителите, за да се идентифицират „тайни“ борби, които биха могли да навредят на организацията;
  • контрол върху законосъобразността на действията на служителите (предотвратяване на отпечатване на фалшиви документи и др.);
  • идентифициране на служители, изпращане на автобиографии за бързо търсене на специалисти за свободни позиции.

Поради факта, че много организации смятат, че редица от тези задачи (особено контролът върху използването на работното време) са с по-висок приоритет от защитата срещу изтичане на информация, се появиха редица програми, които са предназначени специално за това, но могат в някои случаи работят и като средство за защита на организацията от изтичане на информация. Това, което отличава подобни програми от пълноценните DLP системи, е липсата на разработени инструменти за анализ на прихванатите данни, които трябва да се извършват ръчно от специалист по информационна сигурност, което е удобно само за много малки организации (до десет контролирани служители).

Бързото развитие на информационните технологии допринася за глобалната информатизация на съвременните компании и предприятия. Всеки ден обемите на информацията, предавана през корпоративните мрежи на големи корпорации и малки компании, растат бързо. Няма съмнение, че с нарастването на информационните потоци нарастват и заплахите, които могат да доведат до загуба на важна информация, нейното изкривяване или кражба. Оказва се, че е много по-лесно да загубиш информация, отколкото каквото и да е материално нещо. За да направите това, не е необходимо някой да извършва специални действия за овладяване на данните - понякога е достатъчно небрежно поведение при работа с информационни системи или неопитност на потребителите.

Възниква естествен въпрос: как да се предпазите, за да премахнете факторите за загуба и изтичане на важна информация. Оказва се, че решаването на този проблем е напълно възможно и може да се направи на високо професионално ниво. За тази цел се използват специални DLP системи.

Дефиниция на DLP системи

DLP е система за предотвратяване на изтичане на данни в информационната среда. Това е специален инструмент, с който системните администратори на корпоративни мрежи могат да наблюдават и блокират опити за неоторизирано предаване на информация. В допълнение към факта, че такава система може да предотврати случаи на незаконно придобиване на информация, тя също така ви позволява да проследявате действията на всички потребители на мрежата, свързани с използването на социални мрежи, чатове, изпращане на имейл съобщения и т.н. Целта на системите за предотвратяване на изтичане на поверителна информация DLP е да поддържа и спазва всички изисквания на политиките за поверителност и информационна сигурност, които съществуват в определена организация, компания, предприятие.

Област на приложение

Практическото приложение на DLP системите е най-подходящо за онези организации, където изтичането на поверителни данни може да доведе до огромни финансови загуби, значителен удар върху репутацията, както и загуба на клиентска база и лична информация. Наличието на такива системи е задължително за онези фирми и организации, които поставят високи изисквания към „информационната хигиена” на своите служители.

Най-добрият инструмент за защита на данни като номера на банкови карти на клиенти, техните банкови сметки, информация за тръжни условия, поръчки за работа и услуги ще бъдат DLP системите - икономическата ефективност на такова решение за сигурност е съвсем очевидна.

Видове DLP системи

Инструментите, използвани за предотвратяване на изтичане на информация, могат да бъдат разделени на няколко ключови категории:

  1. стандартни инструменти за сигурност;
  2. интелигентни мерки за защита на данните;
  3. криптиране на данни и контрол на достъпа;
  4. специализирани DLP системи за сигурност.

Стандартният пакет за сигурност, който трябва да се използва от всяка компания, включва антивирусни програми, вградени защитни стени и системи за откриване на проникване.

Интелигентните инструменти за сигурност на информацията включват използването на специални услуги и съвременни алгоритми, които ще ви позволят да откриете неоторизиран достъп до данни, неправилно използване на електронна кореспонденция и т.н. В допълнение, такива съвременни инструменти за сигурност ви позволяват да анализирате заявки към информационната система, идващи от извън различни програми и услуги, които могат да играят ролята на вид шпионин. Интелигентните средства за сигурност позволяват по-задълбочена и детайлна проверка на информационната система за евентуално изтичане на информация по различни начини.

Шифроването на чувствителна информация и ограничаването на достъпа до определени данни е друга ефективна стъпка към минимизиране на вероятността от загуба на чувствителна информация.

Специализираната DLP система за предотвратяване на изтичане на информация е сложен многофункционален инструмент, който е в състояние да идентифицира и предотврати неоторизирано копиране и прехвърляне на важна информация извън корпоративната среда. Тези решения ще позволят да се идентифицират факти за достъп до информация без разрешение или използване на правомощията на тези лица, които имат такова разрешение.

Специализираните системи използват инструменти като:

  • механизми за определяне на точни съвпадения на данни;
  • различни статистически методи за анализ;
  • използване на техники с кодови фрази и думи;
  • структуриран пръстов отпечатък и др.;

Сравнение на тези системи по функционалност

Нека да разгледаме сравнение на DLP системите Network DLP и Endpoint DLP.

Network DLP е специално решение на хардуерно или софтуерно ниво, което се използва в онези точки от мрежовата структура, които се намират близо до „периметъра на информационната среда“. С помощта на този набор от инструменти се извършва задълбочен анализ на поверителна информация, която се опитва да бъде изпратена извън корпоративната информационна среда в нарушение на установените правила за информационна сигурност.

Endpoint DLP са специални системи, които се използват на работната станция на крайния потребител, както и на сървърни системи на малки организации. Крайната информационна точка за тези системи може да се използва за контрол както на вътрешната, така и на външната страна на „периметъра на информационната среда“. Системата ви позволява да анализирате информационния трафик, чрез който се обменят данни както между отделни потребители, така и между групи от потребители. Защитата на DLP системи от този тип е насочена към цялостна проверка на процеса на обмен на данни, включително електронни съобщения, комуникация в социални мрежи и друга информационна дейност.

Необходимо ли е предприятията да внедряват тези системи?

Внедряването на DLP системи е задължително за всички компании, които ценят своята информация и се опитват да направят всичко възможно, за да предотвратят случаи на нейното изтичане и загуба. Наличието на такива иновативни инструменти за сигурност ще позволи на компаниите да предотвратят разпространението на важни данни извън корпоративната информационна среда чрез всички налични канали за обмен на данни. Инсталирайки DLP система, компанията ще може да контролира:

  • изпращане на съобщения чрез корпоративна уеб поща;
  • използване на FTP връзки;
  • локални връзки с помощта на безжични технологии като WiFi, Bluetooth, GPRS;
  • незабавни съобщения с помощта на клиенти като MSN, ICQ, AOL и др.;
  • използване на външни устройства за съхранение – USB, SSD, CD/DVD и др.
  • документация, която се изпраща за печат с помощта на корпоративни печатащи устройства.

За разлика от стандартните решения за сигурност, компания, която има инсталирана система Securetower DLP или подобна, ще може да:

  • контролират всички видове канали за обмен на важна информация;
  • идентифицира прехвърлянето на поверителна информация, независимо от метода и формата, в който се прехвърля извън корпоративната мрежа;
  • блокирайте изтичането на информация по всяко време;
  • автоматизирайте процеса на обработка на данни в съответствие с политиката за сигурност, приета от предприятието.

Използването на DLP системи ще гарантира на предприятията ефективно развитие и запазване на техните производствени тайни от конкуренти и недоброжелатели.

Как става внедряването?

За да инсталирате DLP система във вашето предприятие през 2017 г., трябва да преминете през няколко етапа, след което предприятието ще получи ефективна защита на своята информационна среда от външни и вътрешни заплахи.

На първия етап от внедряването се извършва проучване на информационната среда на предприятието, което включва следните действия:

  • проучване на организационна и административна документация, която регулира информационната политика на предприятието;
  • изучаване на информационните ресурси, които се използват от предприятието и неговите служители;
  • съгласуване на списък с информация, която може да бъде класифицирана като данни с ограничен достъп;
  • проучване на съществуващите методи и канали за предаване и получаване на данни.

Въз основа на резултатите от проучването се изготвя техническа спецификация, която ще описва политиките за сигурност, които ще трябва да бъдат приложени с помощта на DLP системата.

На следващия етап трябва да се регулира правната страна на използването на DLP системи в предприятие. Важно е да се изключат всички тънки моменти, така че по-късно да няма съдебни дела от служители по отношение на компанията, която ги наблюдава.

След като уредите всички правни формалности, можете да започнете да избирате продукт за информационна сигурност - това може да бъде например системата Infowatch DLP или всяка друга с подобна функционалност.

След като изберете подходяща система, можете да започнете да я инсталирате и конфигурирате за продуктивна работа. Системата трябва да бъде конфигурирана така, че да гарантира изпълнението на всички задачи по сигурността, посочени в техническите спецификации.

Заключение

Внедряването на DLP системи е доста сложна и старателна задача, която изисква много време и ресурси. Но не трябва да спирате наполовина - важно е да преминете през всички етапи изцяло и да получите високоефективна и многофункционална система за защита на вашата поверителна информация. В крайна сметка загубата на данни може да доведе до огромни щети за предприятие или компания, както финансово, така и по отношение на неговия имидж и репутация в потребителската среда.

Изборът на конкретна DLP система зависи от необходимото ниво на сигурност на данните и винаги се избира индивидуално. За съдействие при избор на DLP система и изчисляване на стойността на внедряването й в ИТ инфраструктурата на компанията, оставете заявка и ние ще се свържем с Вас възможно най-скоро.

Какво е DLP система

DLP система(Data Leak Prevention в превод от английски - средство за предотвратяване на изтичане на данни) са технологии и технически устройства, които предотвратяват изтичането на поверителна информация от информационните системи.

DLP системите анализират потоците от данни и контролират тяхното движение в рамките на определен периметър на информационната система, който е защитен. Това могат да бъдат ftp връзки, корпоративна и уеб поща, локални връзки, както и прехвърляне на незабавни съобщения и данни към принтер. Ако поверителна информация се конвертира в поток, се активира системен компонент, който блокира предаването на потока от данни.

С други думи, DLP системипазете поверителни и стратегически важни документи, чието изтичане от информационни системи навън може да причини непоправими щети на компанията, както и да наруши федерални закони № 98-FZ „За търговската тайна“ и № 152-FZ „ Относно личните данни”. Защитата на информацията от изтичане също се споменава в GOST. "Информационни технологии. Практически правила за управление на информационната сигурност" - GOST R ISO/IEC 17799-2005.

По правило изтичането на поверителна информация може да възникне или в резултат на хакване и проникване, или в резултат на невнимание, небрежност на служителите на предприятието, както и усилията на вътрешни лица - умишлено предаване на поверителна информация от служители на предприятието. Следователно DLP системите са най-надеждните технологии за защита срещу изтичане на конфиденциална информация – те откриват защитена информация по съдържание, независимо от езика на документа, шрифта, каналите за предаване и формата.

Също, DLP системаконтролира абсолютно всички канали, които се използват ежедневно за предаване на информация по електронен път. Информационните потоци се обработват автоматично въз основа на установената политика за сигурност. Ако действията на поверителна информация противоречат на политиката за сигурност, установена от компанията, тогава прехвърлянето на данни се блокира. В същото време довереният представител на компанията, отговарящ за информационната сигурност, получава незабавно предупреждение за опит за прехвърляне на поверителна информация.

Внедряване на DLP система, на първо място, осигурява съответствие с редица изисквания на стандарта PCI DSS по отношение на нивото на информационна сигурност на предприятието. Също така DLP системите автоматично извършват одит на защитена информация, според нейното местоположение, и осигуряват автоматизиран контрол, в съответствие с правилата за движение на поверителна информация в компанията, обработка и предотвратяване на инциденти на неправомерно разкриване на секретна информация. Системата за предотвратяване на изтичане на данни, базирана на доклади за инциденти, следи общото ниво на рискове, а също така, в режими на ретроспективен анализ и незабавна реакция, контролира изтичането на информация.

DLP системите се инсталират както в малки, така и в големи предприятия, като предотвратяват изтичане на информация, като по този начин предпазват компанията от финансови и правни рискове, произтичащи от загуба или трансфер на важна корпоративна или поверителна информация.

Изтичането на търговско значима информация може да доведе до значителни загуби за компанията, както финансови, така и репутационни. Настройването на DLP компоненти ви позволява да наблюдавате вътрешна кореспонденция, имейл съобщения, обмен на данни, работа с облачно хранилище, стартиране на приложения на работния плот, свързване на външни устройства, отчети, SMS съобщения, телефонни разговори. Всички подозрителни транзакции се наблюдават и се създава база данни за отчитане въз основа на проследени прецеденти. За целта DLP системите имат вградени механизми за определяне на системата от поверителна информация, за което се анализират специални маркери на документи и самото им съдържание (по ключови думи, фрази, изречения). Възможни са редица допълнителни настройки за контрол на персонала (законосъобразност на действията в компанията, използване на работни ресурси, дори разпечатки).

Ако пълният контрол върху трансфера на данни е приоритет, тогава първоначалната настройка на DLP ще се състои от идентифициране и определяне на възможни течове на информация, контролиране на крайните устройства и позволяване на потребителите да имат достъп до фирмените ресурси. Ако приоритетът е статистиката за движението на важна корпоративна информация в рамките на организацията, тогава за нейното проследяване се изчисляват канали и методи за предаване на данни. DLP системите се конфигурират индивидуално за всяко предприятие, въз основа на очаквани модели на заплахи, категории нарушения и идентифициране на възможни канали за изтичане на информация.

DLPs заемат голяма пазарна ниша в областта на икономическата сигурност. Въз основа на изследване на Аналитичния център Anti-Malware.ru има забележимо увеличение на нуждите на компаниите от DLP системи, увеличение на продажбите и разширяване на продуктовата линия. Уместно е да се конфигурира предотвратяването на прехвърлянето на нежелана информация не само отвътре навън, но и отвън навътре в корпоративната информационна мрежа. Нещо повече, предвид широко разпространената виртуализация в корпоративните информационни системи и широкото използване на мобилни устройства, чрез които се осъществява бизнес контрол на мобилните служители, това е един от най-приоритетните.

Важно е да се обмисли интеграцията на избраните DLP системи с корпоративната ИТ мрежа и приложенията, които компанията използва. За успешно предотвратяване на изтичане на данни и предприемане на бързи действия за спиране на злоупотребата с корпоративна информация е необходимо да се установи стабилна работа на DLP, да се конфигурира функционалността в съответствие със задачите, да се установи работа с вътрешни корпоративни имейл акаунти, USB устройства, месинджъри, облак съхранение, мобилни устройства, а при работа в голяма корпорация – и интеграция със SIEM система в рамките на SOC.

Поверете внедряването на DLP системата на специалисти. Системен интегратор "Радиус" ще инсталира и конфигурира DLP в съответствие със стандартите и разпоредбите за информационна сигурност, както и характеристиките на фирмата клиент.

Ако сме съвсем последователни в дефинициите си, можем да кажем, че информационната сигурност започва именно с появата на DLP системите. Преди това всички продукти, които се занимаваха с „информационна сигурност“, всъщност защитаваха не информация, а инфраструктура – ​​места, където данните се съхраняват, предават и обработват. Компютърът, приложението или каналът, който хоства, обработва или предава чувствителна информация, е защитен от тези продукти по същия начин като инфраструктурата, която обработва иначе безобидна информация. Тоест с появата на DLP продуктите информационните системи най-накрая се научиха да различават поверителна информация от неповерителна. Може би с интегрирането на DLP технологиите в информационната инфраструктура компаниите ще могат да спестят много от защитата на информацията - например да използват криптиране само в случаите, когато се съхранява или предава поверителна информация, и да не криптират информация в други случаи.

Това обаче е въпрос на бъдещето, а в настоящето тези технологии се използват предимно за защита на информация от течове. Технологиите за категоризиране на информация формират ядрото на DLP системите. Всеки производител смята своите методи за откриване на поверителна информация за уникални, защитава ги с патенти и предлага специални търговски марки за тях. В края на краищата, останалите елементи на архитектурата, които са различни от тези технологии (прихващачи на протоколи, парсери на формати, управление на инциденти и съхранение на данни) са идентични за повечето производители, а за големите компании те дори са интегрирани с други продукти за сигурност на информационната инфраструктура. Основно за категоризиране на данните в продуктите за защита на корпоративна информация от течове се използват две основни групи технологии – лингвистичен (морфологичен, семантичен) анализ и статистически методи (Digital Fingerprints, Document DNA, anti-plagiatism). Всяка технология има своите силни и слаби страни, които определят обхвата на нейното приложение.

Езиков анализ

Използването на стоп думи („секретно“, „поверително“ и други подобни) за блокиране на изходящи имейл съобщения в пощенските сървъри може да се счита за предшественик на съвременните DLP системи. Разбира се, това не предпазва от нападатели - премахването на стоп дума, която най-често се поставя в отделен раздел на документа, не е трудно и смисълът на текста няма да се промени изобщо.

Тласъкът за развитието на лингвистичните технологии е даден в началото на този век от създателите на имейл филтри. На първо място, за защита на електронната поща от спам. Сега в анти-спам технологиите преобладават методите за репутация, но в началото на века имаше истинска езикова война между снаряда и бронята - спамъри и антиспамери. Помните ли най-простите методи за заблуда на филтри, базирани на стоп думи? Замяна на букви с подобни букви от други кодировки или цифри, транслитерация, произволни интервали, подчертаване или прекъсване на редове в текста. Анти-спамерите бързо се научиха да се справят с подобни трикове, но след това се появи графичен спам и други хитри видове нежелана кореспонденция.

Въпреки това е невъзможно да се използват анти-спам технологии в DLP продуктите без сериозна модификация. В крайна сметка, за да се борим със спама, е достатъчно да разделим информационния поток на две категории: спам и неспам. Методът Bayes, който се използва за откриване на спам, дава само двоичен резултат: „да“ или „не“. Това не е достатъчно за защита на корпоративните данни от изтичане - не можете просто да разделите информацията на поверителна и неповерителна. Трябва да можете да класифицирате информацията по функционална принадлежност (финансова, производствена, технологична, търговска, маркетингова), а в рамките на класовете - да я категоризирате по ниво на достъп (за свободно разпространение, за ограничен достъп, за служебно ползване, секретно, строго секретно). , и така нататък).

Повечето съвременни системи за лингвистичен анализ използват не само контекстуален анализ (т.е. в какъв контекст, в комбинация с какви други думи се използва определен термин), но и семантичен анализ на текста. Тези технологии работят толкова по-ефективно, колкото по-голям е анализираният фрагмент. Анализът се извършва по-точно върху голям фрагмент от текст и е по-вероятно да се определи категорията и класът на документа. Когато анализирате кратки съобщения (SMS, интернет месинджъри), все още не е измислено нищо по-добро от стоп думите. Авторът беше изправен пред такъв проблем през есента на 2008 г., когато хиляди съобщения като „съкращават ни“, „ще ни отнемат лиценза“, „отлив на вложители“, които трябваше незабавно да бъдат блокирани от клиенти, бяха изпратени в интернет от работните места на много банки чрез месинджъри.

Предимства на технологията

Предимствата на лингвистичните технологии са, че те работят директно със съдържанието на документите, тоест за тях няма значение къде и как е създаден документът, на какъв тип печат е или как се нарича файлът - документите са незабавно защитени. Това е важно, например, когато обработвате чернови на поверителни документи или за защита на входящата документация. Ако документите, създадени и използвани в рамките на компанията, могат по някакъв начин да бъдат наименувани, подпечатани или маркирани по специфичен начин, тогава входящите документи може да имат печати и етикети, които не се приемат от организацията. Черновите (освен ако, разбира се, не са създадени в защитена система за управление на документи) също може вече да съдържат поверителна информация, но все още да не съдържат необходимите печати и етикети.

Друго предимство на лингвистичните технологии е способността им да се учат. Ако някога сте натискали бутона „Не спам“ във вашия имейл клиент поне веднъж в живота си, тогава вече можете да си представите клиентската част от системата за обучение на лингвистичния двигател. Позволете ми да отбележа, че абсолютно не е необходимо да сте дипломиран лингвист и да знаете какво точно ще се промени в базата данни на категориите - просто посочете на системата фалшив положителен резултат и тя сама ще свърши останалото.

Третото предимство на лингвистичните технологии е тяхната мащабируемост. Скоростта на обработка на информацията е пропорционална на нейното количество и е абсолютно независима от броя на категориите. Доскоро изграждането на йерархична база данни от категории (исторически тя се наричаше BKF - база данни за филтриране на съдържание, но това име вече не отразява истинското значение) изглеждаше като вид шаманизъм на професионални лингвисти, така че създаването на BKF може лесно да се счита за недостатък. Но с пускането на няколко „автолингвистични“ продукта през 2010 г. изграждането на първична база данни от категории стана изключително лесно - на системата се показват местата, където се съхраняват документи от определена категория, и тя сама определя езиковите характеристики на тази категория и в случай на фалшиви положителни резултати, той се учи самостоятелно. Така че сега към предимствата на лингвистичните технологии е добавена лекота на настройка.

И още едно предимство на лингвистичните технологии, което бих искал да отбележа в статията, е способността да се откриват категории в информационни потоци, които не са свързани с документи, разположени в компанията. Инструмент за наблюдение на съдържанието на информационните потоци може да идентифицира категории като незаконни дейности (пиратство, разпространение на забранени стоки), използване на инфраструктурата на компанията за собствени цели, увреждане на имиджа на компанията (например разпространение на клеветнически слухове) и скоро.

Недостатъци на технологията

Основният недостатък на лингвистичните технологии е тяхната зависимост от езика. Не е възможно да се използва лингвистична машина, предназначена за един език, за анализ на друг. Това беше особено забележимо, когато американските производители навлязоха на руския пазар - те не бяха готови да се изправят пред руско словообразуване и наличието на шест кодировки. Не беше достатъчно да се преведат категориите и ключовите думи на руски - на английски словообразуването е доста просто и случаите се поставят в предлози, тоест, когато падежът се промени, предлогът се променя, а не самата дума. Повечето съществителни в английския език стават глаголи, без да променят думата. И така нататък. На руски не всичко е така - един корен може да породи десетки думи в различни части на речта.

В Германия американските производители на лингвистични технологии бяха изправени пред друг проблем - така наречените „съединения“, сложни думи. На немски език е обичайно да се прикачват определения към основната дума, което води до думи, които понякога се състоят от дузина корени. Няма такова нещо в английския език, където една дума е последователност от букви между два интервала, така че английският лингвистичен двигател не успя да обработи непознати дълги думи.

За да бъдем честни, трябва да се каже, че тези проблеми вече са до голяма степен решени от американските производители. Езиковият двигател трябваше да бъде преработен (и понякога пренаписан) доста, но големите пазари на Русия и Германия със сигурност си заслужават. Също така е трудно да се обработват многоезични текстове с помощта на лингвистични технологии. Повечето двигатели обаче все още се справят с два езика, обикновено националния + английски - за повечето бизнес задачи това е напълно достатъчно. Въпреки че авторът е срещал поверителни текстове, съдържащи, например, казахски, руски и английски едновременно, това е по-скоро изключение, отколкото правило.

Друг недостатък на лингвистичните технологии за контролиране на пълния набор от корпоративна поверителна информация е, че не цялата поверителна информация е под формата на съгласувани текстове. Въпреки че в базите данни информацията се съхранява в текстов вид и няма проблеми с извличането на текст от СУБД, получената информация най-често съдържа собствени имена - пълни имена, адреси, имена на фирми, както и цифрова информация - номера на сметки, кредитни карти, техните баланси и др. Обработката на такива данни с помощта на лингвистика няма да донесе голяма полза. Същото може да се каже и за CAD/CAM форматите, тоест чертежи, които често съдържат интелектуална собственост, програмни кодове и медийни (видео/аудио) формати – някои текстове могат да бъдат извлечени от тях, но тяхната обработка също е неефективна. Само преди три години това важеше и за сканирани текстове, но водещите производители на DLP системи бързо добавиха оптично разпознаване и се справиха с този проблем.

Но най-големият и най-често критикуван недостатък на лингвистичните технологии все още е вероятностният подход към категоризацията. Ако някога сте чели имейл с категорията „Вероятно СПАМ“, ще разберете какво имам предвид. Ако това се случи със спам, където има само две категории (спам/не спам), можете да си представите какво ще се случи, когато няколко десетки категории и класове за поверителност се заредят в системата. Въпреки че обучението на системата може да постигне 92-95% точност, за повечето потребители това означава, че всяко десето или двадесето движение на информация ще бъде погрешно присвоено на грешен клас, с всички произтичащи от това последици за бизнеса (изтичане или прекъсване на легитимен процес).

Обикновено не е обичайно да се разглежда сложността на технологичното развитие като недостатък, но тя не може да бъде пренебрегната. Разработването на сериозна лингвистична машина с категоризиране на текстове в повече от две категории е процес, изискващ много знания и доста технологично сложен. Приложната лингвистика е бързо развиваща се наука, която получи силен тласък в развитието си с разпространението на интернет търсенето, но днес на пазара има само няколко работещи машини за категоризация: за руския език има само две от тях, а за някои езици те просто все още не са разработени. Следователно има само няколко компании на DLP пазара, които са в състояние напълно да категоризират информацията в движение. Може да се предположи, че когато пазарът на DLP нарасне до размери от няколко милиарда долара, Google лесно ще влезе в него. Със собствения си лингвистичен двигател, тестван на трилиони заявки за търсене в хиляди категории, за него няма да е трудно веднага да грабне сериозно парче от този пазар.

Статистически методи

Задачата за компютърно търсене на значими цитати (защо точно „значителни“ - малко по-късно) заинтересува лингвистите още през 70-те години на миналия век, ако не и по-рано. Текстът беше разделен на парчета с определен размер и от всяко от тях беше взет хеш. Ако определена последователност от хешове се появи в два текста едновременно, тогава с голяма вероятност текстовете в тези области съвпадат.

Страничен продукт от изследванията в тази област е например „алтернативната хронология“ на Анатолий Фоменко, уважаван учен, който работи върху „текстови корелации“ и веднъж сравнява руски хроники от различни исторически периоди. Изненадан от съвпадението на хрониките от различни векове (повече от 60%), в края на 70-те години той изложи теорията, че нашата хронология е с няколко века по-къса. Следователно, когато някоя DLP компания, която навлезе на пазара, предложи „революционна технология за търсене на котировки“, с голяма вероятност може да се каже, че компанията не е създала нищо друго освен нова марка.

Статистическите технологии третират текстовете не като последователна последователност от думи, а като произволна последователност от знаци и следователно работят еднакво добре с текстове на всеки език. Тъй като всеки цифров обект - независимо дали е картина или програма - също е поредица от символи, същите методи могат да се използват за анализиране не само на текстова информация, но и на всякакви цифрови обекти. И ако хешовете в два аудио файла съвпадат, единият от тях вероятно съдържа цитат от другия, така че статистическите методи са ефективно средство за защита срещу изтичане на аудио и видео, активно използвани в музикални студия и филмови компании.

Време е да се върнем към понятието „смислен цитат“. Ключовата характеристика на сложен хеш, взет от защитен обект (който в различни продукти се нарича или цифров пръстов отпечатък, или ДНК на документ), е стъпката, на която се взема хешът. Както може да се разбере от описанието, такъв „печат“ е уникална характеристика на обекта и в същото време има свой собствен размер. Това е важно, защото ако вземете разпечатки от милиони документи (какъвто е капацитетът за съхранение на средната банка), ще ви трябва достатъчно дисково пространство, за да съхраните всички разпечатки. Размерът на такъв пръстов отпечатък зависи от стъпката на хеширане - колкото по-малка е стъпката, толкова по-голям е пръстовият отпечатък. Ако вземете хеш на стъпки от един знак, размерът на пръстовия отпечатък ще надвиши размера на самата проба. Ако увеличите размера на стъпката (например 10 000 знака), за да намалите "тежестта" на пръстовия отпечатък, тогава в същото време се увеличава вероятността документ, съдържащ цитат от извадка с дължина 9900 знака, да бъде поверителен, но ще се изплъзне през незабелязано.

От друга страна, ако направите много малка стъпка, няколко символа, за да увеличите точността на откриване, тогава можете да увеличите броя на фалшивите положителни резултати до неприемлива стойност. По отношение на текста това означава, че не трябва да премахвате хеша от всяка буква - всички думи се състоят от букви и системата ще приеме наличието на букви в текста като съдържание на цитата от примерния текст. Обикновено самите производители препоръчват някаква оптимална стъпка за премахване на хешове, така че размерът на цитата да е достатъчен и в същото време теглото на самия печат да е малко - от 3% (текст) до 15% (компресирано видео). В някои продукти производителите ви позволяват да промените размера на значението на цитата, тоест да увеличите или намалите стъпката на хеширане.

Предимства на технологията

Както можете да разберете от описанието, за да откриете цитат, ви е необходим примерен обект. А статистическите методи могат да кажат с добра точност (до 100%) дали проверяваният файл съдържа значителен цитат от извадката или не. Тоест системата не поема отговорност за категоризирането на документи - тази работа е изцяло на съвестта на лицето, което е категоризирало файловете преди вземането на пръстови отпечатъци. Това значително улеснява защитата на информацията, ако предприятието съхранява рядко променяни и вече категоризирани файлове на някое място(а). След това е достатъчно да вземете пръстов отпечатък от всеки от тези файлове и системата, в съответствие с настройките, ще блокира прехвърлянето или копирането на файлове, съдържащи значими цитати от пробите.

Безспорно предимство е и независимостта на статистическите методи от езика на текста и нетекстовата информация. Те са добри в защитата на статични цифрови обекти от всякакъв тип - снимки, аудио/видео, бази данни. Ще говоря за защитата на динамични обекти в раздела „недостатъци“.

Недостатъци на технологията

Както в случая с лингвистиката, недостатъците на технологиите са обратната страна на предимствата. Лесното обучение на системата (посочете файла към системата и той вече е защитен) прехвърля отговорността за обучение на системата върху потребителя. Ако внезапно поверителен файл се окаже на грешното място или не е индексиран поради небрежност или злонамерено намерение, тогава системата няма да го защити. Съответно компаниите, които се грижат за защитата на поверителна информация от изтичане, трябва да осигурят процедура за контролиране на това как поверителните файлове се индексират от DLP системата.

Друг недостатък е физическият размер на отпечатъка. Авторът многократно е виждал впечатляващи пилотни проекти за отпечатъци, когато DLP системата със 100% вероятност блокира прехвърлянето на документи, съдържащи значими цитати от триста примерни документа. Въпреки това, след една година работа на системата в боен режим, пръстовият отпечатък на всяко изходящо писмо се сравнява не с триста, а с милиони примерни пръстови отпечатъци, което значително забавя работата на пощенската система, причинявайки закъснения от десетки минути .

Както обещах по-горе, ще опиша моя опит в защитата на динамични обекти с помощта на статистически методи. Времето, необходимо за вземане на пръстов отпечатък, зависи пряко от размера и формата на файла. За текстов документ като тази статия това отнема части от секундата, за час и половина MP4 филм отнема десетки секунди. За файлове, които рядко се променят, това не е критично, но ако даден обект се променя всяка минута или дори секунда, тогава възниква проблем: след всяка промяна на обекта трябва да се вземе нов отпечатък от него... Кодът, който програмистът, върху който работи, не е най-голямата сложност, много по-лошо е с базите данни, използвани при фактуриране, основно банкиране или кол центрове. Ако времето за вземане на пръстов отпечатък е по-дълго от времето за оставане на обекта непроменен, проблемът няма решение. Това не е толкова екзотичен случай - например пръстовият отпечатък от база данни, съхраняваща телефонни номера на клиенти на федерален клетъчен оператор, се взема няколко дни, но се променя всяка секунда. Така че, когато DLP доставчик твърди, че техният продукт може да защити вашата база данни, мислено добавете думата „квази-статичен“.

Единство и борба на противоположностите

Както може да се види от предишния раздел на статията, силата на една технология се проявява там, където друга е слаба. Лингвистиката не се нуждае от проби, тя категоризира данните в движение и може да защити информация, която не е била с пръстови отпечатъци, случайно или умишлено. Пръстовият отпечатък дава по-добра точност и затова е за предпочитане за използване в автоматичен режим. Лингвистиката работи чудесно с текстове, пръстовите отпечатъци работят добре с други формати за съхранение на информация.

Затова повечето водещи компании използват и двете технологии в своите разработки, като едната е основна, а другата е допълнителна. Това се дължи на факта, че първоначално продуктите на компанията използват само една технология, в която компанията напредва допълнително, а след това, според търсенето на пазара, е свързана втора. Например, преди това InfoWatch използваше само лицензираната лингвистична технология Morph-OLogic, а Websense използваше технологията PreciseID, която принадлежи към категорията Digital Fingerprint, но сега компаниите използват и двата метода. В идеалния случай тези две технологии трябва да се използват не паралелно, а последователно. Така например пръстовите отпечатъци ще свършат по-добра работа за определяне на вида на документа - дали е договор или баланс например. След това можете да свържете лингвистичната база данни, създадена специално за тази категория. Това значително спестява компютърни ресурси.

Няколко други типа технологии, използвани в DLP продукти, са извън обхвата на тази статия. Те включват например структурен анализатор, който ви позволява да намирате формални структури в обекти (номера на кредитни карти, паспорти, данъчни идентификационни номера и т.н.), които не могат да бъдат открити нито чрез лингвистика, нито чрез пръстови отпечатъци. Също така не е засегната темата за различните видове етикети - от записи в полетата за атрибути на файл или просто специално име за файлове до специални криптоконтейнери. Последната технология става остаряла, тъй като повечето производители предпочитат да не преоткриват колелото сами, а да се интегрират с производители на DRM системи, като Oracle IRM или Microsoft RMS.

DLP продуктите са бързо развиваща се област на информационната сигурност; някои производители пускат нови версии много често, повече от веднъж годишно. Очакваме с нетърпение появата на нови технологии за анализ на корпоративното информационно поле, за да повишим ефективността на защитата на поверителната информация.