Създаване на филтър за спам за поща. Спам филтър: как да избегнете попадане в черен списък от бял подател

Оставете коментар 6,950

Спам филтъре програма, която е конфигурирана да обработва и филтрира входящата поща към сървъра според определени параметри: IP адрес, стоп думи в текста на писмото и регулярни изрази, характеристики на техническите заглавки и др.
Всяка голяма пощенска услуга (Rambler, Yandex-mail, Mail.ru ...) филтрира имейли за спам, но все пак доста голям брой нежелани имейли преминават през филтрите за спам незабелязано. Защо това се случва и как правилно да конфигурирате пощенската си кутия, за да го избегнете, ще научите в тази статия.

Какво е спам
Спам(спам) е нежелана реклама, изпратена против волята на получателя. Началото на бума на спам в Рунет може да се счита за началото на 2000-те години, когато вътрешният сегмент на Интернет започна да се развива много активно. Има много видове спам - изпращане на спам, заливане на книги за гости, форуми и табла за съобщения, ICQ спам и т.н. Във всеки случай те използват свои собствени методи за защита срещу нежелани съобщения.
Тази статия ще обхване всички основни аспекти на спама в пощата (e-mail) и защитата от него.

Спам филтърът е защита на рекламите?
Всъщност в момента всяка пощенска услуга прилага един или друг филтър за спам. Освен това има много антиспам плъгини за популярни имейл програми. Прилепът, Outlook Expressи други. Но в същото време спамът, всичко с нова сила лети в нашите пощенски кутии. Но най-лошото според мен е друго. Факт е, че в резултат на безмилостна борба със спамърите понякога се губят много нормални имейли, което понякога може да бъде много важно. Проблемът с доставката на важна поща ме подтикна да напиша тази статия и се надявам, че това ще помогне за намаляване на потока на целия боклук към вашата пощенска кутия и съответно за намаляване на броя на изгубените важни писма.

Как работи филтърът за спам.
Анти-спам филтрите работят по различни алгоритми, но основното за всички е анализът на писмото при получаване според определени критерии. Всички рекламни имейли от спамъри са написани по шаблон. В крайна сметка, спамърът няма да напише всяко писмо ръчно, когато има база от 1 милион или повече адреса. И ако той започне пощенски списък (не можете да изпратите такъв обем писма незабавно) и първите получатели на писмата му се оплакват от спам, тогава това изпращане ще бъде незабавно вписано в черния списък и всички следващи писма ще бъдат отрязани чрез анти-спам филтри, използващи тази система. Това са така наречените системи за ранно предупреждение, които ви позволяват да блокирате спамър на ранен етап на разпространение.
Друг метод се основава на по-подробно проучване на писмото и идентифициране на признаци за спам в него. Ако писмото е пълно с думи: Реклама, уникална оферта, покупка, отстъпки, разпродажба ... и т.н. Този имейл ще бъде ясно маркиран като подозрителен. Имейлът може да съдържа адрес на несъществуващ подател, който е лесен за проверка, или адресът може да бъде в черен списък. Вместо текст може да има снимка с публикувана реклама. Нормалните букви, като правило, не съдържат голям размер на текста. А писмата от създателите на всякакви пирамиди съдържат голямо количество информация, където е посочено какво, къде, как и защо трябва да закупите част от определена програма за чудо и така нататък в този дух.

Този тип антиспам филтър обикновено има гъвкави опции за персонализиране от страна на потребителя. Основното тук е да не го огъвате. Собственикът на пощенската кутия може лично да посочи какъв максимален размер на писмата да пропусне, кои адреси да добави в черния списък, да филтрира съобщения по тема на буквите и думи в тялото на писмото. Вярно е, че този метод не е подходящ за хора, които са активни в кореспонденция по пощата. В крайна сметка е невъзможно да се предупредят всички податели да посочат например ключова дума в темата на писмото и като правило много податели не знаят предварително.

Нравственост- решението дали писмото принадлежи към спам се взема от програмата, а не от лицето. И програмата не се характеризира с едно качество - изкуствен интелект и следователно всички филтри за спам, ако желаете, могат лесно да бъдат заобиколени или, по-просто, измамени.

Как да заобиколите филтъра за спам? Лесно!
Независимо от това, заобикалянето на антиспам системата не е лесно, но много просто. В потвърждение на това фактът, че проблемът със спама все още е актуален. Само един човек може да вземе 100% правилно решение дали това писмо е необходимо или не! И този човек е получателят на писмото. Наистина, какво ще стане, ако човек е абониран за рекламен пощенски списък от някаква компания. Но всичко това е противоречие, а сега фактите. Тъй като съобщението се филтрира от антиспам системи по една или друга характеристика, то спамърът трябва само да състави „безобидно“ писмо, т.е. писмото е възможно най-подобно на обикновено (необходимо е на получателя). Тук е много подходящ изразът: „Краткостта е сестрата на таланта“. Колкото по-кратък е имейлът, толкова по-трудно е да се подчертаят специфични за спама подробности в него.
Необходимо е да се сведе до минимум съдържанието на рекламните думи в писмото, доколкото е възможно, и да се промени останалото. Думата "Реклама" може да се напише така:
Р е к л а м а(разстояния между буквите), Реклама(букви, разделени с тирета), Реклама(тук руските букви "е" и "а" са заменени с подобни латински). Както можете да видите, има много опции, за човек всяка дума ще има значението "Реклама", но много антиспам системи няма да разберат това.
Що се отнася до заобикалянето на системите за аниспам, работещи на принципа на ранно откриване на спам имейли, тук е достатъчно предварително да съставите няколко десетки различни шаблона и след всяко изпращане на 100 хиляди писма да промените шаблона на писмото, домейна и електронния адрес на подателя - поща. Този подход се използва широко в мрежите от спам ботове (мрежа от заразени потребителски компютри).

Маркетолозите прекарват много време в писане на имейл текст, създаване на красиви шаблони и теми за преобразуване – всичко това в името на високата честота на отваряне и кликване. Въпреки това, преди да го изпратите, си струва да помислите каква е вероятността абонатите да получат имейл. През последните години законите за борба със спама бяха затегнати в много страни и филтрите за спам станаха по-сложни. Днес ще споделим тайните за влизане във Inbox.

Не купувайте имейл бази данни

Купуването на пощенски списък е лоша идея. Първо, тази практика противоречи на договора с доставчика на имейл. Второ, потенциалните получатели не знаят нищо за вашата компания, не са се абонирали и е по-вероятно да маркират имейли като спам. Освен това, като правило, се продават адреси с ниско качество.

Не събирайте отворени имейл адреси от уебсайтове

Събирането на отворени имейли от уебсайтове е бърз начин за разрастване на вашата база, но не ви позволява да създадете ефективен пощенски списък. В някои страни (например САЩ) тази практика е незаконна.

Премахнете имейл адресите, които редовно получават съобщения за грешка при доставка

Твърда грешка при доставка означава, че имейлът е изпратен на невалиден или несъществуващ имейл адрес. Процентът на грешки при сривове е един от ключовите фактори, които интернет доставчиците използват, за да определят репутацията на подателя. Ако имате много от тези грешки, вашите имейли ще се озоват във вашата папка за спам.

Не пишете с главни букви

Писането на цели думи с главни букви е като да крещиш на хора. Разбира се, главната буква привлича вниманието. Но това дразни мнозина и не вдъхва доверие, защото често се използва при изпращане на спам.
Според проучване на Radicati Group, повече от 85% от потребителите предпочитат малки букви за темата. Ефективни алтернативи на Caps Lock – персонализиране, подходящо съдържание и интересен текст.

Не прекалявайте с удивителни знаци

Прекомерните удивителни знаци правят имейлите да изглеждат непрофесионално и да приличат на спам. 69% от получателите маркират имейл като спам, след като са прочели само темата. Съобщенията с множество удивителни знака подред завършват първо в папката Спам.

Не включвайте видеоклипове, флаш видеоклипове или JavaScript в имейла си

По подразбиране повечето имейл клиенти не ви позволяват да преглеждате мултимедийни файлове като флаш филми или видеоклипове. Използвайте изображение на видеоплейъра и връзка към сайта. JavaScript и другите динамични скриптове са по-сложни. Дори ако филтърът за спам пропусне съобщението, имейл клиентът ще блокира скриптовете, така че е по-добре да ги отхвърлите напълно.

Не поставяйте формуляр в писмото

Повечето имейл клиенти не поддържат формуляри в имейл съобщения от съображения за сигурност. Включете CTA или връзка към целевата страница, където се намира формулярът във вашия имейл.

Не прикачвайте прикачени файлове

Ако искате да изпратите файл на клиентите си (например във формат PDF или Word), не го прикачвайте към писмото. В противен случай филтрите за спам могат да реагират на съобщението. Качете документа на вашия сайт и включете връзка в съобщението с ефективен призив за действие. По този начин ще защитите имейла си от попадане в спам и ще намалите времето за зареждане на съобщението.

Не използвайте думи, на които отговарят филтрите за спам

Подбирайте внимателно думите си, когато съставяте темата на имейла си. Филтрите отговарят на често срещани фрази, използвани в рекламните съобщения: „безплатно“, „гарантирано“ и т.н. Бъдете креативни с писането на писмото си: имейл съобщението трябва да бъде интересно и информативно.

Не използвайте червен шрифт

Червен шрифт или невидим текст (бял шрифт на бял фон) често се използва от спамърите. Спам филтрите реагират незабавно на подобни трикове. Абонатите не харесват фантастичните шрифтове и цветове. Според проучване на Radicati Group, повече от 60% от потребителите не одобряват използването на необичайни шрифтове и различни цветове в бюлетините. Почти 70% от потребителите предпочитат знаците да са с еднакъв размер.

Не правете правописни грешки

Проучването на Radicati Group също така установи, че 80% от абонатите намират правописните грешки за неприемливи. Освен това грешките са сигнал за спам филтрите. Бъдете внимателни и не забравяйте да проверите правописа си с помощта на специални инструменти.

Не прекалявайте с ключови думи

Не се опитвайте да вмъкнете възможно най-много ключови думи в текста. Никой не иска да чете съобщения, които са оптимизирани за роботи. Такива писма имат всички шансове да попаднат в папката "Спам". Текстът трябва да бъде персонализиран, информативен и приятелски настроен. Чувствайте се свободни да пишете на прост и жив език.
Добър пример е имейл от американската фитнес верига Turnstyle Cycle. „Бихме искали да ви напомним, че вашият абонамент е на път да изтече. Знаем, че си зает и не искаме да се разделяме с теб. Обадете ни се, ако можем да бъдем полезни." Искрено и приятелско съобщение предоставя цялата необходима информация: датата на изтичане на абонамента и телефонния номер за комуникация.

Изображенията не трябва да са твърде големи и не трябва да има много от тях

Имейлите, претоварени с изображения, често попадат в папката за спам и се отварят бавно. Освен това Microsoft Outlook не разпознава фонови изображения. Използвайте цвят на фона вместо картина.

Актуализирайте и почистете вашия пощенски списък

Дори ако всички ваши абонати са се съгласили с бюлетина, не забравяйте за хигиената на чаршафа. В противен случай доставчикът на интернет услуги може да помисли, че изпращате спам. Доставчиците отчитат оплаквания от активни абонати и не обръщат внимание на размера на базата.

Имейл адресите, които не са били използвани дълго време, често се превръщат в капани за спам. Попадането дори в един такъв капан ще има пагубен ефект върху доставяемостта.

Редовната хигиена на базата данни намалява вероятността вашият пощенски списък да бъде маркиран като спам. Неактивните абонати и неизползваните URL адреси могат да бъдат изчислени чрез анализ на отворените проценти, CTR и активността на сайта.

Опитайте се да ангажирате повторно абонати, които са неактивни или понякога активни

Изпращането на съобщения до неактивни абонати има отрицателно въздействие върху доставката. Съобщенията от податели с ниски нива на доставка често се озовават в папката Спам, без да бъдат видени от получателите.
Стартирайте кампании за повторно активиране. Проследявайте поведението на потребителите (посещения на сайта, щракване върху връзки и т.н.) и създайте имейл съобщение за задействане, което ще бъде изпратено, ако абонатът е неактивен за определен период от време. Например клиентите може да се интересуват от ексклузивна оферта или купон за отстъпка. Друга възможност е да включите връзка към анкетата в съобщението си, за да могат абонатите да кажат какво очакват от бюлетина.

Използвайте абонаменти с двойно участие

Двойното включване означава, че след като се абонира, потребителят получава имейл за „потвърждение“ със специална връзка. С щракване върху него абонатът потвърждава съгласието си за бюлетина. По правило потребителите, които са потвърдили абонамента си, са по-активни и ангажирани.

Помолете абонатите да добавят вашия имейл към адресната книга

Напоследък филтрите станаха по-строги и често писмата, които представляват интерес за абонатите, попадат в папката за спам. Но повечето филтри ви позволяват да добавите адрес към белия списък. Напомнете на вашите абонати да направят това, за да не пропуснат имейлите ви.

Добавете връзка за отписване към имейла си

Възможността за лесно отписване е важна част от имейл маркетинга. Това ще позволи на хората, които не искат да получават бюлетина, да се отпишат от него. В някои държави (например Съединените щати) търговците са задължени по закон да включват връзка за отписване в имейли. Съгласно американското законодателство, абонатът трябва да може да се отпише, като изпрати имейл или след една връзка. Потребителите са свикнали с факта, че информацията за отписване се намира в долната част на писмото.

Не пренебрегвайте анулирането

b неговия адрес от базата данни. Автоматизирането на този процес ще ви спести много време. В същото време е необходимо да се осигури пълна интеграция на CRM и софтуера, който се използва за създаване на пощенски съобщения.

Въведете познато име в полето „Получател“.

Много хора не отварят имейли от неизвестни податели. Използвайте името на вашата марка, за да помогнете на абонатите да разберат от кого получават съобщения. Още по-добре, направете бюлетин от имейл адреса на истински човек. Потребителите се доверяват повече на личната поща, отколкото на корпоративната.

Въведете името на абоната в полето „До“.

Това ще покаже, че знаете името на получателя и ще избегнете филтъра за спам. Освен това персонализирането увеличава ангажираността на клиентите.

Предложете две версии на вашия имейл: неформатиран и форматиран в HTML

HTML дава възможност за създаване на имейли с атрактивни визуални елементи. Ако едновременно предлагате обикновена текстова версия на имейл съобщение без форматиране, вие улеснявате живота както на доставчиците на интернет услуги, така и на абонатите. Повечето съвременни инструменти позволяват да се направи текстова версия на писмо за няколко минути.

Когато работите с HTML, не забравяйте да проверите дали кодирането е правилно. Поради грешки в етикетите доставчикът на имейл може да счита съобщението за спам.

Дайте на абонатите възможност да преглеждат съобщението в браузър

Имейл клиентите понякога показват лошо имейли, дори ако дизайнът им е безупречен. Не забравяйте да включите връзка в съобщението си, което ще го отвори като уеб страница.

Добавете текст за изображения

Много имейл клиенти блокират изображения по подразбиране. Получателят няма да ги види, докато не щракне върху бутона или не промени настройките на пощенската кутия. Алтернативният текст помага на потребителя да разбере съобщението, дори ако изображението не се отваря.

Особено лошо е, ако използвате изображение като призив за действие. Без алтернативния текст изглежда така:

Ако добавите текст, абонатът ще знае коя връзка да последва, за да завърши действието.

Можете да редактирате текста в богатия текстов редактор (просто щракнете с десния бутон) или да въведете текст ръчно в HTML редактора.

Дръжте имейлите кратки

Дългият текст активира филтрите за спам и отблъсква абонатите. Опитайте се да пишете кратки и живи имейл съобщения. Ако не можете без дълго писмо, разделете текста на параграфи и постигнете ясна структура (увод, тяло и заключение).

Тествайте имейлите преди изпращане

Когато създавате пощенски списък, трябва да вземете предвид особеностите на различните имейл клиенти и мобилни устройства. Днес 53% от потребителите четат имейли на мобилни устройства. Тестването на пощенския списък за всеки имейл клиент би отнело твърде дълго, но най-популярните имейл клиенти определено си струва да се провери. Експертите от Litmus проучиха 1,06 милиарда имейла и идентифицираха най-често срещаните имейл клиенти:

iPhone имейл приложение (28% от потребителите);
Gmail (16% от потребителите);
имейл приложение за iPad (11% от потребителите);
пощенско приложение за Google Android (9% от потребителите);
Outlook (9% от потребителите).

Ако е възможно, погледнете как изглежда писмото в различни имейл клиенти и на устройства, които са популярни сред вашата целева аудитория.
Преди да изпратите съобщение до абонатите, е задължително да проведете тестване, за да се уверите, че пощенският списък работи добре.

Отидете за сертифициране на подателя

Сертифицирането на подателя е процесът, чрез който трета страна проверява подателите на имейл списък и потвърждава, че те спазват определени правила. В резултат на това подателят е включен в „белия списък на интернет доставчика“.

Следете репутацията си

Доставянето на пощенския списък зависи много от репутацията на IP адреса. Ако IP адресът, от който изпращате съобщения, има лоша репутация, съществува риск те да не се озоват във входящата поща. Гледайте дали адресът ви е в черен списък.

Бъдете в крак с новите закони за борба с нежелана поща, правилата на ISP и как работят филтрите за спам

Имейл маркетингът непрекъснато се променя и професионалистите трябва да държат пръста си на пулса: да спазват новите закони, да се адаптират към новите правила и да използват съвременни технологии.

Мога да събера всичките си кутии на купчина. Но се сблъсках с проблем, когато всички съобщения идват в една поща, тогава вече започвате да забелязвате спам. И твърде мързелив, за да се изкачи и изтрие спам на ръка, а филтърът, който вече е вграден в пощенската услуга, не винаги е доволен.

Защо не направите бот, който да почиства пощата, особено след като спамът е ясно видим по някои признаци?
Ето какво подчертах, което е спам в моите очи:
- всичко е написано с главни букви
- съобщения, където основната идея е: порно, запознанства, казино, пари и т.н.
- ако някой изпраща редовно поща и не я чета

В самото начало трябва да конфигурирате imap php да работи в тясно сътрудничество с пощата. След това напишете някои алгоритми, които в тази статия няма да бъде оптималноот всеки има нужда от собствен филтър (например някои очакват спам от порнографски сайтове).

Ще има само идеи и информация за ума. А за тези, които искат да сложат собствен филтър, вече ще има основа.

Започнете...

Има много статии за това как да настроите imap php, можете да ги потърсите. Имам Ubuntu, реших този въпрос за няколко минути и малка промяна в настройките.

Когато вече сте конфигурирали imap, можете да го свържете.
// настройки за свързване с поща
$ imapaddress = "(imap.gmail.com:993/imap/ssl)";
$ imapmainbox = "INBOX";
$ maxmessagecount = 10;
$ user = "име на пощата в gmail без @ gmail.com";
$ password = "дълга и сложна парола";

// нашата функция, която премахва спама
spam_delete ($ imapaddress, $ imapmainbox, $ потребител, $ парола, $ maxmessagecount);

Сега отиваме до пощата и вземаме писмата. Когато вземем буквата, разделяме целия текст на думи и броим числото. След това в цикъл вземаме по думи и проверяваме дали тази дума може да потвърди, че това писмо е спам. Някои от точките, които според мен са спам, са описани по-горе. След това намираме вероятността това писмо да е спам, използвайки следната формула:

Вероятност = общият брой думи в буквата/думите, които не са преминали филтъра

Ето как е всичко в код:
функция spam_delete ($ imapaddress, $ imapmainbox, $ imapuser, $ imappassword, $ maxmessagecount)
{
$ imapaddressandbox = $ imapaddress. $ imapmainbox;

// отваряне на пощенска връзка
$ връзка = imap_open ($ imapaddressandbox, $ imapuser, $ imappassword)
или умре („Не може“ да се свърже с „. $ imapaddress.
"" като потребител "". $ imapuser.
"" с парола "". $ imappassword.
"": ". imap_last_error ());

Echo „Информация за Gmail за“. $ imapuser. "";

Echo "Заглавки на входяща кутия \ n";
$ headers = imap_headers ($ връзка)
или умре ("не може" да получи заглавки: ". imap_last_error ());

// броим броя на имейлите на сайта, можем да покажем максимум 10
$ totalmessagecount = sizeof ($ заглавки);

Echo $ totalmessagecount. "съобщения";

Ако ($ totalmessagecount<$maxmessagecount)
$ displaycount = $ totalmessagecount;
друго
$ displaycount = $ maxmessagecount;

Echo "Тела на съобщения \ n";
// отидете на писмото, вземете съдържанието и проверете за спам
за ($ брой = 1; брой $<=$displaycount; $count+=1)
{
$ body = imap_fetchbody ($ връзка, $ брой, "2");
// разбийте цялото писмо на думи
$ текст = експлодиране ("", $ тяло);
$ спам = 0;
// броим броя на думите
$ n = брой ($ текст);
за ($ i = 0; $ i<$n;$i++) {
$ spam + = test_spam ($ текст [$ i]) == 1: 1? 0;
}
// вижте каква е вероятността това да е спам
// разделяме броя на думите на възможни думи,
// които потвърждават, че това е спам
$ резултат = $ n / $ спам;
// ако 50% е спам, тогава изтрийте
if ($ резултат> 0,5) (
imap_delete ($ връзка, $ брой);
imap_expunge ($ връзка);
}
}
// затваряне на imap
imap_close ($ връзка);
}

Алгоритъмът за проверка на спам е много прост, написан е като пример. Ако искате да напишете по-силен и умен алгоритъм, съветвам ви да прочетете няколко глави за спама в книгата "Програмиране на колективния ум", на Habré също писаха за това.

Алгоритъмът прави две неща:
1. Идентифицира думите, които най-често се срещат в спама
2. Проверки за главни букви, ако всичко е в горния, значи най-вероятно е спам.

Самият код:
// функция за проверка на спам
функция test_spam ($ низ) (
// филтриращи етапи
// проверка по ключови думи
$ array = масив ("porn" => 1, "dating" => 1, "casino" => 1, "buy" => 1);
if ($ масив [$ низ] == 1) (връщане 1;)
// главни букви ли са
if (strtolower ($ низ)! == $ низ) (
връщане 1;
}
връщане на 0;
}
?>

Тествах го на два примера, изглежда работи ...

P.S.Много ще се радвам да чуя как се справяте с боклука. Ако откриете грешка в кода, не псувайте много, това е само пример и основа за разработване на нещо повече.

Както вече забелязахте, постепенно преминавам от формата „Бяла книга“ към формата „Инструкции стъпка по стъпка“. И както показаха вашите отговори на моя практически пощенски списък „Имейл маркетинг – пари при поискване“, това е най-добрият формат за следване! Днес ще разгледаме инструкции как да заобиколите филтрите за спам.

Заобикаляне на SPAM филтри: защо е важно?

Методите за заобикаляне на филтъра за спам стават все по-актуални всеки ден.

Да имате 40% + отворен процент и в същото време да не попаднете в СПАМ е възможно само в 1 от 2 опции:

Имате база от по-малко от 500 души
Имате нова база данни, събрана през последната седмица

Пощенските служби знаят всичко за вас и всяка ваша стъпка:

Броят на мъртвите имейл адреси във вашата база данни;
Колко оплаквания са получени от абонати
за последния месец;
Познайте броя на параграфите във вашето писмо;
Цените на отваряне са известни;
Колко абонати редовно
изтрийте вашите писма;
До какъв параграф абонатът чете писмото;
Колко време прекарва получателят
да прочете писмото;

Thunderbird спам филтър, rambler спам филтър - това са всички цветя.

Основата, на която се работи - mail.ru и yandex.ru - доставчици на поща, които заемат 70% + от целия пазар на имейл адреси. Заобикалянето на тези конкретни филтри за спам е най-важно.

Това, което прочетете по-долу, ще бъде полезно за:

Автори, които вече извършват имейли и искат да подобрят резултатите от доставката на имейли + да опознаят по-добре целевата си аудитория за по-добро взаимодействие с нея.
Тези, които искат ефективно да провеждат бъдещите си съобщения

И така, как да заобиколите филтрите за спам? Откъде да започна? На кого да пиша?

Стъпка № 1 "В ДОМЕЙНА"

вдясно:
[защитен с имейл]сайт

Неправилно:
[защитен с имейл]

Използвайки името на домейна в адреса на подателя, вие показвате истинската си самоличност на доставчика, тоест домейна на вашия сайт, а не някакъв “Вася” от двора, който вчера току-що регистрира физически имейл за себе си.

Помислете за секунда. Пощенският доставчик е този, който решава дали да пропусне писмото ви до абоната или не. Успехът на вашите имейли зависи от това какво мислят пощата, yandex, gmail, rambler за вашите имейли. Трябва да играете по техните правила, ако искате да заобиколите аутсайдерските места.

Стъпка номер 2 "Оценка на ситуацията"

Анализите, които наблюдавате във вашите пощенски услуги, не са верни, тъй като не са основният източник.

Трябва да се регистрирате в 2 услуги на доставчици на поща, да добавите своя домейн и да преминете през модерация:

https://postoffice.yandex.ru/
https://postmaster.mail.ru/

Това ще бъде вторият ви знак за внимание към доставчиците на поща!

Стъпка номер 3 "Дигитализиране на базата"

Вашата абонатна база е като филм на диск.

Диск - абонатна база
Филми – абонатни сегменти

Така че, когато купувате лицензиран диск в магазин, вие знаете, че той не е фалшив и че вие се „вписвате“ с качеството. Няма да има пиратски записи и други глупости. Не може да се каже същото за дисковете, които се купуват на базара.

Направете базата си данни "лицензирана" - запишете ключовите технически параметри, които ще започнат вашето приятелство с доставчиците на поща.

Какво ви е необходимо, за да се регистрирате?

DMARC

Кой може да направи това?

Хостер
Техник (например дизайнер на оформление)

Стъпка номер 4 "Първи контакт"

Сега трябва да проверите пощенската служба и пощенския началник от тях. поддържа. Кажете им, че имате всичко настроено, че използвате бели пощенски списъци и искате да станете по-добри. Помолете ги за помощ, попитайте как можете да станете по-добри.

За какво?

За разбирането,
Кир Уланов.

P.S.:Искате ли да научите повече за борбата със спама?
Кажи ми къде точно е съсредоточена болката ти"? Оставете своя коментар по-долу.
за да разбера какво да ти сготвя!

Принципи и техники за работа с непоискана кореспонденция

Иля Сегалович ( [защитен с имейл]), Дмитрий Тейблум ( [защитен с имейл]), Александър Дилевски ( [защитен с имейл])

Въведение

Пропускайки етичните и социални проблеми, свързани със спама, в тази статия ще се съсредоточим върху методите за неговото доставяне, методите за откриване и потискане. След това ще обсъдим грешките, които често възникват при описанието на тези методи и техните възможности. В последната част на статията ще ви разкажа за "supershingle" на Yandex - неусложнен технически метод за откриване на масови изпращания, използван в Yandex.Mail.

Част 1. Доставка на спам. Еволюция

За да може спамът да достигне до вашата пощенска кутия, той трябва да ви бъде доставен. Тъй като не сме се натъкнали на ясна класификация на спама по начин на доставка (а останалите класификации се свеждат до проста дихотомия: модифициране на спам и непромяна на спам на текста на клиента), ще се опитаме да ги опишем накратко тук. Може би този текст ще изглежда прекалено подробен, но ни се струва интересно да проследим как разработчиците на спам софтуер са отговорили на предизвикателството, поставено им от анти-спама, и обратно.

Спамът е млад. Той се появи около 1997 г. като активен маркетингов инструмент. За датата на възникването му може да се съди по момента, в който Пол Викси създава RBL. RBL исторически е първият сериозен опит за борба със спама. Вижте http://www.wikipedia.org/wiki/DNSBL.

Еволюцията на техническите видове спам е 100 процента задвижвана от еволюцията на инструментите за борба със спама. И историята тук се развива бързо, постепенно. През последните две години изглежда в него са се случили повече събития, отколкото през всички предишни.

Първите форми на спам бяха просто директна поща. Такъв спам се блокира доста просто и спамърите започнаха да използват отворени пощенски релета, тоест обикновени пощенски сървъри, които позволяват на произволен потребител да използва услугата за изпращане на писма до друг сървър. Имайте предвид, че по това време просто нямаше други релета и самата концепция за „отворени релета“ възникна едва след като се появи спам и те започнаха да се затварят напълно.

Такива отворени релета са достатъчно лесни за откриване, те започнаха активно да търсят и блокират. След това директната поща влезе в ренесанс - спамът започна да се изпраща от комутации и за да го блокират, системните администратори трябваше да открият и блокират IP модемните пулове на основните доставчици.

Прокси сървъри. Чорапи и HTTP

Преди малко повече от 2 години по-сложните начини за използване на чужди, неточно конфигурирани сървъри се появиха като забележимо явление.

Прокси сървърите на Socks са проектирани да обединяват целия интернет трафик на малкия бизнес към една машина, която има достъп до Интернет. Те обикновено използват за работа порт 1080. Ако дадена машина позволява неоторизирана връзка от произволен IP адрес (типична ситуация в ерата преди спама), разпространителите на спам могат също да го използват за маршрутизиране на своя SMTP трафик. Интересно е да се отбележи, че дневниците за използване на socks сървъра обикновено не се водят, така че често е невъзможно администраторите на socks сървъра сами да проследят истинските източници на поща.

Почти веднага беше открито, че стандартните отворени HTTP прокси сървъри (типични портове 3128, 8080 и т.н.), които поддържат метода CONNECT са лесни за използване за същото, достатъчно е да посочите не само името на сървъра в командата CONNECT, но също да зададете 25-то пощенско пристанище. Дори любимият "популярен" уеб сървър Apache, изграден с модула mod_proxy и неправилно конфигуриран, често се използва като средство за изпращане на спам.

Хакнати коли. Стандартен софтуер. Модифициран софтуер. Смяна на портове и време за слушане. Троянски коне.

След като изчерпаха възможностите за намиране на небрежни администратори, спамърите започнаха да хакват всички налични компютри преди около година или малко повече и да инсталират една от горните услуги на тях: SMTP релета или прокси сървъри. Добавете към това експлозивния ръст на кабелните връзки в САЩ и някои Бразилия, (Русия е дреболия в сравнение със САЩ и същата Бразилия), въпреки факта, че Windows няма активирана защитна стена по подразбиране, администраторите на локален кабел и DSL мрежите не защитават своите потребители поради ниската им квалификация, а стотици „относително честни“ и добре документирани методи за хакване на незащитени Windows машини отпечатват списанието Hacker във всеки втори брой и вие ще получите почти неограничено поле на дейност за хакер. Най-новата и най-мощна вълна от хакове идва от P2P мрежи като Kazaa и имейл вируси като Sobig, които носят "работния комплект на спамера" в кода си.

Трябва да кажа, че лошата сигурност на такива мрежи не винаги идва от ниската квалификация на администраторите. Понякога това се случва поради "политически" причини: доста квалифицирани администратори на доставчика смятат, че са отговорни само за връзката, а всичко останало е проблем на клиента. Дори в Русия рядко можете да намерите домашна мрежа, защитена от защитна стена, и още повече, че е почти невъзможно да видите напомняне в бележка до клиент за такава мрежа, че трябва да бъде инсталирана защитна стена в Windows.

Въпреки това, като настроите отворено реле или прокси, спамърът рискува да бъде много лесен за откриване. Всеки администратор просто трябва да се свърже с подозрителна машина, използвайки един от известните портове и да се увери, че е разрешен без оторизация (тази процедура се нарича "набиране"), за да добави тази машина към черния списък. Следователно, спамърите, особено през последните шест месеца или година, започнаха да променят поведението на компрометирани машини.

Ако пощенският демон приема заявки само от IP на своя собственик и/или заспива и се събужда според хитър алгоритъм и/или постоянно променя порта, през който се получават команди и писма, тогава директно откриване на такива машини чрез набиране редовен администратор е много трудно. В крайна сметка, за да позвъните на всички 65536 TCP порта на потенциално компрометирана машина, е необходимо време - около половин час, през което време може да смени порта, да заспи и т.н. и т.н.

Въпреки това, това, което е недостъпно за външен администратор или външен екип за борба със спама, все още може да бъде направено от администраторите на интернет доставчика. Те могат да наблюдават странното поведение на клиентските машини, които, след като са прослушали входяща връзка на необичаен порт, започват активно да изпращат поща до различни адреси. Такъв мониторинг не е много труден за организиране.

Софтуерът за спам се развива. Сравнително невинният софтуер за директна поща (например Advanced Mail Sender), при който спамър, заобикалящ сървъра на доставчик, адресира целевия MTA директно от домашен модем, е заменен от усъвършенствани сложни системи, чийто връх са троянски коне от широка гама. гама от действия. Техните възможности включват дори надграждане, автоматично разпространение, преминаване към други джейлбрейкнати машини и т.н.

Например, функцията на такъв троянски кон е да отиде чрез HTTP до адреса, записан в него в определено време, да вземе списъци с адреси и писма от там, да изпрати поща и да разбере часа и мястото на следващото обаждане. Понякога троянците слушат IRC канали и получават команди от там. Това ви позволява да скриете източника на командите. За разлика от HTTP, където създаването на уебсайт или качването на нови файлове е доста лесно за проследяване, съобщенията към IRC канала могат да се предават през всеки от сървърите в IRC мрежата и за да проследите източника, трябва да имате бърз достъп логовете на всички сървъри наведнъж. Като цяло има много начини да скриете троянски кон: използвайте нестандартни портове, контроли, протоколи и т.н. и т.н.

Възможности за активно откриване на компрометирани машини

На теория (и на практика) методът на разпространение, при който самата компрометирана машина има достъп до HTTP или IRC за имейли и никога не се слуша, е най-трудният за откриване. Почти невъзможно е да се разбере какво правят, какъв е интерфейсът им със спамърите, така да се каже. Например, известно е, че троянец инсталира стандартни прокси сървъри и SMTP на нестандартни портове. Обикновено това е единствената информация за този троянски кон. Заразените потребители и техните доставчици се интересуват само от това как да премахнат троянски кон - и антивирусните програми се научават да правят това бързо. За една повече или по-малко сериозна борба със спама е по-интересно да се знае кой разпространява този троянец и как го прави. За подобни разяснения са полезни администраторите на мрежи, в които има заразени машини. Например, ако троянец отиде някъде по някаква причина чрез HTTP, тогава, първо, е необходимо да се открие това обжалване и неговото съдържание, както и отговорът на другата страна, и второ, да се проследят входящите връзки с него, техните източници и същност.

За щастие спамърите също имат разделение на труда – категорията „крекери“ се превърна в отделна професия, а списъците с IP адреси са стоката и предмет на покупко-продажба. Купувачите са "пощенските списъци". В същото време стандартността на инсталирания софтуер играе важна роля. Много по-удобно е "списъците с пощенски съобщения" да работят с обикновен списък, без да се притеснявате за поведението на този или онзи хитър троянец. Следователно сложните и напреднали троянски коне все още не са станали твърде широко разпространени. Засега обаче количеството спам расте експоненциално – така че може да се случи, че вече сме го получили, но все още не сме го осъзнали.

Възможно е в крайна сметка прокситата и релетата да излязат от мода, звъненето ще става все по-малко ефективно средство и единственият начин да се идентифицира друга черна дупка ще бъде откриването на спам, изпратен от нея.

Организационни усилия за борба със спама

Често се чува за някакъв бъдещ протокол за електронна поща, след прилагането на който спамът ще изчезне. Бих искал да добавя малко здравословен скептицизъм към тази идея.

Мрежовата общност все още не е успяла да приложи най-простите техники за борба със спама, които самата тя е установила като стандарт. Например, разделяне на портовете на SMTP сървъра на порт за MTA (25: получаване на поща от чужд сървър за запазване на неговия потребител; "комуникация между сървъри") и MSA (587: получаване на писмо от неговия потребител за изпращане до чужд сървър; "комуникация между потребителя и сървъра"). Тази идея, както и SMTP авторизацията, се появиха именно като реакция на появата на спам.

Измина много време, но порт 587 не се появи в популярни програми за електронна поща като Outlook Express или The Bat! Но тази най-проста мярка би позволила на доставчиците просто да затворят всички изходящи връзки на порт 25 и напълно да премахнат директния спам от карти - спама от комутируемите връзки. Както знаете, една интернет карта струва $ 5, тя е достатъчна за 10 нощни часа, през това време можете да изпратите десет хиляди писма и да отидете да купите нова карта, а старата (вече ненужна) ще бъде блокирана от ядосан извън доставчика.

Няма технически пречки за конфигуриране на пощенския сървър, така че да не приема поща от „опасни непознати“ и да блокира както „спам от карти“, така и черни дупки. Достатъчно е например да активирате и конфигурирате SSL протокола, вграден във всеки SMTP сървър, така че да отхвърля несертифицирани връзки. Сертификатите за идентификация на сървъра също съществуват от дълго време. За $50-100 годишно за пощенски сървър можете да ги закупите от Thawte или Verisign. За съжаление, с тази настройка ще спрете да получавате поща напълно, тъй като, разбира се, никой няма сертификати.

Вероятно можете да измислите нов протокол. Но ще работи само ако всички пощенски системи се прехвърлят едновременно към него. В противен случай тези, които преминават към него, ще бъдат изолирани от тези, които не са преминали. С други думи, за да се научите да плувате в басейн, някой трябва първо да налее вода в него. Съвременният интернет обаче прилича на същата лудница, в която вода се налива само след като се научиш да плуваш.

Изход: очевидно спамът не може да бъде победен с "добър" протокол. Но спамът може да бъде победен чрез съвместните усилия на анти-спам софтуер, системи за обратна връзка, координирани действия на доставчици и т.н. И това ще бъде обсъдено по-долу.

Част 2. Методи за борба със спама

Можете да намерите различни описания (всъщност класификации) на инструменти за борба със спама. Тъй като програмата винаги е "алгоритъм + структура на данни", тогава класификацията на програмите трябва да се основава правилно на видовете използвани данни и използваните алгоритми. Което ще се опитаме да направим по-долу.

Има обаче описания, базирани на желание за популяризиране на собствената си технология. Това често създава изкривена картина, която подвежда потребителите. Ще се опитаме да обърнем внимание и на критиките към подобни снимки.

Задача за филтриране на спам

Задачата, която детекторът за спам решава по съдържание: да раздели входящия поток от съобщения на спам и нормална поща, спам и хам на английски жаргон.

Първоначални данни

Данните, използвани за анализа, са всички признаци на входящо писмо. Те могат да бъдат разделени на четири пространства, където решенията могат да бъдат изчислени независимо:

IP адрес на сървъра на подателя
дизайн и стил на букви, заглавки, форматиране, характерни фрази
статистика на думите в букви
контролни суми („подписи“) на текстовете на съобщенията

Естествено, пространството на функциите за всеки набор от данни е ограничено само до „интересни“ функции.

Специфичен антиспам модул може да използва всички тези функции или само 1-2 от тях. По-долу ще обсъдим недостатъците и предимствата на всяко от функционалните пространства. Засега нека обърнем внимание на необходимото присъствие на още два компонента на „проблема с машинното обучение“, класически пример за който е детектор за спам, а именно: обучителна извадка и обратна връзка.

Обърнете внимание, че за разлика от интервалите между думите или елементите на дизайна, когато се идентифицира спам по IP адрес, решението се взема въз основа на един „атрибут. Претеглянето на адреса обикновено не се извършва, следователно не е необходимо регулирането на претеглящия механизъм върху обучаващата проба. Въпреки това, без обратна връзка (в случая на IP, без непрекъснато нарастващ списък с черни дупки) не може да се изгради задоволителен работен механизъм на нито едно от горните пространства.

Грешки от първи и втори вид

За да работи всяко машинно обучение, то трябва да съобщава за грешки. Грешките са два вида. Грешка от първия вид: пропускане на спам, тоест пропускане на спам съобщение. С други думи, недостатъчна пълнота на метода. Грешка от втория вид са фалшиви положителни резултати, когато не-спамът погрешно се нарича спам. С други думи, точността на метода.

Естествено, приоритет при настройката на алгоритъма се дава на минимизиране на броя на фалшивите положителни резултати. Често срещано изискване за детектор за спам е да се поддържа в рамките на няколко ppm. Смята се, че е по-добре да оставите потребителя да прочете няколко спам имейла, отколкото да скрие истинския имейл от тях.

Интегрален качествен индекс

Процентът на открит спам е мярка за пълнота, а процентът на фалшивите положителни резултати е мярка за неточност. Не е трудно да се предложи цялостна оценка на качеството, да го наречем качество на филтриране. Очевидно е, че с точност, близка до 100%, качеството ще бъде приблизително равно на пълнотата. Точно пълнотата на филтрирането често се извиква, когато се звучат определени числа, което означава, че точността е почти абсолютна.

В същото време трябва да се разбере, че остротата на възприемане на втория вид грешка зависи от естеството на писмата, пристигащи в пощенската кутия и индивидуалните предпочитания на потребителя: хората, обсъждащи многомилионни транзакции по пощата, реагират на грешки от втория вид много по-болезнено от службата за поддръжка на клиенти и още повече читателите на пощенския списък с анекдоти.

Фалшиви положителни резултати. Различни подходи

Това, което се случва в случай на грешки от втория вид, е доста важно - размерът на щетите, причинени от тези грешки, зависи от това, а следователно и от изискванията за техния брой.

Възможни са следните филтриращи реакции към открит спам:

писмото е отхвърлено от пощенския сървър; в същото време, ако всъщност е било "законно" писмо, изпращачът ще получи съобщение за него;

писмото се поставя в специална папка; потребителят има възможност да погледне в тази папка и да види там погрешно филтрирано съобщение;

буквата е "изтрита", сякаш никога не е съществувала; никой не знае за нищо.

Сценарий (3) е най-опасният; за щастие администраторите на пощенски сървър почти никога не го използват. Въпреки това от популярните текстове, за които ще говорим по-долу, често изглежда, че именно той се използва.

Сценарий (2) от една страна има тенденция да се изроди в (3), ако качеството на филтъра е добро. От друга страна, редовното потребителско сканиране на папката за спам намалява полезността на филтрирането, въпреки че това се прави много по-рядко, повърхностни сканирания и т.н. При такъв сценарий обаче щетите от грешки тип II са минимални, а обратната връзка е максимална.

Сценарий (1) е традиционна версия за "класическо" филтриране по IP адреси. За разлика от (2), той не се изражда в (3), но натоварването на сървъра се увеличава значително, ако съдържанието на съобщението се използва във филтъра.

Междинна зона - "половина спам"

Много важен и често неразбран проблем е, че спамът и не-спамът се припокриват в много голяма степен.

Пощенски съобщения, за които е трудно да се отпишете, но за които въпреки това (изглежда?) сте се абонирали. Абонаменти, произтичащи от регистрация без ваше знание. Множество разписки от глупави анти-спам и антивирусни програми. Автоматични отговори. Пощенски съобщения, направени от спамъри, използващи уеб формуляри от публични, напълно неспам уеб услуги, но въпреки това слабо защитени от проникване. Например пощенски картички или покани за присъединяване към тази или онази уеб общност - дори авторът не може да разбере от текста на такова писмо дали е спам или не. Цялата такава кореспонденция може безопасно да бъде класифицирана като "полу-спам".

Обемът на тази зона е много, много значителен.

Преди началото на следващия етап на работа по филтриране на нежелана поща, Yandex проведе проучване. Беше извършен ръчен анализ на доста представителна извадка от 5151 писма, изпратени до 300 адреса. И така, ситуациите, когато проверяващият аутсайдер, използвайки цялата сила на естествения си интелект, за да вземе решение, препраща писмото към такава „междинна зона“, представляват до 40 процента! В същото време правилото за такава задача беше доста внимателно:

... Писмо "полу-спам" е писмо от известен проверяващ наистина работимагазин или онлайн услуга, в която потребителят най-вероятнобеше регистриран. ...

Какъв извод може да се направи от това? Дори като се вземат предвид статистическите отклонения, присъщи на публичната уеб поща, е възможно да се опитаме да предвидим максималната теоретична граница за качеството на неперсонализираното филтриране на спам. В крайна сметка задачата на една неперсонализирана програма е да симулира поведението на най-обективния непознат наблюдател, който не знае нито за вашите страсти, нито за вашите абонаменти!

Вторият извод е следният. Опитайте се да не вярвате на твърденията на създателите на неперсонализирани анти-спам продукти, които твърдят, че качеството на филтриране е 95 или 98 процента. В неперсонализирана антиспам система, която познава предпочитанията само на обикновения потребител, тази цифра изглежда теоретично недостижима.

Обратна връзка

Във всеки случай, ключовият въпрос на всяка пълноценна антиспам система е да решите къде да получите информация за грешки от първи и втори вид. Очевидно оплакването за спам или искането за блокиране на адрес е вид обратна връзка за грешки от първия вид. Обратната връзка за грешки от втория вид също е възможна и много желателна.

Изпълнение на обратна връзка

В интерфейса на повечето съвременни публични уеб имейли (Hotmail, Yandex, Yahoo, Oddpost) има специална папка, която служи за натрупване на „полу-спам“ и не особено надеждно открит спам, както и бутон за „рехабилитация“, информиращ система за фалшиво положително.

Наскоро създадените настолни пощенски клиенти също имат обратна връзка както от първия, така и от втория вид. Обикновено под формата на бутон "това е спам" / "това не е спам".

За съжаление, няколко популярни имейл клиента все още не поддържат пълна обратна връзка. Например всички пощенски програми на Microsoft, чийто интерфейс и набор от функции не са се променили през последните 5 години (за тях обаче са написани множество плъгини, които могат, макар и по неудобен начин, но да запълнят този недостатък), или някои обществени пощенски услуги, в които е обратна комуникация с потребителя.

Техники на ниво протокол

Освен методите, които анализират само данните от входящо писмо, има някои доста популярни техники, които задават специален начин на взаимодействие между пощенските програми.

Писмо от рода на „Съжаляваме, не сме кореспондирали с вас, моля потвърдете, че не сте разпространител на спам“ се изпраща до неизвестни податели. След получаване на потвърждение, програмата добавя адреса на подателя към белия списък. Има и добре познати реализации на тази доста стара идея: TMDA и WinAntiSPAM.

Една сравнително скорошна идея е сив списък. Същността му се крие във факта, че сървърът отговаря на някои писма не с „OK“ или „отхвърлен“, както обикновено, а с „временна грешка“. Това само по себе си работи много добре (засега), защото "добрите" пощенски сървъри ще се опитат да доставят писмото след известно време (те са длъжни да го направят), а спамърите (засега) не го правят. Освен това може да се надяваме, че ако спамърите се опитат да повторят опитите за доставка като нормални сървъри, тогава през това време ще имат време да попаднат в черния списък. Времето за повторно свързване обикновено е половин час и това като цяло не е критично, особено след като се отнася само за първата кореспонденция между две непознати страни, тъй като по-рано проверените адреси не се проверяват, а заявките за проверка се кешират и не се изпращат отново .

Проверка на коректността на адреса на подателя (плик-от). Проверката за съществуване на домейн беше поставена в повечето сървъри преди много време и все още работи от време на време, въпреки че ефективността й сега е ниска. Сега много хора започнаха да вмъкват цялата проверка на адреса. Въпреки че това е доста скъпо по отношение на ресурси - за това трябва да се свържете със сървъра, на който се намира адресът, и смислен отговор не е гарантиран, обаче, поне засега, той работи добре.

Алгоритми

Както можете да видите от таблицата по-долу, потоците от данни са много различни за различните типове функции. Нека ги разгледаме отделно

IP проверка. DNS зона. Името на черен списък като неразделна характеристика

Най-простото за изпълнение и със сигурност поради тази причина най-популярното е филтрирането по IP адресното пространство. За всяка буква трябва да проверите 1 (рядко повече) IP адрес, това се прави сега с помощта на специална DNS зона за всеки от черните списъци. DNS търсенето е по същество проста хеш функция. Някои от списъците са разрешени за изтегляне и за ефективност е разумно да се създават такива зони на локален DNS сървър.

Какво друго е характерно за това пространство на функциите? Първо, отлична обратна връзка.

Второ, това е най-нестабилното и плавно пространство от характеристики, което се характеризира с постоянно изчезване и добавяне на адреси. Следователно, изчисляването на индивидуалния коефициент на тежест за всеки IP е доста скъпо и не е много ефективно: има твърде малко данни и адресите се променят през цялото време.

Следователно най-простият начин за намаляване на измерението на това пространство е да замените отделен IP адрес със списъка, в който се намира. Принципите на формиране, надеждност и приложимост на списъците в първо приближение могат да се считат за еднакви за всички "негови" IP-адреси.

Ниска цена на изчисленията, опростеност и рационализиране на процедурите за обмен на данни и техния малък обем, недвусмислени данни (IP е почти невъзможно да се фалшифицира). Всички тези фактори играят решаваща роля за доминирането на тази функция в анти-спам софтуера.

Байесово филтриране на думи

Много прост, интуитивен метод за "контролирано машинно обучение" (тоест в присъствието на извадка от Spam & Ham) е наивната байесова класификация. Нарича се „наивен“, защото изхожда от предположението за взаимна независимост на характеристиките и колкото и да е странно, това често е напълно достатъчно. Използването на формулата на Байес за филтриране на спам беше предложено съвсем наскоро, преди около година.

Авторът, Пол Греъм, го е предвидил за лично филтриране. За работа се изисква класифицираният обект да има достатъчно характеристики. Това изискване е идеално задоволено от всички думи (или токени) от буквите на даден потребител, освен може би много рядко и много кратки. Второто изискване е постоянно преквалификация и попълване на колекцията Spam + Ham. Всички подобни условия работят перфектно в локални пощенски клиенти, които поддържат този алгоритъм.

За съжаление е трудно да се използва байесовият метод директно, директно в условията на масова пощенска услуга, главно поради голямото разнообразие от речник в клиентските пощенски кутии. Така че, поради факта, че извадката за обучение вероятно ще съдържа много туристически спам, всички писма, например от туристическа агенция, могат да бъдат класифицирани като спам. Тук не могат да помогнат и други методи за класификация на текста по думи, по-традиционни за науката за извличане на информация (например методът на Рокио или машината за опорни вектори). Изглежда обаче, че е възможно по някакъв начин да се използва вероятността да се припише писмо на средния статистически спам (или друга мярка за текстово сходство), получена чрез анализиране на състава на речника в масовите услуги.

Генетични алгоритми и ръчни тегла

В резултат на големите усилия на много хора бяха разкрити огромен брой различни евристики, свързани с особеностите на заглавките на спам писма, техния дизайн, характерни стилистични завои и типични фрази. Общият брой на такива функции в добре познатия филтър SpamAssassin, например, се доближава до хиляда. За съжаление, въпреки факта, че почти всяко спам съобщение съдържа поне няколко такива характеристики, невъзможно е да се изгради стабилен байесов автомат върху пространството на такива характеристики. Има две причини:

твърде малко знаци обикновено се намират в една буква

няма балансиране, тоест няма достатъчно признаци за неспам.

При тези условия се използват други алгоритми. Например SpamAssassin използва генетичен алгоритъм. В него селекцията започва с произволна настройка на теглата за всеки признак (създаването на "хромозоми"), а след това хромозомите се "кръстосват" и "мутират" в търсене на оптималните стойности на теглата за дадена тестова проба. Оптимумът (на теория) може да не е глобален, а локален, но това обикновено е повече от достатъчно.

Често се практикува ръчно задаване на тежести за всеки атрибут, тъй като техният брой е предвидим, а опитните администратори могат да наблюдават и постоянно коригират филтрирането на спам за пощата на своята компания.

Откриване на повторение и масов подпис

Ако анти-спам системата се занимава с голям поток от имейли, тя може и трябва да се опита да намери дублиращи се имейли. Първо, по този начин можете да хванете съобщения, които вече са известни (маркирани по-рано) като спам. Второ, масовият характер на съобщението сам по себе си е неразделен знак за спам. От твърдението, че едно писмо е спам, неизбежно следва, че то е масово. По този начин признакът за масов характер е необходимо, но не и достатъчно условие за спам.

Строго погледнато, единичните нежелани съобщения също могат да се считат за спам, но има смисъл да се борите с тях с единични методи, така че за тази статия можете спокойно да приемете това предположение.

Интересна тема е практическото прилагане на масовото откриване на кореспонденция. Опитите за създаване на разпределени системи за обмен на контролни суми от писма, предприети в рамките на проекти като DCC (множество контролни суми за текста и заглавките на писмото) или Wypool's Razor (една "размита" контролна сума) в момента се сблъскват с общи ограничения на P2P технологии по отношение на производителността ... Въпросът е, че за да предоставят статистика за възпроизвеждане в реално време, участниците в системата са принудени да поддържат режим на постоянен обмен на тази информация. По време на спам атака скоростта на реакция на такива системи става неприемливо бавна. Очевидно ефективното използване на системата за откриване на повторение засега може да се каже само в системи с много голям поток от писма, от големи доставчици или на публични пощенски сървъри, например уеб поща.

Различни методи за откриване на повторения ще бъдат обсъдени в последната част на тази публикация. Засега може да се отбележи само, че знакът за масовия характер служи като добър фактор както сам по себе си, така и в различни интегриращи системи.

Интегриращи системи

Нито един набор от функции не е в състояние да осигури максимално качество на филтриране. Очевидно системите, които интегрират решения във всички функционални пространства, ще имат предимство тук.

Пионерът тук е SpamAssassin, който ви позволява да прилагате както генетичен алгоритъм, така и ръчно претегляне не само върху вашия собствен или "персонализиран" набор от флагове, но и като вземете предвид байесовото подобие на текста и като вземете предвид взаимодействието с изпращането на DCC модул за откриване.

Отделен въпрос е кой алгоритъм трябва да работи в момента на вземане на окончателно решение.

Филтрирайте точки на приложение

В допълнение към разликите във входните данни, алгоритмите и видовете обратна връзка, антиспам инструментите трябва да се разграничават по мястото на тяхното приложение. Има две такива места: пощенския сървър и клиентския компютър.

Филтриране от страна на сървъра: сферата на метода на IP

Сървърът се характеризира с голям поток от писма, може да осигури гарантирана производителност, има постоянна комуникация с други сървъри. Когато обемът на съобщенията надхвърли определено ниво, можете да започнете да откривате писма. На сървърите, очевидно, байесовият алгоритъм за текста на писмото е неприложим в чист вид (вижте по-горе).

Въпреки това, най-стандартният, лесно приложим и сравнително ефективен метод е IP филтрирането и предвид тези обстоятелства този метод в момента е доминиращ. Можете да очаквате появата на филтриращи средства и по други причини.

Пречката пред приемането на методи, базирани на анализа на писането, е дилемата на диагнозата и обратната връзка. Да предположим, че сървърът не поддържа персонализирани папки за натрупване на спам. В този случай сървърът е длъжен да издава диагностика (550) за всички филтрирани съобщения без изключение при получаването им, което налага строги изисквания за производителност към системата за анализ.

Филтриране на клиенти: царството на Bayes

Клиентът има съвсем различна картина. Има малък поток от данни, неизвестна производителност на компютъра, липса на постоянна връзка с интернет – тоест е невъзможно или твърде скъпо да се „качват“ постоянно масиви от контролни суми от букви или IP черни дупки. Но можете много точно да различите буквите на други хора, те винаги не изглеждат като вашите просто в текста; Лесно е да разберете "вкусовете" на един потребител. Поради всички тези причини антиспам програмите от страна на клиента са сфера на Байеса.

Част 3. Внимателен маркетинг

Както вече казахме, когато се описват и класифицират анти-спам инструменти, трябва да се изхожда от разликите в използваните данни, алгоритмите и методите за обратна връзка. Въпреки това, често можете да срещнете неправилни описания на инструменти за борба с нежелана поща, техните възможности и обхват на използване, причинени от маркетингови причини. По-специално, създателите на различни софтуерни продукти публикуват статии, в които несъществуващи недостатъци и ограничения се приписват на почти всички методи за филтриране, с изключение на техните собствени. Бихме искали да защитим репутацията на тези методи в този раздел.

Техники за борба със спам на интернет доставчика

От рекламни статии, на първо място, е невъзможно да се разбере какво се случва при филтриране на съобщения по IP-адрес. На читателите по същество се казва апокалиптичната картина, че писмата падат в нищото; многомилионни договори се провалят и т.н. и т.н.

Доставчици обаче, които се държат според такъв сценарий (сценарий (3) - виж по-горе) не съществуват на практика (не познаваме НИКАКЪВ такъв доставчик). Всички познати ни пощенски сървъри отговарят с разбираема диагностика (връщана от изпращащия сървър на автора на писмото) на опит за свързване от IP адрес от черния списък. Например (най-лошият случай):

Вашето съобщение до cmail.yandex.ru беше отхвърлено.
Казах:
RCPT до: [защитен с имейл]
И cmail.yandex.ru отговори с
550 5.7.1 [защитен с имейл]Източник на спам.

Ако списъкът с черни дупки е официално публикуван и поддържан, тогава е обичайно да се посочи URL адресът на страницата в диагностичното съобщение на SMTP сървъра, където можете да получите подробно обяснение защо този IP адрес е в черен списък. Освен това всички скандали, които знаем за блокирането в Runet, се случиха точно когато „официалните спамъри“ получиха такава разписка и започнаха да се чувстват пренебрегнати.

В продължение на същата идея на доставчиците се приписва използването на някакъв вид тайни, никога публикувани, тайни черни списъци.

Всъщност, разбира се, няма "тайни" списъци.

Доставчиците на интернет услуги имат свои собствени обяви, които не публикуват, главно защото публикуването е скъпа стъпка, която изисква редовни актуализации, поддръжка и като цяло известен ресурс. Освен това у нас не е много прието да се публикуват безпристрастни изявления за някои компании (което всъщност е публичен „черен списък“). Необходимо е да се вземе решение за това отделно.

Нещо се направи в тази посока - имаше такава инициатива DRBL. Но това, което се оказа, очевидно, беше твърде сурово, за да се използва масово. Независимо от това, всеки потребител, изпратил писмо от блокиран адрес, ще получи разписка от сървъра в случай на неизпълнение, с ясна индикация за причината за отказа на услугата - "грешка 550, връзка е отказана, източник на спам" - виж по-горе. Вярно е, че това съобщение трябва да е на английски.

По този начин тези данни не са скрити по никакъв начин. Това поведение се изисква от стандарта SMTP.

Това обяснява и твърденията, че доставчиците постоянно водят войни помежду си, че поради това се увеличава броят на писмата, сбъркани със спам, тъй като доставчиците като цяло често попадат в черния списък, че клиентите на враждуващите страни са лишени от възможността да общуват помежду си. По същество публичните IP списъци се рекламират като принципно ненадежден метод за филтриране.

Това не е напълно вярно или дори далеч от истината.

Всъщност някои списъци се съставят не само за филтриране като такива. Понякога в тази дейност има елементи на "борба със спама". Представете си портиер, чиято задача е да поддържа определен