Lage et spamfilter for e-post. Spamfilter: hvordan unngå å bli svartelistet av en hvit avsender

Legg igjen en kommentar 6,950

Spamfilter er et program som er konfigurert til å behandle og filtrere innkommende e-post til serveren i henhold til visse parametere: IP-adresse, stoppord i teksten til brevet og regulære uttrykk, funksjoner i tekniske overskrifter, etc.
Hver større e-posttjeneste (Rambler, Yandex-mail, Mail.ru ...) filtrerer e-poster for spam, men fortsatt passerer et ganske stort antall uønskede e-poster gjennom spamfiltre ubemerket. Hvorfor dette skjer, og hvordan du konfigurerer postkassen riktig for å unngå det, lærer du i denne artikkelen.

Hva er spam
Spam(spam) er uønsket reklame sendt mot mottakerens vilje. Begynnelsen på spam-boomen i Runet kan betraktes som begynnelsen av 2000-tallet, da det innenlandske segmentet av Internett begynte å utvikle seg veldig aktivt. Det finnes mange typer spam - e-postspam, oversvømmelse av gjestebøker, fora og oppslagstavler, ICQ spam, etc. I hvert tilfelle bruker de sine egne metoder for beskyttelse mot uønskede meldinger.
Denne artikkelen vil dekke alle hovedaspektene av e-post (e-post) spam og beskyttelse mot det.

Spamfilter er annonsebeskyttelse?
Faktisk, på det nåværende tidspunkt, bruker enhver posttjeneste et eller annet spamfilter. I tillegg finnes det mange antispam-plugins for populære e-postprogrammer. Flaggermusen, Outlook Express og andre. Men samtidig, spam, flyr alt med fornyet kraft inn i postkassene våre. Men det verste, etter min mening, er annerledes. Faktum er at som et resultat av en nådeløs kamp mot spammere, går noen ganger mange vanlige e-poster tapt, noe som noen ganger kan være veldig viktig. Det var problemet med levering av viktig post som fikk meg til å skrive denne artikkelen, og jeg håper det vil bidra til å redusere flyten av alt søppel til postkassen din, og følgelig redusere antallet tapte viktige brev.

Hvordan spamfilteret fungerer.
Anti-spam-filtre fungerer i henhold til ulike algoritmer, men det viktigste for alle er analysen av et brev ved mottak i henhold til visse kriterier. Alle reklame-e-poster fra spammere er skrevet i henhold til en mal. Tross alt vil en spammer ikke skrive hvert brev manuelt når han har en e-postbase på 1 million eller flere adresser. Og hvis han starter en e-postliste (du kan ikke sende et slikt volum av brev umiddelbart), og de første mottakerne av brevene hans klager på spam, vil denne e-posten umiddelbart legges inn på svartelisten, og alle påfølgende brev vil bli kuttet av av anti-spam-filtre som bruker dette systemet. Dette er de såkalte tidlige varslingssystemene som lar deg blokkere en spammer på et tidlig stadium av distribusjonen.
En annen metode er basert på en mer detaljert studie av brevet og identifisere tegn på spam-utsendelser i det. Hvis brevet er fylt med ord: Reklame, unikt tilbud, kjøp, rabatter, salg ... etc. Denne e-posten vil tydelig merkes som mistenkelig. E-posten kan inneholde en ikke-eksisterende avsenderadresse, som er enkel å verifisere, eller adressen kan være svartelistet. I stedet for tekst kan det være et bilde med en oppsatt annonse. Vanlige bokstaver inneholder som regel ikke stor tekststørrelse. Og brev fra skaperne av alle slags pyramider inneholder en stor mengde informasjon, hvor det er angitt hva, hvor, hvordan og hvorfor du trenger å kjøpe en del fra et visst mirakelprogram, og så videre i denne ånden.

Denne typen antispam-filter har vanligvis fleksible tilpasningsmuligheter fra brukerens side. Det viktigste her er å ikke bøye den. Eieren av postkassen kan personlig spesifisere hvilken maksimal størrelse på bokstaver som skal hoppes over, hvilke adresser som skal legges til på svartelisten, filtrere meldinger etter emne for bokstaver og ord i brevets brødtekst. Riktignok er denne metoden ikke egnet for personer som er aktive i postkorrespondanse. Det er tross alt umulig å advare alle avsendere om å angi for eksempel et nøkkelord i emnelinjen i brevet, og som regel er det mange avsendere som ikke vet det på forhånd.

Moral- avgjørelsen om hvorvidt et brev tilhører spam tas av programmet, ikke personen. Og programmet er ikke preget av én kvalitet - kunstig intelligens, og derfor kan alle spamfiltre, om ønskelig, enkelt omgås, eller, rett og slett, lures.

Hvordan omgå spamfilteret? Enkelt!
Likevel er det ikke lett å omgå antispam-systemet, men veldig enkelt. Som en bekreftelse på dette er det faktum at problemet med spam fortsatt er relevant. Bare én person kan ta en 100 % riktig avgjørelse om hvorvidt dette brevet er nødvendig eller ikke! Og denne personen er mottakeren av brevet. Faktisk, hva om en person abonnerer på en reklamepostliste fra et eller annet selskap. Men alt dette er kontrovers, og nå fakta. Siden meldingen er filtrert av antispam-systemer i henhold til en eller annen egenskap, trenger spammeren kun å komponere et "ufarlig" brev, dvs. brevet er mest mulig likt et vanlig brev (trenger av mottakeren). Uttrykket: «Brevity is the sister of talent» er veldig passende her. Jo kortere e-posten er, desto vanskeligere er det å fremheve spam-spesifikke detaljer i den.
Det er nødvendig å minimere innholdet av reklameord i brevet så mye som mulig, og endre resten. Ordet "Reklame" kan skrives slik:
R e k l a m a(mellomrom mellom bokstaver), Reklame(bokstaver atskilt med bindestreker), Reklame(her er de russiske bokstavene "e" og "a" erstattet med lignende latinske). Som du kan se, er det mange alternativer, for en person vil ethvert ord ha betydningen "Reklame", men mange antispamsystemer vil ikke forstå dette.
Når det gjelder å omgå anispam-systemer som opererer etter prinsippet om tidlig oppdagelse av spam-e-post, så er det nok å komponere et par dusin forskjellige maler på forhånd, og etter hver utsendelse av 100 tusen brev, endre brevmalen, domenet og avsenderens e-post. -post. Denne tilnærmingen er mye brukt i spam bot-nettverk (et nettverk av infiserte brukerdatamaskiner).

Markedsførere bruker mye tid på å skrive e-posttekst, lage vakre maler og konverteringstemaer – alt av hensyn til høye åpnings- og klikkfrekvenser. Men før du sender det, er det verdt å vurdere hvor sannsynlig det er for at abonnenter vil motta en e-post. De siste årene har antispamlovgivningen blitt strammet inn i mange land, og spamfiltrene har blitt mer sofistikerte. I dag vil vi dele hemmelighetene ved å komme inn i Inbox.

Ikke kjøp e-postdatabaser

Å kjøpe en e-postliste er en dårlig idé. For det første er denne praksisen i strid med kontrakten med e-postleverandøren. For det andre vet ikke potensielle mottakere noe om bedriften din, har ikke abonnert, og er mer sannsynlig å merke e-poster som spam. Dessuten selges det som regel adresser av lav kvalitet.

Ikke samle åpne e-postadresser fra nettsteder

Å samle åpne e-poster fra nettsteder er en rask måte å utvide basen din på, men det lar deg ikke lage en effektiv e-postliste. I noen land (for eksempel USA) er denne praksisen ulovlig.

Fjern e-postadresser som regelmessig mottar leveringsfeilmeldinger

En hard leveringsfeil betyr at e-posten ble sendt til en ugyldig eller ikke-eksisterende e-postadresse. Crash Error Rate er en av nøkkelfaktorene som Internett-leverandører bruker for å bestemme avsenderens omdømme. Hvis du har mange av disse feilene, vil utsendelsene dine havne i søppelpostmappen.

Ikke skriv med store bokstaver

Å skrive hele ord med store bokstaver er som å rope til folk. Den store bokstaven fanger selvfølgelig oppmerksomheten. Men det irriterer mange og vekker ikke tillit, fordi det ofte brukes når du sender spam.
I følge forskning fra Radicati Group foretrekker mer enn 85 % av brukerne små bokstaver for emnelinjen. Effektive Caps Lock-alternativer – personalisering, relevant innhold og interessant tekst.

Ikke overbruk utropstegn

For mange utropstegn får e-poster til å se uprofesjonelle ut og ligne spam. 69 % av mottakerne merker en e-post som spam etter kun å ha lest emnet. Meldinger med flere utropstegn på rad havner først i Spam-mappen.

Ikke ta med videoer, flash-videoer eller JavaScript i e-posten din

Som standard lar de fleste e-postklienter deg ikke se multimediefiler som flash-filmer eller videoer. Bruk et bilde av videospilleren og en lenke til nettstedet. JavaScript og andre dynamiske skript er mer kompliserte. Selv om spamfilteret sender meldingen, vil e-postklienten blokkere skriptene, så det er bedre å avvise dem helt.

Ikke legg inn et skjema i brevet

De fleste e-postklienter støtter ikke skjemaer i e-postmeldinger av sikkerhetsgrunner. Inkluder en CTA eller en lenke til landingssiden der skjemaet er plassert i e-posten din.

Ikke legg ved vedlegg

Hvis du ønsker å sende en fil til kundene dine (for eksempel i PDF- eller Word-format), ikke legg den ved brevet. Ellers kan spamfiltre reagere på meldingen. Last opp dokumentet til nettstedet ditt og ta med en lenke i meldingen med en effektiv oppfordring til handling. På denne måten vil du beskytte e-posten din fra å havne i spam og redusere innlastingstiden for meldingen.

Ikke bruk ord som spamfiltre reagerer på

Velg ordene dine nøye når du skriver emnelinjen i e-posten. Filtre svarer på vanlige setninger som brukes i reklamemeldinger: «gratis», «garantert» osv. Vær kreativ med brevskrivingen: e-postmeldingen skal være interessant og informativ.

Ikke bruk rød skrift

Rød skrift eller usynlig tekst (hvit skrift på hvit bakgrunn) brukes ofte av spammere. Spamfiltre reagerer umiddelbart på slike triks. Abonnenter liker ikke fancy fonter og farger. I følge undersøkelser utført av Radicati Group, avviser mer enn 60 % av brukerne bruken av uvanlige fonter og forskjellige farger i nyhetsbrev. Nesten 70 % av brukerne foretrekker at tegnene skal ha samme størrelse.

Ikke gjør stavefeil

Radicati Group-studien fant også at 80 % av abonnentene finner stavefeil uakseptable. I tillegg er feil et signal for spamfiltre. Vær forsiktig og ikke glem å kontrollere stavemåten ved hjelp av spesialverktøy.

Ikke overbruk søkeord

Ikke prøv å sette inn så mange nøkkelord i teksten som mulig. Ingen ønsker å lese meldinger som er optimalisert for roboter. Slike brev har alle muligheter til å havne i «Spam»-mappen. Teksten skal være personlig, informativ og vennlig. Skriv gjerne på et enkelt og levende språk.
Et godt eksempel er en e-post fra den amerikanske treningskjeden Turnstyle Cycle. "Vi vil minne deg på at abonnementet ditt er i ferd med å utløpe. Vi vet at du er opptatt og vi ønsker ikke å skille deg. Ring oss hvis vi kan være til hjelp." En oppriktig og vennlig melding gir all nødvendig informasjon: datoen når abonnementet utløper og telefonnummeret for kommunikasjon.

Bildene skal ikke være for store og det skal ikke være mange av dem

E-poster overbelastet med bilder havner ofte i søppelpostmappen og åpner seg trege. I tillegg gjenkjenner ikke Microsoft Outlook bakgrunnsbilder. Bruk en bakgrunnsfarge i stedet for et bilde.

Oppdater og ryd opp i e-postlisten din

Selv om alle abonnentene dine har godtatt nyhetsbrevet, ikke glem hygienen til arket. Ellers kan Internett-leverandøren tro at du sender spam. Leverandører tar hensyn til klager fra aktive abonnenter og tar ikke hensyn til størrelsen på basen.

E-postadresser som ikke har vært brukt på lenge blir ofte spam-feller. Å gå i én slik felle vil ha en skadelig effekt på leveranseevnen.

Regelmessig hygiene av databasen reduserer sannsynligheten for at e-postlisten din blir flagget som spam. Inaktive abonnenter og ubrukte URL-er kan beregnes ved å analysere åpne rater, CTR og aktivitet på nettstedet.

Prøv å engasjere abonnenter som er inaktive eller av og til aktive

Å sende meldinger til inaktive abonnenter har en negativ innvirkning på leveringsevnen. Meldinger fra avsendere med lav leveringsgrad havner ofte i Spam-mappen uten å bli sett av mottakerne.
Kjør reaktiveringskampanjer. Spor brukeratferd (nettstedsbesøk, klikk på lenker osv.) og lag en trigger-e-postmelding som sendes hvis abonnenten er inaktiv i en viss tidsperiode. Kunder kan for eksempel være interessert i et eksklusivt tilbud eller en rabattkupong. Et annet alternativ er å inkludere en lenke til undersøkelsen i meldingen din slik at abonnenter kan fortelle hva de forventer av nyhetsbrevet.

Bruk doble abonnementer

Dobbel opt-in betyr at etter å ha abonnert, mottar brukeren en "bekreftelse" e-post med en spesiell lenke. Ved å klikke på den bekrefter abonnenten sitt samtykke til nyhetsbrevet. Som regel er brukere som har bekreftet sitt abonnement mer aktive og engasjerte.

Be abonnenter legge til din fra e-post i adresseboken

I det siste har filtrene blitt strengere, og ofte havner brev som er av interesse for abonnenter i spam-mappen. Men de fleste filtre lar deg legge til en adresse på hvitelisten. Minn abonnentene dine på å gjøre dette slik at de ikke går glipp av e-postene dine.

Legg til en avmeldingslenke i e-posten din

Muligheten til å enkelt melde seg ut er en viktig del av e-postmarkedsføring. Det vil tillate folk som ikke ønsker å motta nyhetsbrevet å melde seg av det. I noen land (for eksempel USA) er markedsførere lovpålagt å inkludere en avmeldingskobling i e-poster. I henhold til amerikansk lov må en abonnent kunne avslutte abonnementet ved å sende en e-post eller følge en lenke. Brukerne er vant til at utmeldingsinformasjon finnes nederst i brevet.

Ikke ignorer kansellering

b hans adresse fra databasen. Automatisering av denne prosessen vil spare deg for mye tid. Samtidig er det nødvendig å sikre full integrasjon av CRM og programvare som brukes til å lage utsendelser.

Skriv inn et kjent navn i "Avsender"-feltet

Mange åpner ikke e-poster fra ukjente avsendere. Bruk merkenavnet ditt for å hjelpe abonnenter med å forstå hvem de mottar meldinger fra. Enda bedre, lag et nyhetsbrev fra en ekte persons e-postadresse. Brukere stoler mer på personlig post enn bedriftspost.

Skriv inn navnet på abonnenten i "Til"-feltet

Dette vil vise at du kjenner mottakerens navn og unngå spamfilteret. I tillegg øker personalisering kundens engasjement.

Tilby to versjoner av e-posten din: uformatert og HTML

HTML gjør det mulig å lage e-poster med attraktive visuelle elementer. Hvis du samtidig tilbyr en ren tekstversjon av en e-postmelding uten formatering, gjør du livet enklere for både Internett-leverandører og abonnenter. De fleste moderne verktøy gjør det mulig å lage en tekstversjon av et brev på få minutter.

Når du jobber med HTML, ikke glem å sjekke at kodingen er riktig. På grunn av feil i taggene kan e-postleverandøren vurdere meldingen som spam.

Gi abonnenter muligheten til å se meldingen i en nettleser

E-postklienter viser noen ganger e-poster dårlig, selv om designene deres er feilfrie. Sørg for å inkludere en lenke i meldingen din som åpner den som en nettside.

Legg til tekst for bilder

Mange e-postklienter blokkerer bilder som standard. Mottakeren vil ikke se dem før de klikker på knappen eller endrer postboksinnstillingene. Alt-tekst hjelper brukeren å forstå meldingen selv om bildet ikke åpnes.

Det er spesielt ille hvis du bruker et bilde som en oppfordring til handling. Uten alt-teksten ser det slik ut:

Hvis du legger til tekst, vil abonnenten vite hvilken lenke som skal følges for å fullføre handlingen.

Du kan redigere teksten i redigeringsprogrammet for rik tekst (bare høyreklikk) eller skrive inn tekst manuelt i HTML-redigeringsprogrammet.

Hold e-poster korte

Lang tekst aktiverer spamfiltre og avviser abonnenter. Prøv å skrive kortfattede og livlige e-postmeldinger. Klarer du deg ikke uten et langt brev, del teksten inn i avsnitt og oppnå en tydelig struktur (innledning, brødtekst og avslutning).

Test e-post før sending

Når du oppretter en e-postliste, må du ta hensyn til særegenhetene til forskjellige e-postklienter og mobile enheter. I dag leser 53 % av brukerne e-post på mobile enheter. Å teste e-postlisten for hver e-postklient vil ta for lang tid, men de mest populære e-postklientene er definitivt verdt å sjekke ut. Litmus-eksperter undersøkte 1,06 milliarder e-poster og identifiserte de vanligste e-postklientene:

iPhone e-postapp (28 % av brukerne);
Gmail (16 % av brukerne);
e-postapp for iPad (11 % av brukerne);
e-postapplikasjon for Google Android (9 % av brukerne);
Outlook (9 % av brukerne).

Hvis mulig, se på hvordan brevet ser ut i forskjellige e-postklienter og på enheter som er populære blant målgruppen din.
Før du sender en melding til abonnenter, er det viktig å gjennomføre testing for å sikre at e-postlisten fungerer bra.

Gå for sendersertifisering

Sendersertifisering er prosessen der en tredjepart bekrefter avsendere av en e-postliste og bekrefter at de overholder visse regler. Som et resultat av dette er avsenderen inkludert i "Internettleverandørens hviteliste".

Overvåk omdømmet ditt

Leveranse av e-postlister avhenger mye av omdømmet til IP-adressen. Hvis IP-en du sender meldinger fra har et dårlig rykte, er det en risiko for at de ikke havner i innboksen. Se om adressen din er svartelistet.

Hold deg oppdatert med nye anti-spam-lover, ISP-retningslinjer og hvordan spamfiltre fungerer

E-postmarkedsføring er i stadig endring, og fagfolk må holde fingeren på pulsen: følge nye lover, tilpasse seg nye regler og bruke avansert teknologi.

Jeg kunne samle alle boksene mine i en haug. Men jeg fikk et problem, når alle meldinger kommer til én e-post, begynner du allerede å legge merke til spam. Og for lat til å klatre og slette spam for hånd, og filteret som allerede er innebygd i posttjenesten er ikke alltid fornøyd.

Hvorfor ikke lage en bot som renser e-post, spesielt siden spam er godt synlig av noen tegn?
Her er det jeg fremhevet, som er spam i mine øyne:
- alt er skrevet med store bokstaver
- meldinger der hovedideen er: porno, dating, kasino, penger osv.
- hvis noen sender post regelmessig og jeg ikke leser den

Helt i begynnelsen må du konfigurere imap php til å jobbe tett med e-post. Skriv deretter noen algoritmer, som i denne artikkelen vil ikke være optimalt siden alle trenger sitt eget filter (noen forventer for eksempel spam fra pornografiske nettsteder).

Det vil bare være ideer og informasjon for sinnet. Og for de som ønsker å sette sitt eget filter, vil det allerede være et fundament.

Begynne...

Det er tonnevis av artikler om hvordan du setter opp imap php, du kan søke etter dem. Jeg har Ubuntu, jeg løste dette spørsmålet på et par minutter og en liten endring i innstillingene.

Når du allerede har konfigurert imap, kan du koble den til.
// innstillinger for å koble til e-post
$ imapaddress = "(imap.gmail.com:993/imap/ssl)";
$ imapmainbox = "INBOKS";
$ maxmessagecount = 10;
$ user = "navn på e-post på gmail uten @ gmail.com";
$ passord = "langt og komplekst passord";

// vår funksjon som fjerner spam
spam_delete ($ imapaddress, $ imapmainbox, $ user, $ password, $ maxmessagecount);

Nå går vi til postkontoret og henter brevene. Når vi tok bokstaven deler vi opp hele teksten i ord og teller tallet. Så, i en løkke, tar vi etter ord og sjekker om dette ordet kan bekrefte at dette brevet er spam. Noen av punktene som etter min mening er spam er beskrevet ovenfor. Så finner vi sannsynligheten for at dette brevet er spam ved å bruke følgende formel:

Sannsynlighet = antall ord totalt i bokstaven/ordene som ikke bestod filteret

Slik er alt i kode:
funksjon spam_delete ($ imapaddress, $ imapmainbox, $ imapuser, $ imappassword, $ maxmessagecount)
{
$ imapaddressandbox = $ imapaddress. $ imapmainbox;

// åpne en e-postforbindelse
$ forbindelse = imap_open ($ imapaddressandbox, $ imapuser, $ imappassword)
eller dø ("Kan" ikke koble til "". $ imapaddress.
"" som bruker "". $ imapuser.
"" med passord "". $ imappassword.
"": ". imap_last_error ());

Ekko "Gmail-informasjon for". $ imapuser. "";

Ekko "Innboksoverskrifter \ n";
$ headers = imap_headers ($-tilkobling)
eller dø ("kan" ikke få overskrifter: ". imap_last_error ());

// telle antall e-poster på siden, vi kan vise maksimalt 10
$ totalmessagecount = sizeof ($ headers);

Ekko $ totalt antall meldinger. "meldinger";

Hvis ($ totalt antall meldinger<$maxmessagecount)
$ displaycount = $ total messagecount;
ellers
$ displaycount = $ maxmessagecount;

Ekko "Meldingslegemer \ n";
// gå til brevet, ta innholdet og se etter spam
for ($ count = 1; $ count<=$displaycount; $count+=1)
{
$ body = imap_fetchbody ($ tilkobling, $ count, "2");
// del opp hele bokstaven i ord
$ tekst = eksplodere ("", $ body);
$ spam = 0;
// tell antall ord
$ n = antall ($ tekst);
for ($ i = 0; $ i<$n;$i++) {
$ spam + = test_spam ($ tekst [$ i]) == 1: 1? 0;
}
// se hva sannsynligheten er for at dette er spam
// vi deler opp antall ord i mulige ord,
// som bekrefter at dette er spam
$ resultat = $ n / $ spam;
// hvis 50 % er spam, så slett
if ($ resultat> 0,5) (
imap_delete ($ tilkobling, $ count);
imap_expunge ($-tilkobling);
}
}
// lukk imap
imap_close ($-tilkobling);
}

Algoritmen for spamsjekk er veldig enkel, den er skrevet som et eksempel. Hvis du vil skrive en sterkere og smartere algoritme, anbefaler jeg deg å lese noen kapitler om spam i boken «Programming the Collective Intelligence», på Habré skrev de også om det.

Algoritmen gjør to ting:
1. Identifiserer ordene som oftest finnes i spam
2. Sjekker for sak, hvis alt er i den øverste, så er det mest sannsynlig spam.

Selve koden:
// spam sjekk funksjon
funksjon test_spam ($ string) (
// filterstadier
// sjekk etter nøkkelord
$ array = array ("porno" => 1, "dating" => 1, "casino" => 1, "kjøp" => 1);
if ($ array [$ string] == 1) (retur 1;)
// er det store bokstaver
if (strtolower ($-streng)! == $-streng) (
retur 1;
}
returner 0;
}
?>

Jeg testet det på to eksempler, det ser ut til å fungere ...

P.S. Jeg blir veldig glad for å høre hvordan du takler søppel. Hvis du finner en feil i koden, ikke bann for mye, dette er bare et eksempel og et grunnlag for å utvikle noe mer.

Som du allerede har lagt merke til, går jeg gradvis fra "White Paper"-formatet til "Trinn-for-steg-instruksjoner"-formatet. Og som svarene dine på min praktiske e-postliste "E-postmarkedsføring - penger på forespørsel" har vist, er dette det beste formatet å følge! I dag skal vi se på instruksjoner om hvordan du kan omgå spamfiltre.

Omgå SPAM-filtre: hvorfor er det viktig?

Omgåelsesmetoder for spamfilter blir mer og mer aktuelt hver dag.

Å ha en åpningsrate på 40% + og samtidig ikke falle inn i SPAM er kun mulig i 1 av 2 alternativer:

Du har en base på mindre enn 500 personer
Du har samlet inn en fersk database den siste uken

Posttjenester vet alt om deg og hvert trinn:

Antall døde e-postadresser i databasen din;
Hvor mange klager ble mottatt fra abonnenter
for den siste måneden;
Kjenn antall avsnitt i brevet ditt;
Åpningskurser er kjent;
Hvor mange abonnenter regelmessig
slette brevene dine;
Til hvilket avsnitt leser abonnenten brevet;
Hvor mye tid bruker mottakeren
å lese brevet;

Thunderbird spamfilter, Rambler spamfilter - disse er alle blomster.

Grunnlaget for å jobbe - mail.ru og yandex.ru - e-postleverandører, som okkuperer 70% + av hele markedet for e-postadresser. Det er viktigst å omgå disse spesielle spamfiltrene.

Det du leser nedenfor vil være nyttig for:

Forfattere som allerede driver utsendelser og ønsker å forbedre resultatene av e-postleveransen + blir bedre kjent med målgruppen for bedre samhandling med den.
De som ønsker å effektivt gjennomføre fremtidige utsendelser

Så hvordan omgår du spamfiltre? Hvor skal jeg begynne? Hvem skal jeg skrive til?

Trinn # 1 "I DOMENE"

Ikke sant:
[e-postbeskyttet] nettstedet

Ikke riktig:
[e-postbeskyttet]

Ved å bruke domenenavnet i avsenderens adresse, viser du din sanne identitet til leverandøren, det vil si domenet til nettstedet ditt, og ikke noen "Vasya" fra verftet, som i går nettopp registrerte en fysisk e-post for seg selv.

Tenk et sekund. Det er postleverandøren som bestemmer om du skal hoppe over brevet ditt til abonnenten eller ikke. Suksessen til utsendelsene dine avhenger av hva mail, yandex, gmail, rambler synes om utsendelsene dine. Du må spille etter reglene deres hvis du vil omgå outsiderne.

Trinn nummer 2 "Vurdering av situasjonen"

Analysene du observerer i e-posttjenestene dine er ikke sanne, siden det ikke er hovedkilden.

Du må registrere deg på 2 tjenester fra e-postleverandører, legge til domenet ditt og gå gjennom moderering:

https://postoffice.yandex.ru/
https://postmaster.mail.ru/

Dette vil være ditt andre tegn på oppmerksomhet til e-postleverandører!

Trinn nummer 3 "Digitalisering av basen"

Abonnentbasen din er som en film på plate.

Disk - abonnentbase
Filmer – Abonnentsegmenter

Så når du kjøper en lisensiert plate i en butikk, vet du at den ikke er falsk og at du "passer inn" med kvaliteten. Det blir ingen piratkopierte plater og annet tull. Det samme kan ikke sies om skivene som kjøpes på basaren.

Gjør databasen din "lisensiert" - skriv ned de viktigste tekniske parameterne som vil starte vennskapet ditt med e-postleverandører.

Hva trenger du for å registrere deg?

DMARC

Hvem kan gjøre dette?

Hoster
Tekniker (for eksempel layoutdesigner)

Trinn nummer 4 "Første kontakt"

Nå må du sjekke ut postkontor og postmester fra disse. Brukerstøtte. Fortell dem at du har alt satt opp, at du bruker hvite e-postlister og at du ønsker å bli bedre. Be dem om hjelp, spør hvordan du kan bli bedre.

Til hva?

Hilsen
Kir Ulanov.

P.S.: Vil du vite mer om å bekjempe spam?
Fortell meg nøyaktig hvor smerten din er konsentrert"? Legg igjen kommentaren din nedenfor.
slik at jeg forstår hva jeg skal lage til deg!

Prinsipper og teknikker for håndtering av uønsket korrespondanse

Ilya Segalovich ( [e-postbeskyttet]), Dmitry Teiblyum ( [e-postbeskyttet]), Alexander Dilevsky ( [e-postbeskyttet])

Introduksjon

Utelater de etiske og sosiale problemene knyttet til spam, i denne artikkelen vil vi fokusere på metodene for levering, metoder for oppdagelse og undertrykkelse. Deretter vil vi diskutere feilene som ofte oppstår når vi beskriver disse metodene og deres muligheter. I den siste delen av artikkelen vil jeg fortelle deg om Yandex sin "supershingle" - en ukomplisert teknisk metode for å oppdage bulkutsendelser brukt i Yandex.Mail.

Del 1. Levering av spam. Utvikling

For at spam skal nå postkassen din, må den leveres til deg. Siden vi ikke har kommet over en klar klassifisering av spam etter leveringsmåte (og resten av klassifiseringene koker ned til en enkel dikotomi: modifisering av spam og ikke-endrende spam av kundens tekst), vil vi prøve å kort beskrive dem her. Kanskje denne teksten vil virke altfor detaljert, men det virker interessant for oss å spore hvordan utviklerne av spam-programvare reagerte på utfordringen som anti-spam stilte til dem, og omvendt.

Spam er ungt. Det dukket opp rundt 1997 som et aktivt markedsføringsverktøy. Opprinnelsesdatoen kan bedømmes etter øyeblikket da Paul Vixie opprettet RBL. RBL er historisk sett det første seriøse forsøket på å bekjempe spam. Se http://www.wikipedia.org/wiki/DNSBL.

Utviklingen av tekniske typer spam er 100 prosent drevet av utviklingen av anti-spam-verktøy. Og historien her utvikler seg raskt, gradvis. I løpet av de siste to årene ser det ut til at flere arrangementer har funnet sted i den enn i alle de foregående.

De første formene for spam var rett og slett direktereklame. Slik spam blokkeres ganske enkelt, og spammere begynte å bruke åpne e-postreléer, det vil si vanlige e-postservere som lar en vilkårlig bruker bruke tjenesten for å sende brev til en annen server. Legg merke til at det rett og slett ikke var noen andre releer på den tiden, og selve konseptet med "åpne releer" oppsto først etter at spam dukket opp og de begynte å bli lukket helt.

Slike åpne releer er enkle nok å oppdage, de begynte å aktivt søke og blokkere. Etter det gikk direktereklame inn i en renessanse - spam begynte å bli sendt fra oppringninger, og for å blokkere det, måtte systemadministratorer finne ut og blokkere IP-modempoolene til hovedleverandørene.

Proxy-servere. Sokker og HTTP

For litt mer enn 2 år siden dukket mer sofistikerte måter å bruke andres, unøyaktig konfigurerte servere opp som et merkbart fenomen.

Socks proxy-servere er designet for å samle all Internett-trafikk for små bedrifter til en enkelt maskin som har Internett-tilgang. De bruker vanligvis port 1080 for å fungere. Hvis en maskin tillater en uautorisert tilkobling fra en vilkårlig IP-adresse (en typisk situasjon i pre-spam-tiden), kan spammere også bruke den til å rute SMTP-trafikken. Det er interessant å merke seg at brukerlogger for socks-server vanligvis ikke føres, så det er ofte umulig for socks-serveradministratorer å spore sanne e-postkilder selv.

Nesten umiddelbart ble det oppdaget at standard åpne HTTP-proxyer (typiske porter 3128, 8080, etc.) som støtter CONNECT-metoden er enkle å bruke for det samme, det er nok å spesifisere ikke bare servernavnet i CONNECT-kommandoen, men også å sette 25. postport. Selv den elskede "populære" webserveren Apache, bygget med mod_proxy-modulen og feilkonfigurert, brukes ofte som et middel til å sende spam.

Hackede biler. Standard programvare. Modifisert programvare. Endring av porter og lyttetid. Trojanske hester.

Etter å ha brukt opp mulighetene for å finne uaktsomme administratorer, begynte spammere å hacke alle tilgjengelige datamaskiner for omtrent et år siden eller litt mer og installere en av tjenestene ovenfor på dem: SMTP-reléer eller proxyer. Legg til dette den eksplosive veksten av kabelforbindelser i USA og en del Brasil (Russland er en bagatell sammenlignet med USA og samme Brasil), til tross for at Windows ikke har en brannmur aktivert som standard, kan administratorer av lokal kabel og DSL-nettverk beskytter ikke brukerne på grunn av deres lave kvalifikasjoner, og hundre "relativt ærlige" og veldokumenterte metoder for å hacke ubeskyttede Windows-maskiner trykker Hacker-magasinet i annenhver utgave, og du vil få et nesten ubegrenset aktivitetsfelt for en hacker. Den siste og kraftigste bølgen av hacks kommer fra P2P-nettverk som Kazaa og e-postvirus som Sobig, som har et "spammers arbeidssett" i koden.

Jeg må si at den dårlige sikkerheten til slike nettverk ikke alltid kommer fra de lave kvalifikasjonene til administratorer. Noen ganger skjer dette på grunn av "politiske" årsaker: ganske kvalifiserte administratorer av leverandøren mener at de bare er ansvarlige for forbindelsen, og alt annet er klientens problem. Selv i Russland er det sjelden å finne et hjemmenettverk beskyttet av en brannmur, og enda mer er det nesten umulig å se en påminnelse i et notat til en klient av et slikt nettverk om at en brannmur må installeres i Windows.

Men ved å sette opp et åpent relé eller proxy, risikerer spammeren å være veldig lett å oppdage. Enhver administrator trenger bare å kontakte en mistenkelig maskin som bruker en av de kjente portene og sørge for at den er tillatt uten autorisasjon (denne prosedyren kalles "oppringing") for å legge denne maskinen til svartelisten. Derfor har spammere, spesielt de siste seks månedene eller et år, begynt å endre oppførselen til kompromitterte maskiner.

Hvis e-postdemonen bare aksepterer forespørsler fra IP-en til eieren og/eller sovner og våkner i henhold til en utspekulert algoritme, og/eller hele tiden endrer porten som kommandoer og bokstaver mottas på, så direkte gjenkjenning av slike maskiner ved å ringe en vanlig administrator er veldig vanskelig. Tross alt, å ringe alle 65536 TCP-portene til en potensielt kompromittert maskin, tar det tid - omtrent en halv time, i løpet av denne tiden kan den bytte port, sovne osv. etc.

Imidlertid kan det som er utilgjengelig for en ekstern administrator eller et eksternt anti-spam-team fortsatt gjøres av ISPens administratorer. De kan overvåke den merkelige oppførselen til klientmaskiner, som, etter å ha lyttet til en innkommende tilkobling på en uvanlig port, begynner å aktivt sende e-post til forskjellige adresser. Slik overvåking er ikke veldig vanskelig å organisere.

Spam-programvare er under utvikling. Relativt uskyldig direktereklameprogramvare (for eksempel Advanced Mail Sender), der en spammer omgår en leverandørs server adresserer mål-MTA direkte fra et hjemmemodem, er erstattet av avanserte komplekse systemer, hvis topp er trojanske hester av en bred vifte. rekke handlinger. Mulighetene deres inkluderer til og med oppgradering av seg selv, automatisk distribusjon, flytting til andre jailbroken maskiner, etc.

For eksempel er funksjonen til en slik trojansk hest å gå via HTTP til adressen som er registrert i den på et spesifisert tidspunkt, ta lister over adresser og brev derfra, sende post og finne ut tid og sted for neste samtale. Noen ganger lytter trojanere på IRC-kanaler og mottar kommandoer derfra. Dette lar deg skjule kilden til kommandoene. I motsetning til HTTP, hvor opprettelsen av et nettsted eller opplasting av nye filer er ganske enkelt å spore, kan meldinger til IRC-kanalen overføres gjennom hvilken som helst av serverne i IRC-nettverket, og for å spore kilden må du raskt få tilgang til loggene til alle servere samtidig. Generelt er det mange måter å skjule en trojansk hest på: bruk ikke-standardiserte porter, kontroller, protokoller, etc. etc.

Muligheter for aktiv deteksjon av kompromitterte maskiner

I teorien (og i praksis) er distribusjonsmetoden, der den kompromitterte maskinen selv får tilgang til HTTP eller IRC for e-post og aldri blir lyttet til, den vanskeligste å oppdage. Det er nesten umulig å forstå hva de gjør, hva er deres grensesnitt med spammere, for å si det sånn. For eksempel er en trojaner kjent for å installere standard proxyer og SMTP på ikke-standard porter. Vanligvis er dette den eneste informasjonen om denne trojaneren. Infiserte brukere og deres leverandører er kun interessert i hvordan man fjerner trojaneren – og antivirusprogrammer lærer seg raskt å gjøre dette. For en mer eller mindre seriøs kamp mot spam, er det mer interessant å vite hvem som distribuerer denne trojaneren og hvordan den gjør det. For slike avklaringer er administratorer av nettverk der det er infiserte maskiner nyttige. For eksempel, hvis en trojaner av en eller annen grunn går et sted via HTTP, er det for det første nødvendig å oppdage denne appellen og dens innhold, så vel som responsen fra den andre siden, og for det andre å spore innkommende forbindelser med den, deres kilder og essens.

Heldigvis har spammere også en arbeidsdeling - kategorien "crackers" har blitt et eget yrke, og lister over IP-adresser er varen og gjenstand for salg og kjøp. Kjøperne er «postlistene». Samtidig spiller standarditeten til den installerte programvaren en viktig rolle. Det er mye mer praktisk for "e-postlister" å jobbe med en vanlig liste uten å bekymre deg for oppførselen til denne eller den utspekulerte trojaneren. Derfor har sofistikerte og avanserte trojanske hester ennå ikke blitt for utbredt. Men mengden spam vokser eksponentielt så langt - så det kan hende at vi allerede har mottatt det, men vi har ikke innsett det ennå.

Det er mulig at proxyer og releer til slutt vil gå ut av stilen, ringing vil bli mindre og mindre effektive midler, og den eneste måten å identifisere et annet sort hull på vil være å oppdage spam sendt fra det.

Organisatorisk innsats for å bekjempe spam

Man hører ofte om en fremtidig e-postprotokoll, etter implementeringen vil spam forsvinne. Jeg vil gjerne legge til litt sunn skepsis til denne ideen.

Nettverksfellesskapet har ennå ikke vært i stand til å implementere de enkleste anti-spam-teknikkene, som det selv har etablert som standard. For eksempel å dele portene til SMTP-serveren i en port for MTA (25: motta e-post fra en utenlandsk server for å lagre til brukeren; "kommunikasjon mellom servere") og MSA (587: motta et brev fra brukeren til å sende til en utenlandsk server; "kommunikasjon mellom brukeren og serveren "). Denne ideen, så vel som SMTP-godkjenning, dukket opp nettopp som en reaksjon på fremveksten av spam.

Det har gått mye tid, men port 587 har ikke dukket opp i populære e-postprogrammer som Outlook Express eller The Bat! Men dette enkleste tiltaket vil tillate tilbydere å ganske enkelt lukke alle utgående tilkoblinger på port 25 og fullstendig eliminere direkte kortspam – spam fra oppringte tilkoblinger. Som du vet koster et Internett-kort $ 5, det er nok i 10 nattetimer, i løpet av denne tiden kan du sende ti tusen brev og gå for å kjøpe et nytt kort, og det gamle (allerede unødvendige) vil bli blokkert av en forbanna av leverandør.

Det er ingen tekniske hindringer for å konfigurere e-postserveren slik at den ikke aksepterer post fra «farlige fremmede» og blokkerer både «kortspam» og svarte hull. Det er nok for eksempel å aktivere og konfigurere SSL-protokollen innebygd i en hvilken som helst SMTP-server slik at den avviser usertifiserte tilkoblinger. Shar også eksistert i lang tid. For $ 50-100 per år for en e-postserver kan du kjøpe dem fra Thawte eller Verisign. Dessverre, med denne innstillingen, vil du slutte å motta e-post helt, siden selvfølgelig ingen har sertifikater.

Du kan sannsynligvis komme opp med en ny protokoll. Men det vil bare fungere hvis alle postsystemer overføres til det samtidig. Ellers vil de som bytter til det bli isolert fra de som ikke har byttet. Med andre ord, for at du skal lære å svømme i et basseng, må noen først helle vann i det. Imidlertid ligner det moderne Internett det samme galehuset der vann helles først etter at du har lært å svømme.

Produksjon: åpenbart kan ikke spam beseires med en "god" protokoll. Men spam kan bli beseiret av felles innsats fra anti-spam-programvare, tilbakemeldingssystemer, koordinerte handlinger fra leverandører, etc. Og dette vil bli diskutert nedenfor.

Del 2. Metoder for å bekjempe spam

Du kan finne forskjellige beskrivelser (faktisk klassifiseringer) av anti-spam-verktøy. Siden programmet alltid er "Algorithm + Data Structure", bør klassifiseringen av programmer være riktig basert på typen data som brukes og algoritmene som brukes. Det er det vi vil prøve å gjøre nedenfor.

Det finnes imidlertid beskrivelser basert på et ønske om å fremme egen teknologi. Dette skaper ofte et forvrengt bilde som villeder brukerne. Vi vil også prøve å ta hensyn til kritikk av slike bilder.

Spamfiltreringsoppgave

Oppgaven som spam-detektoren løser etter innhold: å skille den innkommende strømmen av meldinger i spam og vanlig post, Spam og Ham på engelsk sjargong.

Innledende data

Dataene som brukes til analysen er alle tegn på et innkommende brev. De kan deles inn i fire rom, der løsninger kan beregnes uavhengig:

Avsenderserverens IP-adresse
design og stil på bokstaver, overskrifter, formatering, karakteristiske fraser
ordstatistikk i bokstaver
kontrollsummer ("signaturer") av meldingstekster

Naturligvis er funksjonsplassen for hvert datasett bare begrenset til "interessante" funksjoner.

En spesifikk antispammodul kan bruke alle disse funksjonsplassene eller bare 1-2 av dem. Vi vil diskutere ulempene og fordelene ved hver av funksjonsplassene nedenfor. For nå, la oss ta hensyn til den nødvendige tilstedeværelsen av ytterligere to komponenter av "maskinlæringsproblemet", et klassisk eksempel på dette er en spam-detektor, nemlig: treningsprøve og tilbakemelding.

Merk at, i motsetning til ordmellomrom eller designelementer, når du identifiserer søppelpost etter IP-adresse, tas en avgjørelse basert på et enkelt "attributt. Veiing på adressen utføres vanligvis ikke, derfor er justering av veiemekanismen på treningsprøven ikke nødvendig. Men uten tilbakemelding (i tilfelle av IP, uten en stadig voksende liste over sorte hull), kan en tilfredsstillende arbeidsmekanisme ikke bygges på noen av de ovennevnte plassene.

Feil av den første og andre typen

For at maskinlæring skal fungere, må den rapportere feil. Feil er av to typer. Feil av den første typen: hoppe over spam, det vil si å hoppe over en spam-melding. Med andre ord, utilstrekkelig fullstendighet av metoden. En feil av den andre typen er falske positiver når ikke-spam feilaktig omtales som spam. Med andre ord nøyaktigheten til metoden.

Naturligvis prioriteres det å minimere antall falske positiver ved oppsett av algoritmen. Et vanlig krav for en spam-detektor er å holde seg innenfor noen få ppm. Det antas at det er bedre å la brukeren lese flere spam-e-poster enn å skjule den virkelige e-posten for dem.

Integrert kvalitetsindeks

Prosentandelen av spam som er oppdaget er et mål på fullstendighet, og prosentandelen av falske positive er et mål på unøyaktighet. Det er ikke vanskelig å tilby en integrert kvalitetsvurdering, la oss kalle det filtreringskvaliteten. Selvfølgelig, med en nøyaktighet nær 100%, vil kvaliteten være omtrent lik fullstendigheten. Det er nettopp fullstendigheten av filtreringen som ofte kalles når visse tall er stemt, noe som antyder at nøyaktigheten er nesten absolutt.

Samtidig bør det forstås at alvorlighetsgraden av oppfatningen av den andre typen feil avhenger av arten av brevene som kommer inn i postkassen og brukerens individuelle preferanser: folk som diskuterer transaksjoner på flere millioner dollar i posten reagerer på feil av den andre typen mye mer smertefulle enn kundestøttetjenesten og, desto mer, leserne av e-postlisten med anekdoter.

Falske positive. Ulike tilnærminger

Hva som skjer i tilfelle feil av den andre typen er ganske viktig - mengden skade forårsaket av disse feilene avhenger av dette, og derfor kravene til antallet.

Følgende filterreaksjoner på oppdaget spam er mulig:

brevet avvises av e-postserveren; samtidig, hvis det faktisk var et "legitimt" brev, vil avsenderen motta en melding om det;

brevet er plassert i en spesiell mappe; brukeren har en sjanse til å se inn i denne mappen og se der en feilfiltrert melding;

brevet "slettes" som om det aldri har eksistert; ingen vet om noe.

Scenario (3) er det farligste; Heldigvis bruker e-postserveradministratorer det nesten aldri. Men fra de populære tekstene, som vi skal snakke om nedenfor, ser det ofte ut til at det er han som blir brukt.

Scenario (2) på den ene siden har en tendens til å degenerere til (3) hvis filterkvaliteten er god. På den annen side reduserer vanlige brukerskanninger av spam-mappen nytten av filtrering, selv om dette gjøres mye sjeldnere, overfladiske skanninger osv. I et slikt scenario er imidlertid skaden fra type II-feil minimal og tilbakemeldinger maksimal.

Scenario (1) er en tradisjonell versjon for "klassisk" filtrering etter IP-adresser. I motsetning til (2) degenererer den ikke til (3), men belastningen på serveren øker betydelig dersom innholdet i meldingen brukes i filteret.

Mellomsone - "halv spam"

Et veldig viktig og ofte misforstått problem er at spam og ikke-spam overlapper hverandre i svært stor grad.

Utsendelser som er vanskelige å melde seg av, men som du likevel (ser det?) abonnerer på. Abonnementer som oppstår ved registrering uten din viten. Tallrike kvitteringer på dumme antispam- og antivirusprogrammer. Autosvar. Utsendelser laget av spammere ved hjelp av nettskjemaer fra offentlige, fullstendig ikke-spam-netttjenester, men likevel dårlig beskyttet mot inntrenging. For eksempel postkort eller invitasjoner til å bli med i dette eller det nettsamfunnet – selv forfatteren kan ikke forstå ut fra teksten i et slikt brev om det er spam eller ikke. All slik korrespondanse kan trygt klassifiseres som "semi-spam".

Volumet av denne sonen er veldig, veldig betydelig.

Før starten av neste trinn av arbeidet med anti-spamfiltrering, utførte Yandex en studie. Det ble foretatt en manuell analyse på et ganske representativt utvalg på 5151 brev sendt til 300 adresser. Så, situasjonene da den sjekkende outsideren, ved å bruke all kraften til sin naturlige intelligens for å ta en beslutning, henviste brevet til en slik "mellomsone" utgjorde opptil 40 prosent! Samtidig var regelen for en slik oppgave ganske forsiktig:

... Et "semi-spam" brev er et brev fra en kjent sensor fungerer virkelig butikk eller netttjeneste der brukeren mest sannsynlig ble registrert. ...

Hvilken konklusjon kan man trekke av dette? Selv om man tar i betraktning de statistiske skjevhetene som ligger i offentlig nettpost, er det mulig å prøve å forutsi den maksimale teoretiske grensen for kvaliteten på ikke-personlig tilpasset spamfiltrering. Tross alt er oppgaven til et ikke-personlig program å simulere oppførselen til den mest objektive ukjente observatøren som verken vet om lidenskapene dine eller om abonnementene dine!

Den andre konklusjonen er som følger. Prøv å ikke tro på påstandene fra skaperne av ikke-personlige anti-spam-produkter som hevder at filtreringskvaliteten er 95 eller 98 prosent. I et ikke-personlig antispamsystem som kun kjenner preferansene til den gjennomsnittlige brukeren, virker dette tallet teoretisk uoppnåelig.

Tilbakemelding

I alle fall er nøkkelspørsmålet for ethvert fullverdig antispam-system å bestemme hvor man skal få informasjon om feil av den første og andre typen. Åpenbart er en klage på spam eller en forespørsel om å blokkere en adresse en slags tilbakemelding for feil av den første typen. Tilbakemelding på feil av den andre typen er også mulig og svært ønskelig.

Implementering av tilbakemeldinger

I grensesnittet til de fleste moderne offentlige nettposter (Hotmail, Yandex, Yahoo, Oddpost) er det en spesiell mappe som brukes til å akkumulere "halvspam" og ikke veldig pålitelig oppdaget spam, samt en "rehabiliteringsknapp" som informerer systemet om en falsk positiv.

Nylig opprettede stasjonære e-postklienter har også tilbakemeldinger av både den første og andre typen. Vanligvis i form av en "dette er spam" / "dette er ikke spam"-knapp.

Dessverre støtter flere populære e-postklienter fortsatt ikke full tilbakemelding. For eksempel alle Microsoft e-postprogrammer, hvis grensesnitt og sett med funksjoner ikke har endret seg de siste 5 årene (men det er skrevet mange plugins for dem som kan, om enn på en ubeleilig måte, men fylle denne mangelen), eller noen offentlige posttjenester der det motsatte ikke er implementert kommunikasjon med brukeren.

Teknikker på protokollnivå

Bortsett fra metodene som kun analyserer dataene til et innkommende brev, er det noen ganske populære teknikker som setter en spesiell måte for interaksjon mellom e-postprogrammer.

Et brev som "Beklager, vi har ikke korrespondert med deg, vennligst bekreft at du ikke er en spammer" sendes til ukjente avsendere. Ved mottak av bekreftelse legger programmet til avsenderens adresse på hvitelisten. Det er også kjente implementeringer av denne ganske gamle ideen: TMDA og WinAntiSPAM.

En ganske fersk idé er grålisting. Essensen ligger i det faktum at serveren svarer på noen bokstaver ikke med "OK" eller "avvist", som vanlig, men med en "midlertidig feil". Dette fungerer i seg selv veldig bra (så langt), fordi "gode" e-postservere vil prøve å levere brevet etter en stund (de er forpliktet til dette), og spammere (foreløpig) ikke. Dessuten kan man håpe at hvis spammere prøver å gjenta leveringsforsøk som vanlige servere, så vil de i løpet av denne tiden ha tid til å bli svartelistet. Gjenoppkoblingstiden er vanligvis en halv time, og dette er generelt sett ikke kritisk, spesielt siden det kun gjelder den første korrespondansen mellom to ukjente parter, siden tidligere verifiserte adresser ikke sjekkes, og bekreftelsesforespørsler bufres og ikke sendes igjen .

Kontrollere riktigheten av avsenderens adresse (konvolutt-fra). Domeneeksistenssjekken ble satt inn i de fleste servere for lenge siden, og den fungerer fortsatt av og til, selv om effektiviteten nå er lav. Nå har mange begynt å sette inn hele adressesjekken. Selv om dette er ganske kostbart med tanke på ressurser - for dette må du kontakte serveren som adressen ligger på, og et meningsfylt svar er ikke garantert, men i det minste for nå fungerer det bra.

Algoritmer

Som du kan se fra tabellen nedenfor, er datastrømmene svært forskjellige for ulike typer funksjoner. La oss vurdere dem separat

IP-sjekk. DNS-sone. Svartelistenavn som en integrert funksjon

Den enkleste å implementere, og absolutt av denne grunn den mest populære, er filtrering etter IP-adresseområdet. For hver bokstav må du sjekke 1 (sjelden flere) IP-adresse, dette gjøres nå ved å bruke en spesiell DNS-sone for hver av svartelistene. Et DNS-oppslag er egentlig en enkel hash-funksjon. Noen av listene er tillatt å laste ned, og for effektiviteten er det rimelig å opprette slike soner på en lokal DNS-server.

Hva mer er karakteristisk for denne funksjonsplassen? Først utmerket tilbakemelding.

For det andre er det det mest ustabile og flytende rommet av funksjoner, som er preget av konstant forsvinning og tillegg av adresser. Følgelig er det ganske dyrt og lite effektivt å beregne den individuelle vektingsfaktoren for hver IP: det er for lite data, og adressene endres hele tiden.

Derfor er den enkleste måten å redusere dimensjonen på denne plassen på å erstatte en individuell IP-adresse med listen der den er funnet. Prinsippene for dannelse, pålitelighet og anvendelighet av lister i den første tilnærmingen kan betraktes som enhetlige for alle "hans" IP-adresser.

Lave beregningskostnader, enkelhet og strømlinjeforming av datautvekslingsprosedyrer og deres små volum, entydige data (IP er nesten umulig å forfalske). Alle disse faktorene spiller en avgjørende rolle i dominansen til denne funksjonen i anti-spam programvare.

Bayesiansk ordfiltrering

En veldig enkel, intuitiv metode for "overvåket maskinlæring" (det vil si i nærvær av en Spam & Ham-prøve) er den naive Bayesianske klassifiseringen. Det kalles "naivt" fordi det går ut fra antagelsen om gjensidig uavhengighet av funksjoner, og merkelig nok er dette ofte nok. Bruken av Bayes' formel for å filtrere spam ble foreslått helt nylig, for omtrent et år siden.

Forfatteren, Paul Graham, ment det for personlig filtrering. For arbeid kreves det at det klassifiserte objektet har nok funksjoner. Dette kravet tilfredsstilles ideelt sett av alle ord (eller symboler) i bokstavene til en gitt bruker, unntatt kanskje svært sjelden og veldig korte. Det andre kravet er konstant omskolering og påfyll av Spam + Ham-samlingen. Alle slike forhold fungerer perfekt i lokale e-postklienter som støtter denne algoritmen.

Dessverre er det vanskelig å bruke den Bayesianske metoden direkte, direkte under forholdene til en masseposttjeneste, hovedsakelig på grunn av det store utvalget av ordforråd i klientpostkasser. Så på grunn av det faktum at treningsprøven sannsynligvis vil inneholde mye turistspam, kan alle brev, for eksempel fra et reisebyrå, klassifiseres som spam. Andre metoder for tekstklassifisering etter ord, mer tradisjonelle for vitenskapen om informasjonsinnhenting (for eksempel Rocchio-metoden eller støttevektormaskinen), kan heller ikke hjelpe her. Det ser imidlertid ut til at det er mulig å på en eller annen måte bruke sannsynligheten for å tilskrive et brev til gjennomsnittlig statistisk spam (eller et annet mål på tekstlig likhet) oppnådd ved å analysere ordforrådets sammensetning i massetjenester.

Genetiske algoritmer og manuelle vekter

Som et resultat av den store innsatsen fra mange mennesker, ble et stort antall forskjellige heuristikker knyttet til særegenhetene til overskriftene til spambrev, deres design, karakteristiske stilistiske svinger og typiske fraser avslørt. Det totale antallet slike funksjoner i det velkjente SpamAssassin-filteret nærmer seg for eksempel tusen. Dessverre, til tross for at nesten hver spam-melding inneholder minst flere slike funksjoner, er det umulig å bygge en stabil Bayesiansk automat over plassen til slike funksjoner. Det er to grunner:

for få tegn finnes vanligvis i én bokstav

det er ingen balansering, det vil si at det ikke er nok tegn på ikke-spam.

Under disse forholdene brukes andre algoritmer. For eksempel bruker SpamAssassin en genetisk algoritme. I den begynner utvalget med en tilfeldig innstilling av vekter for hver egenskap (opprettelsen av "kromosomer"), og deretter blir kromosomene "krysset" og "mutert" på jakt etter de optimale verdiene til vektene for en gitt testprøve. Det optimale (i teorien) er kanskje ikke globalt, men lokalt, men dette er vanligvis mer enn nok.

Det praktiseres ofte å manuelt sette vekter for hver attributt, fordi antallet er forutsigbart, og erfarne administratorer er i stand til å overvåke og konstant justere spamfiltreringen for bedriftens e-post.

Replay-deteksjon og massesignatur

Hvis anti-spam-systemet håndterer en stor strøm av e-poster, kan og bør det prøve å finne dupliserte e-poster. For det første kan du på denne måten fange opp meldinger som allerede er kjent (merket tidligere) som spam. For det andre er massekarakteren til en melding i seg selv et integrert tegn på spam. Av uttalelsen om at et brev er spam, følger det uunngåelig at det er massivt. Derfor er et tegn på massekarakter en nødvendig, men ikke en tilstrekkelig betingelse for spam.

Strengt tatt kan enkeltstående uønskede meldinger også betraktes som spam, men det er fornuftig å bekjempe dem ved hjelp av enkeltmetoder, så for denne artikkelen kan du trygt godta denne antagelsen.

Et interessant emne er den praktiske implementeringen av massekorrespondansedeteksjon. Forsøk på å etablere distribuerte systemer for utveksling av sjekksummer av brev, utført innenfor rammen av prosjekter som DCC (flere sjekksummer for teksten og overskriftene til brevet) eller Wypools Razor (en "fuzzy" sjekksum) går for tiden inn i de generelle begrensningene av P2P-teknologier når det gjelder ytelse ... Poenget er at for å gi sanntids replay-statistikk, er systemdeltakere tvunget til å opprettholde en modus for konstant utveksling av denne informasjonen. På tidspunktet for et spam-angrep blir reaksjonshastigheten til slike systemer uakseptabelt langsom. Tilsynelatende kan effektiv bruk av replay-deteksjonssystemet så langt bare sies i systemer med en veldig stor flyt av brev, fra store leverandører eller på offentlige e-postservere, for eksempel webpost.

Ulike metoder for å oppdage gjentakelser vil bli diskutert i siste del av dette innlegget. Så langt kan man bare legge merke til at tegnet på massekarakter fungerer som en god faktor både i seg selv og i ulike integrerende systemer.

Integrering av systemer

Ingen enkelt sett med funksjoner er i stand til å gi maksimal kvalitet på filtrering. Selvfølgelig vil systemer som integrerer løsninger over alle funksjonsrom ha en fordel her.

Pioneren her er SpamAssassin, som lar deg bruke både en genetisk algoritme og manuell vekting over ikke bare ditt eget eller "tilpassede" sett med flagg, men også ta hensyn til Bayesiansk tekstlikhet, og ta hensyn til interaksjonen med DCC-utsendelsen deteksjonsmodul.

Et eget spørsmål er hvilken algoritme som skal fungere ved den endelige beslutningsprosessen.

Filtrer applikasjonspunkter

I tillegg til forskjeller i inngangsdata, algoritmer og typer tilbakemeldinger, må antispamverktøy skilles ut etter bruksstedet. Det er to slike steder: e-postserveren og klientdatamaskinen.

Filtrering på serversiden: IP-metodens rike

Serveren er preget av en stor flyt av brev, den kan gi garantert ytelse, den har konstant kommunikasjon med andre servere. Når volumet av meldinger overstiger et visst nivå, kan du begynne å oppdage utsendelser. På servere er tilsynelatende den Bayesianske algoritmen for teksten til brevet ubrukelig i sin rene form (se ovenfor).

Den mest standard, lett implementerte og relativt effektive metoden er imidlertid IP-filtrering, og gitt disse omstendighetene er denne metoden for tiden dominerende. Du kan forvente utseendet til filtreringsmidler også av andre grunner.

Hindringen for å ta i bruk metoder basert på analyse av skriving er dilemmaet med diagnose og tilbakemelding. Anta at serveren ikke støtter tilpassede mapper for oppsamling av søppelpost. I dette tilfellet er serveren forpliktet til å utstede diagnostikk (550) for alle filtrerte meldinger uten unntak etter hvert som de mottas, noe som stiller strenge ytelseskrav til analysesystemet.

Klientfiltrering: Bayes rike

Klienten har et helt annet bilde. Det er en liten dataflyt, ukjent datamaskinytelse, mangel på konstant tilkobling til Internett - det vil si at det er umulig eller for dyrt å konstant "laste opp" arrays av sjekksummer av bokstaver eller IP-svarte hull. Men du kan veldig nøyaktig skille andres bokstaver, de ser alltid ikke ut som dine bare i teksten; Det er lett å finne ut "smaken" til én bruker. Av alle disse grunnene er antispam-programmer på klientsiden Bayesiansk rike.

Del 3. Forsiktig markedsføring

Som vi allerede har sagt, når man beskriver og klassifiserer anti-spam-verktøy, bør man gå ut fra forskjellene i dataene som brukes, algoritmer og tilbakemeldingsmetoder. Imidlertid kan du ofte komme over feil beskrivelser av anti-spam-verktøy, deres muligheter og bruksområde, forårsaket av markedsføringsårsaker. Spesielt publiserer skaperne av ulike programvareprodukter artikler der ikke-eksisterende mangler og begrensninger tilskrives nesten alle filtreringsmetoder bortsett fra deres egne. Vi ønsker å beskytte omdømmet til disse metodene i denne delen.

ISP Anti-Spam-teknikker

Fra reklameartikler er det for det første umulig å forstå hva som skjer når man filtrerer meldinger etter IP-adresse. Leserne blir i hovedsak fortalt det apokalyptiske bildet som bokstaver faller gjennom til ingensteds; multimillion-dollar kontrakter mislykkes, etc. etc.

Tilbydere som oppfører seg i henhold til et slikt scenario (scenario (3) - se ovenfor) eksisterer imidlertid ikke i praksis (vi kjenner ikke NOEN slik tilbyder). Alle e-postservere vi kjenner til svarer med forståelig diagnostikk (returnert av avsenderserveren til forfatteren av brevet) på et forsøk på å koble til fra en IP-adresse fra svartelisten. For eksempel (verste tilfelle):

Meldingen din til cmail.yandex.ru ble avvist.
Jeg sa:
RCPT til: [e-postbeskyttet]
Og cmail.yandex.ru svarte med
550 5.7.1 [e-postbeskyttet] Spamkilde.

Hvis listen over svarte hull er offisielt publisert og vedlikeholdt, er det vanlig å angi URL-en til siden i diagnosemeldingen til SMTP-serveren, hvor du kan få en detaljert forklaring på hvorfor denne IP-adressen ble svartelistet. Dessuten skjedde alle skandalene vi vet om blokkeringen på Runet akkurat da de "offisielle spammerne" mottok en slik kvittering og begynte å føle seg forringet.

I forlengelse av den samme ideen, krediteres tilbydere å bruke en slags hemmelige, aldri publiserte, hemmelige svartelister.

Faktisk er det selvfølgelig ingen "hemmelige" lister.

Internett-leverandører har sine egne oppføringer, som de ikke publiserer, hovedsakelig fordi publisering er et kostbart trinn som krever regelmessige oppdateringer, støtte og generelt noen ressurs. I tillegg er det i vårt land ikke veldig vanlig å publisere upartiske uttalelser om noen selskaper (som faktisk er en offentlig "svarteliste"). Det er nødvendig å ta stilling til dette separat.

Noe ble gjort i denne retningen - det var et slikt initiativ DRBL. Men det som viste seg, var tilsynelatende for rått til å bli brukt massivt. Likevel vil enhver bruker som sendte et brev fra en blokkert adresse motta en serverkvittering i tilfelle manglende levering, med en klar indikasjon på årsaken til avslag på tjenesten - "feil 550, tilkobling nektet, kilde til spam" - se ovenfor. Riktignok må denne meldingen være på engelsk.

Dermed er disse dataene ikke skjult på noen måte. Denne virkemåten kreves av SMTP-standarden.

Dette forklarer også påstandene om at tilbydere stadig fører kriger med hverandre, at på grunn av dette øker antallet brev som forveksles med spam, siden tilbydere generelt ofte er svartelistet, at klienter til de stridende partene blir fratatt muligheten til å kommunisere med hverandre. I hovedsak annonseres offentlige IP-lister som en fundamentalt upålitelig filtreringsmetode.

Dette er ikke helt sant, eller langt fra sant.

Noen lister er faktisk kompilert ikke bare for filtrering som sådan. Noen ganger er det elementer av å "bekjempe spam" i denne aktiviteten. Se for deg en vaktmester hvis oppgave er å opprettholde en viss