Ulempene ved bayesian spamfiltrering

Ulempene ved bayesian spamfiltrering


Med e-post kommer spam, irriterende reklame sendt uønskte til innboksen din. Tidlig spamfiltre stolte på regler, for eksempel "filtrere ut e-poster som inneholder ordene" klikk "." Men for hver regel som kan skrives, noen smarte spammer funnet en vei rundt det. For eksempel kan spammere bevisst feilstave ord, for eksempel skrive "c1ick" i stedet for "klikk", gjengi filtreringsregelen ubrukelig. Tillegg av Bayesiansk filtrering imidlertid tillatt anti-spam-programmer for å tilpasse seg endrede karakteristikker av spam.

Bayesian Filtrering bruker Sannsynlighets

Bayesiansk spamfiltrering tar en sannsynlighet tilnærming. Det katalogiserer ord og andre forhåndsdefinerte kjennetegn spam og ikke-spam e-post som mottas av brukeren. Når en ny e-post, filteret skanner for disse ord og karakteristikker. Jo flere ord den nye e har til felles med ord som finnes i forrige spam, jo ​​mer sannsynlig den nye e bli merket som spam av bayesianske filteret.

Bayesiansk Filter lære og tilpasse

Bayesiansk tilnærming gjør at filteret for å "lære" som karakteristikk av spam endring. I begynnelsen kan det gå glipp av spam som har det feilstavede "c1ick," for eksempel. Men som brukeren markerer at e-post som spam, vil filteret begynne å tildele en høyere sannsynlighet for at andre e-poster som inneholder det ordet er spam.

trening Needed

Bayesian filtrering er svært effektiv, men en ulempe er at filteret må være "opplært". Ved første, er databasen av e-poster små og brukeren må fortsette å markere innkommende post som "spam" for å "trene" filteret. Brukere som mottar et lavt volum av e-post må vente lenger for å etablere et fullverdig database.

Bayesiansk Poisoning

En annen ulempe er at spammere fortsette å se etter nye måter å "gift" eller lure filtrene til merking spam som gyldig e-post. For eksempel kan spammere har en blokk med normal tekst fra en bok eller nettside i et forsøk på å ha en høy andel av "gode" ord i e-posten. Heldigvis kan dette være begrenset i effektivitet fordi bayesianske filteret definerer "god e" forskjellig avhengig av databasen det bygger på hver enkelt brukers e-post.