Om Web Mining

May 23

Hver dag, millioner av brukere søke på Internett ved hjelp av pålitelige søkemotorer som Google og Yahoo !. For de fleste søkeresultatene fra populære søkemotorer gir lenker til nyttig informasjon som svarer på deres spørsmål. Informasjonsbehovet til store selskaper, akademikere, regjeringen og profesjonelle forskere går langt utover kapasiteten til vanlige søkemotorer. De gruven Internett for data i stedet for nettstedet koblinger. Å finne disse dataene og sette det til å fungere er viktig for å forbedre tjenester og bor konkurransedyktig.

Egenskaper

Data mining henter ønsket informasjon ved å søke etter mønstre, tekst og foreninger til å analysere informasjon skjult i den usynlige Web at selv søkemotorene ikke har indeksert. Denne informasjonen blir deretter behandlet i databaser, regneark og spesiell programvare for å gi rapporter basert på gruvearbeidere behov.

typer

Data mining aktiviteter faller inn i tre forskjellige områder: innhold gruvedrift, bruk gruvedrift og Web struktur gruvedrift. Innhold gruvedrift identifiserer og kategoriserer nyttige dokumenter som inneholder spesifiserte ord eller fraser og multimedia elementer, inkludert bilder og grafikk, video og lyd, sammen med databaser og tabeller. Web-bruk gruvedrift analyser serverlogger, site registreringsskjemaer og annen brukerinformasjon for å samle informasjon om besøkende atferd når de kommer til et bestemt nettsted. Web struktur gruvedrift forsøker å finne forholdet mellom nettsteder. Rans hente informasjon fra innkommende og utgående lenker på hvert nettsted for å avdekke mønstre, popularitet, like eller ulike søkeord, innhold eller temaer.

Egenskaper

Web mining teknikker kan forbedre resultatene søkemotorer tilbake. Mange Web gruve applikasjoner og programmer bare fokusere omfanget av et vanlig søk for å få tak i data eller mønstre ønsket. Andre programmer bruker naturlig språk spørringer for å søke på Internett, ved hjelp av spesialiserte verktøy som returnerer søkeresultater i en spesifikk form slik som grafer eller statistikk. Webbruk gruvedrift er avhengig av å spore handlingene til besøkende på hvert område, inkludert linkene valgt og hvor mye tid brukt på nettstedet. Web struktur gruvedrift resultater som inneholder Pagerank, link popularitet, besøkende teller, og selv banen til inn- eller utreise at nettstedet besøkende ta.

fordeler

Søkemotorer ikke indeksere mer enn 50 prosent av Internett innhold. Å finne dette innholdet er tidkrevende for den gjennomsnittlige Internett-bruker, bedrifter og søke fagfolk. Søke edderkopper og roboter glipp verdifullt innhold fordi deres forhåndsdefinerte formler ikke søke på bestemte typer filer eller i innholdet av filer. Web gruvedrift kan returnere resultater fra Wiki, PDF og HTML-dokumenter som ikke er nettsteder. Etter hvert som Internett blir mer innholdsrike og som det mangfoldet av innhold øker, gir data mining Internett-brukere mer relevante resultater og bringer tidligere usynlig webinnhold på overflaten.

Potensielle

Kongressen og offentlige etater sliter med å identifisere riktig bruk av data fra Web gruvevirksomhet. Et sentralt spørsmål for Homeland Security er de retningslinjer som begrenser tilgangen til brukersporingsinformasjon. Sporing bruk av Internett og e-post på arbeidsplasser må veies opp mot potensialet for å finne nyttig informasjon som hjelper bedrifter og offentlige etater oppnå mål og målsettinger. Tilgang til nettstedet cookies og ulovlige og voksen nettsteder presenterer potensielle sivile og menneskerettighetsspørsmål. Konkurransedyktige business intelligence er hentes av gruveselskapet årsrapporter og intranett. Disse behovene må veies opp mot individers rettigheter til å surfe på nettet anonymt og få tilgang til offentlig tilgjengelig informasjon.