Data Rengjøring Teorier

March 24

Feil kan skje under datainnsamling og integrering, og analytikere trenger å vite hvordan å identifisere og rette opp disse feilene. Dette kalles data rengjøring, eller data skrubbing. Dette er ikke en eksakt vitenskap, og noen ganger beslutningen om hva som skal gjøres er basert på analytikerens dom; imidlertid, hun vet at det ikke bare er det viktig å ha en tilstrekkelig mengde av data - det må være av en pålitelig kvalitet, også.

Semantikk og formatering

En felles datarengjøringsoppgave innebærer å fjerne feil i formatering. Dette kan være noe så enkelt som feilstavinger gjort under datainnsamlingen eller oppføring, opp til problemer med symbolet som separate oppføringer. Tenk deg for eksempel følgende stykke data er inne til et datasett der en apostrof brukes til separate oppføringer:

Bird Watchers 'Club'42 Beacon Street'Boston

Dette ville leses som:

bird Watchers
Klubb
42 Beacon Street
Boston

Automatiserte søk og programmer er ofte brukt til å rense data på denne feilen.

Integrering

Noen datasett er fine alene, men blir problematisk når de er integrert i en større oppbevaringssted eller et datavarehus. For eksempel kan alder lagres som fødselsdato:

dd / mm / åå
mm / dd / åååå

Eller etter område:

20-30, 30-40, 40-50
15-25, 25-35, 35-45

I noen tilfeller, som fødselsdato formatering, er det ganske enkelt å identifisere semantiske strukturer og standardisere oppføringer. I tilfeller som en alder varierer må imidlertid antagelser gjøres. For eksempel; er antall personer i alderen 25-35 gjennomsnittet av personer i alderen 20-30 og 30-40?

uteliggere

Uteliggere er datapunkter som ligger langt fra resten av dataene. For eksempel en alder av 600, eller en test scorer flere ganger høyere enn gjennomsnittet. I det første tilfellet, kan du trygt anta at det var en skrivefeil, men i det siste er det ikke så opplagt. Når du ikke vet om en avvikende er en feil eller en legitim datapunkt, er det din dom om å fjerne det eller ikke, tar hensyn til formålet med dataene.

Manglende data

Du må også bestemme hva du skal gjøre hvis det mangler noen data. Først mønstre bør identifiseres ved hjelp av spørringer og statistiske analyser - distribusjonen av manglende data avgjør hva du bør gjøre. For eksempel, hvis en spørreundersøkelse har to sider, men bare spørsmålene på den første siden ble besvart, denne informasjonen kan brukes til å avgrense skjemaene. Hvis manglende data blir tilfeldig fordelt, og er på samme variabel, er det noen ganger mulig å gjøre beregninger basert på det som allerede er kjent.