Data Rengjøring & Coding Prosedyrer

Data Rengjøring & Coding Prosedyrer


Ved analysering av data, er det ikke bare nødvendig å ha en stor nok mengde, men det er også viktig at kvaliteten på dataene er av høy standard. Data kan gjøres "dirty" i en rekke måter - feil under innsamling, feil på rad når integrere flere datasett og utilsiktet sletting er bare noen få slike måter. På grunn av dette, er det viktig at informasjonen blir renset før bruk.

Manglende data

Automatiserte prosedyrer blir ofte brukt for å finne manglende data. Disse kan være SQL-spørringer i en database, eller statistiske analyser. Som en analytiker du ser etter mønstre i spredningen av manglende data. Du gjør da beslutninger om hva du skal gjøre, som kan være unntatt visse variabler helt, eller erstatte sine verdier med gjennomsnitt. Noen ganger mangler data kan tyde på feil ved å integrere flere datasett, og i verste fall kan ha hele prosessen gjentas for å få alle data.

uteliggere

En avvikende er en dataverdi som er langt utenfor det generelle mønster av dataene. De kan identifiseres med diagrammer, for eksempel boksplott, eller ved å se etter et visst antall verdier av standardavvik fra middelverdien. Når identifisert, må du bestemme om du vil fjerne dem eller ikke - som innebærer å avgjøre om de var feil i datainnsamlingen, eller sanne verdier. Noen ganger kan du velge å kjøre visse prosedyrer med og uten utliggere, for å sammenligne resultatene.

formateringsfeil

Mer dagligdagse feil i et datasett kan være feilstavinger eller andre lignende feil. Spørsmål kan brukes til å finne og erstatte åpenbare feil som feilstavelser av merkenavn eller steder, men de kan også brukes til å markere datapunkter som kanskje trenger rengjøring. For eksempel kan du kjøre et søk etter etternavn eller telefonnumre over og under en viss lengde, for å finne feil som oppstod et sted langs datainnsamling og integrasjonsprosessen.

data Coding

Det er vanlig for data til å begynne med være i et format som er egnet for analyse. For eksempel kan undersøkelsen svar må konverteres til en tallekvivalent, for eksempel fra "Helt enig" til "7", eller kategoriske variabler som kjønn kan trenge å bli omdannet til binære indikatorvariablene. Dette kalles koding eller omkoding, og det er god praksis å lage nye variabler med den nylig kodede data i stedet for å overskrive de gamle, slik at feil kan være back-merket.