Data Cleansing Strategier

Data Cleansing Strategier


Data kan bli ødelagt i en rekke måter, fra brukerundersøkelser feil formatering uoverensstemmelser. Duplikater er en av de mest vanlige dataproblemer i de fleste bedrifters databaser. Den beste måten å sikre data nøyaktighet er å hindre korrupsjon, men det er lurt å ha en plan for å håndtere dataproblemer skulle oppstå problemer.

duplisering

Duplikater kan være en frustrerende ting å se som en data revisor. Ofte kan en front-end data skjermen ikke ta visse typer duplikater; for eksempel i en adressetabell, kan 123 Main Street og Storgata 123 ser ut til å være to separate adresser når de faktisk er den samme adressen.

Dette kan løses ved hjelp av én av to metoder: data fjerning eller data korreksjon. Fjerning av data ville bety å slette alle unntatt én forekomst av et sett av duplikater, mens data korreksjon vil oppdatere alle forekomster av duplisering til en enkelt avtalte verdi. Programvarepakker er tilgjengelige som bruker en algoritme for å identifisere rammene basert på standardavviket, klynger eller andre kriterier, så uteliggere blir evaluert av et saksforhold ekspert som avgjør skjebnen til det uventede oppføring.

ETL

ETL, eller ETF, er en vanlig metode for å flytte og rene data. Selv om ingen manuell rensing skjer, er det automatiserte oppgaver i sette fase. For eksempel, hvis kilde tabellen lagrer "M" og "F" og målet tabellen lagrer "mannlige" og "kvinnelige", et skript kjøres til å oversette dataene til de nye verdiene.

Når dataene er renset og validert, kan det importeres til målet tabellen. Det kan også bli importert over de gamle dataene for å overskrive data. Dette fungerer godt når en hel kolonne med data i en tabell må endres.

Oppdatere Legacy Systems

Oppdatere et gammelt system vanligvis innebærer å flytte dataene til en mellomliggende sted, eller staging-området, hvor det da gjennomgår en automatisert og manuell data rensing runde. Dette gjøres for å unngå å gjøre noen irreversible feil til eldre data før du importerer den inn i det nye systemet. Det bør bemerkes at de gamle data som ikke skal oppdateres, ifølge information-management.com, for å slippe å vedlikeholde to separate datasett. Det bør være pensjonert i stedet, og det nye systemet skal være den eneste som er i bruk fremover.