Hvordan utvikle data kvalitetsmål

Datavarehus og data mining-verktøy gjør det enkelt å trekke ut og analysere store mengder informasjon, men kvaliteten på analysen er bare så god som kvaliteten på dataene. Det første trinnet i enhver forskningsstudie eller datavarehus prosjektet må være en vurdering av kvaliteten på dataene som går inn i prosjektet. Tiltak for fullstendighet, gyldighet og konsistens alle faktor i denne vurderingen. Å utvikle datakvalitet beregninger, må du følge visse trinn.

Bruksanvisning

1 Utvikle et rammeverk for måling av datakvalitet. Lag plass i hver database hvor resultatene av kvalitetskontroller kan lagres. Utvikle rapporter eller oversikter fra disse dataene.

2 Mål data fullstendighet. Velg sentrale elementer i hver database og telle hvor mange prosent av nullpunkter, tomme felt eller verdier som representerer utilgjengelige eller ukjente data.

3 Mål prosenter av tillatte verdier. Når et felt har en rekke forhåndsdefinerte kodeverdier, måle fordelingen av disse verdiene mot antall feil og manglende verdier. Analyser disse distribusjonene å finne ut om visse koder vises for ofte. I så fall kan denne verdien må være oppdelt for å tilveiebringe bedre beskrivelse. For eksempel, hvis svarene er svart, hvit og farge, og 98% av svarene er farge, kan det være fornuftig å bytte farge med rød, blå eller grønn.

4 Sjekk for rimelige verdier. Tall målinger vanligvis vises i en tillatte området. For eksempel vil en daglig vær temperatur Fahrenheit måling vanligvis ut som en verdi fra ca. -40 til 120. Enhver verdi utenfor dette området er sannsynligvis ikke gyldig.

5 Sammenligne verdier innenfor samme rekord for konsistens. Hvis temperaturen var 90 Fahrenheit og utfellingen verdi er snø, er en av de to verdiene sannsynligvis feil.

6 Sjekk konsistens mellom relaterte poster. Bruk lignende konsistenskontroller mellom postene i foreldre-barn-relasjoner og innen flere barn oppføringer. Foreldre og barn-relasjoner er koblinger mellom databaseelementer. For eksempel, i et antall tidsrelaterte elementer, hvis et sett av timelistetemperaturmålinger temperaturer stadig økende fra 50 til 70 grader i løpet av morgenen, men den 10 er avlesningen er -20, er denne verdien sannsynligvis ved en feil.

7 Lag rapporter, oversikter eller meldinger basert på de innsamlede dataene. Oppsummer av organisasjonsgruppe, leverandør eller kundetype med evner til å bore ned til bestemte dataelementer. Analysere dataene for å finne ut hvor feilene oppstår og hva som kan gjøres for å bedre datakvalitet.

8 Forbedre datakvaliteten. Revidere forretningsregler, reparere programvare for å avvise dårlige data, varsle kunder av dataproblemer og finne måter å belønne kvalitet initiativer. Overvåke disse målinger over tid.

Hint

  • De fleste relasjonsdatabaser tilby måter å avvise ugyldige data ved hjelp av begrensninger og fremmednøkler. Bruk disse begrensningene for å håndheve datakvalitet.