Data Mining & ETL Process

Data Mining & ETL Process


Prosessorkraften av datamaskiner gjør at forskere og bedrifter til å analysere data i mer komplekse måter enn noen gang før. Data mining er prosessen med å forsøke å finne nyttig informasjon i store datasettene. Data mining er ETL prosess refererer til trinnene der data er registrert, kodet og skrevet til en database for senere analyse.

definisjoner

Data mining er definert som prosessen med å analysere data og samle det inn informasjon som kan bli satt til et nyttig formål. Den data mining prosessen innebærer å finne mønstre i datasettene som gir kategorisk informasjon om hvordan datasettet er organisert. Data mining kan brukes for å analysere forholdet mellom nesten en hvilken som helst målbare variabler; noen virkelige verden programmer av data mining inkluderer analyse av markedsstrategier, produksjonsprosesser og menneskelige atferdstendenser. Begrepet ETL er et akronym for ekstrakt, transformere og laste. Pakk, omforme og laste referer til de tre prosesser som et databasesystem er laget for analyse.

Utdrag

Det første trinnet i å skape et datavarehus som kan være minelagt for analysen er å trekke ut data fra den opprinnelige kilden. Utvinning prosedyrer varierer avhengig av hvilken type data som blir utvunnet. Noen ganger utvinning innebærer å finne og hente et delsett av data fra en eller flere eksisterende databaser. I andre tilfeller krever utpakkingen original forskning som søker på nettet etter nettsteder som inneholder relevant informasjon.

Forvandle

Når passende data er plassert under utpakkingen da at data må manipuleres slik at den kan lagres i en database for senere analyse. Prosessen med å endre data fra sin opprinnelige form til en ordnet form kalles transformasjon. Transformasjon kan innebære en rekke endringer i dataene, inkludert relativt enkle funksjoner slik som å konvertere bokstaver til små bokstaver og fjerne skilletegn fra tegnstrenger. Transformasjonsprosessen kan også omfatte mer komplekse prosedyrer som utfører aritmetiske funksjoner på kildeverdiene, sortering data og verifisere gyldigheten av kildedata. Målet med transformasjonsfase, er å ta uraffinert utvinning data og ta det inn data som er nyttig for målene for data mining prosjekt.

Laste

Når dataene blir transformert inn i det riktige format, må den lagres i et datalager. Lasten fase refererer til prosessen ved hvilken transformerte data blir logget i en datamaskin database. Når informasjonen er lagret i databasen, kan det bli utsatt for kvalitativ og kvantitativ analyse for å søke etter mønstre av interesse.