Hvordan bygge en beslutning Tre Database

October 24

Beslutningstrær er gjenstand for intens akademiske studier innen områdene drift forskning og informatikk. Selv om ikke nødvendigvis den beste måten å strukturere informasjon som er nødvendig for å nå en konklusjon, beslutningstrær fungere godt sammen med standard dataalgoritmer for beslutningsstøtte. I tillegg gir de en metode for å uttrykke forretningsregler på en måte som personer uten tidligere erfaring med beslutningstrær er i stand til å følge. En beslutning treet er en som ligner på et flytskjema, slik at navigering gjennom en bane valg før en endelig konklusjon er nådd.

Bruksanvisning

1 Skaff datasett som skal brukes for analyse og verifisering av den endelige treet. Andre data som brukes i den analysen vil gi en mer nøyaktig tre fremstilling av beslutningsprosessen. Det er mange forskjellige måter å skape og strukturere en beslutning treet. ID3-algoritmen er en tidlig måte hvorpå mer sofistikerte Varianter er basert på.

2 List alle attributtene som brukes av datasettet. For eksempel, i et sett av banklån applikasjonsdata, vil rekorden for hver søker omfatter attributter som navn, adresse, telefonnummer, inntekt, hjem verdi, boliglån, bank og kredittkort balanserer.

Hvis manuelt opprette en avgjørelse tre, naturligvis utelukke attributter som navn, som du ikke ville forvente å påvirke beslutningen om å innvilge et lån. Når du bruker datamaskinen data mining teknikker, er alle attributtene vurderes, forlater dataprogram for å finne ut hvilke som ikke har noen relevans til den endelige utfallet.

3 Angi hvilke attributt er målattributtet. I eksempelet med en lånesøknad, er målattributtet den som indikerer om lånet ble innvilget eller avslått.

4 Velg attributtet for å gi størst informasjonen gevinst for bruk som rotnoden. Treet består av beslutnings noder og bladnoder. Ved beslutnings noder, blir en gren opprettet for hver mulig verdi av målattributtet. Hver gren representerer dataposter som har samme verdi for målattributtet.

Et blad node er nådd når alle postene blir vurdert på dagens node har samme resultat for målattributtet. I lånet eksempel, hvis alle som søker om et lån er godkjent, er hele beslutningstre det trivielle tilfelle av en enkelt blad node uten grener. Det er mer sannsynlig at dataene vil bli delt inn i to grener: godkjent og avslått.

Beregningsmetoder velge attributtet til å bruke på et tre node er ekstremt kompleks. Se etter attributt som sterkest spår målet resultatet. Intuitivt "inntekt" ville være en bedre kandidat for rotnoden enn "fornavn".

5 Fjern roten attributtet fra listen over potensielle attributter som skal brukes til avdelings noder. Velg de resterende attributt med størst informasjon gevinst å tildele avdelings noder.

I dagens eksempel avdelings noder på hvert punkt i treet opprette grener av godkjente og nektet lån. Det kan være hvilket som helst antall grener som stammer fra et beslutningstre node, avhengig av hvor mange mulige verdier kan tilordnes målattributtet.

6 Gjenta prosessen sammen hver gren før du har nådd en bladnode der alle data har samme verdi for målattributtet. Den maksimale dybde av treet på noe tidspunkt vil være det totale antall attributter identifisert ved start.

Det er sannsynlig at ikke alle attributt er relevant for beslutningen i hver gren og så noen grener vil bli kortere. Når du har fullført treet, gå gjennom den for å finne de regler som den har utledet. For eksempel kan du finne at "et lån vil bli godkjent hvis du har en høy inntekt, høy sparing og ingen gjeld."

7 Bruk testdatasettet for å validere treet opprettet. Treet bør nøyaktig forutsi resultatene i de nye dataene.