Introduksjon til Klassifisering Teknikker i Bioinformatikk

November 7

Bioinformatikk er anvendelsen av informatikk teknikker til feltet av biologi. Målene med bioinformatikk er å bistå rednings forskere i å organisere biologiske data og utvikle de nødvendige dataverktøy for oppdagelsen av nye vitenskapelige hypoteser. Klassifiseringsteknikker, også kjent som gruppering teknikker, er viktige i bioinformatikk som de tillater skille av forskjellige biologiske data med tilsvarende egenskaper i forskjellige sett.

Historie

Størrelsen av biologiske data har vokst eksponentielt, med en dobling av informasjon observert hver 15 måneder. Som et resultat, er informatikk og informatikk teknikker som brukes intensivt i behandling og styring av biologiske data. Den mest grunnleggende begrep i bioinformatikk er at de fleste biologiske data har lignende egenskaper og kan deles inn i grupper. For eksempel, kan genene til en organisme klassifiseres i deres funksjonelle grupper eller metabolske veier. Proteiner kan også bli klassifisert basert på gener som kommer til uttrykk. Klassifisering eller clustering teknikker er nødvendig i forvaltningen av store databaser av genetiske og biologiske data. Det finnes to hovedtyper av klasse teknikker i bioinformatikk: den hierarkiske og k-Means klassifisering teknikker.

hierarkisk klassifisering

Det hierarkisk klassifisering teknikk organiserer biologiske data inn i et tre datastruktur. Gener blir uttrykt som noder i treet, mens hver sub-tre av noder representerer en klynge eller gruppering av gener. Treet kan enten være forankret eller unrooted. En forankret tre er definert som et tre med bare en enkelt node på toppen. I motsetning til dette, har en unrooted tre øverste flere noder.

k-midler Classification

En mer komplisert klassifisering teknikken er k-midler klassifisering, som forsøker å finne et sett med sentre som minimerer kvadratfeil forvrengning blant datasettene i flerdimensjonale plass. En klynge er klassifisert ved å gruppere relaterte punkter til nærmeste sentrum. Lloyd algoritmen er ofte brukt i k-midler klassifisering teknikk. I denne algoritmen, blir datapunkter tilfeldig anordnet i separate grupper som deretter er optimalisert for å fremstille de minimale lokale kvadratisk feil forvrengninger.

Betydning

Etter relaterte proteiner har blitt klassifisert i lignende grupper, kan livs forskerne bruke denne informasjonen til å forutsi egenskapene til visse mindre studert proteiner. Dette er også anvendelig til andre aspekter ved konstruksjonen av proteiner. En annen bruk av klassifiseringsteknikker er å løse problemet med å bestemme den evolusjonære tre av visse organismer basert på deres genetiske sekvenser. Den evolusjonære treet er konstruert fra DNA-sekvensen av organismen ved å bruke enten hierarkiske eller k-Means klassifiseringsteknikker.

betraktninger

Hierarkisk klassifisering teknikk er en forholdsvis enkel og effektiv måte å clustering biologiske data. I motsetning til dette finnes det ingen effektiv algoritme på tidspunktet for skriving som er i stand til å utføre k-midler klassifisering teknikk effektivt som størrelsen av de biologiske data øker. Dette tyder på at en stor regnekraft er ofte nødvendig for å utføre k-midler klassifisering, som er en viktig faktor å vurdere når du velger klassifiseringen teknikk å bruke i bioinformatikk applikasjoner.