Definisjon av FASTA

September 27

Ifølge National Center for Biotechnology Information, har det vært flere teknologiske fremskritt i området molekylærbiologi. Bioinformatikk arbeider med å kombinere genomiske data med teknologi. Spesielt databaser blir bruk for å opprettholde genomisk informasjon som biologer arbeidet med å sette sammen en komplett menneskelige genom. For å sammenligne informasjon til databasen er et søk protokoll som FASTA trengs for å skape en konsistent format for å søke informasjon.

Definisjon

FASTA er en sekvens format som brukes til å analysere proteinstrukturer mot det kjent en database av DNA-sekvenser. Databasen vil returnere fasta resultater basert på dets likhet poengsum. Hver resultatliste returnerer opp til 200 tilsvarende sekvenser. FASTA er tekst-basert format som bruker et brev for å representere aminosyrer og basepar.

databaser

Det finnes et par forskjellige databaser som FASTA formatet brukes til å sammenligne mot. Den første er UniProtKB. Navet i data inneholder data om hvordan proteinene fungerer. Forskere kan også bruke en undergruppe av databasen til å sammenligne et proteinsekvens. Den andre database er kjent som UniRef100 kombinerer datasett fra Uniprot og en annen database for å skjule overflødige sekvenser.

syntax

Den FASTA format begynner med en beskrivelse linje etterfulgt av sekvensdata. Beskrivelsen starter med en større-enn symbol. Dette indikerer at linjen ikke er en del av datasekvensen som det skal søkes. Proteinsekvensen begynner på den andre linjen med mindre enn 80 tegn per linje. Hvis det er et gap i sekvensen, er en enkelt bindestrek som brukes til å identifisere gapet. Bare en bindestrek skal brukes uansett den mistenkte lengden av gapet.

Hensikt

Hensikten med FASTA-formatet er å bistå forskere i å identifisere proteinsekvenser og deres funksjon ved å sammenligne den mot kjente DNA-sekvenser. Dersom den nøyaktige sekvensen ikke kan bli funnet, kan resultatene hjelpe forskerne å bestemme funksjonen av proteinet.