Hva Er FASTA format?

Raw biokjemiske og biologiske data kan representeres som én eller flere filer, kjent som flate filer. Flat filformater vanligvis har en enkel, vanlig intern struktur og inneholder teksttegn, som kan leses av vanlige tekstredigeringsprogrammer. Den FASTA-formatet er en enkel, kompakt format som tillater sekvensdata - for eksempel sekvensen av aminosyrer i et proteinmolekyl, eller sekvensen av nukleotider i et molekyl av DNA - for å bli registrert i en datafil.

Hva er FASTA?

Den FASTA formatet er oppkalt etter den FASTA justering verktøy - en forgjenger av Basic Local Alignment Search Tool, som finner regioner av likheten mellom sekvenser - som opprinnelig brukte formatet. Den FASTA er også kjent som Pearson format, etter forfatteren av FASTA justeringsverktøyet. FASTA formaterte filer kan ha filtyper ".fasta", ".fa" eller ".ffa."

header Linje

Den FASTA-formatet omfatter en enkelt spissen linje, eller linje definisjon, etterfulgt av en eller flere linjer av sekvensdata. Overskriften starter alltid med en ">", etterfulgt av en sekvens identifikasjonskode, eller sekvens navn - vanligvis den første stykke informasjon gitt på topplinja - og eventuelt en begrenset tekstlig beskrivelse. Den tekstlige beskrivelse kan anvendes for å inkludere tilleggsinformasjon, for eksempel - for nukleotidsekvenser - kromosomet, tråd og genet informasjon. Beskrivelsen er ikke offisielt en del av beskrivelsen av FASTA format, slik at enkelte programmer kan ignorere det, selv om det er til stede.

Sequence Lines

Den FASTA-formatet er meget enkel for så vidt som, med unntak av tomme linjer, hver linje som ikke er en linje blir behandlet som en sekvens linje. De resterende linjene i FASTA-formatert fil bare inneholde sekvenser av aminosyrer og nukleotider, vanligvis formatert til 60 tegn per linje. En fil i FASTA format kan inneholde mer enn én sekvens, med en sekvens oppført rett etter hverandre. Den FASTA formatet er faktisk akseptert av mange flere sekvens justering programmer.

betraktninger

En blank linje i en FASTA-formatert fil kan ignoreres helt eller tolkes som avslutning hver sekvens, avhengig av program som brukes til å undersøke filen. Tilsvarende mellomrom og andre tegn, for eksempel streker, understrek og perioder, kan bli ignorert eller behandlet som hull i en sekvens.