Hvordan konvertere en TXT fil til FASTA

Hvordan konvertere en TXT fil til FASTA


Kliniske studier er utført for å analysere proteinsekvensdata og finne behandlinger for sykdommer. Protein sekvens data er satt i FASTA (hurtig alle) format slik at programmer forstå hvordan å behandle datasekvensen. Den FASTA formatet har opptil 80 tegn per sekvens datalinje og bruker IUB / IUPAC (International Union of Biochemistry / International Union of Pure and Applied Chemistry) kode standard. Konvertering en TXT (ren tekst-fil) til FASTA format innebærer redigering eller legge fasta-formatert sekvensdata i en eksisterende tekstfil med protein sekvens datalinjer. Tekstredigeringsprogram programmer som Notisblokk gjør dette enkelt å gjøre.

bruksanvisning

1 Åpne proteinsekvensen tekstfilen du vil redigere i et tekstredigeringsprogram som Notisblokk.

2 Redigere eller legge til tekstlinjen å følge FASTA format. For eksempel> GI | 129295 | sp | P01013 | OVAX_CHICK GENE X PROTEIN (ovalbumin RELATERT) er en gyldig FASTA tekstlinjen. Denne linjen gir en unik beskrivelse for sekvensdatalinjer som følger. Den FASTA-formatet krever bruk av større enn symbolet (>), slik at programmet kan identifisere den unike beskrivende informasjon og unngå behandling av beskrivelsen som et protein datasekvens linje.

3 Trykk på "Enter" -tasten for å sette inn et linjeskift når beskrivelsen linjen er blitt redigert.

4 Endre eller proteinsekvensen datalinjen format for å samsvare med de IUB / IUPAC standardkodene. Den IUB / IUPAC standard bruker bokstavene i alfabetet til å representere akseptable koder eller spørresekvenser for aminosyrer eller nukleinsyrer i FASTA format. For eksempel, QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE
representerer en linje av gyldige sekvens data siden det begynner med bokstaven "Q", som representerer glutamin, og slutter med bokstaven "E", som representerer glutamat.

5 Legg til flere sekvens data linjer, redigere eksisterende sekvens datalinjer eller legge til linjeskift etter 80 tegn etter behov. Hvis man følger FASTA sekvensdata linje standarder og linjeskift sikrer at programmet følger instruksjonene relatert til glutamin, glutamat og andre bokstavkoder. Bokstavene i IUB / IUPAC standard er rett og slett instruksjoner til programmet som behandler FASTA formaterte dataene.

6 Klikk på "File", velg "Lagre" og klikk "Lagre" -knappen. TXT filen er nå i FASTA format.