FASTA-Formatbeschreibung

October 2

FASTA-Formatbeschreibung

Eine FASTA-Format-Datei enthält mindestens eine Sequenz der Nukleotide in DNA. Das FASTA-Format entstanden mit dem FASTA-Softwarepaket für DNA-Sequenzierung, obwohl es ein standard-Format für die Darstellung von DNA-Sequenzen in der Bioinformatik geworden ist. FASTA ist ein einfaches Format, das Sequenzen einfach mit Skriptsprachen wie Perl und Python macht.

Übersicht

Die Grundlage für eine Datei ist eine Zeile beginnt mit der ">"-Zeichen und gefolgt von Text, die die Herkunft der Sequenz. Die Header-Zeile ist in der Regel weniger als 80 Zeichen. Die Zeile nach diesem Header-Zeile enthält eine Reihe von Zeichen, die Nukleotide in DNA oder Aminosäure-Rückstände in einer Peptid-Sequenz darstellt.

Zeichenzahl DNA

Im Rahmen einer FASTA-Sequenz sind nur sinnvolle Zeichen zulässig. Sequenzen können bestehen aus A, C, T, G oder U, entspricht der Nukleotide Adenosin, Cytosin, Thymidin, Guanin und Uracil. Jedoch kann die genaue Identität des Nukleotids nicht immer vorhanden von Sequenzierung sein. FASTA enthält auch Codes, die mögliche Nukleotide darstellt, wenn Unsicherheit vorhanden ist. Der Code N wird verwendet, wenn keine Bestimmung erfolgen kann und X wenn das Nukleotid durch andere Moleküle maskiert wird. Die "-" Code wird verwendet, um eine Lücke von unbestimmter Länge darstellen.

Zeichenzahl Peptid

Ein alphanumerischer Code kann auch verwendet werden, um die 24 Aminosäuren vorhanden in einer Peptid-Sequenz darzustellen. Wenn ein Peptid kann nicht bestimmt werden, der X-Code dient ebenso als DNA-Sequenz. Ein "*" wird verwendet, um die Endstation oder Übersetzung Stop-Sequenz von einem Peptid anzuzeigen. A "-" wird auch verwendet, um eine Lücke in der Sequenzierung Daten für Peptide darstellen.

Andere Informationen

Die NCBI setzt eine Norm Sequenz-ID oder SeqID, für den Einsatz im FASTA-Header-Zeilen, aber es keinen endgültigen Standard für die Aufnahme in die FASTA-Header-Zeile gibt. Eine FASTA-Datei mit mehreren Sequenzen ist bekannt als eine Multi-FASTA-Datei. FASTA-Dateien haben die Dateierweiterung ".fasta", ".fna," ".ffn", ".faa", ".frn" oder ".fas."