
MATERIAL UND METHODEN KAPITEL 2
annotierten Genomen und den regelmäßig aktualisierten externen Datenbanken Swiss-
Prot und TrEMBL zusammen (ftp.expasy.org/databases/uniprot/knowledgebase/). Die
automatische Annotation jeder CDS wurde anschließend manuell überprüft und die
Funktionszuweisung je nach Übereinstimmung mit Dateneinträgen, Zugehörigkeit zu
konservierten Gen-Clustern, etc. angepaßt. Beispielsweise wurde bevorzugt nach Ähn-
lichkeiten zu Proteinen gesucht, deren Annotation bereits experimentell bestätigt wor-
den war. Übereinstimmungen mit externen Datenbanken wurden stärker gewertet als
ERGO-interne Ähnlichkeiten, Treffer in der stark überarbeiteten Swiss-Prot-Datenbank
stärker gewichtet als in TrEMBL. Generell wurde auf eine zurückhaltende Annotation
Wert gelegt. Zu jeder CDS wurden über die in die ERGO-Oberfläche eingebundenen
Hilfsprogramme verschiedene externe Zusatzinformationen eingeholt:
1. Mit Hilfe von TMpred-Vorhersagen (Hofmann & Stoffel, 1993) wurden mögli-
che Transmembran-Bereiche identifiziert. Danach wurden Proteine als „putative
membrane spanning protein“ (mehrere Transmembran-Helices) bzw. „putative
membrane associated protein“ (eine Transmembran-Helix) annotiert.
2. Über NCBI CD-Search (Marchler-Bauer et al., 2005) bzw. Pfam (Bateman et
al., 2004) wurde jede CDS nach bekannten konservierten Domänen durchsucht.
Funktionszuweisungen wurden nach Möglichkeit mit Hinweisen auf Domänen
belegt.
3. Die Zuordnung eines Gens unbekannter Funktion zu einem konservierten Clu-
ster wurde nach Vergleich der Umgebungen dieses Gens in verschiedenen Or-
ganismen mit der ERGO-Funktion contig regions (siehe Abb. 3.11) vorgenom-
men und als Hinweis auf einen möglichen Funktionszusammenhang gewertet.
2.13.4 Kontrolle der CDS-Längen
Die Koordinaten der CDS-Vorhersagen für die einzelnen Contigs wurden für die skript-
gesteuerte Berechnung von Genbank-Files verwendet. Diese Dateien wurden mit dem
Programm Artemis (Rutherford et al., 2000) bearbeitet und für die manuelle Korrektur
der START- und STOP-Positionen genutzt. Mit der Funktion des GC Frame Plots (Is-
hikawa & Hotta, 1999) liefert Artemis ein nützliches Hilfsmittel, um die Grenzen einer
CDS zu bestimmen. Dabei werden die G+C-Gehalte für jedes der drei Leseraster inner-
halb einer Sequenz unabhängig voneinander berechnet. Da innerhalb kodierender Se-
34
Comentários a estes Manuais