chainx Programme de recherche de chaînes de caractères (nucléotides ou acides aminés) sur un ensemble de séquences, définie : =) soit par un catalogue de mnémoniques (noms de fichiers personnels au format texte ou FASTA) ou mnémoniques des banques sous ACNUC : (GenBank, EMBL, EMGlib, SwissProt ou NBRF) =) soit par un fichier séquentiel au format FASTA. Les nucléotides sont définis de manière dégénérée avec l alphabet standard : ACGT N RY SY MK BDHV N Dans le cas 2, quelques fichiers de banques sont déjà définis (attention au temps de calcul, assez long ....). Il est préférable d'extraire des banques =) soit un fichier de mnémoniques (sélection ACNUC, dans EMBL, GENBANK ou NBRF) (commande SAVE de ACNUC) =) doit un fichier séquentiel (commande EXTRACT de ACNUC). Le programme chainx propose les mêmes options que le programme chaine : =) Recherche de motifs exacts ou flous (mismatches) =) Recherche de motifs répétés définis =) Recherche de tous les motifs répétés directs (entre 2 bornes avec des seuils de longueur) =) Recherche de tous les motifs répétés directs et réverses (seq. nucléiques) =) Recherche de tous les motifs répétés symétriques (seq. nucléiques) => Recherche des palindromes (seq. nucléiques) =) Une option étendue permet des recherche plus précises sur des nucléotides en correspondance entre les 2 motifs. Une estimation de la probabilité du motif ainsi que de l existence du motif dans la séquence est faite. La présence d'un N (seq. nucléique) ou X (protéique) permet de rechercher des motifs avec des dégénérescences à certaines positions. Paramètres utilisés: ------------------- Longueur minimum du motif répété Longueur maximum du motif répété Distance minimum de répétition : nombre de lettres minimum entre le début de chaque motif Distance maximum de répétition : nombre de lettres maximum entre le début de chaque motif Ces valeurs correspondent à la distance entre les débuts de motifs dans le même sens (plus ou minus) quand le programme recherche les motifs. Cela est aussi valable pour les motifs symétriques (même si le début du 2eme motif est en fait à l'autre extémité). =) Listes de caractères : limitation dans la recherche des séquences répétées ou symétriques : = liste simple (répétitions simples (/TD /TS) = 2 listes séparées pour chaque motif dans le cas étendu. (les lettres doivent être en correspondance : positions 1,2,3 de chaque motif (/TDE) positions 1,2,3 deu motif 1 avec n, n-1,n-2 (/TSE) 1 liste pour limiter les caractères du linker =) Recherche sur la séquence directe (0) et inverse-complémentaire(1) dans le cas de séquences nucléiques. =) 2 modes d'impression dans le cas des options étendues. Le mode général indique le debut de chaque motif (sens direct) La distance entre début des 2 motifs (sens direct) Le nombre de mismatchs La longueur du motif Le mode spécifique (options étendues) indique les positions des débuts de chaque motif (sens direct ou opposé) La taille du linker Le nombre de mismatchs La longueur du motif Exemple 1 (option motif explicite simple) ========================================== Recherche d'un motif nucléotidique flou (2 erreurs) dans un ensemble de séquences lovelace$ sqx usage: sqx helpsqx sqx> chainx Séquences définies par un catalogue (C) Séquences définies par une fichier sequentiel(S) Quit = Return s NBRF format fasta 1 SWISS-PROT format fasta 2 TREMBL format fasta 3 NRL 3D format fasta 4 GenBank Primates fasta 5 GenBank bacterial fasta 6 Autre [0] 9 Nom du fichier sequentiel (entier) essaix.fas essaix.fas Nom de fichier de sortie def = terminal Séquence protéique ? (O/N) Pour une analyse de motif simple : (Pour motif recherché en direct : XXXXXXX ) (Pour motif recherché en direct et réverse : XXXXXXX/R) Pour une analyse de motif répété : (tous motifs directs : /TD ) (tous motifs directs et réverses : /TR ) (tous motifs symétriques : /TS ) (tous motifs directs étendus : /TDE ) (tous motifs symétriques étendus : /TSE) (tous motifs palindromes : /P) Entrez le motif ou l'expression (longueur <= 20) GATCGGTCC Nombre d'erreurs permises ? (RETURN = 0) 2 POS ERR MOTIF PR.IN PR.GL >HSPGRA 1145 1 1 156 2 GAggGGTCC 0.057 47.791 >OCPRG5 3476 10 1 355 2 GATCaGTgC 0.109 97.743 2 1789 2 GcTCtGTCC 0.092 95.854 >OCPRR3 3566 11 1 420 2 GATaGcTCC 0.054 85.397 2 3215 2 GATaGGTgC 0.052 84.131 Exemple 2: (option tout motif répété - avec limitations ) ========================================================= Recherche de toutes les séquences répétées protéiques composées de D, E, K ou R dans NBRF sqx> chainx Séquences définies par un catalogue (C) Séquences définies par une fichier sequentiel(S) Quit = Return s NBRF format fasta 1 SWISS-PROT format fasta 2 TREMBL format fasta 3 NRL 3D format fasta 4 GenBank Primates fasta 5 GenBank bacterial fasta 6 Autre 9 1 /env/infobiogen/db/pir/PIRfasta/pir.seq Nom de fichier de sortie def = terminal toto1 7 Fichier de sortie : toto1 Séquence protéique ? (O/N) O Pour une analyse de motif simple : (Pour motif recherché en direct : XXXXXXX ) (Pour motif recherché en direct et réverse : XXXXXXX/R) Pour une analyse de motif répété : (tous motifs directs : /TD ) (tous motifs directs et réverses : /TR ) (tous motifs symétriques : /TS ) (tous motifs directs étendus : /TDE) (tous motifs symétriques étendus : /TSE) (tous motifs palindromes : /P) Entrez le motif ou l'expression (longueur <= 20) /TD Nombres d'erreurs permises ? (RETURN = 0) Longueur minimum du motif répété ? (def=4) Longueur maximum du motif répété ? (def=minimum) Distance minimum entre les débuts de chaque motif (dans le sens direct) ? [4] Distance maximum entre les débuts de chaque motif (dans le sens direct) ? [50] 10 Limitation a un ensemble de caractères ? Donnez la liste , sinon Return DEKR ERR = 0 LONGUEUR MOTIF = 4 DIST MIN = 4 DIST MAX = 10 Les résultats seront dans le fichier toto1 Vous pouvez continuer a faire éxécuter le programme en background : CTRL Z puis bg sqx> more toto1 POS1 POS2 DIST E L MOTIF 1 MOTIF 2 PR.IN PR.GL >pir|S|S00219 91 159 17 21 4 0 4 EEEE EEEE 0.342 26.718 18 22 4 0 4 EEEE EEEE 0.342 26.718 >pir|S|CCBO11 78 160 5 9 4 0 4 EEEE EEEE 0.284 19.845 >pir|S|RDBYUC 147 161 49 53 4 0 4 DEDE DEDE 0.147 19.413 50 54 4 0 4 EDED EDED 0.147 19.413 51 55 4 0 4 DEDE DEDE 0.147 19.413 52 56 4 0 4 EDED EDED 0.147 19.413 >pir|S|A43435 403 1629 91 95 4 0 4 DDDD DDDD 0.011 4.226 >pir|S|TVRTC4 474 1725 396 403 7 0 4 EEEE EEEE 0.022 10.081 403 407 4 0 4 EEEE EEEE 0.022 10.081 404 408 4 0 4 EEEE EEEE 0.022 10.081 405 409 4 0 4 EEEE EEEE 0.022 10.081 406 410 4 0 4 EEEE EEEE 0.022 10.081 >pir|S|TVFF7L 2554 1799 2038 2042 4 0 4 RRRR RRRR 0.003 7.991 2039 2043 4 0 4 RRRR RRRR 0.003 7.991 Exemple 3 (option tout motif répété direct ou réverse) ====================================================== Recherche des séquences répétées de 6 bases dans la division Bacterial de GenBank (avec la contrainte de C ou T). sqx> chainx Séquences définies par un catalogue (C) Séquences définies par une fichier sequentiel(S) Quit = Return s NBRF format fasta 1 SWISS-PROT format fasta 2 TREMBL format fasta 3 NRL 3D format fasta 4 GenBank Primates fasta 5 GenBank bacterial fasta 6 Autre 9 6 /env/infobiogen/db/genbank/GBfasta/gbbct.seq Nom de fichier de sortie def = terminal toto2 7 Fichier de sortie : toto2 6 /env/infobiogen/db/genbank/GBfasta/gbbct.seq Nom de fichier de sortie def = terminal Séquence protéique ? (O/N) Pour une analyse de motif simple : (Pour motif recherché en direct : XXXXXXX ) (Pour motif recherché en direct et réverse : XXXXXXX/R) Pour une analyse de motif répété : (tous motifs directs : /TD ) (tous motifs directs et réverses : /TR ) (tous motifs symétriques : /TS ) (tous motifs directs étendus : /TDE) (tous motifs symétriques étendus : /TSE) (tous motifs palindromes : /P) Entrez le motif ou l'expression (longueur <= 20) /TR Nombres d'erreurs permises ? (RETURN = 0) Longueur minimum du motif répété ? (def=4) Longueur maximum du motif répété ? (def=minimum) Distance minimum entre les débuts de chaque motif (dans le sens direct) ? [4] Distance maximum entre les débuts de chaque motif (dans le sens direct) ? [50] 10 Limitation à un ensemble de caractères ? Donnez la liste, sinon Return AT ERR = 0 LONGUEUR MOTIF = 4 DIST MIN = 4 DIST MAX = 10 POS1 POS2 DIST E L MOTIF 1 MOTIF 2 PR.IN PR.GL >gi|516179|emb|Z31371|A7120FTS 1850 1 93 98 8 0 4 AAAA TTTT 0.615 99.999 460 462 5 0 4 ATTA TAAT 0.690100.000 815 820 8 0 4 TAAT ATTA 0.690100.000 832 839 10 0 4 AATA TATT 0.651 99.999 1485 1490 8 0 4 ATTT AAAT 0.732100.000 1490 1492 5 0 4 AAAT ATTT 0.651 99.999 1742 1749 10 0 4 AATT AATT 0.690100.000 >gi|1019382|emb|X89712|A7120GO 1805 2 102 107 8 0 4 AAAT ATTT 0.673 99.999 230 235 8 0 4 AATT AATT 0.596 99.998 381 385 7 0 4 TAAA TTTA 0.673 99.999 382 384 5 0 4 AAAT ATTT 0.673 99.999 397 401 7 0 4 AAAA TTTT 0.760100.000 399 405 9 0 4 AATT AATT 0.596 99.998 724 730 9 0 4 ATAA TTAT 0.673 99.999 1427 1429 5 0 4 ATTA TAAT 0.596 99.998 1801 1803 5 0 4 ATAT ATAT 0.596 99.998 1802 1804 5 0 4 TATA TATA 0.596 99.998 >gi|992585|emb|X87270|A7120TRE 2093 3 715 722 10 0 4 AAAA TTTT 1.480100.000 716 722 9 0 4 AAAA TTTT 1.480100.000 1159 1164 8 0 4 TAAT ATTA 0.834100.000 1162 1164 5 0 4 TAAT ATTA 0.834100.000 1368 1375 10 0 4 AAAA TTTT 1.480100.000 1833 1835 5 0 4 TAAT ATTA 0.834100.000 1842 1848 9 0 4 ATTT AAAT 0.626100.000 2036 2038 5 0 4 AATA TATT 1.111100.000 2078 2080 5 0 4 ATTA TAAT 0.834100.000 >gi|38637|emb|V00001|A7NIFH 1271 4 705 711 9 0 4 ATTT AAAT 0.370 99.094 1088 1090 5 0 4 TAAT ATTA 0.485 99.790 >gi|38639|emb|V01482|A7NIFX 3169 5 704 710 9 0 4 ATTT AAAT 0.546100.000 1087 1089 5 0 4 TAAT ATTA 0.604100.000 2641 2648 10 0 4 TTTA TAAA 0.546100.000 2704 2711 10 0 4 ATAA TTAT 0.668100.000 2750 2752 5 0 4 TATA TATA 0.604100.000 2786 2788 5 0 4 ATTA TAAT 0.604100.000 2878 2880 5 0 4 TATA TATA 0.604100.000 2889 2891 5 0 4 TAAT ATTA 0.604100.000 >gi|38641|emb|X53199|AA16S 1300 7 199 201 5 0 4 AATA TATT 0.196 92.226 Exemple 4 (option tout motif répété symétrique) =============================================== Recherche de séquences nucléiques symétriques sqx> chainx Séquences définies par un catalogue (C) Séquences définies par une fichier séquentiel(S) Quit = Return s NBRF format fasta 1 SWISS-PROT format fasta 2 TREMBL format fasta 3 NRL 3D format fasta 4 GenBank Primates fasta 5 GenBank bacterial fasta 6 Autre 9 9 Nom du fichier séquentiel (entier) essaix.fas essaix.fas Nom de fichier de sortie def = terminal Séquence protéique ? (O/N) Pour une analyse de motif simple : (Pour motif recherché en direct : XXXXXXX ) (Pour motif recherché en direct et réverse : XXXXXXX/R) Pour une analyse de motif répété : (tous motifs directs : /TD ) (tous motifs directs et réverses : /TR ) (tous motifs symétriques : /TS ) (tous motifs directs étendus : /TDE) (tous motifs symétriques étendus : /TSE) (tous motifs palindromes : /P) Entrez le motif ou l'expression (longueur <= 20) /TS Nombres d'erreurs permises ? (RETURN = 0) Longueur minimum du motif répété ? (def=4) 6 Longueur maximum du motif répété ? (def=minimum) Distance minimum entre les débuts de chaque motif (dans le sens direct) ? [6] Distance maximum entre les débuts de chaque motif (dans le sens direct) ? [50] 10 Limitation à un ensemble de caractères ? Donnez la liste , sinon Return CT ERR = 0 LONGUEUR MOTIF = 6 DIST MIN = 12 DIST MAX = 16 POS1 POS2 DIST E L MOTIF 1 MOTIF 2 PR.IN PR.GL >OCPRG5 3476 10 1967 1978 16 0 6 CTCTCT TCTCTC 0.023 54.732 1968 1979 16 0 6 TCTCTC CTCTCT 0.023 54.732 1969 1980 16 0 6 CTCTCT TCTCTC 0.023 54.732 1970 1981 16 0 6 TCTCTC CTCTCT 0.023 54.732 1971 1982 16 0 6 CTCTCT TCTCTC 0.023 54.732 1972 1983 16 0 6 TCTCTC CTCTCT 0.023 54.732 1973 1984 16 0 6 CTCTCT TCTCTC 0.023 54.732 .. Exemple 5 (option tout motif symétrique avec contraintes) ========================================================= Recherche de séquences nucléiques symétriques avec une contrainte de relation entre les caractères du 1er motif et ceux correspondants dans le 2eme motif (ici en symétrie). Cette relation est établie par 2 listes de caractères sur les 2 motifs. Exemple : recherche des motifs ayant uniquement C ou A avec un motif symétrique ayant C (en relation avec C) et T en relation avec A. soit les 2 chaines à entrer : CA et CT pour obtenir par exemple : AAACCCAC CTCCCTTT sqx> chainx Séquences définies par un catalogue (C) Séquences définies par une fichier séquentiel(S) Quit = Return s NBRF format fasta 1 SWISS-PROT format fasta 2 TREMBL format fasta 3 NRL 3D format fasta 4 GenBank Primates fasta 5 GenBank bacterial fasta 6 Autre defaut = [0] 5 /env/infobiogen/db/genbank/GBfasta/gbpri.seq Nom de fichier de sortie def = terminal Séquence protéique ? (O/N) [N] Pour une analyse de motif simple (motif recherché en direct : XXXX ) (motif recherché en direct et réverse : XXX/R) Pour une analyse de motif répété : (tous motifs directs : /TD ) (tous motifs directs et réverses : /TR ) (tous motifs symétriques : /TS ) (tous motifs directs étendus : /TDE) (tous motifs symétriques étendus : /TSE) (tous motifs palindromes : /P) Entrez le motif ou l'expression (longueur <= 20) /TSE Nombres d'erreurs permises ? [0] Longueur minimum du motif répété ? [4] Longueur maximum du motif répété ? [ 4] 12 Distance minimum entre les débuts de chaque motif (en réverse ou symétrique : valeurs opposées)[ 4] 8 Distance maximum entre les débuts de chaque motif [50] Limitation à un ensemble de caractères ? Liste des caractères du motif 1 defaut = pas de limitation CG Liste des caractères du motif 2 (lettres en correspondance) défaut = liste 1 CG Donnez la liste des caractères autorisés entre les motifs AT 1ere liste = CG 2eme liste = CG liste linker = AT Longueur minimum pour le linker (entre motifs) [ 4] 3 Longueur maximum pour le linker (entre motifs) [ 50] Type d impression : (0) les motifs (1) tout le segment [0] 1 Recherche en direct(0) ou direct+rev-compl(1) [0] ERR = 0 Longueur motif = 4 Dist min = 8 Dist max = 50 Pos1 Pos2 Link E L Motif >gb|U18602|ABU18602 1811 3 1706 1722 9 1 4 GCCCttaatatttCCCG >gb|U04852|AGU04852 10984 84 4048 4058 3 1 4 GGGCaaaCGGG >gb|L22862|BABCD59H 469 137 445 455 3 1 4 CCCCtttCCCC >gb|M88116|CALMYCG 6577 199 4432 4442 3 1 4 GGGGaatGGGG >gb|L35192|CEYMTRGZA 391 283 217 227 3 1 4 GCCCttaCCCG >gb|M38057|CHPCMYC 6911 314 2112 2123 4 1 4 CCGCatatCGCC >gb|M30950|CHPRGITX 2512 484 1699 1709 3 1 4 GCCCataCCCG >gb|K03429|CHPRGMC 1439 485 638 648 3 1 4 GCCCataCCCG Exemple 6 (option recherche de palindromes) ========================================================= Recherche de séquences nucléiques palindromiques sqx> chainx Séquences définies par un catalogue (C) Séquences définies par une fichier séquentiel(S) Quit = Return s NBRF format fasta 1 SWISS-PROT format fasta 2 TREMBL format fasta 3 NRL 3D format fasta 4 GenBank Primates fasta 5 GenBank bacterial fasta 6 Autre defaut = [0] 5 /env/infobiogen/db/genbank/GBfasta/gbpri.seq Nom de fichier de sortie def = terminal Séquence protéique ? (O/N) [N] Pour une analyse de motif simple (motif recherché en direct : XXXX ) (motif recherché en direct et réverse : XXX/R) Pour une analyse de motif répété : (tous motifs directs : /TD ) (tous motifs directs et réverses : /TR ) (tous motifs symétriques : /TS ) (tous motifs directs étendus : /TDE) (tous motifs symétriques étendus : /TSE) (tous motifs palindromes : /P) Entrez le motif ou l'expression (longueur <= 20) /P Nombres d'erreurs permises ? [0] Longueur minimum du motif ? [4] 8 Longueur maximum du motif ? [ 8] 20 Pos1 Pos2 Dist E L Motif 1 Motif 2 PR.IN PR.GL >HSAJ5273 1528 1 5 5 19 0 20 AATTCAGCGGCCGCTGAATT AATTCAGCGGCCGCTGAATT 0.000 0.000 7 7 15 0 16 TTCAGCGGCCGCTGAA TTCAGCGGCCGCTGAA 0.000 0.000 9 9 11 0 12 CAGCGGCCGCTG CAGCGGCCGCTG 0.000 0.001 10 10 9 0 10 AGCGGCCGCT AGCGGCCGCT 0.000 0.031 11 11 7 0 8 GCGGCCGC GCGGCCGC 0.000 0.354 23 23 7 0 8 TTCTAGAA TTCTAGAA 0.003 4.008 275 275 7 0 8 GGAATTCC GGAATTCC 0.001 1.795 292 292 7 0 8 TTCTAGAA TTCTAGAA 0.003 4.008 747 747 7 0 8 AGTGCACT AGTGCACT 0.001 1.795 1089 1089 7 0 8 AGAATTCT AGAATTCT 0.003 4.008 1258 1258 9 0 10 TTGTTAACAA TTGTTAACAA 0.000 0.360