RECHERCHE DE SITES DE RESTRICTION DANS LA CARTE PHYSIQUE DE ESCHERICHIA COLI Carte de Kohara et al. ((1987) Cell, 50, 495-508) Carte modifiee par C. Medigue et al. ((1990) Molecular Microbiol. 4, 169-187) La carte publiee par Kohara a ete numerisee et la position des sites de restriction (au nombre de 8) se trouve sequentiellement dans le fichier DA:[BISANCE.TAB]RESEC.DAT sous la forme : 142 G 1116 G 2478 V 3320 E 4228 G 4455 V 4748 F 5590 F 5751 B 6385 F 6385 G 7634 G 8315 F 8542 V 8608 D 8769 S 8882 B 10065 G 10812 V 11266 G 12562 V 12628 E 12675 S 12921 F Elle se trouve dans une 2eme version (corrigee par C.Medigue) dans le fichier RESEC2.DAT Les sites de restrictions etant : BamHI B HindIII D EcorI E EcoRV F BglI G KpnI Q PstI S PvuII V Le programme MAPPHYS est encore dans une phase preliminaire, dans la mesure ou il ne determine pas automatiquement la position d'un pattern de restriction (pouvant correspondre a une sequence de la banque ) dans la carte de E. coli. 1) La carte presente des erreurs de base ainsi que des incertitudes de numerisation , precision et perte de coupures proches). 2) il a ete publie d'autres donnees montrant un certain nombre d'erreurs. 3) Les algorithmes a utiliser ne sont pas uniques en fonction des differents patterns. En particulier les patterns peu precis (peu de sites) conduisent a un nombre important de reponses. OBJECTIF -------- Le programme permet plusieurs types de recherches : 1) par composition la composition en sites est recherchee le long de la carte 2) par fragments la composition en fragments est recherchee le long de la carte. des sites exclus peuvent etre pris en compte 3) par motif recherche exacte ou avec mismatch (sans insertion) 4) par alignement optimisation par alignement du pattern 5) par recherche ce carte de restriction partielle 6) liste de la carte UTILISATION ----------- Lecture carte de E. coli : brute 7117 sites (1) Lecture carte de E. coli : corrigee 7637 sites (2) Lecture d une carte personnelle (3) 2 MAP-COLI-C 7517 4719600 1) Recherche par composition : --------------------------- C ENTREZ LA COMPOSITON DE LA SEQUENCE RECHERCHEE ENTREZ LA LETTRE PUIS LE NOMBRE (RETURN = FIN) F 1 V 2 G 1 S 1 NOM DE LA SEQUENCE = MAP.COLI PREMIER RESIDUE = 1 DERNIER RESIDUE = 7117 B 0 D 0 E 0 F 1 G 1 Q 0 S 1 V 2 NOMBRE DE SITES = 5 LARGEUR DE LA FENETRE EN SITES 5 LE POURCENTAGE EN COMPOSITION DOIT ETRE COMPRIS ENTRE 0 ET100.0 100. 84 - 88 53879 - 55241 1.1 5 / 5 100.00 FGVSV 91 - 95 57057 - 60982 1.2 5 / 5 100.00 SGVFV 209 - 213 128632 - 130514 2.7 5 / 5 100.00 VSFGV 256 - 260 164387 - 167452 3.5 5 / 5 100.00 GVSVF 814 - 818 539482 - 541638 11.5 5 / 5 100.00 SVGVF 831 - 835 552015 - 554919 11.7 5 / 5 100.00 VSFVG 887 - 891 589699 - 594079 12.5 5 / 5 100.00 VVFGS 2) Recherche par fragments : --------------------------- Composition(C) Fragment(F) Motif(M) Alignement(A) Distance(D) Liste(L) F Position minimum (Kb sur la carte physique) 1 0 Position maximum (Kb sur la carte physique) 4673 1000 Entrez les fragments de restriction recherches Entrez la lettre (Return) puis la longueur (Return) Terminez par une ligne vide e 9297 f 2000 f 4676 MAP-COLI Debut = 0 Fin = 1000000 E 9297 F 2000 F 4676 Precision sur la longueur des fragments (en %) 5 Entrez les sites exclus (sous forme de chaine BDE..) Largeur de la fenetre en bases 20000 Le pourcentage de composition doit etre compris entre 0 et 79.9 Entrez une valeur entiere 75 1 - 44 44 800 - 20813 0.02 20000 79.86 GGVEGGVVFFBFGGFVDSBGVGVESSFSFDVDGSBGGBGVDSSV 2 - 46 45 1658 - 22180 0.04 20000 79.86 GVEGGVVFFBFGGFVDSBGVGVESSFSFDVDGSBGGBGVDSSVDF 3 - 48 46 2811 - 23696 0.06 20000 79.86 VEGGVVFFBFGGFVDSBGVGVESSFSFDVDGSBGGBGVDSSVDFVQ 4 - 51 48 3909 - 24042 0.08 20000 79.86 EGGVVFFBFGGFVDSBGVGVESSFSFDVDGSBGGBGVDSSVDFVQGSB VOULEZ-VOUS UN AUTRE ESSAI O/N 3) Recherche par motif : ---------------------- La carte peut etre entree au clavier (1) ou calculee a partir d'une sequence (Genbank (G) EMBL (E) ou personnelle (P)) Elle est prevue pour etre calculee pour les 8 enzymes de Kohara. Elle est prevue pour etre calculee pour les 8 enzymes de Kohara. MOTIF DE RESTRICTION A RECHERCHER BamHI B HindIII D EcorI E EcoRV F BglI G KpnI Q PstI S PvuII V Composition(C) Fragment(F) Motif(M) Alignement(A) Distance(D) Liste(L) M motif de restriction a entrer au clavier (1) motif de restriction a calculer sur une sequence (2) Return = retour au choix precedent 1 MOTIF A RECHERCHER (20 C. MAX) RETURN = FIN FVGSV Nombre de mismatch Ret =0 Recherche sens direct FVGSV 1262 793000 793850 16.80 0 FVGSV FVGSV 5259 3353850 3355750 71.06 0 FVGSV FVGSV Recherche sens reverse VSGVF 7257 4554030 4554900 96.49 0 VSGVF VSGVF 4) Recherche par alignement : --------------------------- Composition(C) Fragment(F) Motif(M) Alignement(A) Distance(D) Liste(L) A motif de restriction a entrer au clavier (1) motif de restriction a calculer sur une sequence (2) Return = retour au choix precedent 2 Voulez vous la liste preetablie BamHI, HindIII, EcoRI, EcoRV, BglI, KpnI, PstI, PvuII O/N O 8 sites 1 B BamHI GGATCC 2 D HindIII AAGCTT 3 E EcoRI GAATTC 4 F EcoRV GATATC 5 G BglI GCC-----GGC 6 Q KpnI GGTACC 7 S PstI CTGCAG 8 V PvuII CAGCTG SEQUENCE GENBANK(G) EMBL(E) PERSONNELLE(P) RETURN=FIN E Mnemonique de sequence ? ECTHRINF ;ECTHRINF 7784 VSVGFVSGFBSFGGD 755 1037 1788 3265 3447 4130 4729 5219 5400 5687 6068 6141 6212 6312 7397 POIDS D UN NON-APPARIEMENT RETURN = 1 POIDS D UNE DELETION RETURN = 1 Impression mode bref(F) mode bavard(V) def= V Recherche sens direct VSVGFVSGFBSFGGD 6 !* 39 7 !* 203 8 !******** 1061 9 !****************** 2326 10 !******************** 2620 11 !******** 1082 12 !* 175 13 !* 10 14 !* 1 Moyenne = 10.50 DISTANCE MAXIMALE POUR L EDITION RETURN = 6 2 Recherche sens reverse DGGFSBFGSVFGVSV 1 !* 1 2 !* 2 3 !* 2 4 !* 3 5 !* 3 6 !* 24 7 !* 239 8 !******* 938 9 !***************** 2227 10 !********************* 2680 11 !********* 1199 12 !* 194 13 !* 4 14 !* 1 Moyenne = 10.55 DISTANCE MAXIMALE POUR L EDITION RETURN = 1 2844 1812450 1820060 38.40 - 1 DGGFSB-FGSVFGVSV DGGFSBVFGSVFGVSV 2844 DGGFSBVFGSVFGVSV D= 1 ****** ********* DGGFSB-FGSVFGVSV Dans ce cas le programme affiche l'histogramme des distances d'alignement l'utilisateur choisi un seuil (le 1er par defaut) l'impression des alignements est precedee par les informations qui contiennent : numero du site, positions en bases debut et fin sur le genome, position ramenee en minutes(sur 100) du genome, sens + ou - du motif recherche, le nombre de mismatch, les sites de restrictions de la carte de coli et du motif. Composition(C) Motif(M) Alignement(A) Distance(D) Carte(X) Liste(L) x Position minimum (site sur la carte physique) 1 Position maximum (site sur la carte physique) 7637 MOTIF A RECHERCHER (20 C. MAX) RETURN = FIN GGSB Entrez les positions des sites (en bases) 20 400 1000 2000 Nombre d erreurs permises sur les sites 1 Incertitude max en bases sur la position d un site 100 Erreur max sur le score (en bases) 300 Recherche sens direct GGSB Recherche sens reverse BSGG MOTIF A RECHERCHER (20 C. MAX) RETURN = FIN GGSB Entrez les positions des sites (en bases) 20 400 1000 2000 Nombre d erreurs permises sur les sites 1 Incertitude max en bases sur la position d un site 300 Erreur max sur le score (en bases) 1000 Recherche sens direct GGSB match de GGSB 525 1 1 1 4 260 1 525 298450 6.32 G 1 G 20 0 2 526 298850 6.33 G 2 G 400 20 3 527 299450 6.34 S 3 S 1000 20 4 533 300650 6.37 B 4 B 2000 220 match de GGSB 526 1 1 1 4 470 1 526 298850 6.33 G 1 G 20 0 2 528 299500 6.35 G 2 G 400 270 3 531 299850 6.35 S 3 S 1000 20 4 533 300650 6.37 B 4 B 2000 -180 match de GGSB Recherche sens reverse BSGG match de BSGG 523 1 1 1 4 480 1 523 298350 6.32 B 1 B 1 0 2 527 299450 6.34 S 2 S 1001 100 3 532 300250 6.36 G 3 G 1601 300 4 532 300250 6.36 G 4 G 1981 -80 .. 6) Liste de la carte --------------------- Composition(C) Fragment(F) Motif(M) Alignement(A) Distance(D) Liste(L) L Min Max pour l impression (en K bases) 300 350 Num Bases Min site 478 300094 6.4 B 479 300368 6.4 S 480 301001 6.4 V 481 301729 6.4 D 482 301956 6.4 E 483 301956 6.4 S 484 302182 6.4 V 485 302749 6.4 S 486 303997 6.5 G 487 304563 6.5 F 488 305423 6.5 E