PROGRAMME CHAINE ================ Ce programme a pour objet une analyse exacte ou floue de motifs Le but est de echercher les occurences floues correspondant a un motif donne. Le programme estime les probabilités d'occurences basées sur les compositions du motif et de la sequence. Des options permettent de rechercher un motif en Direct et Reverse- Complémenté (motif/R) ou tous les motifs repetes (en direct et en Reverse-complementé, pour les ac. nucléiques, avec une contrainte de Distance entre motifs, options /TD ou /TR). soit : =) Recherche de motifs exacts ou flous (mismatches) =) Recherche de motifs répétés définis =) Recherche de tous les motifs répétés directs (entre 2 bornes avec des seuils de longueur) =) Recherche de tous les motifs répétés directs et réverses (seq. nucléiques) => Recherche des palindromes (seq. nucléiques) Une estimation de la probabilité du motif ainsi que de l existence du motif dans la séquence est faite. La presence d'un N (seq. nucleique) ou X (proteique) permet de de rechercher des motifs avec des degenerescences a certaines positions. (utilisation de l alphabet nucleique standard : ACGTN YR SY NK BDHV) Le programme chainx (appliqué à un ensemble de séquences a quelques options supplementaires non implémentées dans chaine. EXEMPLE 1: --------- Recherche d'un motif floue 4 valeurs A = 48( 8.6) C = 2( 0.4) D = 43( 7.7) E = 60(10.8) F = 17( 3.1) G = 48( 8.6) H = 8( 1.4) I = 30( 5.4) K = 43( 7.7) L = 45( 8.1) M = 6( 1.1) N = 23( 4.1) P = 10( 1.8) Q = 14( 2.5) R = 30( 5.4) S = 25( 4.5) T = 25( 4.5) V = 67(12.0) W = 7( 1.3) Y = 6( 1.1) . R3EC1 557 1 557 DIVAEL 4 3 . Pos Err Motif Pr.in Pr.gl . 47 3 aIpAEq 0.875 99.235 126 3 gIrAfL 0.629 96.985 197 3 gIVkkL 0.846 99.103 334 3 DIdeEr 0.698 97.950 . Probabilite au hasard(%) pour 4 motifs = 93.424 Pr.in probabilite d'occurence du motif individuellement Pr.gl probabilite d'occurence du motif sur la sequence . EXEMPLE 2: --------- Recherche de toutes les repetitions de motifs de longueur minimum 7 AA, avec 2 erreurs et une contrainte de distance comprise entre 7 et le maximum. . Analyse statistique d' identite floue (L=0) 0 (Analyses de tous les motifs repetes :/TD) /TD Err = 2 longueur motif = 7 dist min = 7 dist max = 557 R3EC1 557 A = 48( 8.6) C = 2( 0.4) D = 43( 7.7) E = 60(10.8) F = 17( 3.1) G = 48( 8.6) H = 8( 1.4) I = 30( 5.4) K = 43( 7.7) L = 45( 8.1) M = 6( 1.1) N = 23( 4.1) P = 10( 1.8) Q = 14( 2.5) R = 30( 5.4) S = 25( 4.5) T = 25( 4.5) V = 67(12.0) W = 7( 1.3) Y = 6( 1.1) . Pos1 Pos2 Dist E L Motif 1 Motif 2 Pr.in Pr.gl . 548 498 2 7 AEqFKqA AEaFKaA 0.004 2.039 551 498 1 7 FKqAqGE FKaAkGE 0.001 0.684 282 85 2 10 GiVkNLTDYG GrVtNLTDYG 0.000 0.000 321 87 2 7 iVNVGDe vVNVGDv 0.007 3.849 340 87 2 9 tRvSLGLKQ rRiSLGLKQ 0.000 0.004 341 87 2 9 RvSLGLKQl RiSLGLKQc 0.000 0.004 342 87 2 8 vSLGLKQl iSLGLKQc 0.000 0.062 344 87 2 7 LGLKQlg LGLKQck 0.002 1.067 432 174 2 9 GlKQLgEDP GvKQLaEDP 0.000 0.003 435 174 2 7 QLgEDPw QLaEDPf 0.001 0.319 386 87 2 7 GveGLVH GidGLVH 0.002 0.947 423 87 2 10 DeERrRISLG DaEReRISLG 0.000 0.001 .. Pr.in probabilite d'occurence du motif individuellement Pr.gl probabilite d'occurence du motif sur la sequence . EXEMPLE 3 --------- Recherche de palindromes nucleiques sqx> chaine Type de donnee: Entree au terminal(T) Fichier personnel(P) Extraction FASTA(F) EMBL(E) GenBank(G) EMGLib(M) NBRF(N) SwissProt(S) Autre(A) (Retour au menu = Return) p Nom du fichier personnel ? = Liste de vos Fichiers Return = Choix precedent HSAJ5273 SEQUENCE PROTEIQUE ? (O/N) Premiere Position NO = Return = 1 Fin = -1 Derniere Position NO = Return = 1528 ENTREZ LE MOTIF (< 20) (Pour motif repete direct : xxx/D ) (Pour motif repete direct et reverse : xxx/R ) (Pour analyses de motifs repetes : directs/TD, reverses /TR) (tous motifs palindromes /P) /P NOMBRE D'ERREURS PERMISES ? (RETURN = 0) 1 Longueur minimum du motif ? [4] 6 Longueur maximum du motif ? [ 6] 20 HSAJ5273 1528 A = 532(34.8) C = 265(17.3) G = 344(22.5) T = 387(25.3) Nombre apparent de caracteres 3.76 POS1 POS2 DIST E L MOTIF 1 MOTIF 2 PR.IN PR.GL 0 0 3 4 7 2 7 aGAATTC GAATTCa 0.139 87.958 4 4 5 0 6 GAATTC GAATTC 0.030 37.118 6 6 17 0 18 ATTCAGCGGCCGCTGAAT ATTCAGCGGCCGCTGAAT 0.000 0.000 7 7 15 0 16 TTCAGCGGCCGCTGAA TTCAGCGGCCGCTGAA 0.000 0.000 11 11 7 0 8 GCGGCCGC GCGGCCGC 0.000 0.354 19 20 7 2 7 tGAATTC GAATTCt 0.159 91.151 21 23 11 2 10 AaTTCTAGAA TTCTAGAAcT 0.006 8.866 23 37 20 2 7 TTCTaGA TCcAGAA 0.101 78.558 24 24 5 0 6 TCTAGA TCTAGA 0.030 37.118 44 47 9 2 7 AGtGATC GATCgCT 0.141 88.415 45 47 7 2 6 GtGATC GATCgC 0.347 99.504 55 64 14 2 6 CCgTGG CCAtGG 0.180 93.561 61 64 11 2 9 TCgCCATGG CCATGGgGA 0.004 6.098 CALCUL DES PROBABILITES ----------------------- Les valeurs de probabilites affichees sont calculees a partir des considerations suivantes: Soient 2 motifs de N lettres (alphabet a L elements) L= 4 pour les sequences d'acides nucleiques et 20 pour les proteines . ) La probabilite individuelle d'avoir M elements en commun est donnee (dans l'approximation d'equiprobabilite de la frequence de chaque element) par: M (N-M) N! pro.in = (1/L) ((L-1)/L) ---------- M! (N-M)! Dans le cas (du programme) ou les frequences sont celles deduit