Ce programme permet une analyse de l'organisation genomiques en zones codantes et non codantes. Il a ete ecrit par G. Fichant (Laboratoire de Biometrie, Lyon) et est decrit dans CABIOS (1987) 3, 287-295. Fichant G., Gautier C. "Statistical method for predicting protein coding regions in nucleic acid sequences." Son implantation sur BISANCE permet actuellement de travailler avec des sequences personnelles . Le resultat (uniquement graphique) est une sortie PostScript compatible LaserWriter Apple. (transferer par Kermit le fichier resultat et imprimer avec le logiciel SendPS). ============================================================================ Manuel d'utilisation du programme RECSTA. Ce programme a ete developpe au laboratoire de Biometrie,Genetique et Biologie des Poupulations (UA 243) a Lyon. Il est ecrit en Fortran 77. Il a pour but d'analyser l'organisation de longs fragments genomiques en zones codantes (genes proteiques) et non codantes. Ce manuel comprendra 3 parties: - la description de la methode. - la mise en oeuvre du programme. - l'interpretation de quelques exemples. 1. Description de la methode (extrait de G. Fichant (1988) Cette methode est basee sur les resultats d'une analyse factorielle des correspondances. Elle n'utilise que l'information contenue dans la sequence etudiee car elle repose sur la structure en codons presente uniquement dans la phase de lecture des regions codantes. De plus, elle fait intervenir l'uniformite de la strategie de codage au sein d'un gene (Grantham et col. 1980). L'existence de cette uniformite a ete confirmee par des resultats experimentaux recents (Bernardi et col. 1985). Il existe cependant des contre-exemples (Fichant, 1988). Nous ferons tout d'abord une presentation generale de l'analyse factorielle des correspondances avant de detailler son utilisation dans ce cas precis. 1.1. Presentation generale de l'analyse factorielle des correspondances (AFC). Nous ne ferons pas ici une description mathematique de l'AFC que l'on peut trouver dans differents ouvrages (Benzecri, 1973; Lebart et al. 1977). En outre, une presentation simple de cette analyse permettant de comprendre ces bases est proposee dans la these de C. Gautier (1987). L'AFC va nous permettre d'etudier une dependance entre lignes ou colonnes d'un tableau en d'en faire ressortir les traits principaux. Dans notre cas, les lignes ou individus seront les sequences d'acides nucleiques. Les colonnes ou variables seront les codons. Chaque sequence sera donc decrite par 61 variables (ou par 60 ou 62 variables suivant le code genetique utilise) dont les frequences absolues seront calculees. On obtient alors une table de contingence dont la case (i,j) renferme le nombre de codons de type j rencontre dans la sequence i. L'AFC consiste a comparer les profils des sequences de l'echantillon au profil moyen de celui-ci. Chaque sequence est representee dans l'espace des variables par sa composition en codons. De meme, chaque codons est represente dans l'espace des sequences suivant son utilisation dans ces sequences. Une distance est definie. Cette distance doit preserver la similitude entre deux sequences dont l'utilisation des codons est semblable mais dont la longueur est differentes. De meme, une ponderation doit supprimer l'effet de taille du a l'effectif de chaque codon dans les sequences. Pour representer les individus dans l'espace des variables et vice-versa, l'analyse recherche un axe, qui constituera la premier facteur, sur lequel la dispersion des individus est maximale. Ce facteur est une combinaison lineaire des p individus (sequences) et des q variables (codons). Il donne la plus grande correspondance entre les deux caracteres etudies, codons et sequences. Toutefois, ce facteur n'explique pas totalement la dispersion des nuages de points de depart. L'analyse definit donc un deuxieme facteur, dans le plan perpendiculaire au premier. Ce deuxieme facteur est celui qui donne la meilleure correspondance entre les deux caracteres etudies au sein de la variabilite non expliquee par le premier facteur. L'analyse definit ainsi (q-1) facteurs. 1.2. Application de l'AFC dans la recherche des regions codantes. ETAPES PRELIMINAIRES A L'AFC. Les etapes suivantes sont realisees: - decoupage de la sequence genomique en fenetres de 90 pb possedant entre- elles un decalage de 30 pb. La taille de la fenetre et celle du decalage doivent etre multiples de 3 pour ne pas induire de changement de cadre de lecture entre les differentes fenetres. - construction de deux autres fenetres commencant respectivement par la deuxieme et la troisieme base de chaque fenetre precedemment obtenue. Trois groupes de fenetres sont ainsi constitues qui representeront les trois cadres de lecture si la fenetre etudiee est situee dans une region codante. - calcul sur chaque fenetre de la frequence absolue des 61 (60 ou 62) codons. REALISATION DE L'AFC. L'AFC sera realisee sur la table de contingence dont les lignes (individus) seront les fenetres et les colonnes (variables) les codons. Si les trois fenetres correspondant aux trois cadres de lecture sont situees dans une zone codante, elles auront des compositions en codons differentes, du fait de l'utilisation preferentielle de certains codons dans la phase codante (Grantham et col. 1980). Ces trois fenetres seront donc eloignees dans l'espace des codons. Par contre, si elles appartiennent a une zone non codante, leurs compositions en codons ne devront pas presenter de grandes differences (absence de contrainte a ce niveau). Les trois fenetres seront alors proches dans l'espace des codons. Les relations de proximite entre les trois fenetres seront etudiees par projection sur un des facteurs de l'analyse et leurs coordonnees sur ce facteur seront reportees sur un graphe. Nous obtenons ainsi trois courbes correspondant aux trois phases de lecture. Le choix du facteur constitue un des points delicat de la methode. Choix du facteur de l'AFC. De maniere generale, la differences de composition en codons des trois fenetres correspondant aux trois cadres de lecture a la meme position dans la sequence etudiee ressortira sur la premier facteur. Cependant, dans certains cas, l'examen du premier facteur conduit a l'obtention de trois courbes indiscernables. La caracterisation des zones codantes et non codantes necessite alors l'analyse des facteurs suivants. Ceci sera necessaire: - si dans la sequence etudiee, le rapport du nombre de bases appartenant aux regions codantes sur le nombre de bases appartenant aux regions non codantes est inferieur a 0.5 (seuil determine empiriquement). Dans ce cas, la realisation d'analyses en cascade est envisageable (representation du premier facteur, du second etc...). L'etude de ces differents graphes, si elle ne conduit pas a la determination des zones codantes et non codantes, permet cependant de caracteriser des structures propres a la sequence (se reporter pour un exemple a l'etude du gene humain codant pour la cha”ne § de globine presentee dans la troisieme partie de ce manuel). La mise en oeuvre de cette analyse demande donc une connaissance approximative du rapport de la longueur des zones codantes sur celle des zones non codantes. Ce rapport peut etre determine au prealable par la recherche des cadres ouverts de lecture. - si une ou des zone(s) de la sequence presente(nt) une structure particuliere qui n'est pas en relation avec la strategie de codage (composition particuliere en bases due, par exemple, a la presence d'un motif repete). Dans ce cas, le premier facteur de l'analyse distinguera cette (ces) zone(s) du reste de la sequence. La caracterisation des zones codantes et non codantes s'effectuera sur un autre facteur. Le programme vous fournira une aide pour le choix du facteur sur lequel l'analyse devra etre effectuee (cf. mise en oeuvre du programme). INTERPRETATION DU PROFIL. La distance entre les trois courbes est utilisee pour la prediction. D'apres ce qui precede, les trois courbes correspondant aux trois cadres de lecture a une meme position dans la sequence seront distantes si la region est codante et enchevetrees si la region est non codante. La phase codante correspondra a la courbe se detachant le plus nettement des deux autres, ceci plus particulierement si l'usage du code de l'organisme est prononce. D'une maniere generale, pour determiner la phase codante nous pouvons utiliser la remarque suivante: D'apres l'hypothese de la strategie de codage, l'usage du code est uniforme le long d'un gene (Grantham et col. 1980). Les fenetres correspondant a la phase codante utiliseront donc des codons se terminant par les memes bases. Elles seront donc situees du meme cote du plan factoriel et de ce fait auront des coordonnees proches sur le facteur de l'AFC utilise pour la prediction. La courbe representant la phase codante sera donc toujours situee du meme cote du graphe (courbe superieure par exemple). Sur le profil, les regions codantes correspondront donc aux zones presentant trois courbes distantes et ne possedant pas determinateurs. Cependant, l'estimation de la distance entre les trois courbes reste quelque peu subjective. Or les fonctions utilisees pour calculer l'ordonee des points du profil etant determinees par l'analyse, nous sommes dans l'impossibilite de construire un test car ces valeurs ne sont pas independantes. Nous proposons cependant l'utilisation d'un test empirique. DESCRIPTION DU TEST. Le probleme est de tester si la composition en codons des trois fenetres correspondant aux trois cadres de lecture a la meme position dans la sequence est similaire ou pas. D'apres les hypotheses de depart, la composition en codons de ces trois fenetres est attendue voisine si la zone est non codante et differente si la zone est codante. Chaque fenetre a une longueur de 90 pb. Elle contient donc 30 codons. A chacun des 61 (60 ou 62) codons, nous allons associer une valeur yj telle que les yj auront des valeurs proches si les codons auxquels ils sont associes appartiennent a la meme fenetre. Les valeurs des yj seront donc choisies de maniere a minimiser la variance a l'interieur d'une fenetre par rapport a une variance de 1. Ces valeurs des yj correspondent aux coordonnees des codons sur le premier facteur de l'AFC (Benzecri, 1973). Chaque fenetre sera donc consideree comme un ensemble de 30 valeurs. La moyenne de ces 30 valeurs correspondant a la coordonnee de la fenetre sur le facteur de l'AFC, le probleme de depart revient donc a tester si cette moyenne est differente entre les trois fenetres correspondant aux trois cadres de lecture. Ceci peut etre realise a l'aide d'une analyse de variance. Si le test est significatif, cela indiquera que la variance entre les trois fenetres est superieure a la variance a l'interieur de la fenetre. La zone sera donc predite comme codante. Si le test n'est pas significatif, la zone sera predite comme non codante. La loi de la valeur resultante est ici inconnue car les valeurs des yj ne sont pas independantes. Deux seuils, 5% et 10%, ont donc ete determine de maniere empirique a partir de sequences simulees. Deux sequences simulees ont ete analysees. Elles ont ete generees par permutation des bases a partir de la sequence codant pour la chaine lourde de myosine chez le nematode C. Elegans (sequence etudiee dans la troisieme partie de ce manuel). Cette sequence decoupee en fragments de 90 pb donne 298 fenetres, soit donc trois ensembles de 298 valeurs (coordonnees dans chacune des trois phases). 5% des 2*298 donnees obtenues sur les sequences simulees donnent une valeur superieure 7.0 et 10% une valeur superieure a 4.9. Ces deux seuils ont ete compares avec les resultats obtenus sur les sequences reelles etudiees. Avec un seuil de 4.9, 4,3% des regions non codantes presentent une valeur superieure au seuil ainsi que 93% des parties codantes. Pour le seuil de 7.0, 0,6% des sequences non codantes et 86% des sequences codantes presentent une valeur superieure a ce seuil. Ces deux seuils permettant une bonne discrimination des zones codantes et non codantes, nous les avons utilises comme seuils empiriques. Finalement, une region codante sera identifiee sur le profil comme une zone ne possedant pas de terminateurs, presentant trois courbes separees et une valeur du test significative (superieure a 4.9). LIMITES DE LA METHODE. Les deux caracteristiques principales de cette methode (absence de systeme de reference, hypothese de l'uniformite de la strategie de codage) si elles sont responsables de son efficacite, le sont aussi de ces limites: 1) Si le pourcentage de sequences codantes est inferieur a 50% (seuil empirique), le premier facteur de l'AFC ne represente pas l'heterogeneite entre les trois phases de lecture mais d'autres structures, comme par exemple la variation de la composition en bases le long de la sequence. Dans ce cas, les trois courbes sont superposees et un examen des facteurs suivants est necessaire. Si le gene est constitue de petits exons (< a 100 pb) separes par de tres longs introns (plusieurs Kb), la methode echoue. 2) Si une forte structure en triplets existe dans une partie non codante (motif repete), la methode conduit a une prediction fausse. Ce cas est illustre par l'extremite 5' du gene humain codant pour l'hypoxanthine phosphoribosyltransferase qui est predite comme codante (Fichant et Gautier, 1987). 3) Si l'uniformite de la strategie de codage n'est pas verifiee le long du fragment genomique etudie, la methode echoue. Le gene t-PA humain presente un exemple extreme de cette situation. En plus de l'analyse des zones sequencees, la methode proposee peut permettre de verifier si aucune erreur n'a ete commise lors du sequencage (bonne position du debut et de la fin des genes, bonne position des introns, absence de terminateurs dans la phase codante etc...). Elle peut egalement fournir un outil de prediction pour la possibilite de coder des ORF. 2. Mise en oeuvre du programme. Seuls les points delicats seront detailles ici, le dialogue avec l'ordinateur etant dans la majorite des cas relativement simple. SEQUENCE ANALYSEE. La taille maximale du fragment genomique pouvant etre analyse a ete fixe a 20000 pb. La sequence ne doit contenir aucun caractere indetermine, c'est a dire aucun caractere autre que les bases A, C, G, T ou U. Dans le cas contraire, le traitement n'est pas realise. Cette sequence peut se trouver: - dans la banque - dans un fichier construit a partir du logiciel Analseq. - dans un fichier texte a) Banque. Le travail peut etre effectue a partir d'une sequence presente soit dans Genbank, soit dans EMBL. Il suffit de definir la banque sur laquelle l'on veut travailler avant de lancer le programme Recsta. La sequence est identifiee a l'aide de son mnemonique dans la banque. b) Fichier. Le fichier (de type Analseq ou texte) ne doit contenir que la sequence a analyser Dans le cas d'un fichier texte, la longueur maximale des enregistrements ne doit pas depasser 200 pb (200 pb au maximum sur une ligne). OPTIONS. - vous pouvez travailler sur la sequence complete ou sur seulement une partie de cette sequence. Dans ce dernier cas, la sequence sera automatiquement decoupee suivant les positions de debut et de fin que vous donnerez. - vous pouvez egalement travailler sur la sequence complementaire que vous ayez choisi d'analyser la sequence complete ou seulement une zone de celle ci. Le programme effectuera lui-meme la transformation de votre sequence. TRAITEMENT. Le traitement invisible pour l'utilisateur consiste a: - decouper la sequence analysee en fenetres de 90 pb presentant entre-elles un decalage de 30 pb, ceci dans les trois cadres de lecture. - calculer la frequence des codons (terminateurs exclus) sur chacune de ces fenetres. - realiser l'analyse factorielle des correspondances sur ce tableau. - recuperer les coordonnees des fenetres sur les trois premiers facteurs de l'analyse. - rechercher la position des initiateurs et des terminateurs dans les trois cadres de lecture. Intervention de l'utilisateur. a) Choix du facteur. La methode est basee sur l'hypothese suivante: Si une zone de la sequence code pour un gene proteique (ou pour un exon) alors, les trois fenetres correspondant aux trois cadres de lecture a la meme position dans la sequence auront des compositions en codons differentes. Les coordonnees factorielles de ces fenetres sur le facteur de l'analyse decrivant cette variabilite seront donc eloignees. Le probleme consiste a chosir ce facteur. De maniere generale, la difference de composition en codons entre les trois fenetres ressortira sur le premier facteur. Cependant, dans certains cas, l'analyse des facteurs suivants est necessaire (cf. Description de la methode). Une aide pour le choix de ce facteur vous est donc fournie. Elle se presente sous la forme d'un tableau ou pour chacun des trois premiers facteurs vous sera donne: - l'importance de ce facteur (ceci traduit le pourcentage de variabilite de votre echantillon expliquee par ce facteur). - le pourcentage de fenetres predites comme codantes par l'analyse de ce facteur (resultat du test empirique presente dans la partie Description de la methode). Le facteur pour lequel le pourcentage de fenetres predites comme codantes est le plus eleve sera le plus approprie pour realiser la prediction. b) Recherche de signaux (option facultative). Vous avez la possibilite de rechercher la position d'un signal ou de deux signaux (facultatif: une option aucun signal est proposee). La longueur du signal recherche ne doit pas excedere 20 pb. Cette recherche est realisee a l'aide de ponderations donnees pour chacune des quatre bases a chaque position du signal. L'ordre d'entree des ponderations est impose: pour chaque position, donnez la frequence de la base A, de la base C, de la base G et finalement de la base T (ou U). Pour chaque signal rencontre, la variable S suivante est calculee: S prendra des valeurs entre 0 et 1. S vaudra 1 si le signal rencontre dans la sequence correspond au signal dont les bases possedent les plus fortes ponderations. A chaque position de la sequence ou un signal est trouve, un trait vertical dont la hauteur est proportionnelle a la valeur de S sera trace. Comment donner les ponderations? Tout depend de votre objectif. a) Recherche d'un signal par presence-absence. Vous voulez rechercher un signal ou une seule base est presente a chaque position. exemple: recherche du signal G-U-G-C. Pour chaque position: - les bases absentes seront ponderees par 0. - la base presente peut etre ponderee par n'importe quelle valeur appartenant a l'intervalle [0,1[. Pour des raisons de programmation, la ponderation ne doit pas etre egale a 1. Dans le cas du signal G-U-G-C, le tableau des ponderations associe pourrait etre le suivant: A C G U pos 1 0 0 0.999 0 pos 2 0 0 0 0.999 pos 3 0 0 0.999 0 pos 4 0 0.999 0 0 La pondetration donnee a la base presente n'est pas importante, car quelque soit sa valeur, la variable S calculee sera egale a 1. Vous voulez rechercher un signal ou, pour certaines positions, un choix entre plusieurs bases est possible, mais vous considerez que ces differentes bases presentent le meme poids. exemple: recherche du signal AC-GC-UG. On va rechercher la position des signaux: AGU AGG ACU ACG CGU CGG CCU CCG en affectant le meme poids a chacun des signaux Comme precedemment, - les bases absentes seront ponderees par 0. - les bases presentes seront ponderees par n'importe quelle valeur appartenant a l'intervalle [0,1[ (donc sauf par 1). Les bases presentes a la meme position doivent etre ponderees par la meme valeur. Le tableau de ponderations associe au signal AC-GC-UG pourrait etre le suivant: A C G U pos 1 0.5 0.5 0 0 pos 2 0 O.5 0.5 0 pos 3 0 0 0.5 0.5 Comme precedemment, quelque soit le poids donne aux bases presentes dans le signal, la valeur de S sera egale a 1. b) Recherche d'un signal en attribuant des poids differents aux bases rencontrees a une position donnee. Deux cas sont envisageables: - votre signal contient des positions possedant des bases invariantes. - votre signal ne presente pas de bases invariantes. Presence de bases invariantes. Ces bases doivent etre ponderees par 1. exemple: recherche des jonctions 5' d'epissage. Dans ce signal, seules les bases GU indiquant le debut de l'intron sont considerees comme invariantes. On peut donc, par exmple, choisir de rechercher tous les GU presents dans la sequence etudiee et etablir une ponderation autour de ce dinucleotide (1 base avant et 3 bases apres par exemple). La ponderation adoptee pour les bases entourant le signal peut correspondre a leur frequence dans un consensus etabli au prealable sur un ensemble de jonctions 5' d'epissage. Le tableau de ponderations associe a cet exmple pourrait etre: A C G U pos 1 0.0693 0.0433 0.8095 0.0736 pos 2 0 0 1 0 pos 3 0 0 0 1 pos 4 0.6364 0.0346 0.2944 0.0346 pos 5 0.7446 0.0714 0.0974 0.0844 pos 6 0.0693 0.0411 0.842 0.0476 La somme des frequences correspondant a une ligne du tableau ne doit pas forcement etre egale a 1. Donc, si l'on veut attribuer la meme ponderation a deux bases, ceci est tout a fait possible. exemple: A C G U 0.1214 0.8208 0.0578 0.8208 De meme, si a une position du signal n'importe laquelle des quatre bases peut etre rencontree, on peut decider d'attribuer une ponderation nulle a cette position en donnant un poids egal a 0 a chacune des bases. exemple: A C G U pos 1 0.3 0.2 0.1 0.4 pos 2 0 0 0 0 pos 3 0 1 0 0 Dans le cas de la presence de bases invariantes dans le signal, le calcul de S est legerement modifie. En effet, ces bases etant presentes dans l'ensemble des signaux recherches, nous avons decide de leur attribuer une ponderation nulle. Ceci ne peut pas etre fait au niveau du tableau de ponderations car celui-ci est utilise pour rechercher le signal. Par contre, ceci est envisageable au niveau du calcul de S. En effet, il suffit de retrancher le nombre de positions invariantes au numerateur et au denominateur. (Ceci explique que l'on ne puisse pas, dans le cas de la recherche d'un signal par presence-absence, attribuer la valeur 1 a la base consideree. En effet, dans le cas du signal GUG, donne en exemple ci-dessus, nous aurions avec une ponderation de 1 pour chacune des bases: Ce qui est impossible a calculer! Absence de bases invariantes. Ce cas ne pose aucun probleme. Vous donnez les ponderations que vous attribuez aux differentes bases a chaque position du signal (ponderation de 1 interdite). Comment rentrer les ponderations? Vous pouvez choisir de: - taper vos ponderations au clavier - construire un fichier contenant ces ponderations. a) au clavier. Le programme demande la longueur du signal recherche (maximum: 20 pb). Cette donnee definira la taille du tableau des ponderations. Il demande egalement la legende que vous desirez associer a ce signal. Sur le graphe apparaitra: signal:"legende" Les ponderations doivent ensuite etre entrees en donnant pour chaque position: la frequence de la base A, celle de la base C, celle de la base G et celle de la base T. Cet ordre est impose. b) dans un fichier. Ce fichier est un fichier formatte a acces sequentiel. La premiere ligne du fichier doit etre construite de la facon suivante: 1blanc longueur du signal sur 3 caracteres (nombre entier) un blanc legende du graphe sur 20 caracteres. Les lignes suivantes correspondront aux positions de votre signal. Chaque ligne comprendra respectivement les frequences des bases A, C, G et T. Le format d'ecriture de ces lignes est laisse a votre choix. Il vous sera demande lors de la lecture du fichier. exemple de fichier: bbb3bjonction 5' b0.0693b0.0433b0.8095b0.0736 b0.0bbbb0.0bbbb1.0bbbb0.0 b= blanc b0.0bbbb0.0bbbb0.0bbbb1.0 format de lecture (4F7.4) base A base C base G base U Attention: votre fichier doit contenir autant de lignes de ponderations que la longueur du signal demandee. La legende ne doit pas exceder 20 caracteres. Modification des ponderations tapees. Quelque soit la technique que vous avez employee pour entrer vos ponderations (clavier ou fichier), le tableau des ponderations s'affichera. Si vous desirez modifier une ou plusieurs valeur(s) de ce tableau, une option vous est proposee. Il vous faut alors donner le numero de la colonne et de la ligne correspondant a la case du tableau que vous voulez modifier, ainsi que la nouvelle ponderation. Le tableau modifie s'affichera de nouveau. Vous pouvez reiterer cette operation autant de fois que vous le desirez. Quand toutes les corrections ont ete effectuees, ou si vous ne voulez pas corriger le tableau, choisir l'option "(0) ne rien modifier". SORTIE GRAPHIQUE. Le programme cree un fichier de sortie ecrit en POSCRIPT.et possedant l'extension .PS. Pour obtenir les graphiques sur l'imprimante laser du CISM de LYON, il faut donc taper l'instruction VMS suivante: @M:LASER nom du fichier avec son extension. Suivant la longueur de la sequence analysee, le profil pourra etre obtenu sur plusieurs pages. En effet, une feuille de format A4 permet de representer une sequenc de 6000 pb. Si votre sequence a une longueur superieure a 6000 pb, vous obtiendrez autant de pages que necessaire (4 au maximum car la longueur maximale de la sequence a ete fixee a 20000 pb). Il suffira de rabouter ces differentes pages pour obtenir le profil en continu. Les graphes obtenus sont divises en deux ou trois parties suivant qu'une recherche de signaux a ete demandee ou pas. La partie superieure renferme le profil des coordonnees des fenetres sur le facteur chosi de l'AFC. La courbe symbolisee par correspond aux fenetres commencant par la premiere base. La courbe symbolisee par............correspond aux fenetres commencant par la deuxieme base. La courbe symbolisee par------------correspond aux fenetres commencant par la troisieme base. L'axe horizontal correspond a la longueur de la sequence. L'echelle est donnee en bases. Un repere a ete trace toutes les 100 pb. L'axe vertical correspond aux coordonnees des fenetres sur le facteur de l'AFC (le minimum et le maximum du graphe vous sont rappeles). L'interpretation du resultat est independant de l'echelle sur cet axe. En effet il depend de la distance entre les trois courbes. Pour definir si la distance entre les trois courbes est significative ou pas, nous avons construit un test (cf partie Description de la methode). Le resultat de ce test est reporte sous l'axe des x. Un trait sera trace si la valeur du test obtenu sur les trois fenetres correspondant aux trois cadres de lecture au meme endroit dans la sequence est superieure au seuil defini, en d'autres termes, si ce segment est predit comme codant. Dans la seconde partie du graphe, nous avons reporte la position des initiateurs (t) et des terminateurs (s), ceci dans les trois cadres de lecture (la premiere droite correspond au premier cadre de lecture, la seconde au second cadre et la troisieme au troisieme cadre). Manuel programme RECSTA Dans la troisieme partie (facultative), nous avons indique la position du signal recherche. La position de chaque signal est indiquee par un trait vertical dont la hauteur est proportionnelle a la valeur de la variable S calculee a partir des ponderations donnees. La droite en pointilles indique la valeur prise par le signal possedant a chaque position la base presentant la plus forte ponderation (ce qui peut correspondre au signal consensus dans certains cas). Si vous avez la recherche de deux signaux, leurs positions sont representees l'une en dessous de l'autre (la premiere ligne donne les positions du premier signal, la seconde ligne donne celles du second signal). 3. Interpretation de quelques exemples. 3.1. Recherche des introns et des exons des genes proteiques eclates. a) Etude du gene codant pour la cha”ne lourde de myosine chez C. Elegans (gene unc-54 I). Ce gene est compose de 9 exons et de 8 introns. Le rapport du nombre de bases codantes sur le nombre de bases non codantes est de 1.9. Nous representerons donc les coordonnees des fenetres sur le premier facteur de l'analyse. Les 9 exons, y compris le premier de petite taille (60 pb), sont clairement discrimines par cette methode (Fig. 1). En effet, la distance entre les trois courbes se reduit considerablement au niveau des introns. De plus, toutes les valeurs significatives du test sont rencontrees dans les parties codantes. La lecture seule du profil nous permet de determiner la phase de lecture de chaque exon (courbe inferieure). Une confirmation par la recherche des terminateurs est conjointement realisable. Les exons E1, E3, E4, E6, E7 et E8 sont en phase 3. Les exons E2, E5 et E9 sont en phase 1. Cette propriete presente dans certains cas des avantages. En effet, si nous prenons l'exemple de l'exon 4, la lecture de la position des terminateurs nous indique que deux cadres ouverts de lecture existent a cette position dans la sequence (l'un dans la phase 1, l'autre dans la phase 3). Une ambiguite persiste donc. Celle-ci peut etre levee par l'examen des courbes car a cette position la courbe representant la phase codante (courbe inferieure) correspond au troisieme cadre de lecture. b) Etude du gene humain codant pour la cha”ne § de globine. Nous presentons cet exemple pour illustrer le choix du second facteur de l'AFC. Ce gene est compose de 3 exons et de 2 introns. Le rapport du nombre de bases codantes sur le nombre de bases non codantes est de 0.3. Nous choisirons donc de representer les coordonnees des fenetres sur le second facteur de l'analyse. Pour confirmer le choix de ce facteur, la methode a ete realisee sur le premier facteur . Les trois courbes sont alors confondues (Fig. 2). Elles ne permettent donc pas le decoupage de la sequence en introns et exons. Cependant, des zones homogenes du fragment genomique sont discriminees suivant un autre critere qui ici peut etre identifie comme la composition en (C+G). En effet, la zone correspondant au second intron est marquee par une depression des trois courbes Or cet intron possede un taux de (C+G) inferieur a celui des autres parties du gene. Par contre, la representation des coordonnees des fenetres sur le second facteur permet de determiner clairement les differents exons du gene (Fig. 3), ainsi que leur phase de lecture respective. L'exon E1 est en phase 1, l'exon E2 en phase 2 et l'exon E3 en phase 3 (courbe superieure). 3.2. Etude d'un fragment genomique contenant des genes non eclates. Operon unc d'E. coli. L'operon unc de E. coli ou operon de l'ATP synthetase est compose de 9 genes codant pour 8 proteines structurales et une proteine hypothetique (gene 1). Le profil obtenu est presente figure 4 (premier facteur de l'analyse car la majeure partie de l'operon est constitue de sequences codantes). Dans la partie 5' non codante, les trois courbes sont enchevetrees. Par la suite, 8 genes se distinguent nettement (resserrement des courbes entre chacun). Les genes 5 et 6 apparaissent sous la forme d'un seul gene. Ceci n'est guere etonnant car ils sont exprimes dans la meme phase de lecture et ne sont separes que par un segment non codant de 13 pb. Un changement de phase de lecture entre les deux genes aurait permis leur identification, mais ici, la partie non codante est trop petite pour ressortir dans l'analyse. L'examen des terminateurs laisse toutefois predire l'existence de deux genes car le cadre ouvert de lecture est interrompu par un codon stop, immediatement suivi d'un initiateur. Les phases codantes des differents genes peuvent etre deduites directement de la lecture des courbes (courbe inferieure) et confirmees par la localisation des terminateur, excepte dans le cas du gene 1. Pour ce dernier, nous sommes oblige d'avoir recours a la position des terminateurs pour determiner sa phase codante. Ce gene possede un usage du code different des autres genes de l'operon, ce qui pourrait expliquer sa mauvaise determination. Il devrait etre lu en phase 1, mais la region detectee par notre methode correspond a un cadre ouvert de lecture situe en phase 3. Pour certains genes, comme G2 et G7, les valeurs du test ne sont pas significatives pour toutes les fenetres incluses dans le gene. Cependant, le nombre de fenetres pour lesquelles la valeur du test est superieure au seuil defini est suffisamment eleve pour permettre la localisation du gene en utilisant conjointement le graphe des trois courbes et la position des terminateurs. 3.3. Application de la methode pour la prediction sur les cadres ouverts de lecture (ORF). Comme nous l'avons souligne precedemment, cette methode peut etre un outil de prediction pour la possibilite de coder des cadres ouverts de lecture dont les produits peptidiques n'ont pas encore ete isoles. Nous en donnons ici une illustration avec le gene codant pour la sous-unite I de la cytochrome oxydase (oxi3) dans le genome mitochondrial de S. cerevisiae. Ce gene est constitue de 8 exons et de 7 introns. Le profil (Fig. 5) montre que les longs cadres ouverts de lecture du premier, du second, du troisieme et du quatrieme introns ressemblent a des regions codantes (valeurs du test significatives et courbes separees). Dans le cas de ces ORF, ces resultats sont en accord avec les donnees bibliographiques. En effet, le premier et le second introns presentent des homologies de sequences avec des genes codant pour des polymerases ARN dependantes, comme les genes pol des retrovirus (Michel et Lang, 1985). Le quatrieme intron est homologue au quatrieme intron du gene apocytochrome b de S. cerevisiae codant pour une "maturase" (Dujardin et al. 1982). L'extremite 5' du premier ORF ne semble pas codante (les trois courbes sont enchevetrees). Ceci n'est pas incompatible avec le fait que le reste de l'ORF puisse etre codant car: 1) le commencement de la region codante peut ne pas coincider avec le debut de l'ORF, plusieurs initiateurs etant disponibles dans l'ORF. 2) Les introns mitochondriaux presentent une structure secondaire conservee dans laquelle la plus grande partie de la sequence de l'ORF est localisee dans une boucle. Cependant, ces extremites peuvent participer a la structure secondaire et leurs sequences peuvent subir des contraintes qui n'agissent pas sur la partie centrale de l'ORF (Michel et Dujon, 1983; Waring et Davies, 1984). Nous ne pouvons pas, bien entendu, affirmer que ces ORF sont effectivement codantes tant que les produits peptidiques n'ont pas ete isoles. Nous pouvons cependant assurer qu'elles n'ont pas une structure intronique.