MENU Nbr lignes= 98 Analseq permet de manipuler des fichiers de travail (ftp,fta,espace), de definir deux sequences appelees dans la suite SEQ1 et SEQ2. la definition d' une sequence permet differents traitements: (edition, extraction, concatenation, inversion, complementation). Les traitements de sequences se font a l'aide de commandes ecrites sur trois caracteres. Elles peuvent etre modifiees par trois clefs: /lpt dirige les sorties vers un fichier qui pourra etre imprime si cette clef est absente, les sorties ont lieu sur le terminal. /tot toutes les sequences du fichier sont traites les unes apres les autres. /cum permet le traitement globale de tout le fichier. en l'absence de /tot et /cum la sequence SEQ1 est seule traitee. Il y a possibilite de creer des espaces de travail a l interieur des fichiers de travail (pour plus de renseignements se reporter au manuel) *******Les commandes sont groupees en sections: DEFINITION: Definir seq1 ou seq2 GESTION: Gerer les fichier de travail, en changer, en creer EDITION: Editer les sequences et des statistiques simples UTILITAIRES: Traitements complexes sur les sequences GRAPHIQUE: Traitements impliquant une sortie dans un fichier ****** Liste des commandes ****** ALS : Alignement rapide de deux sequences BAS : Etude statistique des voisinages entre bases BLO : Decoupage en bloc d'une sequence CHB : Changement du fichier de travail principal COD : Composition en codons CON : Calcul du consensus de plusieurs sequences COU : Etude statistique des voisinages entre codons COS : Comparaison de sequences homologues CRI : Recherche de ressemblance entre 1 sequence et celles du fichier DEF : Definition d'une sequence 2DE : Definition de la deuxieme sequence DIS : Mise a jour de fichiers de travail DOU : Frequence des doublets EDA : Edition de toutes les sequences par rapport a la sequence definie EDI : Edition de sequence ESP : Creation d'espace de travail ETA : Etat du systeme EXP : Calcul d'un ensemble de fonctions sur les sequences d'un fichier EXT : Recopie d'une sequence dans un fichier texte FIN : Fin du programme FRA : Composition en acides amines FRB : Composition en bases par phases INS : Insertion de sequence LIS : Liste de sequences du fichier de travail MDI : Matrice de distance entre sequences MFS : Modification des fichiers espaces MOD : Modification du code genetique et de la phase MTL : Matrice de points MVA : Creation de fichier de frequences MVM : Codage numerique d'une sequence (interface afcm) NDP : Nuage de points OUV : Ouverture ou creation d'un fichier de travail auxiliaire PRI : Impression PRO : Traduction en acides amines QUI : Changer les caracteristiques du terminal REN : Renommer une sequence RES : Carte de restriction RUN : Etude des suites homogenes de bases SIG : Recherche d''un signal SIM : Simulation de sequences SNP : Test non parametriques SUP : Suppression d''une seqence TER : Recherche de phases ouvertes ******POUR AVOIR LA LISTE DES COMMANDES TAPER ?NOM DE LA SECTION EXEMPLE: ?EDITION GESTION DU FICHIER DE TRAVAIL ***************************** Ces commandes permettent de manipuler les fichiers de travail.Deux f.t. sont accessibles en meme temps: le fichier courant dont les sequences peuvent etre traitees ou servir a definir SEQ1 et SEQ2 et un fichier auxilliaire Vous devez travailler sur un fichier de travail (f.t.),fichier qui peut etre cree: - soit par la commande ext de requete - soit en constituant une liste de mnemonique par la commande save de requete et en l''inserant par la commande ins. ceci permet de travailler directement sur les sequences de la banque sans qu il ne soit necessaire de creer de gros fichiers de donnees - soit en inserant des fichiers de sequences (c.f. manuel) Si vous donnez un nom de fichier qui n'existe pas vous pouvez le creer. DEFINITION Ces commandes vous permettent de definir les sequences seq1 et seq2 ces sequences sont obtenues a partir du fichier de travail par extraction, concatenation,inversion,complementation. COMMANDES: DEF: Definition de SEQ1 : Aucune limite a la longueur de SEQ1 2DE: Definition de SEQ2 : Cette commande permet la comparaison entre deux sequences (SEQ1 ET SEQ2). Une taille maximum de 20000 bases est imposee a SEQ2. Pour une description detaillee d'une commande taper ?commande Par exemple ?def DEF NBR LIGNES= 30 DEFINITION D'UNE SEQUENCE ************************* Apres que vous ayez tape DEF Analseq marque ? et se met en attente ----- vous voulez traiter une sequence du fichier de travail: taper le mnemonique de cette sequence suivi de 2 return EXEMPLE: %DEF ?HOMO/DGLB/PC ? Analseq donne a SEQ1 le nom de la sequence dans le f.t. et lui affecte la meme phase et le meme code genetique. ----- Vous voulez traiter un fragment d'une sequence, taper le mnemonique(numero premiere base,numero derniere base) si num. premiere base > num. derniere base.: la sequence est lue a l'envers ----- Vous voulez changer c en g, g en c, a en u, u en a : vous faites preceder le mnemo. du signe - EXEMPLE: ?-HOMO/DGBL/PC(10000,1) Brin complementaire de la partie codante de l'hemoglogine delta humaine ( 10000 etant superieur a la longueur de la sequence Analseq le considere comme la fin) ----- Vous voulez concatener plusieurs sequences ou fragments: vous les separez par ; ou return ----- Vous devez toujours taper 2 return pour terminer la definition A part dans le premier cas Analseq demande le nom de SEQ1 met la phase a 0 et demande le code genetique s'il y a des differences de codes entre les fragments. 2DE NBR LIGNES= 10 DEFINITION D'UNE DEUXIEME SEQUENCE ********************************** La sequence qui sera definie par la commande 2DE pourra etre comparee a la sequence SEQ1 a condition que SEQ1 soit de longueur < 20 000 Les regles pour definir cette deuxieme sequence sont les memes que pour la commande DEF, la longueur totale de la sequence ne pouvant exceder 20000 taper ?DEF pour obtenir la syntaxe de definition d'une sequence ALS NBR LIGNES= 21 ALS: ALIGNEMENT RAPIDE DE DEUX SEQUENCES (Acides nucleiques ou Proteines). --- Clef permise: /LPT. THEORIE: ALS n'est applicable que sur des seq.fortement homologues pour lesquelles il fournit un alignement rapide.("Pour voir") MISE EN OEUVRE: Les 2 seq. a aligner sont placees dans SD1 (DEF) et dans SD2( 2DE). %ALS La machine demande : Numero du 1er nucl. ou A.A. Pour seq1 puis seq2 dans l'edition ?,Controle la numerotation des seq. .Reponse:Les numeros des debuts de chaque seq separes par ,. Point d'homologie approximatif connu ? (oui/non):Indiquer si l'on connait a priori un point dans chaque seq. homologue. Si reponse Oui: Positions du point dans seq1 et seq2 ?(Numerotation de l 'edition).Indiquer les coordonnees du point homologue dans les 2 seq. valeur maxi du decalage par rapport a ce point ? Ceci permet de limiter les decalages par rapport au point homologue qui seront envisages par le programme dans sa recherche de regions homologues. Longueur mini des segments:C'est la longueur minimale de 2 regions identiques dans les seq.que le programme est autorise a retenir dans sa recherche d'homologie. Valeurs conseillees:10 pour A.A,5 prot. Resultats:La sequence est affichee in extenso,seuls les residus de la sequence 2 qui different du residu homologue de la seq.1 sont ecrits. Les deletions sont indiquees par des tirets. BAS NBR LIGNES= 21 BAS: ETUDE STATISTIQUE DES VOISINAGES ENTRE BASES. --- Clefs permises : /TOT,/CUM,/LPT. Mise en oeuvre : %BAS met en oeuvre un test non parametrique. (Gautier C.,Gouy M.,Louail S. 1985 ).La statistique BAS est definie a partir de deux ensembles A1 et A2 de bases: c'est le nombre de fois ou une base de A1 est suivie d'une base de A2.Deux modeles sont proposes: 1)Modele de permutation des bases: Si la longueur de la seq. est L!,il existe L! manieres de permuter les bases pour chacune de ses L! seq. on pourrait calculer la statistique BAS et comparer les L! resultats ainsi obtenus au resultat de BAS sur la seq. reelle.Mais c'est impossible le nbre L! est trop grand.2 strategies sont possibles soit on echantillonne l'ensemble de ces L! seq.,c'est l'approche par simulation pouvant etre oeuvree par SIM,soit on calcule une valeur BAS*, telle la frequence,dans l'ensemble des L! seq.,des seq. ayant une valeur de BAS plus extreme que la valeur reelle soit approchee par la probabilite avec laquelle une variable N(0,1) depasse,en valeur absolue, cette valeur BAS*. 2)Modele de permutation des bases avec conservation de la pos. dans le codon: La demarche est la meme mais l'ensemble des seq. de references est constitue des [(L/3)!]3 sequences obtenues en permuttant entre elles les positions I,II,III des codons.La statistique BAS est calculee separement pour les paires de position I-II,II-III,III-I puis les 3 cumulees. BLO NBR LIGNES=12 BLO: DECOUPAGE EN BLOCS D'UNE SEQUENCE. --- Clef permise : Aucune. Objectif : Decoupage en blocs d'une sequence. Mise en oeuvre: Il doit exister un FTA de meme type que le FTP,c'est dans le FTA que seront ranges les differents blocs obtenus par decoupage de la sequence definie 1 (SD1). On fixe la longueur des blocs,ce qui permet de realiser des blocs chevauchants.Suivant la longueur de la sequence le dernier bloc est,en general,incomplet.On fixe une longueur minimale en dessous de laquelle il n'est pas pris en compte. De nombreux exemples d'utilisation de cette commande sont presentes en fin du manuel. CHB NBR LIGNES= 08 CHB: CHANGEMENT DE FICHIER DE TRAVAIL PRINCIPAL. --- Clef permise : Aucune. Objectif : Permet de changer de fichier de travail principal. Mise en oeuvre: %CHB. La commande demande le nouveau nom du fichier de travail. Si on donne comme nom,le nom d'un fichier de travail en fichier auxiliaire, le systeme vous indique la fermeture de ce fichier auxiliaire et l'ouvre en fichier de travail principal. COD NBR LIGNES= 17 COD: COMPOSITION EN CODONS . --- Clefs permises : /TOT,/CUM,/LPT Objectif : Frequences absolues ou relatives des codons. Mise en oeuvre : %COD Par reponses a des menus vous pouvez calculer les frequences absolues ou relatives et choisir une sortie par ordre alphabetique des codons ou par acides amines. Lecture des resultats : les frequences relatives sont ecrites en pour mille . La sortie par ordre alphabetique se presente sous forme de tableaux, les deux premieres bases du codon etant indiquees sur la ligne ,la 3eme sur la colonne. La sortie "par acide amine" regroupe les codons correspondants au meme acide amine dont le symbole (sur 3 lettres) est indique.Vous obtenez aussi le nombre total de codons Pour les frequences absolues le cumul indique la somme des valeurs pour chaque sequence et leur moyenne dans le cas des frequences relatives. CON NBR LIGNES= 10 CON: CALCUL DU CONSENSUS DE PLUSIEURS SEQUENCES. --- Clefs permises : /LPT . Objectif : Calcul du consensus de plusieurs sequences. Mise en oeuvre : %CON. Le fichier de travail principal doit contenir l'ensemble des sequences alignees sur lesquelles on desire calculer le consensus. Lecture des resultats : Pour chaque site les bases apparaissent classees par ordre de frequences decroissantes avec,ecrit a droite, leur nombre absolu, puis dans une deuxieme sortie leur frequence relative. COU NBR LIGNES= 21 COU: ETUDE STATISTIQUE DES VOISINAGES ENTRE CODONS --- Clefs permises : /TOT,/CUM,/LPT Theorie : Est identique a celle supportant BAS.Le modele de reference est celui de l'equiprobabilite des permutations des codons.On definit 2 ensembles de codons A1 et A2,la statistique est le nbre de fois ou un codon de A1 est suivi par un codon de A2.L'approximation normale permet de construire un test (validite testee par SIM) Mise en oeuvre : La lecture des 2 ensembles de codons peut se realiser de 3 manieres: Premier ensemble ou "termi" ou "fichier": Reponse 1)suite de 3 ensembles de bases separee par des moins (AC-A-GU correspond a un ensemble A1 contenant les codons AAG,CAG,AAU,CAU ) La lettre N peut remplacer les 4 bases ainsi N-N-A designe les 16 codons se terminant en A. 2)TERMI : Taper les differents codons au clavier separes par des retours chariots(RC) (AAA RC,AAC RC,AAG RC,AAU RC: 4 codons commencant par AA. 3)FICHIER : Les codons de l'ensemble A1 doivent se trouver dans un fichier texte dans le meme format qu'en 2). La reponse portant sur le 2eme ensemble suit les memes regles. Lecture des resultats : Sont indiquees la longueur de la seq. (en bases), la valeur de la statistique COU,son esperance E(COU),sa variance V(COU), son approximation normale COU* et les valeurs de COU en phase +1 et +2. COS NBR LIGNES= 21 COS: COMPARAISON DE SEQUENCES HOMOLOGUES. --- Clefs permises : /LPT. Objectif : Etude des differences entre deux sequences d'acides nucleiques prealablement alignees,orientees tout particulierement vers l'analyse fine des changements d'usage du code. Mise en oeuvre : 1) Mettre les deux sequences dans SD1 et SD2 les codons de meme numero se correspondant (ce qui implique de supprimer les codons surnumeraires en cas d'insertion ou de deletion). 2) Taper COS ou COS/LPT :au menu repondre 1 (les 2 autres options,quoique fort interessantes, n'ont pas encore ete developpees; si vous en avez l'usage et le courage reportez-vous au chapitre "comment inserer une nouvelle commande" et tenez-nous au courant du resultat !). Lecture des resultats : Dans tous les tableaux les lignes correspondent a SD1 et les colonnes a SD2. Les resultats fournis sont: 1)Bilan global de la comparaison,changement de base par position, changement silencieux,changement d'acide amine. 2)Etude detaillee par position des changements de bases 3)Tableau des changements d'acides amines. 4)Pour les acides amines que vous desirez: recensement des changements de codons quand l'acide amine est invariant. CRI NBR LIGNES= 16 CRI: HOMOLOGIE:SEQUENCE DEFINIE/ TOUT LE F.T. --- Recherche de ressemblance entre une sequence et toutes les sequences du f.t. Clefs permises : /LPT La sequence definie est comparee dans tous les decalages possibles avec les sequences du fichier. Deux types de criteres sont possibles -frequence de fenetre : on rentre les caracteristiques d'une serie de fenetres(comme pour une matrice de points) chacune etant associee a une frequence seuil. le programme signale tous les cas ou un des seuils est depasse. -statistiques non parametriques: en cours d'exploration metodologique:s'adreeser a c.gautier( iem) ATTENTION le temps calcul peut etre considerable. Il est preferable de ne l'utiliser qu'en batch. DIS NB DE LIGNES= 08 DIS: LISTE DES SEQUENCES DISPARUES DE LA BANQUE. --- Clef permise : Aucune. Objectif : Connaitre les mnemoniques des sequences disparues lors d une mise a jour de la banque. Mise en oeuvre :DIS Pour les sequences de la banque ceci permet de ne garder que celles qui sont reelement dans la banque. Vous pouvez garder les sequences disparues dans un fichier. DOU NBR LIGNES= 09 DOU: FREQUENCE DES DOUBLETS. --- Clefs possibles : /TOT,/CUM,/LPT. Objectif : Calculer les frequences absolues des 16 dinucleotides en tenant compte de leur position par rapport au decoupage en codons Mise en oeuvre : %DOU Vous obtenez 3 tableaux correspondants aux dinucleotides en I-II, II-III et III-I des codons et un 4eme cumulant les resultats des 3 premiers. Pour chacune des cases de ces tableaux,la premiere base est indiquee sur la ligne de la case et la deuxieme sur sa colonne. EDA NBR LIGNES= 2 EDA: Edition de toutes les sequences par rapport a la sequence definie --- Clefs permises: /LPT EDI NBR LIGNES= 21 EDI: EDITION DE LA SEQUENCE. --- Clefs permises : /TOT,/LPT. Objectif : edition de sequences. Mise en oeuvre : Cette commande permet l'edition d'A.A. ou de proteines 1)fichier d'A.A. : Un menu vous est propose : -Edition de seq. sans traduction.La sequence est editee a l'ecran sur 60 caracteres et a l'imprimante sur 100. -Edition de seq. avec traduction en A.A. avec un code a 1 ou 3 lettres -Edition partielle:de nouveau un menu vous est propose : -editer par paquet de 10 bases Y/N,si vous repondez N,vous decidez vous-meme de votre groupement.Une option est possible pour des formats d'impression speciale (excedant 132 caracteres sur l'imprimante.) -editer au choix la seq. ADN ou ARN. -choix du point de depart de votre numerotation .En cas de depart negatif vous pouvez numeroter 0 une base ou passer directement de la base -1 a la base +1 -choix d'editer un gene proteique ou non (donnez les limites des zones a traduire) 2)Fichier de proteines : edition avec un code a 1 ou 3 lettres .Dans le cas du code a 3 lettres vous obtenez 20 A.A. a l'ecran, et 60 a l'imprimante, autrement 60 caracteres a l'ecran et 100 a l'impression. ESP NBR LIGNES= 6 ESP: Creation d'espace de travail --- Clef permise : Aucune Objectif : Permet de creer a l'interieur d'un fichier de travail des espaces de travail La plupart des commandes d'Analseq marchent avec ces espaces de travail Consulter le manuel ETA NBR LIGNES= 06 ETA: ETAT DU SYSTEME. --- Clef permise : Aucune. Objectif : Connaissance a tout moment de l'etat du systeme. Cette commande permet de savoir si on travaille sur 1 ou 2 fichiers, leur nature (A.N. ou proteines) et leur nom, nom et longueur des sequences eventuellement definies. EXP NBR LIGNES=21 EXP: CALCUL D'UN ENSEMBLE DE FONCTIONS SUR LES SEQ. D'UN F.T. --- Clefs permises : /TOT,/LPT. Mise en oeuvre : %EXP. Cette commande est particularisee car elle est un sous systeme d'ANALSEQ.(C.F son propre help).Le principe consiste a ecrire un "programme de traitement" constitue d'une suite de fonctions a calculer sur la (ou les sequences).Chaque fonction a un nom sur 3 lettres et un certain nbre de parametres. le programme affiche ! et attend une commande: Les fonctions actuellement disponibles sont : CHI : aucun parametre;calcul du (CHI2/N) de la table de contingence. Fonction prend une valeur forte si les frequences des bases en position I,II,II sont differentes, donc indice en faveur d'une partie codante. FLB() Un parametre correspond a un fichier comportant 4 valeurs A(a),A(c),A(g),A(u); si F(a),F(c),F(g)F(u) sont les frequences relatives des 4 bases dans la seq. FLB calcule la quantite A(a)F(a)+A(c)F(c)+A(g)F(g)+A(u)F(u) donc sa valeur est la freq. cumulee FLC(>parametre>) est identique a FLB mais s'applique aux triplets Le fichier doit contenir 64 valeurs relatives aux triplets classes par ordre alphabetique. RLB() : calcule le rapport FLB()/FLB() RLC() : calcule le rapport FLC()/FLC() EXT NBR LIGNES= 08 EXT: RECOPIE UNE SEQUENCE DANS UN FICHIER TEXTE . --- Clef permise : TOT. Objectif : Une sequence du fichier de travail principal ayant ete definie, il vous est possible de l'extraire dans un fichier texte que vous pourrez ensuite modifier ou corriger sous l'editeur de texte de votre systeme.Vous pouvez aussi utilerla clef /TOT qui vous permet d extraire toutes vos sequences Mise en oeuvre : %EXT FIN NBR LIGNES= 02 FIN: FIN DU PROGRAMME --- FRA NBR LIGNES= 10 FRA: COMPOSITION EN ACIDES AMINES. --- Clefs permises : /TOT,/CUM,/LPT Objectif : Permet de connaitre la composition en A.A. d'un fichier d'acides nucleiques ou de proteines. Mise en oeuvre : %FRA Lecture des resultats : Tableau a 2 colonnes,la premiere donnant les frequences absolues,la deuxieme,les frequences relatives en pour mille.Les valeurs du cumul sont obtenues par somme des frequences relatives. Vous obtenez aussi le nombre total d'acides amines. FRB NBR LIGNES= 14 FRB: COMPOSITION EN BASES PAR PHASE. --- Clefs permises : /TOT, /LPT, /CUM. Objectif : permet de connaitre la composition globale en bases des sequences ainsi que les compositions par position dans le codon. Mise en oeuvre : %FRB Lecture des resultats : Vous obtenez 2 tableaux: Le 1er tableau donne la frequence absolue des bases A,C,G,U ou N ainsi que de A+C,A+G,G+C pour toutes les positions (T),en position I (1),II (2),III (3) des codons. La derniere ligne du resultat appelee Q donne la frequence absolue des bases dans les quartets. Le 2eme tableau est le meme que le 1er mais donne la frequence relative en pour mille. Les valeurs du cumul sont obtenues par sommme des frequences absolues et moyenne des frequences relatives. INS NBR LIGNES= 23 INS: INSERTION D'UNE SEQUENCE . --- Clef permise : Aucune. Objectif : Inserer une sequence ou une liste de sequences dans le fichier principal (F.T.P.) ou les sequences du F.T.P dans le fichier auxiliaire (F.T.A.)., ou si un espace de travail est ouvert inserer les sequences de l'espace dans le F.T.A. Mise en oeuvre : %INS Vous pouvez,dans la mesure ou l'etat du systeme le permet, - Inserer la SD1 (sequence definie 1) - Inserer une sequence ecrite dans un fichier texte. Ce fichier peut etre - Soit un fichier format GENBANK, EMBL,NBRF - Soit un fichier fomat GCG - Soit un fichier dont la 1ere ligne contient: en 1ere colonne ; ou > suivi du mnemonique sur 20 caracteres Ce fichier peut contenir autant de sequences ecrite en format libre avec un nombre variable de bases par ligne. - Saisir au clavier les sequences a inserer,l'insertion se termine alors par une ligne vide (deux RC de suite). Vous devez donner un nom a cette sequence ne devant pas exister dans le fichier (le programme verifie). - Inserer un mnemonique ou une liste de mnemonique de la banque soit reellement, soit virtuellement LIS NBR LIGNES= 12 LIS: LISTE DES SEQUENCES DU FICHIER PRINCIPAL. --- Clef permise : /LPT Objectif : Connaissance du contenu des sequences du fichier de travail principal. Mise en oeuvre : %LIS Lecture des resultats : Cette commande vous donne le nombre total de sequences contenues dans le fichier ainsi que la longueur totale des sequences. Ensuite vous obtenez le numero d'ordre,la longueur,le code genetique (la phase dans le cas d'A.N) de chaque sequence du fichier de travail principal ainsi que le vrai nom de votre sequence dans la banque. En effet lorsque votre mnemonique est precede d'une * cela signifie que votre sequence pointe directement dans la banque. MDI NBR LIGNES= 2 MDI: --- MFS NBR LIGNES= 4 MFS: MODIFICATION DES ESPACES DE TRAVAIL --- Clef permise : Aucune Objectif : Permet de modifier des espaces de travail en inserant ou en supprimant des sequences contenues dans le fichier MOD NBR LIGNES= 29 MOD: MODIFICATION DU CODE GENETIQUE ET DE LA PHASE. --- Clef permise : aucune. Objectif : A chaque seq. on peut associer un code genetique suivant les conventions suivantes : 0 Code genetique universel, 1 mitochondrial de levure CUN=T AUA+M UGA=W 2 mitochondrial de vertebres AGR=* AUA=M UGA=W 3 mitochondrial de champignons filamenteux UGA=W 4 mitochondrial d'insectes,plathelminthes AUA=M UGA=W AGR=S 5 code nucleaire de Candida Cylindrica CUG=S CUA=? 6 code nucleaire des ciliata UAR=Q 7 mitochondrial des nematodes UGA=W AGR=S 8 mitochondrial des echinodermes UGA=W AGR=s AAA=N Dans le cas de fichier d'A.N. le debut connu d'une partie codante peut ne pas correspondre au debut d'un codon.Or cette information est necessaire pour une traduction correcte en A.A.La phase est le nbre de bases a supprimer en debut de seq. pour trouver la premiere base en position I d' un codon. Exemple : Phase 0: ACG CUG ;Phase 1: (A) CGC UGG; Phase 2: (AC) GCU GGC. Mise en oeuvre : %MOD .Vous avez 3 possibilites: 1)Cas des fichiers d'A.N. - Changer le code genetique et la phase d'une seq. du fichier,ou le code genetique,ou la phase. - Changer le code genetique et la phase,ou seulement le code genetique ou la phase d'une seq. definie par la commande DEF. - Changer toutes les seq. d'un fichier avec possiblite de decaler la phase d'une base vers la droite. 2)Cas des fichiers de proteines :les memes questions sont posees mais uniquement pour le code genetique. MTL NBR LIGNES= 13 MTL: ECRITURE D'UNE MATRICE DE POINT SUR FICHIER --- clefs permises : aucune. Objectif: cre un fichier texte ayant la structure suivante: nom sequence 1 longueur sequence 1 nom sequence 2 longueur sequence 2 deb1 deb2 long ............. deb1 et deb2 sont les coordonnees du debut d'une diagonale, long est sa longueur, l'unite est la base nucleotidique (ou l'acide amine). MVA NBR LIGNES= 21 MVA: CREATION DE FICHIER DE FREQUENCES. --- Clefs permises : aucune. Objectif:Sort sur disque pour chaque seq. du FT certaines freq. absolues. Mise en oeuvre : Le fichier de sortie peut au choix etre binaire ou formate (dans les deux les valeurs ecrites sont entieres),dans le second cas on rentre le format de sortie (syntaxe des formats FORTRAN). Le menu suivant offre le choix entre : -1 Codons (terminateurs exclus): sont ecrites les frequences des codons ranges par ordre alphabetique (le nombre de codons par sequence depend du code genetique). -2 Acides amines : l'ordre d'ecriture des differentes valeurs est celui d'ecriture des acides amines dans la commande COD -3 Troisieme base des quartets : frequences absolues de A,C,G,U en 3eme position des quartets. -4 Autres : frequence des suites de bases de longueur donnee avec un decalage entre deux suites consecutives donne (le PAS) a partir d'un point de depart donne. exemple :frequence des doublets en position II-III des codons longueur =2: Pas =3; Depart =2 Un des objectifs classiques de MVA est l'utilisation sur le fichier cree d'analyses multivariees (Analyse des correspondances par exemple). MVM NBR LIGNES=05 MVM: creation d'un fichier modifiable sous editeur de texte contenant --- les sequences du f.t. codees numeriquement (A:1,C:2,C:3,U:4) commande utile surtout pour creer le fichier des donnees lors de l'execution d'une afcm. Clef permise : Aucune NDP NBR LIGNES= 2 NDP: NUAGE DE POINTS --- Clef permise: Aucune OUV NBR LIGNES= 12 OUV: OUVERTURE OU CREATION D'UN FICHIER DE TRAVAIL AUXILIARE. --- Clef permise : Aucune. Objectif : permet d'ouvrir un fichier de travail auxiliaire (F.T.A) Mise en oeuvre : %OUV La commande vous demande un nom de fichier de travail auxiliaire. Deux cas peuvent se presenter: - le fichier que vous voulez ouvrir existe.Il devient le F.T.A. - le fichier que vous souhaitez ouvrir n'existe pas, la commande vous demande si vous souhaitez le creer: reponse non: retour au moniteur reponse oui: vous devez alors choisir entre la creation d'un fichier d'A.N. ou de proteines. PRI NBR LIGNE= 2 PRI: IMPRESSION --- PRO NBR LIGNES=09 PRO: TRADUCTION EN ACIDES AMINES. --- Clef permise : /TOT. Objectif : Permet de traduire une sequence ou tout le fichier principal d'acides nucleiques en acides amines. Mise en oeuvre : %PRO Pour pouvoir executer cette commande un F.T.A. de type proteines doit exister (cf commande OUV). Ainsi a partir d'un fichier d'A.N. vous pouvez creer son equivalent en proteines. QUI NBR LIGNES= 06 QUI: CHANGER LES CARACTERISTIQUES DU TERMINAL. --- Clef permise : Aucune . Objectif : Changer les caracteristiques du terminal. Mise en oeuvre : Systeme question/reponse permettant de fixer la nature du terminal (papier ou ecran), le nombre de lignes par page et pour les ecrans le mode de gestion (rouleau,page). REN NBR LIGNES= 14 REN: PERMET DE RENOMMER UNE SEQUENCE . --- Clef permise : Aucune . Objectif : Renommer la sequence definie par la commande DEF, une sequence du fichier principal ou une sequence du fichier auxiliaire s'il existe. Mise en oeuvre : %REN. Un menu apparait qui vous offre le choix suivant: 0 : commande annulee. 1 : sequence du fichier de travail principal. 2 : sequence du fichier auxiliaire s'il existe. 3 : sequence definie auparavant par la commande DEF. Si votre sequence est liee directement a la banque vous pouvez la renommer, le vrai nom est toujours conserve et apparait toujours dans la commande LIS RES NBR LIGNES= 12 RES: RECHERCHE SITES DE RESTRICTION --- Clefs permises : /TOT,/CUM,/LPT. Objectif : Recherche des sites de restriction. Mise en oeuvre: %RES . Ce programme a ete adapte de la bibliotheque de programmes d'Isono. Un fichier d'enzymes est a votre disposition.Il est extrait de (NAR 1983). Ce fichier a la meme structure que les F.T.P. Vous pouvez creer votre propre fichier d'enzymes a l'aide des commandes OUV,DEF,INS. Le nombre d'enzymes ne peut exceder 100 et vous devez respecter la nomenclature expliquee dans le manuel. Un menu vous est propose auquel vous devez repondre. Lecture des resultats : la sortie se fait soit sous forme de tableaux soit sous forme de cartes de restriction. RUN NBR LIGNES=13 RUN: ETUDE DES SUITES HOMOGENES DE BASES. --- Clefs permises : /LPT,/TOT,/CUM. Objectif : etude des suites homogenes de bases Mise en oeuvre : %RUN Lecture des resultats : Nous obtenons deux tableaux: Le premier fournit pour chaque base puis pour l'ensemble des 4 le nombre de suites de longueur donnee et l'approximation normale du test du nombre de suites (voir commande SNP, ici,contrairement a SNP, NS est le nombre de suites de la base consideree et, pour la derniere ligne, le nombre de suites dans le cas multicolore ). le deuxieme donne en 1ere colonne la freqence des 4 bases puis le pourcentage de cette frequence correspondant aux bases presentes dans des suites de longueur au moins 2 ( >1 ) au moins 3 ( >2 )... SIG NBR LIGNES= 12 SIG: RECHERCHE D'UN SIGNAL. --- Clefs permises : /TOT,/LPT. Objectif : Recherche de "signaux" dans les sequences avec possibilite d'insertion dans le F.T.A. Mise en oeuvre : %SIG Un menu permet de choisir si on veut ou non l'insertion des signaux et de leur contexte dans le F.T.A. Les signaux cherches sont des signaux ambigus sans possibilite de gaps. On fournit leur longueur puis le signal en separant par un moins les bases admises en chaque position. Exemple : AU-AU-AU-AU- :signal de longueur 4 constitue d'une suite de A et de U Le symbole N peut remplacer les 4 bases. SIM NBR LIGNES= 21 SIM: SIMULATION DE SEQUENCES --- Clef permise : Aucune. Objectif : A partir d'une sequence reelle d'acides nucleiques creer des sequences "au hasard". Mise en oeuvre : %SIM .Il faut IMPERATIVEMENT avoir ouvert un fichier de travail auxiliaire avant de lancer la commande, c'est dans ce F.T.A que seront ecrites les sequences simulees. De meme,il faut avoir defini une sequence qui servira de point de depart a la determination des sequences "au hasard".Vous avez a votre disposition "3 hasards" differents - Permutation des bases (correspondant a SNP ou au modele 1 de BAS ). - Permutation des codons (correspondant au modele de COU ). -Permutation des codons avec la conservation de la proteine. Il faut donner au programme un nombre entier impair et grand pour generer le programme de nombres au hasard. Le programme de generation de nbrs pseudo aleatoires utilise la methode congruentielle suivante : In=69069*In-1+1 (MOD 2**32) Xn=In/2**32 (voir implantation pour changement eventuel de cette methode dans votre implantation. Ecriture des resultats : Les sequences simulees sont ecrites dans le F.T.A. avec les noms SIM1,SIM2... En prenant le F.T comme F.T.P on peut ensuite leur faire subir les traitements que l'on veut. SNP NBR LIGNES= 20 SNP: TESTS NON PARAMETRIQUES. --- Clefs permises : /TOT,/CUM,/LPT. Objectif : statistiques non-parametriques (permutation des bases). Mise en oeuvre : %SNP On peut traiter toutes les bases ou seulement celles occupant une position donnee dans les codons. On peut ensuite choisir l'ensemble des bases (3 au plus !) qui constitueront les "1" de la suite binaire sur laquelle les statistiques et leurs valeurs normalisees seront calculees (les schemas suivant sont expliques dans le manuel). On peut d'autre part analyser la suite binaire obtenue en remplacant certains codons par des 1, les autres par des 0. SR : somme des rangs **-***----------- ==> SR faible ---------***--*** ==> SR fort VR : variance des rangs ------****------- ==> VR faible ***----------**** ==> VR fort GC : groupement autour du ---*****--------- ==> GC faible centre -***---***------- ==> GC fort NS : nombre de suites --***---***--***- ==> NS faible -*-*-*-*-*-*-*-*- ==> NS fort GM : groupement multiple -*-*-*-*-*-*-*-*- ==> GM faible --***---***--***- ==> GM fort SUP NBR LIGNES= 08 SUP: SUPPRESSION D'UNE SEQUENCE . --- Clef permise : aucune. Objectif : Supprimer une sequence d'un fichier. Mise en oeuvre : %SUP Cette commande vous permet de supprimer une sequence d'un fichier de travail principal ou auxiliaire. Elle vous demande confirmation de la suppression afin d'eviter des erreurs TER NBR LIGNES= 9 TER: RECHERCHE DES PHASES OUVERTES. --- Clefs permises : /LPT,/TOT. Objectif : recherche des phases ouvertes. Mise en oeuvre : Le systeme demande la longueur minimale en base des phases ouvertes a prendre en compte. Lecture des resultats : Pour chacune des phases ouvertes prises en compte sont indiquees la phase par rapport au debut de la sequence (0,1 ou 2) et les positions des 4 premiers AUG ou GUG trouves en phase (s'il en existe moins de 4 les positions manquantes sont marquees 0)