edtsqn Ce programme permet de manipuler un ensemble de séquences (nucléiques ou de protéines) avec pour objectif un alignement multiple et des calculs de distances de variabilité ou des reformattages. . Le programme permet de traiter jusqu'à 100 séquences de 10000 de long. . Le programme utilise un ensemble de commandes à 2 niveaux. =)au niveau élémentaire (sur une séquence particulière), c'est le jeu de commandes du programme d édition editsq qui est utilisé. =) au niveau général les commandes sont les suivantes : (?) LEC(C) INS(I) SUP(D) GLO(G) EDI(E) LIS(L) ALI(A) FUS(F) PRO(P) VAR(V) DIS(T) MAT(M) ORD(O) SAU(S) FIN(Q) ? Lecture d un projet (global) (C) Insertion d une séquence dans le projet (I) Suppression d une séquence dans le projet (D) Modifications globales (décalage) (G) Edition d une séquence dans le projet (E) Impression des séquences dans le projet (L) Alignement de partie du projet (clustalw) (A) Fusion de projets (F) Profil de similitude dans le projet (P) Variabilité le long de l alignement (V) Génération de matrice de distances (T) Génération de matrices de profil (ac.nuc) (M) Modification de l ordre des séquences (O) Sauvegarde du projet (global) (S) Fin (quit) (Q) . = (C) Lecture du projet d'alignement Le projet est enregistré avec une structure permettant sa gestion Le format d entrée est multiple : Lecture format spécial sortie CLUSTAL (C) Lecture format FASTA (> Pearson) (F) Lecture format spécial sortie HMM (H) Lecture format spécial sortie MSA (A) Lecture format spécial DIALIGN2 (D) Lecture format MSF,PHYLIP (readseq) (M) Lecture format PHYLIP (entrelacé) (P) Lecture format standard (; ou >) (S) = (I) Insertion d'une séquence dans le projet a partir de séquences personnelles, genbank, .. (issues de ACNUC). = (D) suppression d'une séquence dans le projet suppression de sequences (par groupes) suppression de positions (par groupes) = (G) déplacement global de plusieurs séquences permet de faire des modification dans une séquence et de réaligner les autres en une seule étape. contint 2 options : (S) suppression (I) Insertion = (E) accès à l'éditeur pour une séquence donnée = (L) impression de l'ensemble du projet (largeur variable) Plusieurs options font de cette option un outil d édition très souple: = Nombre de caractères par ligne ? (def = 60) = Impression de la séquence avec 1/2/0 espaces, = Impression des séquences en entier ou par différences/séquence = Calcul du consensus:(1) global (2) par rapport à la 1ere ligne impression dans un fichier = consensus : Lettre conservée, * 80 % + 60% : 40% . 20% = (A) Alignement par partie avec clustalw = (F) Fusion de projets Addition à un projet en mémoire d'un projet (ensemble de séquences) défini par un fichier externe, selon 2 modes : Fusion de séquences multiples Cumul séquentiel d'un même nombre de séquences S Cumul parallèle de séquences de même longueur P L'option S ajoute 2 projets à la suite L'option P ajoute un ensemble de séquences sous l'alignement déjà présent. Dans le cas P : Addition d'un groupe de séquences = de même nature sans insertion 0 = de même nature avec alignement sur le projet en mémoire 1 = nucléiques non alignées et alignement suivant le projet de séquences en acides amines en mémoire 3 = (P) Impression du profil de multiplicité à chaque position Profil semi graphique, en relatif (pourcentage) ou en valeurs absolues à chaque position. = (V) Calcul de variabilité Possibilité de calculer la variabilité le long de la séquence sus, suivant 2 critères : Variabilité - entropie de Shannon 1 Coefficient de conservation 2 Sauvegarde différentielle (après 2) 3 1) Calcul d un indice de variabilité de Shannon Le log de l'entropie est calculé à chaque site de l'alignement selon la formule : log(E) = Somme/k ( Fi log(Fi) ) avec Fi (la fréquence du résidu sur le site (colonne) La variabilité est donc E. E varie de 1 à 4 (A. nuc) et de 1 à 20 (AA). 2) Coefficient de conservation Calcul d'un indice de conservation (O-1) sur une position avec une matrice de distances. MATRICE D APPARIEMMENT UTILISEE (UN/UP/CG/BL/MD/SS/?) PARAMETRES: DEL = 12 MATRIX = BL Le calcul est issue d'une formule développée par P. Nicodeme (Thèse, 1997) définissant un résidu consensus (moyen au sens de la matrice BLOSUM) et un résidu anti-consensus . Le coeeficient de variabilité est normalisé entre 0 et 1 : coeff.var = (Caa -Canti)/(Ccons -Canti) Calcul complémentaire d'une séquence consensus sur la base des critères : Seuil de similarité pour séquence en majuscules [100] Pour-cent minimum d'insertion pour un remplacement par "-" [75] Seuil max de remplacement par "x" ( 0-100) [50] 3) Transformation de l alignement avec masquage des sites (colonnes) ayant des seuils de variabilité extérieurs à des bornes. Permet de masquer entre autres les sites variables pour une phylogénie. = (T) Calcul de similitudes sur les séquences 2 à 2 (diverses matrices de scores peuvent être utilisées). Cette fonction inclue les corrections de Jukes et Cantor ou de Kimura. Les formats de sorties sont compatibles avec les programmes de phylogénie (Phylip). 0) Matrices de distances classiques : UN Matrice unitaire nucléique UP Matrice unitaire protéique CG Matrice d'après le code génétique BL Matrice BLOSUM62 MD Matrice PAM250 de mutation de Dayhoff SS Matrice de structure secondaire Corrections pour Acides amines : correction à 1 paramètre : Margoliash (1965) d=-log (1-p) erreur = sqrt(p/(1-p)/n) correction améliorée Kimura (1983) d apres Dayhoff (1978) d= -log(1-p-p*p/5) Corrections pour acides nucléiques correction de Jukes-Cantor d=-0.75*log(1-4*p/3) correction de Kimura pour transition /transversion si P et Q sont les freq relatives observées des transitions et transversions (P+Q =p) d=-0.5log((1-2*P-Q)*sqrt(1-2*Q)) 1) Calcul sur la bases des codons synonymes (Ks) Comptage des nucléotides sur les codons correspondants à des acides aminés identiques 2) Calcul sur la bases des codons non synonymes (Ka) Comptage des nucléotides sur les codons correspondants à des acides aminés différents = (M) Génération de matrice nucléique Comptabilité des T,C,G,A à chaque position = (O) Modification de l'ordre de traitement des séquences = (S) Sauvegarde du projet d alignement (en un seul fichier) Le format de sortie est soit interne (pour cette fonction), soit le format FASTA, soit le format PHYLIP (seul l option entrelacée fonctionne avec les programmes PHYLIP). Une option permet de sauver (ou d'éditer) la séquence consensus. Sauvegarde format FASTA (> Pearson) (F) Sauvegarde format spécial PHYLIP (P) Sauvegarde format MSF (8 ou 9) (M) Sauvegarde en format PRODOM (D) Sauvegarde de la séquence consensus (C) Sauvegarde format standard (Return) Pour le format PHYLIP : 2 possibilités : Format PHYLIP séquentiel S Format PHYLIP entrelace E Dans le cas de consensus, plusieurs critères permettent des séquences variées : Seuil de similarité pour séquence en majuscules [100] Pour-cent minimum d'insertions pour un rempl. par "-" [75] Seuil max de remplacement par "x" (0-100) [50] Caractère d'indétermination ( def = x ) Caractère d'insertion ( def = - ) Ce programme a plusieurs utilisations principales : =) Mise en forme manuelle d'alignements multiples, par édition possible sur chaque séquence ou globalement. il permet de tester les alignements possibles et est en particulier un utilitaire complémentaire de clustalw. La commande (C) permet de charger directement les fichiers d alignement crées par clustalw (avec l'option C). la commande d'impression a plusieurs options permettant de sortir les alignements sur une largeur variable, en mode éclaté (1 caractère sur 2), et dans un mode ou seules les différences sont imprimées. . il est aussi possible de sauver tout ou partie des différentes séquences (dans l'ordre) dans un fichier (commande (S)) avec un format spécial pour être lu par clustal). il permet en outre de tester pas à pas l'optimisation de l'alignement par la fonction test. cette fonction permet aussi d'évaluer sur des parties de séquences les scores locaux. =) possibilité d'alignement multiple par partie (clustalw) =) préparation pour une utilisation des programmes de phylogénie pour lesquels un alignement des séquences est indispensable. . Attention : ne pas utiliser la possibilité de saisie de commentaires lors de la sauvegarde du projet. Il serait impossible de relire le projet. . Il est aussi possible de sauver tout ou partie de l'alignement multiple dans un fichier compatible avec les 2 programmes de parcimonie dnapars et propars du logiciel phylip . (option spéciale P (entrelacé) dans la commande (S)). . =) utilisation des matrices de distances (commande (T) pour le calcul) pour déterminer des phylogénies sur la bases de matrices numériques de distances (programmes fitch et margoliash et nj.(neighbor)). déterminer les matrices de similitudes et de distances en premier lieu (dans le cas de l option 'up' ou 'un', présence ou absence de lettres) il est possible de faire une correction pour les substitutions multiples (correction de Jukes et Cantor). Calcul des matrices de codons synonymes et non-synonymes. 3 tableaux sont imprimés : valeurs absolues de similitudes valeurs relatives de similitudes (diagonale à 100) valeurs de distances : écart par rapport à la diagonale du 2 eme tableau). PS: les matrices de distances sont calculées comme l'écart des éléments par rapport aux éléments diagonaux (éléments diagonaux ont une distance nulle !)