Bio-informatique (5) : phylogénie et évolution moléculaires

Lopez, Philippe; Casane, Didier; Philippe, Hervé

Comme l’a si bien exprimé Dobzhansky (1900-1975), « rien n’a de sens en biologie, si ce n’est à la lumière de l’évolution ». À l’heure où la génomique et la « post-génomique » produisent d’importantes quantités de données expérimentales, un des facteurs limitant reste leur analyse bio-informatique. Les approches évolutives de comparaison de séquences de nucléotides et/ou d’acides aminés, apparues il y a une trentaine d’années, constituent un outil de choix. Nous allons tout d’abord nous intéresser, ici, à la phylogénie moléculaire, qui permet de retracer les relations généalogiques entre les gènes (et donc entre les espèces qui les portent), puis aux méthodes qui permettent de détecter, au niveau nucléotidique, l’action de la sélection naturelle.

Principes de reconstruction des phylogénies moléculaires

Pour construire une phylogénie, il faut disposer de caractères comparables entre tous les objets (c’est-à-dire gènes ou espèces) que l’on veut analyser. En d’autres termes, les objets analysés doivent être « suffisamment similaires » pour être comparés. Si c’est le cas, on dit de ces caractères qu’ils sont homologues c’est-à-dire qu’on formule l’hypothèse selon laquelle la similitude observée est due au fait que les caractères sont issus d’un ancêtre commun et qu’ils se sont progressivement modifiés au fil des générations. Pour les séquences de protéines ou d’ADN, cette étape de comparaison est celle de l’alignement. Les programmes d’alignement automatique sont très efficaces pour les régions de forte similitude (plus de 50 % des positions de l’alignement portent des nucléotides ou des acides aminés identiques) mais ne le sont pas pour les séquences plus divergentes, même si l’utilisation de la structure tridimensionnelle améliore parfois sensiblement les résultats. Après un alignement automatique, une étape cruciale, trop souvent négligée par les non spécialistes, est donc de l’affiner manuellement et, avant tout, de retirer de l’analyse les régions où l’alignement est « ambigu » (choix souvent subjectif, car la mise au point de méthodes automatiques se révèle extrêmement délicate) [1].

Une fois que l’on dispose d’un alignement non ambigu (c’est-à-dire où toutes les positions sont homologues), il faut trouver, parmi tous les arbres phylogénétiques possibles, celui qui correspond à l’histoire évolutive de toutes ces séquences. Malheureusement, le nombre d’arbres possibles augmente de manière exponentielle avec le nombre d’espèces analysées. Ainsi, pour 50 espèces, il existe 2,8.10⁷⁴ arbres possibles. Un ordinateur extrêmement performant qui analyserait un milliard d’arbres par seconde aurait ainsi besoin de 10⁵⁸ années pour mener à bien le calcul exhaustif de tous les arbres. Dans la pratique, il est donc hors de question de parcourir tout l’espace de recherche et il faut donc accepter que le programme ne produise pas nécessairement le meilleur arbre mais, au moins, un arbre s’en approchant. On dit de tels programmes qu’ils sont des heuristiques et on peut citer comme exemple de ces algorithmes le réarrangement des branches dans l’arbre ou la redistribution aléatoire de l’ordre d’agglomération (voir glossaire) des espèces. En pratique, on est obligé de faire un compromis entre temps de calcul et efficacité de la recherche, ce qui fait que l’on est rarement certain d’avoir trouvé le meilleur arbre, même si l’on est toujours sûr d’avoir trouvé un très bon arbre (c’est-à-dire proche du meilleur).

La question la plus intéressante est de savoir trouver, à partir des séquences actuelles, quel est le « vrai » arbre phylogénétique. Toutes les méthodes de reconstructions sont fondées sur un critère quantitatif et recherchent l’arbre qui minimise (ou maximise) ce critère. Avant de détailler ce critère, voyons en quoi consiste l’information apportée par l’alignement des séquences. Il peut s’agir d’une mutation, changeant par exemple le nucléotide A en C (se traduisant par le changement de l’acide aminé lysine en tyrosine à la position i). Si cette mutation s’est fixée dans l’ancêtre commun de certaines espèces (Figure 1), on peut envisager le regroupement de ces espèces à l’exclusion de toutes les autres, car ce sont les seules à posséder un Y (tyrosine) à la position i. Malheureusement, une mutation peut aussi aisément créer du « bruit », en particulier en raison des phénomènes de réversion et de conversion (Figure 1). Ainsi, l’existence de substitutions multiples à la même position explique bien la difficulté des reconstructions des phylogénies moléculaires: plus il y a de signal (c’est-à-dire de mutations), plus il y a de bruit (c’est-à-dire de convergences et de réversions). L’idéal serait d’avoir une infinité de positions évoluant lentement (donc peu bruitées) mais, dans la réalité, nous sommes en présence d’une quantité limitée de positions évoluant à des vitesses très variables.

Figure 1

**Information et bruit lors de la construction des phylogénies moléculaires.**

Dans un précédent article ((→) m/s 1995, n° 8, p. I-XIII), nous avons détaillé deux approches, proposées dès les années 1960: le maximum de parcimonie et les méthodes de distances (voir glossaire). Toutes deux ont l’avantage d’être très rapides, mais se sont révélées moins performantes que le maximum de vraisemblance [2]. Schématiquement, cette méthode estime la probabilité d’observer les données (ici l’alignement) sous une hypothèse donnée (ici l’arbre phylogénétique), ce que l’on appelle vraisemblance. On choisit, comme étant le meilleur, l’arbre (c’est-à-dire l’hypothèse) qui maximise le critère de vraisemblance. Pour calculer la vraisemblance, d’autres informations sont nécessaires comme la probabilité de changement d’un nucléotide vers un autre par exemple transition versus transversion (voir glossaire) ou la longueur des branches de l’arbre. On appelle modèle d’évolution des séquences l’ensemble de ces hypothèses portant sur les processus d’évolution. Il faut néanmoins noter que toutes les informations du modèle n’ont pas nécessairement besoin d’être spécifiées (en particulier la longueur des branches), car elles peuvent être estimées à partir de l’alignement et de l’arbre en maximisant la vraisemblance. Des études empiriques et par simulation ont montré que les méthodes de maximum de vraisemblance sont actuellement les plus efficaces pour retrouver le véritable arbre phylogénétique. Le facteur limitant important de ces méthodes est le temps de calcul: il faut par exemple plusieurs heures de calcul pour estimer seulement la vraisemblance d’un arbre ainsi que les paramètres (par exemple les longueurs de branches), pour une centaine de séquences.

Récemment, les méthodes de maximum de vraisemblance ont énormément progressé grâce à l’amélioration des modèles d’évolution des séquences. En effet, plus les hypothèses du modèle sont proches de la manière dont les séquences ont évolué, plus la fiabilité du maximum de vraisemblance sera grande. En particulier, les premiers modèles faisaient l’hypothèse que tous les sites évoluaient à la même vitesse. Or, comme les contraintes fonctionnelles portant sur les différentes positions d’une protéine sont différentes, certaines positions vont évoluer très lentement (voire être invariables, comme les acides aminés impliqués dans un site actif) ou, au contraire, très vite. Les modèles actuellement utilisés représentent cette variabilité au moyen d’une distribution gamma (voir glossaire), ce qui améliore souvent les inférences. Par exemple, les microsporidies, parasites intracellulaires de nombreux métazoaires, étaient considérés comme des eucaryotes d’émergence très précoce sur la base de la comparaison de leur ARN ribosomique [3]. La prise en compte de l’hétérogénéité de la vitesse d’évolution des positions a radicalement changé ces conclusions, en les plaçant, en réalité, au milieu des champignons, ce qui a été confirmé par d’autres informations [4].

La phylogénie à l’heure du génome

Les progrès du séquençage ont amené un flot de données qui se prêtent particulièrement bien à l’analyse phylogénétique. L’utilisation simultanée de nombreux gènes, permettant d’obtenir plusieurs milliers de positions homologues, a permis de résoudre plusieurs questions débattues de longue date. À grande échelle évolutive, on peut citer en exemple la démonstration de la monophylie des algues rouges et des algues/plantes vertes [5], qui confirme définitivement l’origine unique des chloroplastes par endosymbiose d’une cyanobactérie. À l’intérieur des plantes vertes, les gnétales ont longtemps été considérées comme proche des angiospermes (plantes à fleurs) à cause de plusieurs caractères communs comme la double fécondation, alors qu’en fait ce sont des conifères [6] qui ont acquis les caractères précédents de manière convergente, montrant que le problème des substitutions multiples évoqué plus haut pour les données moléculaires affecte aussi les données morphologiques. Enfin, la question épineuse des relations de parenté entre les différents ordres de mammifères a très sérieusement progressé. En particulier, la monophylie des rongeurs, que les premières études de phylogénie moléculaire rejetaient [7], [8], a finalement été confirmée [9], [10], ce qui a clos un long conflit avec les anatomistes et les paléontologistes, convaincus, à juste titre, de leur monophylie. Cela a aussi validé l’hypothèse selon laquelle la non-monophylie apparente des rongeurs était le résultat d’un artéfact de reconstruction, connu sous le nom d’attraction des longues branches (voir glossaire) [11] ((→) m/s 1995, n° 8, p. I-XIII). Ces études ont aussi confirmé la proche parenté de ce groupe avec les lagomorphes (lapin), mais ont étonnamment montré une proche parenté avec les primates à l’exclusion des carnivores, des cétacés, des chauve-souris ou des artiodactyles (vache) [9], [10]. Ainsi, la souris - l’organisme modèle par excellence - est plus proche de l’homme qu’on ne le pensait, ce qui augmente l’intérêt de l’étude de son génome pour aider à décrypter le génome humain. ((→) m/s 2000, n° 1, p. 31)

Outre leurs applications purement taxonomiques, les données de séquençage des génomes ont ouvert la voie à de multiples recherches en évolution moléculaire. De nombreux gènes sont en effet présents en de multiples copies à l’intérieur d’un même organisme, et leur phylogénie permet de mieux comprendre leur évolution. Prenons l’exemple du gène codant pour le récepteur de la dopamine D1, gène qui a subi plusieurs duplications au cours de l’histoire des vertébrés (Figure 2). L’analyse de nombreux gènes [12] suggère que deux duplications du génome ont eu lieu tôt dans l’histoire des vertébrés, ce qui est en accord avec la célèbre hypothèse 2R d’Ohno [13]. Cette théorie, fondée essentiellement sur des considérations de taille des génomes, propose qu’il y ait eu deux événements de tétraploïdisation chez un ancêtre des vertébrés et que la diversification des vertébrés ait été facilitée par ce stock de gènes redondants, qui ont pu acquérir de nouvelles fonctions (puisqu’il suffit qu’une seule copie garde la fonction ancestrale). L’étude du génome de la plante Arabidopsis thaliana suggère que le scénario pourrait être beaucoup plus compliqué. En effet, la moitié des gènes récemment dupliqués l’ont été en tandem (c’est-à-dire par crossing over inégal) et l’autre moitié via la duplication de fragments de chromosomes [14]. L’explication la plus communément admise est qu’une tétraploïdisation a eu lieu il y a environ 110 millions d’années et que seuls certains fragments de chromosomes ont été conservés en double exemplaire. De même, chez les vertébrés, les duplications en tandem (par exemple, dans la famille des hémoglobines) constituent un phénomène récurrent [15]. Une alternative à l’hypothèse 2R propose simplement qu’il y ait eu de nombreuses duplications soit en tandem soit de fragments de chromosomes au cours de la diversification précoce des vertébrés [16]. Le choix entre ces deux hypothèses est difficile à faire, bien qu’elles produisent des prédictions très différentes sur les phylogénies de gènes [15]. En effet, les phylogénies fondées sur un seul gène sont souvent mal résolues (trop peu de signal) et sont rendues difficiles par les changements de vitesse d’évolution (d’où des artéfacts dus à l’attraction des longues branches) (Figure 2).

Figure 2

**Phylogénie du gène D1 codant pour un récepteur de la dopamine.**

L’étude des transferts horizontaux de gènes est un autre champ d’application des phylogénies de gènes. L’échange de matériel génétique entre espèces différentes est connu depuis longtemps, en particulier chez les procaryotes via les plasmides et les bactériophages. La résistance aux antibiotiques, en particulier, s’est propagée principalement de cette façon. L’analyse des génomes complets a montré que les transferts horizontaux de gènes étaient beaucoup plus fréquents qu’on ne le supposait [17]. Environ 30 % des gènes ne sont pas partagés entre deux souches d’Escherichia coli [18]. Si la façon la plus sûre de détecter le transfert d’un gène est de démontrer que la phylogénie de ce gène est significativement différente de la phylogénie des espèces, cette approche reste cependant lourde à mettre en oeuvre. Les chercheurs utilisent des méthodes alternatives comme la recherche d’une composition anormale en nucléotides [19] ou d’une trop forte similitude avec un organisme éloigné [20]. Ce type d’approche a permis de montrer l’importance quantitative des transferts horizontaux de gènes [21]: on estime ainsi qu’environ 20 % des gènes de la bactérie hyperthermophile Thermotoga proviendraient des archaebactéries. Néanmoins, ces méthodes demeurent peu performantes [22] comme l’illustre l’analyse du génome humain, pour lequel il a été suggéré que 223 gènes humains auraient une origine procaryote récente, impliquant que les transferts horizontaux de gènes auraient eu lieu durant l’histoire des vertébrés [23]. Des analyses phylogénétiques détaillées ont toutefois montré que la plupart des transferts horizontaux de gènes avaient eu lieu beaucoup plus tôt dans l’évolution [24] et qu’en fait très peu, voire aucun, des gènes humains n’avaient une origine procaryote récente.

Il est maintenant clair que les transferts horizontaux de gènes sont un facteur majeur dans l’adaptation des organismes, en particulier procaryotes, car ils constituent une source importante d’innovation [17]. Cependant, ils posent un problème considérable à la reconstruction de la phylogénie des espèces, puisqu’un échange trop important de patrimoine génétique finit par compromettre la notion même de patrimoine et, par conséquent, d’espèce. Certains auteurs ont même proposé qu’il n’existait pas de phylogénie des procaryotes [25]. On pourrait penser que les gènes les plus importants, impliqués dans de nombreuses interactions, ne peuvent pas se transférer, et constituent un « noyau » de gènes permettant de reconstruire la phylogénie des espèces (complexity hypothesis, [26]). Même si des transferts horizontaux de gènes ont été montrés pour certains de ces gènes, comme celui codant pour la protéine ribosomique rps14 [27], nous avons montré que cette hypothèse était vérifiée pour au moins une cinquantaine de gènes, aussi bien chez les bactéries que chez les archaébactéries [28], [29], et que donc la phylogénie des procaryotes existait et pouvait être reconstruite.

Évolution moléculaire

Malheureusement, les modèles d’évolution communément utilisés sont loin d’être parfaitement réalistes. Nous avons par exemple montré que, pour le cytochrome b, une protéine mitochondriale impliquée dans la respiration, la vitesse d’évolution de toutes les positions variables change au cours de l’évolution des vertébrés. De plus, ces changements ne semblent pas corrélés entre positions. Ce phénomène est appelé hétérotachie [30]. D’un point de vue biologique, ce comportement n’a rien de surprenant, puisqu’il paraît raisonnable de penser que les contraintes fonctionnelles des sites d’une protéine (et donc leurs vitesses d’évolution) vont changer au cours de l’évolution, et de façon indépendante selon les lignées. Or, tous les modèles d’évolution, comme ceux employant la distribution gamma, font des hypothèses beaucoup plus restrictives et supposent que la vitesse d’évolution d’une position donnée reste la même tout au long de l’histoire, même si elle peut varier entre positions. L’emploi de modèles simples est bien sûr dicté par des impératifs de temps de calcul et de complexité des algorithmes de reconstruction. Cependant, ces simplifications du modèle peuvent entraîner de graves erreurs de reconstructions [31]. Il est donc essentiel de développer des modèles qui reflètent autant que possible les observations réelles.

D’autres simplifications excessives ont été observées. Cela est en particulier le cas pour la modélisation des changements d’acides aminés où il est abusif d’utiliser la même matrice de substitutions pour tous les sites d’une protéine. Ces matrices, comme celle calculée par Margaret Dayhoff [32], ne représentent qu’une moyenne et ne reflètent jamais la probabilité de changement d’un site donné. Il est sans doute beaucoup plus raisonnable de proposer plusieurs matrices pour les différents types de positions (hélice α, feuillet β, extérieur versus intérieur de la protéine, etc.), comme cela commence à être fait [33]. En conclusion, même si notre compréhension de l’évolution des séquences est encore trop fragmentaire pour proposer le meilleur compromis entre simplification (nécessaire à la modélisation) et complexité (reflétant la réalité biologique), de nombreux problèmes sont identifiés et font à l’heure actuelle l’objet d’études de la part des phylogénéticiens.

Détection de la sélection au niveau moléculaire

Ainsi que nous l’avons vu, l’accumulation de différences au cours du temps dans des gènes homologues appartenant à des lignées évolutives indépendantes permet de reconstruire des phylogénies. Ces différences apparaissent d’abord sous la forme d’une mutation chez un individu, mais doivent ensuite envahir la population pour devenir observables. Ce phénomène est appelé fixation. La probabilité de fixation d’une mutation dépend de son impact sur le phénotype (favorable, nul ou défavorable) et donc de deux facteurs, la dérive génétique et la sélection naturelle. La dérive génétique est la variation aléatoire, au cours du temps, des fréquences des allèles dans des populations de taille finie. Même en l’absence de sélection (allèles neutres), un allèle finit toujours par envahir la population ou disparaître de celle-ci. Par ailleurs, si une mutation a des effets délétères, la probabilité qu’elle se fixe dans une population est réduite, c’est la sélection négative (purifying selection). Inversement, si une mutation favorise les individus qui la présentent, la probabilité qu’elle se fixe dans une population en est augmentée, c’est la sélection positive (Darwinian selection ou adaptive selection). Un enjeu fondamental de l’étude de l’évolution moléculaire est de mettre en évidence l’importance relative de la dérive génétique et de la sélection dans l’évolution des gènes. La théorie neutraliste de l’évolution moléculaire [34] suppose que la dérive génétique et la sélection négative sont les deux moteurs principaux de l’évolution des gènes, la sélection positive étant considérée comme très rare et épisodique. Cette vision de l’évolution implique que les séquences actuelles des gènes correspondent à un optimum constitué de deux fractions de sites nucléotidiques, plus ou moins importantes selon les gènes. Une première fraction est constituée des sites optimisés, tout changement étant délétère et éliminé par la sélection car il y a de fortes contraintes pour maintenir l’état observé du caractère. La seconde fraction est constituée des sites où tout changement est neutre (peu ou pas de contraintes sur l’état du caractère). Les événements de sélection adaptative, même s’ils sont rares, doivent être recherchés, car ils impliquent des changements de fonctions.

Différentes méthodes statistiques permettant d’identifier la sélection au niveau moléculaire ont été proposées. D’abord fondée sur la comparaison de deux séquences homologues [35], leur puissance a été augmentée en considérant un plus grand nombre de séquences et en tenant compte des relations phylogénétiques [36], [37]. Toutes ces méthodes reposent sur la classification en deux catégories des substitutions observées (Figure 3): (1) les mutations synonymes (silencieuses) qui modifient un codon, mais ne changent pas l’acide aminé codé, et (2) les mutations non-synonymes qui changent l’acide aminé. On peut estimer le nombre de substitutions synonymes par site synonyme (Ks) et le nombre de substitutions non-synonymes par site non-synonyme (Kns) qui se sont accumulées pendant le temps séparant deux séquences de leur ancêtre commun. Par ailleurs, on peut formuler l’hypothèse selon laquelle les mutations synonymes sont peu ou pas soumises à sélection (neutres) car elles ne modifient pas la protéine codée par un gène. Dans ce cas, le taux de substitution synonyme est un bon estimateur du taux de mutation [34]. Le taux de substitution non-synonyme dépend du niveau de contrainte sur une protéine. Trois situations peuvent alors se présenter.

Kns < Ks: le taux de substitution est inférieur au taux de mutation, ce qui indique l’existence d’une sélection négative éliminant des mutations non-synonymes. Plus Kns est faible par rapport à Ks, plus le nombre de substitutions non synonymes acceptables est faible.
Kns = Ks: il y a peu de contraintes sur la nature des acides aminés de la protéine.
Kns > Ks: les substitutions non-synonymes sont favorisées.

Figure 3

**Estimation de la sélection au niveau moléculaire.**

Le facteur Kns est généralement très inférieur à Ks (cas 1), ce qui indique que la plupart des protéines sont globalement soumises à une forte sélection négative. Beaucoup plus rarement, Kns est supérieur à Ks et, dans ce cas, la sélection positive concerne essentiellement des protéines impliquées dans les interactions du type hôte-parasite ou gamètes mâle-femelle. Par exemple, chez l’homme, on observe que Kns est supérieur à Ks pour les gènes codant pour des immunoglobulines VH, des protéines du CMH et des ribonucléases. Le même phénomène est observé pour des protéines de virus comme celles de l’enveloppe du virus HIV ou d’hémagglutinine du virus influenza A (pour une liste plus complète, voir [36]). Une étude récente montre qu’un certain nombre de gènes impliqués essentiellement dans la fonction de reproduction chez l’homme accumulent préférentiellement les mutations non-synonymes [38]. La fixation à un rythme élevé de mutations changeant la nature des acides aminés correspondrait, dans les cas cités ci-dessus, à une adaptation permanente aux modifications des protéines du partenaire [36]. Les mesures du Kns et du Ks moyen pour un gène donné ne permettent pas d’identifier certains cas d’adaptation au niveau moléculaire, en particulier si le nombre de sites impliqués est faible. Dans ces cas, la mesure de la sélection position par position est alors plus informative, car elle permet d’identifier dans une protéine les positions sous sélection positive [37], [39]. Ainsi, dans le cas du gene DAZ (deleted in azoospermia), un gène probablement impliqué dans des cas de stérilité chez l’homme, l’observation que Kns était égal à Ks sur l’ensemble du gène a permis de conclure à l’absence de contrainte fonctionnelle au niveau de la séquence primaire de cette protéine. Cependant, l’estimation de Kns et de Ks à chaque codon indique qu’il y aurait en réalité des sites subissant une forte sélection négative et d’autres soumis à une sélection positive [39].

Une information complémentaire peut être apportée par l’analyse du polymorphisme à l’intérieur des espèces. La comparaison de ce polymorphisme avec les substitutions fixées entre espèces permet aussi de développer des tests de détection de la sélection [40], [41]. La recherche intensive de polymorphisme au niveau d’un nucléotide unique (SNP) dans le génome humain et quelques autres espèces, à des fins d’analyses d’association avec des maladies génétiques, donne accès à une grande quantité d’information qui permettra de mieux décrire les contraintes sélectives impliquées dans l’évolution de ce polymorphisme [42]. À ce jour, peu d’études ont été menées dans ce sens, mais plusieurs observations montrent que quelques hypothèses sous-jacentes aux modèles utilisés peuvent ne pas être toujours vérifiées. Une première hypothèse forte est que les mutations synonymes sont neutres. Elle est probablement vraie pour la plupart des gènes de mammifères, dont l’homme [43], mais la fixation des mutations synonymes pourrait parfois avoir lieu sous une importante pression de sélection [44], [45]. Par ailleurs, la probabilité d’apparition et la nature d’une mutation à une position donnée dépend de la nature des nucléotides environnants et de sa localisation sur le chromosome qui peuvent varier d’une espèce à l’autre [46]. La prise en compte de ces observations permettra de développer des méthodes plus fiables de détection de la sélection au niveau des acides aminés.

La reconstruction phylogénétique et la compréhension de l’évolution moléculaire sont deux domaines interféconds. Actuellement, les données issues du séquençage de génomes fournissent un matériel brut qui se prête très bien à une analyse bio-informatique et qui a fait grandement progresser ces deux domaines. Néanmoins, ces analyses in silico permettent essentiellement de proposer de nouvelles hypothèses, qu’il est toujours nécessaire de tester expérimentalement. Un retour à l’expérience in vitro et in vivo doit être systématique.

Bio-informatique (5)Phylogénie et évolution moléculairesMolecular phylogeny and evolution

Résumé

Summary

Principes de reconstruction des phylogénies moléculaires

La phylogénie à l’heure du génome

Évolution moléculaire

Détection de la sélection au niveau moléculaire

Références

Liste des figures

Résumés

Résumé

Summary

Corps de l’article

Principes de reconstruction des phylogénies moléculaires

La phylogénie à l’heure du génome

Évolution moléculaire

Détection de la sélection au niveau moléculaire

Parties annexes

Références

Liste des figures

Outils de citation

Citer cet article

Exporter la notice de cet article