Article body

En juin 2000, un consortium public regroupant 20 laboratoires de six pays annonça le séquençage de 90 % du génome humain[*] [1] sous forme d’un arrangement encore imparfait (working draft) de plus de 150000 segments (contigs) d’une longueur médiane[**] de près de 90000 paires de bases (pb) et positionnés entre eux, par chromosome, sur la base d’informations de proximité [2] ((→) m/s 2001, n° 3, p. 309). Cette première esquisse constituait une avancée considérable, notamment en servant de support à la recherche des gènes responsables de maladies génétiques. Restait à accomplir une tâche de « finition », tout aussi capitale, visant à déterminer la séquence manquante entre les contigs, puis à assurer en tout point un niveau strict de qualité. Cette étape, déjà accomplie pour les trois plus petits chromosomes, 22, 21 puis 20 [3-5], devrait être complétée pour les suivants au cours de cette année. Disposer d’une séquence finie et fiable reste essentiel pour nombre d’analyses fines du génome, et en particulier pour une description détaillée des gènes, de leurs mécanismes d’action et de régulation.

Le Genoscope (Centre national de séquençage) a apporté sa contribution à cet effort international en publiant récemment [6] la séquence complète et l’analyse du chromosome 14[***], de taille intermédiaire. Pour établir la séquence des chromosomes, une procédure hiérarchisée a été utilisée, qui a nécessité une fragmentation préalable du génome en segments chevauchants, d’une taille manipulable (150-200 kb), clonés dans un vecteur BAC (bacterial artificialchromosome). Les BAC d’intérêt sont ensuite sélectionnés dans cette collection, riche de plus de 900000 clones. Chaque clone est alors soumis individuellement à une nouvelle fragmentation visant à déterminer la séquence du segment qu’il représente (Figure 1 D, E, F), laquelle prendra place au sein d’une reconstitution de l’ensemble. Pour le chromosome 14, cette procédure a été répétée sur 681 clones. La stratégie utilisée pour leur sélection [7] se distingue de celle qui avait été mise en oeuvre pour les autres chromosomes [8]. Plutôt que de nous engager dans un important effort préalable de cartographie, nous avons préféré débuter le processus d’acquisition de la séquence à partir de « balises » réparties le long du chromosome, puis d’utiliser ces données comme autant de points de départ d’une progression locale, bidirectionnelle et contrôlée (Figure 1 A, B, C), jusqu’à la fusion entre les groupes d’expansion adjacents. Un effort particulier, accompli pour résoudre les dernières lacunes récalcitrantes, a permis d’établir la séquence finale sous forme d’un continuum ininterrompu de 87410661 pb, s’étendant du centromère au télomère du bras long, et qui constitue, outre la plus longue séquence assemblée à ce jour, la première séquence complète d’un chromosome (Tableau I). Elle a nécessité plus de 1600000 réactions de séquençage. La cohérence de son assemblage a été vérifiée par comparaison avec la carte génétique de Généthon, puis avec d’autres collections de marqueurs. Pour atteindre un niveau plus fin de résolution, une procédure expérimentale automatisée a été développée, destinée à s’assurer de l’intégrité des clones sélectionnés et, à la fois, de la conformité de leur séquençage.

Figure 1

Stratégie de séquençage du chromosome 14.

Stratégie de séquençage du chromosome 14.

Ce schéma représente les différentes étapes du processus utilisé pour la sélection des clones à séquencer. A. Étape d’initiation: 162 « balises » (courts fragments de séquence connue) sont sélectionnées le long du chromosome 14. B. Les BAC (bacterial artificial chromosome) d’initiation correspondants à ces balises sont identifiés, par hybridation, à partir de la banque de clones construite pour l’ensemble du génome. C. La séquence des BAC d’initiation (obtenue selon D, E, F) sert alors à identifier dans la banque, pour chacun, un ensemble de BAC dont deux seront retenus pour étendre le séquençage dans les deux sens. D. Le séquençage de tous les clones BAC est réalisé par fractionnement en segments de quelques kilobases, sous-clonés en vecteur plasmide et séquencés aux extrémités. La combinaison de 1000 à 1500 lectures permet pour chacun de construire un assemblage préliminaire (E), servant de base aux opérations de finition (F). Le processus C, D, E, F est réitéré jusqu’à la fusion des groupes adjacents.

-> See the list of figures

Tableau I

Caractéristiques comparées entre les chromosomes finis et le génome entier (working draft).

Caractéristiques comparées entre les chromosomes finis et le génome entier (working draft).

-> See the list of tables

La composition nucléotidique moyenne du chromosome 14 est proche de celle de l’ensemble du génome, avec un contenu moyen en (G+C) de 40,9 % [2], mais présente d’importantes variations locales de 32,6 à 61,2 % (pour des fenêtres de 50 kb). Les gènes s’étendent sur 43,6 % du chromosome 14, mais la somme de leurs exons n’en représentent que 2,3 %, pour un potentiel codant protéique de 1,1 %. Les séquences répétées, réparties essentiellement en SINE (type court, exemple « Alu ») et LINE (type long), représentent 46,2 % ((→) m/s 2001, n° 1, p. 103; n° 5, p. 628; n° 8-9, p. 911). La distribution de ces divers éléments apparaît cependant inhomogène, les régions à fort contenu en (G+C) montrant une corrélation étroite avec une forte densité en SINE, une faible densité en LINE et une concentration accrue en exons et en gènes. Ces régions côtoient souvent sans transition des « déserts de gènes », le plus grand atteignant 6 Mb.

L’identification des gènes s’est déroulée en deux étapes. La première, entièrement automatique, a consisté à identifier, en consultant les différentes bases de données, les séquences exprimées (ADNc et peptides) présentant une homologie avec la fraction non répétée de la séquence du chromosome. Après une série de traitements par des programmes spécifiques permettant d’affiner la structure des résultats, des modèles primaires de gènes ont été construits. Indépendamment, les modèles prédits par des programmes spécialisés à partir des seules informations de séquence ont été répertoriés. Enfin, les segments conservés (ecores) entre le génome de l’homme et ceux de la souris ou du poisson à génome compact Tetraodon nigroviridis [2, 9, 10] ((→) m/s 2001, n° 3, p. 294) ont été recherchés à ce stade. La seconde étape fait appel à l’expertise humaine pour valider chaque modèle de gène dans son contexte génomique, préciser sa structure et son étendue et identifier d’éventuelles formes d’épissage alternatif.

Nous avons caractérisé 850 gènes sur le chromosome 14, qui se répartissent en 506 gènes déjà connus, 121 gènes nouveaux, 212 gènes présomptifs (sans cadre de lecture significatif) et 11 gènes prédits, ainsi que 296 pseudogènes. Il faut ajouter 200 « segments de gènes » et 97 « pseudo-segments » provenant des gènes codant pour des récepteurs de cellules T (TCR) et les chaînes lourdes d’immunoglobulines (IGH), ces gènes étant caractérisés par une structure génomique particulière. Si l’on exclut ces deux dernières catégories, le chromosome 14 présente une densité moyenne de 10 gènes par mégabase (Mb), en accord avec l’estimation moyenne définie pour l’ensemble du génome (9,3 à 10,8 gènes/Mb), mais assez différente cependant des valeurs observées pour les autres chromosomes finis (Tableau I). La taille moyenne des gènes connus et nouveaux du chromosome 14 est de 58,7 kb, six d’entre eux dépassent 500 kb et le plus étendu (1691847 pb) code pour la neurexine. Quant aux transcrits, le plus grand (115 exons totalisant 21794 pb) code pour SYNE-2 (ou nesprine-2), une protéine de 6649 acides aminés associée à l’enveloppe nucléaire des cellules musculaires. À noter la forte proportion des gènes présomptifs (25 %), qui combinent plusieurs origines: gènes incomplètement caractérisés (ressources trop fragmentaires), gènes codant pour de très courts polypeptides, ou utilisant une déviation du code génétique (incorporation de sélénocystéine au niveau de codons stop, par exemple), ou encore gènes assurant leur fonction directement par leur transcrit ARN. Il est probable aussi qu’une fraction des gènes de cette catégorie résulte d’un « bruit de fond » contaminant les bases de données d’expression.

Ces résultats sont en accord avec l’estimation de 28 à 32000 gènes pour l’ensemble du génome humain [1, 10]. La comparaison avec les nombres de gènes identifiés chez la drosophile (13379), le nématode (19099) ou une plante, l’arabette (25498), ne reflète évidemment pas les différences phénotypiques. Des mécanismes produisant un niveau supplémentaire de complexité sont à rechercher, tels que l’épissage différentiel. Ce phénomène, observé pour 54 % des gènes du chromosome 14, peut revêtir une importance considérable. Ainsi, dans le cas du gène codant pour la neurexine [11], il offre une potentialité combinatoire susceptible d’engendrer 1728 transcrits distincts.

L’annotation de la séquence du chromosome 14 (accessible sur http://www.genoscope.fr/chr14/) représente l’état des connaissances actuelles et devra être maintenue à jour régulièrement, selon l’enrichissement des différentes ressources qui lui servent de base, et devra notamment incorporer les résultats des analyses expérimentales en cours.

Le séquençage du chromosome 14, dans le contexte global du séquençage du génome humain, et sa contribution à la constitution du répertoire des gènes humains, constituent un pas important vers la compréhension des mécanismes biologiques, physiologiques ou physiopathologiques, et des phénomènes moteurs de l’évolution. À ce titre, ils fourniront sans doute matière à de nombreuses études. Les bénéfices les plus importants apportés par la génomique humaine sont attendus dans le domaine de la santé. Plus de 60 maladies génétiques, pour lesquelles plus de 30 gènes morbides restent à identifier, sont associées au chromosome 14, et de nombreux déficits ne sont pas encore assignés.