Séquençage haut-débit

Sébastien Boisvert
Faculté de médecine de l'Université Laval
Centre de recherche en infectiologie de l'Université Laval

Le séquençage de l'ADN a longtemps été basé sur l'incorporation aléatoire de terminateurs qui inhibent l'ajout subséquent de nucléotides (Sanger et al., 1977). En se basant essentiellement sur une séparation par électrophorèse des molécules générées de longueur variable et sur une détection par fluorescence du nucléotide terminal de chaque molécule, la méthode de lecture de l'ADN du Dr. Sanger (Prix Nobel 1958 & 1980) fut automatisée par le laboratoire Hood (Smith et al., 1986) et commercialisée par Applied Biosystems. Le produit commercial principal de ces développements technologiques est le séquençeur à capillaires 3730 de Applied Biosystem.

Avec le développement de la biologie moléculaire, le début du projet du génome humain, et toutes les applications imaginables de la PCR (réaction en chaîne de la polymérase), beaucoup d'investissements financiers ont été fait pour accélérer le progrès technologique. En conséquence, des avancées extraordinaires dans le développement d'essais génomiques hautement parallèles, comme la PCR multiplexe, les puces à ADN d'Affymetrix et le séquençage haut-débit, ont été observées (Fan et al., 2006).

La compagnie 454 (achetée par Roche) a commercialisé un séquençeur parallèle d'ADN pouvant lire plusieurs centaines de milliers de gabarits -- sous la forme de séquences d'environ 230 nucléotides (Margulies et al., 2005). Maintenant, les séquenceurs 454 produisent des lectures d'environ 450 nucléotides. De plus, la méthode 454 n'utilise pas de terminateurs qui inhibent. Le séquenceur nécessite environ 8 heures pour compléter sa tâche.

Une autre compagnie appelée Solexa (achetée par Illumina) a commercialisé un séquenceur pouvant lire des dizaines de millions de gabarits d'ADN (Bentley et al., 2008). Les séquences générées étaient plus courtes, soit 36 nucléotides. Maintenant, un séquenceur Illumina produit des lectures pouvant aller jusqu'à 100 nucléotides. La technologie Illumina peut aussi lire les extrémités de molécules d'ADN plus longues pour ainsi générer des paires de séquences avec une distance qui les sépare qui est connue. Contrairement à la technologie 454, la technologie Illumina utilise des terminateurs réversibles. Le séquenceur nécessite environ une semaine pour compléter sa tâche.

Découvrir des variations génétiques

Une application évidente du séquençage à très haut débit est la découverte de mutations. Pour extraire les variations des séquences, il faut les aligner premièrement sur une séquence de référence (Figure 1).

Figure 1: Des séquences permettent de découvrir une variation génétique.

Plusieurs algorithmes ont été implémentés dans des logiciels libres, appelés aligneurs, afin de donner aux chercheurs les outils nécessaires pour répondre à des questions biologiques en utilisant le séquençage haut-débit. Par exemple, BWA -- pour Burrow-Wheeler Alignment Tool, est un logiciel dont l'algorithme utilise des routines avancées de compression (Li and Durbin, 2009a). Le format standard des analyses obtenues avec les aligneurs est appelé SAM (pour Sequence Alignment/Map) (Li. et al., 2009b).

Donner un sens aux séquences: algorithmes d'assemblage de novo

Mais parfois, un chercheur pourra avoir entre les mains des séquences d'un organisme vivant dont la séquence génomique est totalement inconnue. Dans une telle situation, il faut utiliser des logiciels implémentant des algorithmes d'assemblage de novo. Pour se faire, les bioinformaticiens utilisent la théorie des graphes, plus particulièrement les graphes de Bruijn (Pevzner et al., 2001). La théorie des graphes est utilisée depuis très longtemps pour procéder à l'analyse de séquences (Hutchinson et al., 1969). Avec cette approche, une séquence est convertie en graphe dirigée (Figure 2).

Figure 2: Une séquence courte d'ADN est transformée en graphe dirigé.

Dans la Figure 2, le graphe dirigé contient les sous-séquences de longueur 21 de la séquence, et les sous-séquences adjacentes dans la séquences sont liées par une flèche. En combinant la représentation en graphe de toutes les séquences, on obtient un graphe plus gros qui contient un chemin représentant la séquence génomique de laquelle proviennent les séquences (Boisvert et al., sous presse).

Références

Sanger, F. and Nicklen, S. and Coulson, A. R. (1977) DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A doi:10.1073/pnas.74.12.5463

Smith, L. M. et al. (1986) Fluorescence detection in automated DNA sequence analysis. Nature doi:10.1038/321674a0

Fan, J.-B. and Chee, M. S. and Gunderson, K. L. (2006) Highly parallel genomic assays. Nature Reviews Genetics doi:10.1038/nrg1901

Margulies, M. et al. (2005) Genome sequencing in microfabricated high-density picolitre reactors. Nature doi:10.1038/nature03959

Bentley, D. et al. (2008) Accurate whole human genome sequencing using reversible terminator chemistry. Nature doi:10.1038/nature07517

Li, H. and Durbin, R. (2009a) Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics doi:10.1093/bioinformatics/btp324

Li, H. et al. (2009b) The Sequence Alignment/Map format and SAMtools. Bioinformatics doi:10.1093/bioinformatics/btp352

Hutchinson, G. (1969) Evaluation of polymer sequence fragment data using graph theory. Bull Math Biophys doi:10.1007/BF02476636

Pevzner, P. A. and Tang, H. and Waterman, M. S. (2001) An Eulerian path approach to DNA fragment assembly. Proc Natl Acad Sci U S A doi:10.1073/pnas.171285098

Boisvert, S. and Laviolette, F. and Corbeil, J. (sous presse) Ray: simultaneous assembly of reads from a mix of high-throughput sequencing technologies. J Comput Biol.

(édité le 15 octobre 2010 pour des corrections mineures.)

Comments

Eric M. said…

Superbe prose, comme toujours! :)

Mais «to make sense» se traduit par «avoir du sens» en français... Dans ton texte, je pense que tu veux dire quelque chose comme «Donner un sens aux séquences: ...», et tu devrais mettre «de novo» en italique si possible.

Friday, October 15, 2010 at 5:45:00 AM EDT