Une contribution importante de notre méthode est que nous distinguons entre les régions du génome de référence qui diffèrent les unes des autres par un seul nucléotide. La figure 1 illustre un exemple. Le génome de référence a deux copies presque identiques d`une région CNV, représentée par A et B. Ils ne diffèrent que par un nucléotide comme indiqué dans la figure, où le nucléotide est «C» dans la région A et «t» dans la région B. Dans le génome donneur, la région B est copiée deux fois comme B1 et B2. Les lectures sont obtenues à partir du génome du donneur, comme indiqué dans la partie inférieure de la figure 1, puis mappées au génome de référence, comme indiqué dans la partie supérieure de la figure 1. Comme illustré dans la figure, les lectures {R1, R3, R5} peuvent être mappées à la région A et B dans la référence. Toutefois, la lecture de {R2} ne peut être mappée qu`à la région A et les lectures {R4, R6} ne peuvent être mappées qu`à la région B. Si nous attribuons une lecture à l`une de plusieurs positions de mappage au hasard suivant la stratégie traditionnelle, nous déterminons le numéro de copie de la région A et B à 1,5. Cependant, dans CNVeM, nous utilisons l`algorithme EM pour trouver la solution optimale. Dans chaque itération, nous attribuons une lecture à différentes positions de mappage en fonction de la distribution des numéros de copie de ces positions et mettons à jour le numéro de copie de chaque position. Lors de la convergence, l`algorithme EM attribue des lectures {R1, R3, R5} à la région A avec probabilité 1/3 et à la région B avec probabilité 2/3. Nous prédisons correctement le nombre de copies de la région A à 1 et le nombre de copies de la région B à 2.

Dans cette section, nous comparons CNVeM avec le CNVnator (Abyzov et al., 2011). En utilisant un cadre similaire, nous avons généré un génome de référence et un génome donneur du chromosome 17 de Mus musculus. Nous avons fixé le taux de mutation entre les segments dupliqués à 0,1%. Les lectures sont ensuite simulées à partir du génome du donneur, ce qui permet à GC-bias (Yoon et al., 2009; Abyzov et al., 2011). Afin de faire la comparaison équitable pour CNVnator, nous avons utilisé Bowtie (Langmead et coll., 2009) pour faire la cartographie avec l`option`-Best-M 1 `. Avec cette option, le noeud papillon retourne le meilleur mappage pour chaque lecture, et dans le cas de la cravate, il choisera aléatoirement un emplacement de mappage pour une lecture. Cette étape est due au fait CNVnator suppose qu`il existe un emplacement de mappage pour chaque lecture. Cependant, pour CNVeM, nous utilisons mrsFAST (Hach et al., 2010) pour renvoyer toutes les positions cartographiques possibles pour chaque lecture.

La figure 2 illustre l`intersection des CNVs trouvés par CNVeM et CNVnator sur le jeu de données simulé, où 100 CNVs sont implantés dans le génome donneur.

Modele din lut pentru copii