Questão:
Como posso melhorar um assembly de leitura longa com um genoma repetitivo?
gringer
2017-05-25 16:46:36 UTC
view on stackexchange narkive permalink

No momento, estou tentando montar um genoma de um parasita roedor, Nippostrongylus brasiliensis . Este genoma possui um genoma de referência existente, mas é altamente fragmentado. Aqui estão algumas estatísticas de continuidade para os scaffolds do genoma de referência Nippo atual (montado a partir de leituras Illumina):

  Sequências totais: 29375 Comprimento total: 294.400206 MbSeqüência mais longa: 394,171 kb Sequência mais curta: 500 b Comprimento médio: 10,022 kbMedian Length: 2.682 kbN50: 2024 sequências; L50: 33,527 kbN90: 11638 sequências; L90: 4.263 kb  

Este genoma é provavelmente difícil de montar por causa da natureza altamente repetitiva das sequências genômicas. Essas sequências repetitivas vêm em (pelo menos) três classes:

  1. Repetições tandem com uma unidade de repetição de comprimento maior que o comprimento de leitura dos sequenciadores Illumina (por exemplo, 171 bp)
  2. Repete tandem com um comprimento cumulativo maior do que o comprimento do fragmento de sequenciadores Illumina, ou o comprimento do modelo para leituras vinculadas (por exemplo, 20kb)
  3. Complexo (ou seja, não sequência repetitiva) que aparece em vários lugares do genoma

Canu parece lidar muito bem com os primeiros dois tipos de repetições, apesar da abundância de estrutura repetitiva no genoma. Aqui está o resumo da unitigging produzido por Canu em uma das montagens que tentei. Observe que cerca de 30% das leituras abrangem ou contêm uma longa repetição:

  leituras de categoria% de comprimento de leitura, tamanho do recurso ou análise de cobertura -------------- - ------- ------- ---------------------- ------------ ------------ -------------------- meio ausente 694 0,07 7470,92 + - 5552,00 953,06 + - 1339,13 (corte incorreto) meio -hump 549 0,05 3770,05 + - 3346,10 74,23 + - 209,86 (corte incorreto) no-5-prime 3422 0,33 6711,32 + - 5411,26 70,92 + - 272,99 (corte incorreto)
no-3-prime 3161 0,30 6701,35 + - 5739,86 87,41 + - 329,42 (corte incorreto) baixa cobertura 27158 2,59 3222,51 + - 1936,79 4,99 + - 1,79 (fácil de montar, potencial para consenso de qualidade inferior) exclusivo 636875 60,76 6240,20 + - 3908,44 25,22 + - 8,49 (fácil de montar, perfeito, yay) repeat-cont 48398 4,62 4099,55 + - 3002,72 335,54 + - 451,43 (potencial para erros de consenso, nenhum impacto na montagem) repeat-pomba 135 0,01 16996,33 + - 6860,08 397,37 + - 319,52 (difícil de montar, provavelmente não montará corretamente ou mesmo de forma alguma) repetição de expansão 137927 13,16 9329,94 + - 6906,27 2630,06 + - 3539,53 (leitura abrange uma repetição grande, geralmente fácil de montar) uniq-repeat-cont 155725 14,86 6529,83 + - 3463,16 (deve ser colocado de forma única, baixo potencial para erros de consenso, nenhum impacto na montagem) uniq-repeat-dove 28248 2,70 12499 .99 + - 8446,95 (encerrará contigs, potencial para montagem incorreta) uniq-anchor 5721 0,55 8379,86 + - 4575,71 3166,22 + - 3858,35 (leitura repetida, com seção única, provável leitura incorreta)  

No entanto, o terceiro tipo de repetição está me deixando um pouco triste. Usando a montagem acima, aqui estão os parâmetros de continuidade dos contigs montados:

  Sequências totais: 3505 Comprimento total: 322,867456 MbSeqüência mais longa: 1,762243 MbSsequência mais curta: 2,606 kb Comprimento médio: 92,116 kb Comprimento médio: 42,667 kbN50: 417 sequências; Sequências L50: 194,126 kbN90: 1996; L90: 35.634 kb  

Não é um assembly ruim , principalmente devido à complexidade do genoma, mas sinto que poderia ser melhorado abordando as repetições genômicas complexas de alguma forma. Cerca de 60 MB dos contigs nesta montagem estão vinculados uns aos outros em uma grande web (com base na saída GFA do Canu):

60Mb linked structure from Canu GFA

As regiões repetitivas têm normalmente mais de 500 bp de comprimento, média de 3kb, e já vi pelo menos um caso que parece ser uma sequência de 20kb duplicada em várias regiões.

Os padrões de Canu parecem fornecem os melhores resultados de montagem para os poucos parâmetros que tentei, com uma exceção: corte. Eu tentei brincar um pouco com os parâmetros de corte e, curiosamente, uma cobertura de corte de 5X (com sobreposição de 500 bp) parece dar uma montagem mais contígua do que com uma cobertura de corte de 2X (com a mesma sobreposição).

Se alguém estiver interessado em dar uma olhada nesses dados, os arquivos chamados FASTQ das execuções de sequenciamento Nippo podem ser encontrados aqui. Ainda estou no processo de upload dos arquivos de sinal nanopore brutos, mas eles estarão disponíveis nas próximas semanas associados ao projeto ENA PRJEB20824. Há também um arquivo Zenodo aqui que contém o GFA e contigs de montagem.

Alguém tem alguma outra sugestão sobre como eu poderia resolver essas repetições complexas?

Para esclarecer: você quer soluções computacionais ou está aberto para resequenciamento usando técnicas específicas para melhorar a montagem?
Soluções computacionais seriam preferidas, mas o novo sequenciamento não está fora de questão.
Estou confuso com a pergunta. Parece que você tem estatísticas de uma montagem de iluminação e também dados de nanopore que não fazem parte das estatísticas relatadas. Portanto, a resposta óbvia parece ser, e. Canu + pilon (ou similar) para tentar uma melhor montagem combinando os dois tipos de dados. Mas acho que não é isso que você quer. Você pode esclarecer?
Ix Canu [este assembler] (https://github.com/marbl/canu)? Quem faz os contigs da montagem com Illumina parece. Parece que com o nanoPore a montagem é muito melhor.
Sim, posso usar os dados Illumina para corrigir a montagem do Canu, mas isso não ajuda a resolver as repetições do "tipo 3". As regiões são suficientemente semelhantes para que as leituras de Illumina sejam mapeadas para vários pontos no genoma.
Os contigs Illumina são de alta qualidade (ou seja, eles têm boas pontuações BUSCO, indicando poucos erros variantes), mas bastante curtos. Qualquer cheiro de repetição e o contig termina. Tenho mais do que alguns exemplos de regiões que fariam uma leitura Illumina (mesmo 10x leituras vinculadas) se encolher de medo.
Mesmo que os contigs Illumina sejam de alta qualidade, isso não significa que funcionem bem para um genoma tão repetido.
Um responda:
#1
+6
user172818
2017-05-30 04:41:53 UTC
view on stackexchange narkive permalink

Você não pode resolver repetições / segdups quase idênticos de 20kb com leituras de 10kb. Tudo que você pode fazer é apostar sua sorte em algumas leituras excessivamente longas, abrangendo algumas unidades por acaso. Para cópias divergentes, vale a pena olhar este documento. Ele usa leituras Illumina para identificar k-mers em regiões exclusivas e ignora k-mers não exclusivos no estágio de sobreposição. O artigo disse que essa estratégia é melhor do que usar sobreposições padrão, que eu compro, mas provavelmente também não pode resolver um segdup de 20kb com um punhado de incompatibilidades.

Essas abordagens baseadas em incompatibilidade sempre têm limitações e pode não funcionar para segdups / repetições recentes. A solução definitiva é obter leituras longas, mais longas do que as unidades de repetição / segdup. As leituras de ~ 100kb na pré-impressão recente serão uma virada de jogo para você. Se suas repetições de ~ 20kb não forem tandem, as leituras vinculadas de ~ 100kb de 10X também podem ajudar.

Já temos algumas leituras de 100kb em nossos exemplos, mas parece que podemos precisar de mais. Uma amostra de DNA foi enviada a Canberra para ser sequenciada em um curso de treinamento Nanopore (por um colega), então, esperançosamente, teremos boas leituras longas disso.
"Algumas" leituras de 100kb não ajudarão muito. Você precisa aplicar o protocolo ultralongo, que é diferente do protocolo padrão.


Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.
Loading...