Questão:
Como lidar com a heterozigosidade durante o polimento da montagem do genoma com base em leituras longas?
Kamil S Jaron
2017-05-21 16:49:59 UTC
view on stackexchange narkive permalink

Todas as plataformas de sequenciamento de leitura longa são baseadas no sequenciamento de uma única molécula, o que causa taxas de erro por base mais altas. Por esta razão, uma etapa de polimento foi adicionada aos pipelines de montagem do genoma - mapeando leituras brutas de volta à montagem e corrigindo detalhes da montagem.

Eu tenho um conjunto de dados PacBio RSII decente de genoma individual único de espécies não modelo fortemente heterozigotas . A montagem correu bem, mas quando tentei polir a montagem usando quiver, ela não conseguiu convergir em algumas iterações e aposto que é por causa da divergência muito grande de haplótipos. Existe alguma outra maneira de polir um genoma com essas propriedades? Por exemplo, há uma maneira de separar leituras longas por haplótipo, para que eu pudesse polir usando apenas um haplótipo?

Dois respostas:
#1
+4
roblanf
2017-05-22 08:36:12 UTC
view on stackexchange narkive permalink

Algumas possibilidades:

Falcon

Tente falcon e falcon-unzip. Eles são projetados exatamente para o seu problema e seus dados: https://github.com/PacificBiosciences/FALCON

Não é Falcon

Se você acha que montou haplótipos (o que parece razoável esperar, dada a cobertura suficiente), você deve ser capaz de ver os dois haplótipos apenas fazendo todos os alinhamentos de pares de seus contigs. Os haplótipos devem aparecer como pares de contigs que são MUITO mais semelhantes (mesmo com muita divergência entre haplótipos) do que outros pares. Depois de ter todos esses pares, você pode simplesmente selecionar um de cada par para polir.

Na verdade, tenho ambas as sequências de haplótipos. Eu os peguei usando uma ferramenta chamada [haplomerger2] (http://www.ncbi.nlm.nih.gov/pubmed/22555592). Mas esta ferramenta produz uma montagem haplóide quimérica, portanto, eles não são haplótipos realmente faseados corretamente. O Falcon-unzip é realmente um software que pode funcionar. Era muito jovem para tentar na época, mas eu poderia tentar dar outra chance agora.
#2
+3
gringer
2017-05-22 13:12:38 UTC
view on stackexchange narkive permalink

Você também pode tentar Canu. Ele é projetado para montagem de leitura longa (PacBio e Nanopore), embora não especificamente para sequenciamento de populações complexas. Ele tenta desmembrar um genoma em seus componentes únicos e gera caminhos a partir desses componentes que são bem suportados pelas leituras.

Com relação ao polimento, parece que o polimento não convergem, e haverá muitas variantes que apenas oscilarão entre duas possibilidades. Para mim e pelo menos outra pessoa no London Calling este ano, basicamente não houve ganho de precisão para o polimento após a terceira iteração. Usei meu próprio algoritmo de correção de erros, mas eles usaram o polimento mais "padrão" com Pilon. Pelo que vale a pena, o consórcio nanopore WGS usou Racon para polir seus conjuntos Canu.

Na verdade, montei o genoma usando Canu, obtive ~ 2x o tamanho haplóide do genoma, que colapsou em haplótipos usando [HaploMerger2] (http://www.ncbi.nlm.nih.gov/pubmed/22555592). saiba que globalmente a montagem é boa. Só precisa ser polido.
Ai sim. Desculpe, olhei para a primeira resposta e presumi que se tratava apenas de montagem. Percebo agora que a questão era discutir * polimento *, ao invés de montagem.
@gringer Eu também estava tentando polir um conjunto de genoma altamente heterozigoto (gerado por canu), usando Racon (o Quiver colapsaria os haplótipos), mas não consegui obter uma saída satisfatória (basicamente, nenhuma estatística mudou). algum conselho?
Minha recomendação geral no momento seria usar nanopolimento no modo de metilação para corrigir, então Pilon com Illumina lê para * apenas * corrigir os fragmentos de homopolímero (ou seja, sem correção SNP e sem andaime de longo alcance). Com base neste: https: //github.com/rrwick/Basecalling-comparison#methylation


Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.
Loading...