Questão:
Há algum ponto na recalibração de pontuações para chamadas de variantes?
Kamil S Jaron
2017-06-01 03:33:00 UTC
view on stackexchange narkive permalink

O pipeline de chamada mais variante do GATK inclui uma Recalibração do Índice de qualidade de base (BQSR) que requer uma lista de variantes conhecidas. Recentemente, também foi feito algum trabalho para recalibração livre de referência de pontuações: Lacer e atlas, que é motivado por aproveitar ao máximo o aDNA e conjuntos de dados de baixa cobertura.

A importância do aDNA é explicada nesta palestra, mas não está claro para mim se / como o BQSR é importante para amostras de DNA frescas com cobertura decente (> 15x). Especialmente quando trabalho com organismos não-modelo e não posso simplesmente usar as ferramentas padrão.

Qual é o impacto da recalibração das pontuações na chamada de variantes? Existe uma regra prática para a qual vale / não vale a pena o esforço?

Quatro respostas:
#1
+5
burger
2017-06-02 03:07:27 UTC
view on stackexchange narkive permalink

Pessoalmente, não acho que BQSR tenha um grande impacto na chamada de variantes, mas você realmente não precisa adivinhar. Se você executar o GATK BQSR, ele gerará uma tabela e gráficos de exatamente quanto as pontuações de qualidade são ajustadas. O ajuste irá variar dependendo da posição no contexto lido e genômico (base anterior e seguinte). Na minha experiência, a diferença é de alguns pontos, no máximo, mas certamente é perceptível.

O GATK recomenda BQSR para dados de genoma e exoma, que normalmente são muito maiores do que 15x.

#2
+2
Manuel
2017-06-01 04:27:28 UTC
view on stackexchange narkive permalink

Essa é uma boa pergunta.

Eu diria que você não precisa se preocupar com a recalibração de variantes para

  • baixo número de amostras (por exemplo, apenas dois trios); Não consegui fazer com que a recalibração GTAK de pontuações variantes funcionasse de qualquer maneira
  • amostras de alta cobertura (por exemplo, X dez genomas com 30x cobertura) onde as próprias amostras de DNA são de alta qualidade comparável e foram sequenciadas com consistência tecnologia.

Geralmente, tenho a impressão de que muitos dos pensamentos e modelos estatísticos avançados construídos no GATK vêm das fases anteriores do projeto 1000 Genomes. Isso significa (1) cobertura baixa, (2) genomas de cobertura diferente (3) sequenciados com versões de tecnologia variadas por (4) amostras diferentes e (5) sequenciamento de população.

Se você estiver em um ambiente clínico onde você faz sequenciamento 30x em plataformas X Ten apenas de qualquer maneira, então a recalibração de variantes provavelmente não o ajudará muito.

Por outro lado, se você estiver integrando muitos conjuntos de dados de diferentes centros de dados e versões de máquina, etc. ., a recalibração de variante pode valer a pena tentar.

Uma boa verificação seria observar as distribuições de qualidade do genótipo e outras métricas relacionadas à variante / qualidade antes e depois da recalibração. eu se estiver errado!

Você está falando sobre a recalibração da pontuação de qualidade básica (BQSR) aqui ou sobre a recalibração da pontuação de qualidade variante (VQSR)? Acho que o OP está se referindo ao BQSR, mas você está discutindo o VQSR.
Sim, OP confirmado. A pergunta é sobre BQSR, então lamento que você esteja respondendo à pergunta errada.
* suspiro * e aí pensei que poderia contribuir com algo.
#3
+1
vchris_ngs
2017-06-06 16:07:56 UTC
view on stackexchange narkive permalink

Idealmente, esses métodos BQSR foram feitos tendo em mente como os erros técnicos vão realmente atrapalhar as chamadas de qualidade de base e quando as máquinas ainda estavam em fase de desenvolvimento enquanto eram usadas para o projeto 1000G. A partir de agora, as máquinas são mais poderosas e fortes onde provavelmente não serão usadas, mas ainda usamos os SNPs listados para encontrar as covariáveis ​​e construir um modelo em torno dos dados usando as informações com truques de aprendizado de máquina para melhorar a qualidade dessas chamadas de base . Idealmente, deveria ser mais apropriado quando máquinas antigas da Illumina ou de outras empresas padrão estão sendo usadas, mas com máquinas novas que são muito potentes e com alto rendimento, elas tendem a cair. Não me lembro se esses testes foram feitos, mas obviamente sei que novas máquinas de sequenciamento sempre fazem esses testes para mostrar que reduziram esses erros, mas ainda recomendo esse BQSR para chamadas de variantes. Agora o problema é a lista de SNPs, esse para mim é o verdadeiro problema, já que a lista que usamos está longe de ser o padrão ouro e se isso não for devidamente cuidado, tudo o que inferirmos sobre qualidade ainda é instável. Este link é muito informativo, mas é antigo. Eu realmente veria melhorias com novos sequenciadores. No entanto, muito menos pessoas se preocupam com esses testes em pesquisas acadêmicas e também o laboratório de translação realmente não vai investir tempo e dinheiro nisso, a menos que a instalação tenha algum bioinformático que sempre faça esses testes ao comprar um novo sequenciador para o instituto. Em termos de genômica clínica para encontrar variantes, considero que os sequenciadores mais poderosos e atualizados devem ser usados, mas não tenho certeza se eles ainda usam BQSR e, em caso afirmativo, qual é a lista que eles usam para construir o modelo de covariação em torno dos dados.

Observe que a pergunta é motivada pela pesquisa de organismos não-modelo - não posso usar uma lista de variantes conhecidas, porque essa lista não existe para minha espécie. Portanto, eu queria saber o quão importante é recalibrar o QS, porque finalmente é possível, mas não apenas executando mais uma etapa no pipeline do GATK.
Eu concordo que é um organismo não modelo e é por isso que você não terá essa lista de variantes. Mas como a motivação da abordagem também era perguntar sobre o BQSR então eu disse. Você pode dar uma olhada neste https://media.readthedocs.org/pdf/lts-workflows-sm-non-model-toolkit/latest/lts-workflows-sm-non-model-toolkit.pdf sobre como usar suas variantes HC de sua amostra para recalibrar. Além disso, este link gatlk também pode ajudar. http://gatkforums.broadinstitute.org/gatk/discussion/3286/quality-score-recalibration-for-non-model-organisms. Agora, a decisão de usar ou comparar está em suas mãos.
@KamilSJaron para não modelo, esta é uma maneira de fazer, mas se sua máquina de sequenciamento for muito nova e com maior precisão, você também pode dispensar a etapa. Gostaria de ler publicações para ver o que eles fazem, mas ainda por minha causa fazer chamadas sem BQSR e com BQSR com variantes de HC e usá-los como banco de dados e comparar para chegar a uma conclusão sozinho. Essa é a minha opinião. Também depende da virtude do projeto.
O primeiro link é muito relevante para minha pergunta original: "Enquanto o GATK UnifiedGenotyper sofre durante a chamada indel sem recalibração e realinhamento, HaplotypeCaller e FreeBayes têm desempenho tão bom ou melhor sem essas etapas." Obrigado. O segundo link também é relevante, mas não tenho indivíduos sequenciados o suficiente para escolher sua abordagem para recalibração.
@KamilSJaron Fico feliz que seja relevante, mas, novamente, eu estaria dizendo que você pode executar com e sem e fazer algumas estimativas. Uma vez que você não tem muitas amostras para criar seu próprio banco de dados HC SNP, você também pode fazer isso com SNPs estritamente rigorosos de seus indivíduos. Ou, como você não tem muitas amostras, apenas evite a etapa BQSR e retire as principais variantes e não uma grande fração das variantes. As principais variantes, embora a pontuação possa não ser muito precisa, mas as chamadas ainda serão altamente confiantes e, de preferência, verdadeiras positivas. Eu acho que depende do número de variantes para as quais você faz stream.
BQSR ainda é relevante, uma das razões para isso é que algum novo hardware de iluminação, como o NextSeq, só pode gerar pontuações Q binadas, BQSR essencialmente "un-bins" as pontuações Q dando mais granularidade que tem seus usos na chamada de variantes somáticas profundas, http://gatkforums.broadinstitute.org/gatk/discussion/4594/beware-of-using-binned-quality-scores-with-some-gatk-procedures. Além disso, o NextSeq sofre de um problema de poli G de alta confiança, o BQSR também será benéfico aqui https://sequencing.qcfail.com/articles/illumina-2-colour-chemistry-can-overcall-high-confidence-g-bases/
Ah, isso era algo que eu não sabia, já que ainda não tive que encontrar o NextSeq. Este é um bom ponto. Então o OP também deve pensar nisso e sim, eu estava apenas considerando como o BQSR apareceu pela primeira vez. Mas esta é uma boa pegadinha para pontuações Q binadas e sobre o problema de poli G.
#4
  0
Bekir Ergüner
2020-01-22 16:32:17 UTC
view on stackexchange narkive permalink

No caso de BQSR não ser uma opção (ou seja, organismos não-modelo), seria melhor usar alguma sequência de controle interno, como PhiX para plataforma Illumina. Embora seja uma prática comum, algumas instalações a ignoram. Em princípio, as máquinas deveriam usar essas sequências como referência para que a pontuação fosse mais precisa. Na minha experiência, as primeiras 10-15 bases das leituras da Illumina sempre tiveram qualidade inferior. Isso pode ser facilmente visto nas distribuições de nucleotídeos. Eu aconselharia cortar as primeiras 10-15 bases e cortar final com base na qualidadeiSe a qualidade das leituras individuais for importante, como resequenciamento de baixa cobertura ou aplicações de montagem de genoma de-novo.



Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.
Loading...