Questão:
Dado um VCF de um genoma humano, como avalio a qualidade em relação aos SNVs conhecidos?
ShanZhengYang
2017-05-21 02:49:51 UTC
view on stackexchange narkive permalink

Estou procurando ferramentas para verificar a qualidade de um VCF que tenho de um genoma humano. Gostaria de verificar o VCF contra variantes publicamente conhecidas em outros genomas humanos, por exemplo, quantos SNPs já estão em bancos de dados públicos, se as inserções / exclusões estão em posições conhecidas, distribuição de comprimento de inserção / exclusão, outros SNVs / SVs, etc.? Suspeito que existam recursos de projetos anteriores para verificar SNPs e InDels conhecidos por subpopulações humanas.

Quais recursos existem para isso e como faço isso?

Trzy respostas:
#1
+7
Kevin
2017-05-21 19:48:39 UTC
view on stackexchange narkive permalink

Para atingir (pelo menos alguns de) seus objetivos, eu recomendaria o Variant Effect Predictor (VEP). É uma ferramenta flexível que fornece vários tipos de anotações em um arquivo .vcf de entrada. Eu concordo que ExAC é o de facto catálogo de padrão ouro para variação genética humana em regiões codificantes. Para ver a distribuição de frequência de variantes por subpopulação global, certifique-se de que as "frequências de alelos ExAC" estejam marcadas além dos 1000 genomas. VEP ExAC

Saída no navegador da web: VEP_ExAC_res

Se você baixar o .vcf anotado, frequências estará no campo INFO :

  ## INFO = <ID = CSQ, Number =., Type = String, Description = "Anotações de conseqüência do Ensembl VEP. Formato : Alelo | Consequência | IMPACTO | SÍMBOLO | Gene | Recurso_tipo | Recurso | BIOTIPO | EXON | INTRON | HGVSc | HGVSp | Posição_cDNA | Posição_CDS | Posição_de_proteína | Amino_ácidos | Códons | Variação_existente | DISTÂNCIA | SÍMBOLO_STANTE | SÍMBOLO_FLAGS | | PolyPhen | AF | AFR_AF | AMR_AF | EAS_AF | EUR_AF | SAS_AF | AA_AF | EA_AF | ExAC_AF | ExAC_Adj_AF | ExAC_AFR_AF | ExAC_AMR_AF | ExAC_EAS_AF | ExAC_FIN_AF | ExAC_NFE_AF | ExAC_OTH_AF | ExAC_SAS_AF | CLIN_SIG | SOMÁTICA | pheno | MOTIF_NAME | MOTIF_POS | HIGH_INF_POS | MOTIF_SCORE_CHANGE 

O Annovar mencionado anteriormente também pode fazer anotações com frequências de alelos ExAC. Finalmente, deve mencionar o mais novo recurso de genoma completo, gnomAD.

Muito boa sugestão. Meu entendimento é que o ExAC detém aprox. 123K exomes e gnomAD agora tem cerca de 15K genomas
Todas essas são ótimas respostas, mas como essa parece ser a favorita da comunidade, marcarei como "a resposta". Mas futuros leitores: olhem para os outros!
#2
+5
Kamil S Jaron
2017-05-21 06:12:08 UTC
view on stackexchange narkive permalink

O maior catálogo de variantes de codificação de proteínas é definitivamente o ExAC (> 65 mil indivíduos). Eles também publicaram uma postagem do blog onde descrevem como reproduzir figuras no papel (é um bom começo para se familiarizar com o conjunto de dados).

Para o todo -genoma variantes Eu olharia para os dados criados pelo projeto 1000 genomas (a versão mais recente tem mais de 3.000 indivíduos). Os conjuntos de chamadas variantes integrados podem ser baixados do portal e o catálogo de VVs pode ser encontrado aqui.

Nele papel (também projeto 1000 genomas), eles falam sobre a colocação não precisa de SVs por chamadores de SV. Eu manteria isso em mente para a comparação do seu genoma com as variantes conhecidas.

Obrigado pela ajuda. Estou um pouco confuso com o hiperlink em `guia` que descreve o script perl necessário. Usando este script, isso criará um VCF de um agregado de aproximadamente 2,5K indivíduos?
O script é parte do [VCFtools] (http://vcftools.github.io/), eles o vinculam ao manual do pacote ao invés do código-fonte, espera-se que você instale o pacote, não apenas para baixar o script. Eu também descobri que eles começaram um portal na página de boas-vindas, então editei a resposta.
#3
+4
nuin
2017-05-21 10:18:16 UTC
view on stackexchange narkive permalink

Sua melhor aposta é usar programas que forneçam uma anotação completa das variantes presentes em seu VCF. Dois exemplos são snpEff e Annovar. Esses programas trabalham em variantes conhecidas, consideram fontes diferentes e fornecem informações sobre cada item em seu arquivo, que você pode filtrar depois para tentar entender os efeitos de cada variante.

Agora há acesso ao gnomAD com ANNOVAR, o que é muito legal.


Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.
Loading...