Questão:
Imputando genótipos ausentes de painéis de genotipagem separados
Greg
2017-06-01 12:27:26 UTC
view on stackexchange narkive permalink

Qual é o padrão atual para imputar genótipos ausentes entre dois painéis de genotipagem? Eu tenho duas populações genotipadas usando dois painéis diferentes (A & B) e gostaria de imputar todos os genótipos na população B para essas posições usadas no painel A.

Eu li os exemplos para impute2, e acho que a coisa mais próxima do que estou procurando é este exemplo, "Imputação com um painel de referência sem fases".

Simplificando, eu quero fornecer uma lista de SNPs, algum arquivo variante para a população B e informações de haplótipos de 1.000 genomas e obter genótipos imputados para cada SNP na lista. O impute2 é o estado da arte para isso?

Depende, se estamos imputando genoma inteiro, todos os cromossomos, então impute2 é bastante sólido. O painel sem faseamento daria um resultado melhor, mas desempenho lento. Se estivermos atribuindo uma região, acho que o beagle é melhor.
Não quero imputar todo o genoma, apenas alguns sites específicos.
Um responda:
#1
+4
winni2k
2017-06-01 20:22:21 UTC
view on stackexchange narkive permalink

Visto que você mencionou o desejo de usar 1000 Genomes como um painel de referência para imputar genótipos em seus dois painéis de chips SNP, vou presumir que você está trabalhando com dados humanos.

Nesse caso, há várias opções que você pode escolher:

  • Se os seus dois painéis são descendentes de europeus, então provavelmente é melhor usar o HRC painel de referência junto com uma ferramenta de imputação de genótipo rápida, como Beagle 4.1 para imputar genótipos em cada um de seus dois painéis de chip SNP separadamente.
  • Se seus painéis não forem de Descendência europeia, então você provavelmente desejará usar o painel de referência da fase 3 do 1000 Genomes com Beagle 4.1, Impute2 ou Minimac3.

Em ambos os casos, há dois serviços de fases disponíveis que servirão muito do trabalho pesado para você 1, 2.

O segundo artigo do Wellcome Trust Case-Control Consortium apresentou um análise de imputação cruzada conforme você descreve. Não vejo muitos estudos usando vários painéis de chips SNP. Você precisará tomar cuidado em sua análise para não ser atingido por efeitos de lote por usar dois painéis de chips SNP diferentes.

Além disso, nenhum desses métodos funcionará se a região que você está atribuindo tiver poucos variantes. Não tenho certeza de qual é o número mínimo de variantes, mas se você estiver usando um painel de genotipagem de genoma inteiro de pelo menos 500k SNPs, então você deve estar bem se imputar um cromossomo inteiro de uma vez.

Obrigado! Estas parecem boas opções. E sim, estou trabalhando com dados humanos. Não sei exatamente qual é a etnia dos participantes, e suspeito que seja provavelmente uma população diversa, então 1000 Genomes faz mais sentido para mim. Você menciona o Beagle algumas vezes, há algum motivo para você ter uma preferência por ele?
Não tenho experiência suficiente comparando os três programas Beagle 4.1, Impute2 e Minimac3 para realmente expressar uma preferência. Você deve obter uma imputação de boa qualidade com qualquer um deles, mas teste você mesmo, o que é fácil de fazer atribuindo genótipos retidos. A única ressalva para isso é que acho que o Impute2 provavelmente demorará um pouco mais do que os outros programas ao imputar de um painel de referência o tamanho do HRC.
O Beagle funcionou muito bem e foi fácil de usar. Eu recomendo


Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.
Loading...