Questão:
Distribuição de frequência alélica esperada de SNVs em dados NGS reais
German Demidov
2017-05-22 15:47:44 UTC
view on stackexchange narkive permalink

Tenho uma grande quantidade de amostras WGS humanas de ~ 20x, alinhadas, e todos os SNVs que foram chamados com GATK sob os parâmetros de linha germinativa padrão definidos.

O que preciso fazer é modelar SNVs de frequência de alelo ( AF) para diferentes números de cópia subjacentes. É melhor eu fornecer um exemplo de brinquedo. Para determinada região genômica X:

Se X for apresentado por 2 cópias para as amostras específicas, esperamos que AF seja super próximo de 1 ou de 0,5.

Se X for apresentado por 4 cópias, espero que qualquer AF em particular seja próximo a 0,25, 0,5, 0,75 ou 1.

Claro, posso usar a Distribuição Binomial para esses fins. No entanto, como sabemos, a distribuição não é exatamente Binomial devido aos vieses de alinhamento / sequenciamento e a FA mediana para todos os SNVs heterozigotos é mais próxima de 0,48, mas não de 0,5 como seria de se esperar. Outra coisa: para um grande número de cópias, esperamos coberturas mais altas. E o GATK usa vários filtros, então suponho que não veremos SNVs com AF como 0,125 (no caso de o segmento ter ploidia 8) - apesar da cobertura super alta lá, o GATK pode rejeitar este AF "estranho".

Eu li vários artigos que modelam AFs de SNVs (e concordo que a Distribuição Binomial Beta pode ser bastante precisa), entretanto, não estava suficientemente convencido de que deveria usar a modelagem específica. Com base na sua experiência (no caso, se você fizer chamadas SNVs), qual distribuição probabilística devo usar? Como devo estimar os parâmetros para cada um deles (devo esperar para CN4 AF = 0,5 mais frequente do que AF = 0,75 ou vice-versa, como estimar isso a partir dos dados)?

UPD: Para simplificar, podemos dizer que temos várias regiões previamente identificadas com ploidia diferente de CN2, e posso pegar essas coordenadas aqui. Portanto, posso usar o aprendizado mais ou menos "supervisionado" para a estimativa dos parâmetros.

Um responda:
#1
+4
winni2k
2017-06-04 06:17:18 UTC
view on stackexchange narkive permalink

Não tenho experiência suficiente para responder qual distribuição probabilística deve ser usada.

No entanto, essa questão também pergunta como estimar os parâmetros das distribuições. Se uma distribuição binomial for escolhida, então o artigo de Heng Li intitulado "Uma estrutura estatística para chamada SNP, descoberta de mutação, mapeamento de associação e estimativa de parâmetro genético da população a partir de dados de sequenciamento" 1 é provavelmente o definitivo. A seção 2.3.1 desse artigo descreve um algoritmo EM para estimar frequências de alelos de várias amostras sob a suposição de equilíbrio de Hardy-Weinberg para ploidia arbitrária, mas constante.

Idealmente, mesmo as ferramentas mais populares como o GATK também usam o algoritmo EM para o registro para estimar a probabilidade, enquanto as samtools usam os métodos EM e de Brent. Os problemas reais com a configuração da ploidia a priori, mas não estou ciente até agora sobre as ferramentas que estimam a ploidia e, em seguida, usa essa informação para chamadas SNV e descobre o AF. Eu sei que ferramentas como o ABSOLUTE têm o poder de estimar a ploidia, mas você deve usá-las como uma entrada para suas chamadas SNP posteriores. Mas eu acho que a maioria das ferramentas geralmente funciona com a suposição de ploidia definida a priori. Isso é o que está vindo à minha mente agora.


Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.
Loading...