Questão:
variante chamando dados de estilo ChIP-seq: samtools mpileup com filtros mínimos
719016
2017-05-26 18:23:01 UTC
view on stackexchange narkive permalink

Estou executando o samtools mpileup (v1.4) em um arquivo bam com cobertura muito instável (dados do estilo ChIP-seq). Quero obter uma lista de primeira passagem de posições com SNVs e sua frequência, conforme relatado pelas contagens de leitura, mas não importa o que eu faça, continuo recebendo todos os SNVs filtrados como não aprovados no QC.

O que é o parâmetro mágico definido para uma lista inicial de SNVs e frequências?

EDITAR: esta é uma pergunta que postei no site "o outro", mas não obtive resposta lá.

Você poderia tentar outro chamador apenas para verificar? Algo como [varscan] (http://dkoboldt.github.io/varscan/)?
@nuin Posso tentar, o varscan permite desligar a filtragem?
Você poderia adicionar alguns exemplos de comandos que você tentou?
@719016 Tente este [comando] (http://dkoboldt.github.io/varscan/using-varscan.html#v2.‌ 3_pileup2snp) e altere opções como _-- min-cobertura _, _-- min-leituras2_ e _-- min-avg-qual_. Isso também o ajudará a verificar se o seu problema está relacionado ao samtools ou ao arquivo BAM
estou um pouco preocupado que, se a profundidade não for alta e também os dados ChIP-Seq apresentarem vieses, não serão SNPs de alta confiança. O ponto principal do SNP HC é a profundidade de leitura, que não é tanto no ChIP-Seq tradicional
Sim, talvez a chamada deva ser restrita a picos próximos ao pico, então compare amostra com amostra no subconjunto de tais SNVs
Dois respostas:
#1
+7
burger
2017-05-27 06:16:16 UTC
view on stackexchange narkive permalink

Eu usei isso no passado para dados ChIP-seq e gerou SNVs:

  samtools mpileup \ - descompactado --max-depth 10000 --min-MQ 20 --ignore -RG --skip-indels \ - fasta-ref ref.fa file.bam \ | bcftools call --consensus-caller \ > out.vcf  

Este foi o samtools 1.3 caso isso faça a diferença.

Eu tenho que trabalhar com esses parâmetros. Obrigado!
#2
+5
user172818
2017-05-29 19:47:27 UTC
view on stackexchange narkive permalink

Outra abordagem é htsbox. Você pode obter uma lista de candidatos com:

  htsbox pileup -Cvcf ref.fa -q20 -Q20 -s5 file.bam > out.vcf  

Aqui , -q define a qualidade mínima do mapeamento, -Q define a qualidade básica mínima, -v exibe apenas as variantes -c produz VCF, -C fornece contagens de base em ambas as vertentes e, finalmente, -s5 requer pelo menos 5 bases de alta qualidade para chamar um alelo. É útil quando seus dados não atendem às suposições feitas por chamadores de variantes típicos.

Por que não samtools + bcftools ou varscan? Transparência e rapidez. Esta linha de comando simplesmente conta com base nos parâmetros que você usa. Não se aplica a operações adicionais. E por causa disso, é mais de uma ordem de magnitude mais rápido do que samtools mpileup ou varscan. É importante notar que samtools usa BAQ por padrão, o que reduz FPs ocasionalmente. No entanto, BAQ não é totalmente necessário para leituras Illumina mais longas e prejudica a sensibilidade ao mesmo tempo.

Definitivamente vou tentar o htsbox, como você diz, ele funciona simplesmente contando com base nos parâmetros.


Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.
Loading...