Questão:
Remapeando as coordenadas genômicas para contabilizar os indels
Greg Slodkowicz
2017-05-30 19:35:08 UTC
view on stackexchange narkive permalink

Estou interessado em obter sequências de codificação do meu gene favorito em todos os indivíduos do 1000Genomes (e projetos semelhantes). Eu uso o GATK para obter o subconjunto correto de variantes, vcf-consensus para mapear essas variantes no genoma de referência e, finalmente, samtools para extrair os exons individuais. Isso funciona bem se as variantes forem SNPs, mas se houver indels, isso muda as coordenadas dos exons e acabo obtendo a região errada. Existe alguma maneira genérica de remapear as coordenadas genômicas para contabilizar as mudanças criadas pelos indels?

Dois respostas:
#1
+8
Karel Brinda
2017-05-30 20:23:34 UTC
view on stackexchange narkive permalink

Acho que você precisa de um arquivo de corrente LiftOver para transformar suas coordenadas. Você pode obter esse arquivo usando bcftools consensus com o parâmetro -c :

  -c, --chain <file> escrever um arquivo em cadeia for liftover  

Depois, você pode usá-lo para transformar as coordenadas em vários formatos genômicos usando CrossMap.

Legal, +1. Seria ótimo se você pudesse expandir isso para incluir um comando de exemplo que o OP pudesse executar, as etapas necessárias, etc. Os sites do Stack Exchange têm diretrizes muito rígidas sobre o que é uma resposta (é por isso que estou incomodando você) e, idealmente , queremos que uma resposta forneça todas as informações necessárias para resolver a pergunta feita. Em outras palavras, por favor, não poste dicas (nem mesmo aquelas muito úteis como esta) como respostas. Basta postar um comentário ou transformar o ponteiro em uma resposta completa.
Talvez seja só eu, mas a resposta dele parece boa, mesmo para o padrão SE, mas sou só eu.
@nuin concordou, e é por isso que votei positivamente. Só acho que seria ainda melhor com mais detalhes, só isso.
Sem ressentimentos.
#2
+2
finswimmer
2019-01-16 01:17:46 UTC
view on stackexchange narkive permalink

Se o objetivo é extrair a sequência de consenso para determinadas regiões, é assim que funciona em 2019.

bgzip e indexe seu vcf arquivo.

   $ bgzip -c input.vcf > input.vcf.gz $  tabix input.vcf.gz  

Crie um regiões.txt que contém uma região por linha no formato chr: de-para . Se você já tem um arquivo bed , pode usar este pequeno script awk para criá-lo:

   $ awk '{print $ 1": "$ 2 + 1" - "$  3}' input.bed > region.txt  

Agora execute esta combinação de samtools e bcftools:

  $ samtools faidx -r region.txt genome.fa | bcftools consensus input.vcf.gz -o consensus. fa  


Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.
Loading...