Questão:
Como ler a variante estrutural do VCF?
SmallChess
2017-05-29 11:25:31 UTC
view on stackexchange narkive permalink

O IGSR tem uma amostra para codificar variantes estruturais no formato VCF 4.0.

Um exemplo do site (o primeiro registro):

  #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA000011 2827693. CCGTGGATGCGGGGACCCGCATCCCCTCTCCCTTCACAGCTGAGTGACCCACATCCCCTCTCCCCTCGCA C. PASSAR SVTYPE = DEL; END = 2827680; BKPTID = Pindel_LCS_D1099159; HOMLEN = 1; HOMSEQ = C; SVLEN = -66 GT: GQ 1/1: 13,9  

Como ler? Pelo que posso ver:

  • Esta é uma exclusão ( SVTYPE = DEL )
  • A posição final da variante vem antes da posição inicial (fita reversa?)
  • A referência começa de 2827693 a 2827680 (13 bases na fita reversa)
  • A diferença entre a referência e a alternativa está 66 bases ( SVLEN = -66 )

Isso não parece certo para mim. Por exemplo, não vejo onde exatamente começa a exclusão. O campo SVLEN diz 66 bases excluídas, mas onde? 2827693 a 2827680 tem apenas 13 bases entre eles.

P: Como ler a exclusão corretamente deste registro VCF estrutural ? Onde está o ausente 66-13 = 53 bases?

Tenho certeza de que o valor `END` está simplesmente errado naquele exemplo. Talvez envie ao endereço de e-mail info @ uma nota sobre isso para que eles possam consertar.
Tomei a liberdade de perguntar ao projeto 1000 genomas sobre isso, vou postar a resposta, se ainda for relevante, quando eu recebê-la.
Esta linha está errada em vários aspectos. O VCF4.0 tem cerca de 5 anos e está obsoleto há muito tempo. Sua especificação também foi movida para o github. Você deve ler as [especificações mais recentes] (https://samtools.github.io/hts-specs/VCFv4.3.pdf). O exemplo de SV está correto.
Isso foi corrigido nas especificações VCF mantidas em 2015 ao ser relatado como .
Dois respostas:
#1
+8
Devon Ryan
2017-06-06 02:05:51 UTC
view on stackexchange narkive permalink

Acabei de receber uma resposta do 1000Genomes sobre isso. Vou postá-lo na íntegra abaixo:

Olhando para o exemplo que você mencionou, acho difícil fazer uma interpretação das informações em que o fim declarado parece estar correto acredito que isso pode realmente ser um erro.

Desde que a v4.0 foi criada, no entanto, novas versões do VCF foram introduzidas, melhorando e corrigindo a especificação. A versão atual é v4.3 ( http://samtools.github.io/hts-specs/). Acredito que o primeiro registro mostrado na página 11 fornece um exemplo preciso desse tipo de exclusão.

Vou atualizar a página da web para incluir essas informações.

Então, nós pode interpretar isso como uma confirmação oficial de que estávamos todos corretos ao suspeitar que o exemplo estava errado.

foi um acompanhamento incrível! :)
#2
+4
terdon
2017-05-30 03:34:37 UTC
view on stackexchange narkive permalink

Então, em primeiro lugar, como outros apontaram, tenho certeza de que esse exemplo está errado. Pelo menos, os números não coincidem como você apontou.

Dito isso, é impossível ter certeza sem nos mostrar o cabeçalho do arquivo VCF também. O campo INFO (o quinto campo de um arquivo VCF) é muito, muito variável e depende inteiramente das linhas de cabeçalho. Cada programa (ou humano) que implementa um VCF é livre para escolher o que quiser no campo INFO. No entanto, cada IDENTIFIER = precisa ter uma linha INFO associada no início do arquivo.

Assim, o SVTYPE , SVLEN , HOMLEN etc terá comentado (comece com um # ) linhas no início do arquivo explicando quais são esses valores. Portanto, verifique-os, embora sejam relativamente padrão, nunca se sabe, a leitura óbvia que você usou pode estar errada, apesar de parecer tão razoável.

Aqui está um exemplo mais recente de uma linha VCF para um SV tirado da especificação VCF atual:

  ## fileformat = VCFv4.1 # # fileDate = 20100501 ## reference = 1000GenomesPilot-NCBI36 ## assembly = ftp: //ftp-trace.ncbi.nih.gov/1000genomes/ftp/release/sv/breakpoint_assemblies.fasta##INFO=<ID=BKPTID,Number= ., Type = String, Description = "ID do alelo alternativo montado no arquivo de montagem" > ## INFO = <ID = CIEND, Number = 2, Type = Integer, Description = "Intervalo de confiança em torno de END para variantes imprecisas" > # # INFO = <ID = CIPOS, Number = 2, Type = Integer, Description = "Intervalo de confiança em torno do POS para variantes imprecisas" > ## INFO = <ID = END, Number = 1, Type = Integer, Description = "Posição final do variante descrita neste registro "> ## INFO = <ID = HOMLEN, Number =., Type = Integer, Description =" Comprimento do par de base micro-homologia idêntica em pontos de interrupção do evento ">
## INFO = <ID = HOMSEQ, Number =., Type = String, Description = "Sequência de micro-homologia idêntica do par de bases nos pontos de interrupção do evento" > ## INFO = <ID = SVLEN, Number =., Type = Integer, Description = "Diferença de comprimento entre os alelos REF e ALT" > ## INFO = <ID = SVTYPE, Number = 1, Type = String, Description = "Tipo de variante estrutural" > ## ALT = <ID = DEL, Description = "Exclusão" > ## ALT = <ID = DEL: ME: ALU, Description = "Exclusão do elemento ALU" > ## ALT = <ID = DEL: ME: L1, Description = "Exclusão do elemento L1" > ## ALT = <ID = DUP, Description = "Duplicação" > ## ALT = <ID = DUP: TANDEM, Description = "Duplicação em tandem" > ## ALT = <ID = INS, Descrição = "Inserção de nova sequência" > ## ALT = <ID = INS, Descrição ALU, Description = "Inserção do elemento ALU" > ## ALT = <ID = INS: ME: L1, Description = "Inserção do elemento L1" > ## ALT = <ID = INV, Descripti on = "Inversão" > ## ALT = <ID = CNV, Description = "Copiar região variável de número" > ## FORMAT = <ID = GT, Número = 1, Tipo = String, Descrição = "Genótipo" > ## FORMAT = <ID = GQ, Número = 1, Tipo = Flutuante, Descrição = "Qualidade do genótipo" > ## FORMAT = <ID = CN, Número = 1, Tipo = Inteiro, Descrição = "Copiar genótipo de número para eventos imprecisos" > ## FORMAT = <ID = CNQ, Número = 1, Tipo = Flutuante, Descrição = "Copiar número de qualidade do genótipo para eventos imprecisos" > # CHROM POS ID REF ALT QUAL INFO FORMATO DO FILTRO NA000011 2827694 rs2376870 CGTGGATGCGGGGAC C. PASSAR SVTYPE = DEL; END = 2827708; HOMLEN = 1; HOMSEQ = G; SVLEN = -14 GT: GQ 1/1: 13,9  

Observe como os números correspondem e também observe como cada um dos subcampos no campo INFO é explicado com uma linha ## INFO .



Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.
Loading...