Questão:
Identificação de indels de cromatogramas
Randoms
2018-12-16 14:00:15 UTC
view on stackexchange narkive permalink

Tenho cerca de 100 cromatogramas (arquivos .ab1 ) de Sanger sequenciando um genoma em loci que se acredita ter um indel.

Sou novo na interpretação deste tipo de dados em geral, mas li um pouco sobre a ideia geral - principalmente em guias como este. O que não consigo descobrir com os recursos que verifiquei é como identificar inserções e exclusões em um cromatograma .

Estou mais preocupado com indels heterozigotos, e estes parecem ser mais simples. (E já que minhas amostras são (supostamente) indels maiores que são mais raros e mais prováveis ​​de serem het, eu acho.) Um indel heterozigoto, de acordo com meu entendimento, gostaria de algo como SNPs heterozigotos consecutivos - picos sobrepostos, talvez não com a mesma altura, mas com a mesma colocação horizontal - até o final da amostra.

Em outras palavras, algo como a trilha superior na janela aberta nesta imagem.

Indel Chromatogram (Fonte: CodonCode.)

(Estou tentando fazer isso manualmente, e não com pacotes como este por vários motivos, incluindo: Quero ver como isso é realmente feito, quero fazer o mais minuciosamente possível - provavelmente verificarei meus resultados com um pacote automatizado - e fui solicitado a fazer assim. )

Como a evidência de (het) indels como este pode ser distinguida do ruído no cromatograma? Meu palpite é que inclui coisas como

  • os picos sobrepostos duram até o final da amostra (e não começam no início, mas em algum lugar no meio); e
  • os picos ainda estão nas mesmas posições horizontais; ou seja, um não é deslocado para a direita ou esquerda em relação ao outro?

Isso está correto?


Com meus próprios cromatogramas, tenho muitas dúvidas sobre como distinguir o ruído do indel. Aqui está um exemplo, visualizado com 4Peaks. (Cromatograma completo aqui.)

enter image description here

À esquerda, o cromatograma parece de alta qualidade. Existem picos nítidos, regularmente espaçados. À direita, parece haver dois conjuntos de picos alinhados um com o outro. Isso constitui evidência para um indel? A região de homopolímero - notei em muitas dessas amostras, o indel putativo parece começar em uma região de homopolímero - lança dúvidas sobre isso?


Também notei que em algumas situações como essa, parece haver não dois, mas três picos.

enter image description here

Um desses é apenas ruído e pode ser desconsiderado? Ou isso lança dúvidas sobre a validade dos dados - que supostamente vêm do genoma humano diplóide?

Seis respostas:
user172818
2018-12-16 20:56:19 UTC
view on stackexchange narkive permalink

Se você deseja chamar SNPs e INDELs heterozigotos, você pode tentar polyphred. Acredito que existam algumas outras ferramentas semelhantes, mas esqueci seus nomes.

Como a evidência de (het) indels como este pode ser distinguida do ruído no cromatograma?

Seus dois pontos estão corretos. Basicamente, em alguma posição, você começa a ver duas faixas de picos sobrepostos. Uma vez identificadas, as duas listras podem ser alinhadas entre si se você mudar uma delas. Essa é uma restrição forte, mas é difícil dizer a olho nu porque não é óbvio como atribuir picos a listras sem executar uma ferramenta automática. Fazer isso é ainda mais difícil devido aos traços ruidosos como sua última figura. Acho melhor você rodar polyphred ou similar.

o indel putativo parece começar em uma região de homopolímero - lançar dúvidas sobre isso?

O INDEL A taxa de mutação em execuções longas de homopolímero é ordens de magnitude maior do que em qualquer outra parte do genoma. Isso tem duas implicações: 1) você espera ver mais indels de homopolímero; 2) PCR polimerase tem maior probabilidade de introduzir erros em homopolímeros - uma fração maior de indels de homopolímero tende a estar errada.

Obrigado! Vou olhar para ferramentas polifradas e outras. Para ser claro, qual é a sua opinião sobre o indel na região dos homopolímeros - que o cromatograma é inconclusivo em si? O que posso fazer para verificar isso?
@Randoms Picos sobrepostos por si só não são evidências fortes. Você precisa verificar se os picos sobrepostos podem ser separados em dois conjuntos e os dois conjuntos podem ser alinhados com uma mudança. Eu não posso fazer isso na minha cabeça. Mesmo se houver um indel lá, a chance de ver um erro de PCR ainda é alta. Execute polyphred primeiro. PS: finswimmer está certo ao dizer que os picos sobrepostos devem ser duas vezes "baixos". Isso torna o segundo número menos provável de ser verdadeiro.
Acho que você está certo ao dizer que executar uma ferramenta é realmente o caminho a percorrer. Obrigado! Vou experimentar o Poly Peak Parser: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4525701/
finswimmer
2018-12-17 11:22:18 UTC
view on stackexchange narkive permalink

para entender como interpretar os cromatogramas de sequenciamento de sanger, gostaria de dar uma breve introdução sobre como esses dados são gerados (desculpe, se você já sabe disso)

A região alvo é amplificada por PCR. A seguinte reação de sequenciação é bastante semelhante a um PCR, apesar de duas diferenças importantes:

  1. Apenas uma fita é usada como modelo, adicionando apenas 1 primer em vez de dois.
  2. Além de dois dNTPs normais, modificamos o ddNTPS. Esses são marcados com fluorescência e o 3'-OH está faltando, então não há chance de adicionar mais dNTPS.

O resultado dessa reação são fragmentos de DNA de fita simples de comprimentos diferentes. A última base é marcada por fluorescência. Portanto, temos fragmentos parecidos com este:

  AATATCATCGATCGA  

Claro, existem muitas cópias desses fragmentos.

Agora, esses os fragmentos são separados por eletroforese capilar. Fragmentos pequenos são detectados primeiro. Podemos diferenciar as várias bases por sua cor de fluorescência.

Vamos imaginar uma fita de DNA como esta:

  ATCGA  

O que acontece se tivéssemos na segunda fita um SNP?

  ATCGAATAGA  

Agora a sequência detectaria dois sinais de igual intensidade na base 3 - um para C e um para A. Isso tem dois efeitos no cromatograma.

  1. Dois picos de alturas iguais com cores diferentes
  2. A altura relativa do pico é apenas metade da altura, em comparação com aqueles sequências que têm apenas uma base nesta posição.

Vamos ver o que acontece no caso de uma exclusão heterozigótica. Um alinhamento seria semelhante a este

  ATCGAAT-GA  

Mas nossa eletroforese capilar não sabe sobre alinhamento. Ele só conhece o comprimento do fragmento. Então é isso que ele detectará

  ATCGAATGA  

Com o início da deleção ele detectará diferentes sinais. Assim como no caso do SNP, a intensidade do sinal relativo agora é quase a metade.

Com esse conhecimento, vamos voltar às suas perguntas iniciais:

Como a evidência de (het) indels como esse pode ser distinguida do ruído no cromatograma? Meu palpite é que inclui coisas como

  • os picos sobrepostos duram até o final da amostra (e não começam no início, mas em algum lugar no meio); e

Não começam do início, se o seu indel não estiver logo após a cartilha, corrija. No caso de uma inserção ou exclusão, você tem fios de tamanhos diferentes. Portanto, se sua região-alvo for muito pequena, você pode ter sorte de poder ver o final da sobreposição no final da sequência, porque a fita mais curta chega ao fim.

  • os picos ainda estão nas mesmas posições horizontais; ou seja, um não foi deslocado para a direita ou esquerda em relação ao outro?

Sim. E uma das melhores coisas para distinguir entre ruído e variante heterozigótica verdadeira é uma queda relativa das intensidades de sinal em aproximadamente 50% em comparação com amostras homozigóticas.

Com relação ao seu segundo cromatograma: Este não é um indel. Como o outro já disse, esse é um erro da polimerase. As polimerases Invitro não gostam de alongamentos de homopolímero. Eles começam a adicionar bases extras ou "esquecer" uma. Conforme fazemos o PCR, esse erro se acumula. Na minha experiência até 9 vezes a mesma base não é um grande problema, 10 só se você tiver sorte, de 11 para cima sua sequência é péssima. Se você estiver interessado na parte da sequência por trás deste trecho, você deve sequenciar da outra direção.

nadador de nadadeira

Obrigado pela sua meticulosidade! Interessante que você trouxe à tona a intensidade relativa dos picos heterozigotos em relação a um pico het no mesmo ponto - não tenho certeza se poderei usar isso, porque apenas sequenciei uma amostra, então eu não tem vários resultados de sequenciamento que cobrem o mesmo locus. Estou interessado em saber como você tem certeza de que o cromatograma com o homopolímero não mostra um indel - certamente é * possível * que haja um indel em uma região de homopolímero, certo?
Você não vê nenhuma queda significativa da altura média do pico e os picos de base adicionais são muito pequenos. É por isso que é improvável que haja um indel heterozigoto. Mas, como escrevi, o alongamento do homopolímero é muito longo, com certeza. Eu não daria nenhuma resposta definitiva aqui.
Votar negativamente sem comentar? Não é um bom estilo :(
gringer
2018-12-17 00:00:30 UTC
view on stackexchange narkive permalink

O sequenciamento Sanger produz um pouco de sinal confuso no início e muito no final da sequência, mas deve ter uma região de sinal limpo no meio. Se o sinal estiver se misturando no meio, isso sugere que há sequências desfasadas entre si. Isso poderia ser um INDEL heterozigoto, mas também poderia indicar que várias sequências de modelo foram amplificadas pelo mesmo primer.

O sequenciamento de Sanger é frequentemente realizado em ambas as direções (direta e complemento reverso), e se coisas semelhantes estão acontecendo em ambas as direções no mesmo lugar, torna mais provável que haja um INDEL heterozigoto e não algo mais engraçado acontecendo. É uma boa ideia ter modelos homozigotos para todas as variantes esperadas, se possível. Se os picos secundários no sinal corresponderem ao observado nas variantes homozigóticas, isso também pode ser usado como evidência. Na ausência de sequências de controle, também é possível observar os picos para encontrar auto-similaridade.

Onde picos triplos são vistos, isso pode apontar para uma região onde existem duas variantes de INDEL nas proximidades, ou várias regiões sendo amplificadas ao mesmo tempo, ou mesmo uma única variante INDEL com mais de dois estados variantes (por exemplo, um homopolímero com 8 As que às vezes é 7 As e às vezes 9 As).

Obrigado pela sua resposta! Você pode expandir o que você entende por "modelos de variantes homozigóticos positivos e negativos"?
Desculpe, eu estava pensando em controles positivos e negativos; Eu mudei para esclarecer como "modelos homozigotos para todas as variantes esperadas"
swbarnes2
2018-12-18 05:17:27 UTC
view on stackexchange narkive permalink

Honestamente, eu não tentaria chamar indels heterozigotos com sequenciamento de Sanger. Simplesmente não é a tecnologia certa.

Se você estivesse tentando confirmar um indel conhecido que não flanqueava um trecho de homopolímero e tivesse uma sequência do outro lado que ficou confusa exatamente no mesmo ponto, talvez você pudesse concluir com segurança que havia algo acontecendo lá, e possivelmente você poderia visualizar a seqüência correta exata de picos mistos, mas eu não vejo isso o que você tem em seus exemplos. Parece apenas barulho.

Obrigado pela contribuição. Por outro lado, você quer dizer a outra vertente - como sequenciamento Sanger direto e reverso - ou a mesma vertente, apenas do outro lado da variante?
Para mim, o sequenciamento sanger ainda é o padrão ouro para chamar indels :) Comparado ao sequenciamento de leitura curta, é muito fácil descobrir indels de qualquer tamanho.
Mas indels mistos? Sem ambigüidade, não importa qual seja a sequência envolvente? Se houver um indel nessa região poli-A, seria extremamente difícil de provar.
tora
2019-08-01 14:27:52 UTC
view on stackexchange narkive permalink

Existem ferramentas especializadas para deconvoluir (separar) InDels heterozigotos em um traço de cromatograma usando um genoma de referência. Por exemplo, Indigo é um aplicativo da web para isso, o aplicativo de linha de comando é chamado de Tracy.

conchoecia
2018-12-18 01:49:41 UTC
view on stackexchange narkive permalink

Um ponto importante que @gringer mencionou brevemente é que muitas vezes há amplificação fora do alvo ao realizar PCR no DNA do genoma inteiro.

Portanto, o ruído nos cromatogramas poderia muito bem ser de outra parte do genoma e não ter relação alguma com indels .

A única maneira de garantir que isso não seja um problema é clonar seus produtos de PCR em um vetor, transformar em algo como E. coli, desenvolver uma única colônia, cortar o produto com enzimas de restrição, tamanho -selecione e depois sequencie a inserção de tamanho correto. Ou você pode simplesmente sequenciar novamente seu produto de PCR com Illumina ou PacBio para sequenciar com precisão a população completa de moléculas - indels e tudo. Verifique:

Hebert, Paul DN, et al. "A Sequel to Sanger: sequenciamento de amplicon que escala." BMC genomics 19.1 (2018): 219.

A coisa mais segura a fazer é não ler muito no ruído dos cromatogramas Sanger, a menos que seja um SNP simples e muito limpo.

Antes de fazer uma grande proeza com clonagem, NGS, PacBio etc., deve-se verificar a especificidade do primer, fazer alterações no protocolo de PCR, certificar-se de que as etapas de limpeza funcionem, ... Se você estiver trabalhando em uma região que tenha sem homólogos, a amplificação fora do alvo não é normal.


Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 4.0 sob a qual é distribuído.
Loading...