Tenho cerca de 100 cromatogramas (arquivos .ab1
) de Sanger sequenciando um genoma em loci que se acredita ter um indel.
Sou novo na interpretação deste tipo de dados em geral, mas li um pouco sobre a ideia geral - principalmente em guias como este. O que não consigo descobrir com os recursos que verifiquei é como identificar inserções e exclusões em um cromatograma .
Estou mais preocupado com indels heterozigotos, e estes parecem ser mais simples. (E já que minhas amostras são (supostamente) indels maiores que são mais raros e mais prováveis de serem het, eu acho.) Um indel heterozigoto, de acordo com meu entendimento, gostaria de algo como SNPs heterozigotos consecutivos - picos sobrepostos, talvez não com a mesma altura, mas com a mesma colocação horizontal - até o final da amostra.
Em outras palavras, algo como a trilha superior na janela aberta nesta imagem.
(Fonte: CodonCode.)
(Estou tentando fazer isso manualmente, e não com pacotes como este por vários motivos, incluindo: Quero ver como isso é realmente feito, quero fazer o mais minuciosamente possível - provavelmente verificarei meus resultados com um pacote automatizado - e fui solicitado a fazer assim. )
Como a evidência de (het) indels como este pode ser distinguida do ruído no cromatograma? Meu palpite é que inclui coisas como
- os picos sobrepostos duram até o final da amostra (e não começam no início, mas em algum lugar no meio); e
- os picos ainda estão nas mesmas posições horizontais; ou seja, um não é deslocado para a direita ou esquerda em relação ao outro?
Isso está correto?
Com meus próprios cromatogramas, tenho muitas dúvidas sobre como distinguir o ruído do indel. Aqui está um exemplo, visualizado com 4Peaks. (Cromatograma completo aqui.)
À esquerda, o cromatograma parece de alta qualidade. Existem picos nítidos, regularmente espaçados. À direita, parece haver dois conjuntos de picos alinhados um com o outro. Isso constitui evidência para um indel? A região de homopolímero - notei em muitas dessas amostras, o indel putativo parece começar em uma região de homopolímero - lança dúvidas sobre isso?
Também notei que em algumas situações como essa, parece haver não dois, mas três picos.
Um desses é apenas ruído e pode ser desconsiderado? Ou isso lança dúvidas sobre a validade dos dados - que supostamente vêm do genoma humano diplóide?