Questão:
Trabalhar com construções de genoma antigas
zx8754
2017-06-01 01:47:18 UTC
view on stackexchange narkive permalink

Trabalhar e confiar em construções antigas do genoma ainda é válido?

Por exemplo, NCBI36 / hg18. Os resultados de documentos baseados em compilações antigas exigiriam LiftOver e uma nova análise para serem úteis?

Um pouco de contexto, isso está relacionado a outro post, onde temos resultados de aCGH baseados na compilação antiga: Como posso validar um único resultado de ArrayCGH de amostra?

Isso provavelmente dependerá do tipo de análise que você tem em mente. No final das contas, todos os dados que geramos hoje estarão um dia obsoletos, mas isso não significa necessariamente que todas as conclusões estejam erradas. Se você fosse mais específico sobre os tipos de análise que tem em mente (ou documentos concretos usando hg18), talvez fosse mais fácil dar uma resposta correta.
Quatro respostas:
#1
+8
Karel Brinda
2017-06-01 02:03:51 UTC
view on stackexchange narkive permalink

Na minha opinião, não é muito confiável. LiftOver é muito limitado em termos de transformações que pode suportar. O formato de cadeia LiftOver pode capturar apenas regiões correspondentes na mesma ordem. Isso significa que pode ser responsável por indels, mas mesmo variações estruturais simples tornam-se problemáticas.

Por exemplo, quando um conjunto mais recente está disponível, geralmente é uma prática recomendada remapear todas as leituras em vez de transformar o existente alinhamentos.

#2
+4
Manuel
2017-06-01 04:34:31 UTC
view on stackexchange narkive permalink

Eu acho que agora, as únicas compilações humanas que valem a pena considerar são hg19 / GRCh37, já que muitas bases de dados como gnomAD ainda usam exclusivamente esta versão. Por outro lado, hg38 / GRCh8 tem muitas correções importantes e o recurso útil (mas subutilizado) de loci alternativos.

Qualquer coisa de versões mais antigas deve ser remapeada para uma mais recente.

#3
+2
story
2017-06-08 11:38:40 UTC
view on stackexchange narkive permalink

Você poderia usar o liftOver, que nem sempre é ótimo.

Sempre que encontro isso (especialmente os dados NGS disponíveis no SRA), geralmente só pego os arquivos brutos (por exemplo, fastqs) e re- alinhar / mapear novamente.

No seu caso (matrizes), pode ser um pouco difícil. Não é impossível, pois recentemente peguei alguns dados antigos de microarray de DNA / RNA de levedura e os atualizei para o genoma mais recente. Requer apenas os dados corretos (como DNA para normalização) e um bom entendimento de todo o processo.

Um último recurso / alternativa é alinhar seus novos dados ao antigo genoma para ser capaz de fazer comparações. Isso não é ideal, mas funciona nos casos em que atualizar uma fonte não é possível ou exige muito tempo / esforço. Fiz isso para alguns experimentos com mosca em que todos os dados disponíveis / anteriores foram feitos em dm3. Todos os genomas antigos geralmente podem ser encontrados em http://archive.ensembl.org.

#4
  0
burger
2017-06-08 05:09:09 UTC
view on stackexchange narkive permalink

Para o mouse, ainda vejo pessoas usando mm9 / NCBI37 em publicações de alto nível, embora mm10 / GRCm38 tenha sido lançado há mais de 5 anos (2011). Pessoalmente, não acho que seja uma boa ideia, mas certamente é válida de acordo com os revisores.

Também depende da sua aplicação. Se você estiver trabalhando com regiões de codificação (provavelmente bem conhecidas há muito tempo) ou extraindo estatísticas de todo o genoma (enriquecimento no TSS, por exemplo), as diferenças devem ser insignificantes.



Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.
Loading...