Questão:
Existem alternativas RepBase para anotações de elementos de repetição em todo o genoma?
Konrad Rudolph
2017-06-01 16:11:10 UTC
view on stackexchange narkive permalink

Estou usando as bibliotecas RepBase em conjunto com o RepeatMasker para obter anotações de elementos repetidos em todo o genoma, em particular para elementos transponíveis.

Isso funciona bem o suficiente, e parece para ser o padrão de fato na área.

No entanto, existem dois problemas com o uso do RepBase, e é por isso que eu (e outros) procuramos alternativas (até agora sem sucesso):

  1. RepBase não é dados abertos. Seu contrato de licença acadêmica inclui uma cláusula que proíbe explicitamente a disseminação de dados derivados do RepBase . Não está claro até que ponto isso é vinculativo / aplicável, mas impede efetivamente a publicação de pelo menos alguns dos dados que estou usando e gerando. Isso é inaceitável para ciência aberta.

    • Subordinado a isso, o modelo de assinatura do RepBase também torna impossível integrar o RepBase em pipelines totalmente automatizados, porque a interação do usuário é necessária para se inscrever no RepBase e fornecer as credenciais de login.
  2. O RepBase é fortemente organizado manualmente. Isso é bom e ruim. Bom, porque a curadoria manual de dados de sequência costuma ser a forma mais confiável de curadoria. Por outro lado, a curadoria manual é inerentemente tendenciosa; e pior, é difícil quantificar esse viés - isso é reconhecido pelos mantenedores do RepBase.

Você estava perguntando apenas sobre bibliotecas de repetição definidas? Eu interpretei um pouco mais amplamente como sobre ferramentas usadas para construir as bibliotecas também (o que se torna relevante quando genomas de novos táxons são sequenciados)
@Chris_Rands Ambos (bibliotecas e ferramentas). Sua resposta é correta.
O objetivo é construir a biblioteca anotada de repetições ou mascarar partes repetitivas de um genoma?
@KamilSJaron Estou trabalhando com TEs, então preciso da biblioteca anotada, não (meramente) de uma sequência repetida mascarada.
Ai, mas para TEs apenas um subconjunto de regiões repetitivas, existem ferramentas especializadas para anotá-los (como [DNApipeTE] (https://github.com/clemgoub/dnaPipeTE) e [REPET] (https: //urgi.versailles. inra.fr/Tools/REPET)). Talvez você possa especificá-lo na pergunta.
@KamilSJaron Bom, e isso pode valer a pena uma resposta. Eu também atualizarei a pergunta. Dito isso, também estou pedindo elementos repetitivos além dos TEs.
Além disso, você tem certeza de que o RepBase é contra publicações que derivam informações com base em seus dados? Será que eles simplesmente não querem que você compartilhe os dados brutos e os arquivos que eles fornecem. Por terem um bom número de citações em diferentes campos: https://scholar.google.de/scholar?um=1&ie=UTF-8&lr&cites=11574259945967474319
@story Eles literalmente dizem isso no contrato de usuário acadêmico para o qual estou vinculado. Aqui está a citação relevante: "Você concorda em NÃO disponibilizar o Repbase (ou qualquer parte dele, incluindo Relatórios Repbase, Mapas de Repetição ** e outros materiais derivados, modificados ou não **) para qualquer pessoa fora do seu grupo de pesquisa." Ênfase minha. Na verdade, outra cláusula do acordo até mesmo me proíbe tecnicamente de assiná-lo porque meu instituto exige deposição de dados públicos, então provavelmente não tenho permissão para assinar tais acordos.
Sim, isso parece concordar com minha declaração anterior. Acho que meu ponto é o que exatamente você precisa compartilhar (com base em sua postagem original) que seria considerado do banco de dados deles? Acho que isso não incluiria contagens de recursos, mas as sequências podem ser um problema.
@story Eu preciso potencialmente compartilhar todos os dados que foram usados ​​/ gerados em minha análise. Isso inclui particularmente a anotação de repetição específica que usei, que são derivadas do RepBase, bem como dados de sequência potencialmente dessas repetições.
Esta pode ser uma pergunta antiga, mas alguém está tentando criar uma alternativa nova e aberta para o repBase (que ainda não está se tornando totalmente comercial), ou pelo menos é assim que eu percebo: https://twitter.com/ TransposableMan / status / 1060519887897067521
Seis respostas:
#1
+12
Konrad Rudolph
2017-06-01 17:15:48 UTC
view on stackexchange narkive permalink

O Dfam lançou recentemente um recurso irmão, Dfam_consensus , cujo objetivo declarado é substituir o RepBase. Do anúncio:

Dfam_consensus fornece uma estrutura aberta para a comunidade armazenar os alinhamentos de sementes (alinhamentos múltiplos de instâncias para uma determinada família) e o modelo de sequência de consenso correspondente.

Tanto o RepeatMasker quanto o RepeatModeler foram atualizados para dar suporte ao Dfam_consensus.

Ainda não tentei, mas parece promissor.

#2
+6
Jens Bast
2017-06-27 13:06:22 UTC
view on stackexchange narkive permalink

Para bibliotecas TE confiáveis ​​pré-existentes é um pouco confuso, porque nem todo mundo deposita as bibliotecas TE específicas da espécie em um banco de dados como o RepBase. E, pelo que eu sei, DFAM contém apenas recursos humanos, ou estou errado?

Quanto à geração de novo de bibliotecas de TE específicas de espécies (o que deve ser feito para qualquer espécie já não está presente em, por exemplo, RepBase): Não existe um "padrão-ouro" para lidar melhor com isso. Em princípio, é preciso pensar em duas partes principais - detecção de repetição - anotação

Para repetir detecção Eu recomendaria usar uma combinação de duas coisas (o que é necessário, porque as cópias TE podem faltar nas montagens, pois as regiões repetitivas tendem a ser difíceis de montar e jogadas fora na montagem final).

I) Repita a detecção de leituras brutas (como por exemplo, DNApipeTE ou tedna ou RepeatExplorer). Para mim, DNAPipeTE funcionou muito bem, mas tudo tem prós e contras.II) Detecção de repetição de assemblies (como por exemplo, REPET ou como mencionado antes de RepeatModeler)

Então, a anotação de essas repetições também são complicadas, porque a maioria dos métodos se baseia na homologia entre os TEs de novo e os TEs de algumas espécies relacionadas (provavelmente distantes). Mas alguns programas também levam em consideração a estrutura (como REPCLASS). O REPET pode fazer tanto detecção quanto anotação, mas é muito difícil começar a correr.

Eu recomendaria usar alguns programas para fazer a detecção de repetição de novo em suas espécies de interesse tanto nas leituras brutas quanto na montagem, agrupando essas bibliotecas (por exemplo, uclust e 95% de identidade) e depois executar uma anotação com homologia e identificação estrutural.

Provavelmente, os programas não fornecerão TE completos , mas sim sequências de consenso de várias cópias de famílias de TE. Se quiser, você pode pesquisar todas as cópias de uma família, extraí-los dos contigs mais limites e alinhá-los manualmente e curar limites manualmente. Em seguida, estenda os limites se não atingir as regiões circundantes (não alinhadas) ou marcos de TEs como LTRs ou TIRs ou assim. Mas isso consome muito tempo se você quiser apenas comparar a abundância de TE entre espécies, por exemplo, eu não faria isso e sim compararia a abundância usando cobertura de leitura (como em Bast et al. 2016). Depende tudo das perguntas que você deseja fazer.

#3
+4
Chris_Rands
2017-06-01 17:09:58 UTC
view on stackexchange narkive permalink

Você pode usar RepeatScout, que definiu bibliotecas de repetição para um número limitado de espécies (incluindo humanos, camundongos e ratos). Se seu táxon não estiver representado, você também pode fazer a previsão de repetição de novo com RepeatScout para construir sua própria biblioteca para alimentar o RepeatMasker. A publicação RepeatScout inclui algumas comparações com RepBase. Outra ferramenta relacionada é o RepeatModeler, que envolve o RepeatScout com RECON e alguns outros programas, e compartilha os autores com a equipe do RepeatMasker.

No lado positivo do RepeatScout / RepeatModeler são código aberto e não usam curadoria manual, atendendo aos seus critérios. No negativo, não tenho certeza de como o RepeatModeler e as ferramentas de componentes são mantidos. As páginas da web e do github do RepeatScout não foram atualizadas por vários anos, embora a página do RepeatModeler mostre que sua versão mais recente foi em 2017. De qualquer forma, eu sei que alguma combinação de RepeatScout / RepeatModeler foi usada para anotar repetições para alguns bastante recentes genomas recém-sequenciados, por exemplo para ciclídeos, coelacanto e tentilhão de Darwin, então acho que é justo dizer que esse tipo de abordagem é aceito no campo, pelo menos para projetos de genoma de vertebrados.

#4
+4
matt
2019-02-27 22:17:14 UTC
view on stackexchange narkive permalink

AFAIK Dfam e Repbase são atualmente as duas melhores fontes de (uma variedade de) sequências TE.

Nas minhas anotações de genoma, usei RepeatModeler + RepeatMasker e, mais tarde, usei Repbase + tblastx e Dfam + nhmmer para classificá-los.

O processo de classificação em meu pipeline PhyLTR ( https://github.com/mcsimenc/PhyLTR) é baseado em Dfam e Repbase. O processo que usei para a identificação de LTR é

  1. ID putativa com LTRHarvest (com base nas características da sequência estrutural)
  2. Classificação por homologia para Repbase e Dfam
  3. Remoção de elementos sem homologia com sequências em Repbase ou Dfam.

Isso resulta em um conjunto de LTR-Rs que são de comprimento total e têm evidências de que são LTR-Rs.

#5
+3
AntiSocialBehaviourOrder
2017-12-14 12:52:14 UTC
view on stackexchange narkive permalink

+1 por ter problemas com o RepBase.

Eu uso as anotações do Hammell Lab GTFs que eles lançam com o TEtoolkit. É semelhante ao que você descreveu para usar, então essa pode ser uma resposta redundante e inútil, mas pelas pesquisas que fiz, eles parecem ser abrangentes e bem selecionados (para Drosophila, pelo menos).

#6
+1
jpalmer
2018-06-25 21:59:09 UTC
view on stackexchange narkive permalink

Sei que essa pergunta é um pouco antiga, mas ainda é um problema para muitos pesquisadores que não conseguem acessar o RepBase. Parece agora que a versão mais recente do RepeatMasker depende do RepBase para funcionalidade total se mascarar qualquer coisa que não seja humano (atualmente o DFAM só tem modelos humanos). Recentemente, descobri uma abordagem de máscara de repetição de novo chamada REpeat Detector (vermelho). Esta pode ser uma solução para alguns que procuram mascarar repetições em uma montagem do genoma para anotação. O artigo está aqui. Em seguida, também escrevi um wrapper em torno do Red para tornar um pouco mais fácil mascarar suavemente um genoma, que você pode encontrar aqui.

Uma das limitações do Vermelho é que as repetições não são classificadas, portanto, são apenas identificadas. Você teria que usar algumas das outras ferramentas mencionadas acima para tentar classificá-los.



Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.
Loading...