Questão:
Como transferir anotações gff no genoma com extensas duplicações?
scalefreegan
2017-05-31 16:01:10 UTC
view on stackexchange narkive permalink

Os genomas microbianos podem conter duplicações extensas. Freqüentemente, gostaríamos de transferir anotações de uma espécie anotada para uma que foi recentemente sequenciada.

As ferramentas existentes (por exemplo, RATT, LiftOver, Kraken) fazem suposições específicas sobre o quão intimamente relacionadas as espécies são ou falham na transferência quando várias correspondências são encontradas no novo genoma, especialmente se as sequências são altamente semelhantes.

Especificamente, tenho um aplicativo de biologia sintética em que os genes podem se duplicar amplamente. Eles são idênticos em sequência, mas duplicados muitas vezes e são realocados (ou seja, não apenas adjacentes um ao outro). Nenhuma das ferramentas mencionadas acima é capaz de transferir coordenadas de anotações para genomas com várias cópias de recursos.

Há alguma ferramenta ou software pré-existente que transfere anotações neste cenário? Idéias para maneiras de fazer isso de maneira robusta?

Você pode fornecer mais detalhes? Qual é a sua entrada (por exemplo, leituras brutas, montagens, quadros de leitura aberta)? que tipo de sequenciamento? qual é a saída exata que você deseja? - Não tenho certeza se entendi seu ponto sobre as suposições. Além disso, LiftOver e Kraken são ferramentas completamente diferentes com usos diferentes
Isso seria mesmo teoricamente possível? Como você pode presumir que as anotações são transferíveis se houver muitas duplicações? Provavelmente, é melhor procurar homólogos.
@terdon você quer dizer ortólogos? homólogos = ortólogos (não duplicados) + parálogos (duplicados)
@Chris_Rands Não, quis dizer homólogos. Precisamente porque não podemos saber se eles são orto- ou para- (tenho uma boa postagem sobre a diferença entre os dois [aqui] (https://biology.stackexchange.com/a/4964/1306), por maneira), então tudo que você pode fazer primeiro é encontrar homólogos e, em seguida, tentar descobrir se eles são semelhantes o suficiente para carregar quaisquer anotações.
@terdon Vejo que resolver ortólogos / parálogos não é fácil, claro, mas pode ser feito, dependendo dos dados exatos (não sei como são os dados do OP), por exemplo, alguns de meus colegas mantêm o orthodb http: / /www.orthodb.org/
Oh, claro que pode ser feito! Meu ponto é que procurar regiões de homologia (de qualquer tipo) parece uma maneira melhor de transferir anotações do que tentar traduzir coordenadas genômicas entre genomas de espécies diferentes.
A entrada @Chris_Rands: seria conjuntos, por exemplo de novo a partir do sequenciamento de gDNA. A saída seria uma transferência de anotações (por exemplo, formato gff) de espécies caracterizadas para o genoma recém-montado (transferência de coordenadas). Tanto o LiftOver quanto o Kraken (este, só para ter certeza de que estavam na mesma página: https://github.com/nedaz/kraken) fazem isso. LiftOver mais apropriado para a transferência de coordenadas entre sequências estreitamente relacionadas, por ex. diferentes montagens; Kraken usa o alinhamento do genoma (MUMer, Satsuma), portanto, é melhor para sequências mais divergentes.
A distinção de @terdon: entre tipo / origem de homologia iria além do escopo do que eu gostaria de realizar, mas a diferença é importante como você aponta. também certo em dizer que transferir regiões homólogas menores seria melhor, especialmente para espécies divergentes. fyi sobre a aplicação: Eu tenho uma aplicação syn bio onde os genes podem duplicar extensivamente. eles são idênticos em sequência, mas duplicados muitas vezes e realocados (ou seja, não adjacentes). Nenhuma das ferramentas mencionadas acima foi capaz de transferir coordenadas de anotações para genomas com várias cópias de anotações.
Sim, nem eu esperava que o fizessem. Isso é o que eu estava dizendo. As ferramentas liftover simplesmente mapeiam as coordenadas, não serão capazes de lidar com esse tipo de coisa. Receio que você terá que fazer isso manualmente, obtendo uma lista de genes / proteínas de interesse, encontrando seus homólogos e transferindo as anotações (com as advertências óbvias sobre se você pode ou não assumir que as anotações são transferíveis). Não vai ser muito divertido, infelizmente.
desculpas, pensei que você quisesse dizer kraken: http://ccb.jhu.edu/software/kraken/, quem nomeia essas ferramentas? de qualquer forma, isso não é nada trivial de se fazer corretamente. você precisará fazer a montagem do genoma, previsões de genes e atribuição de ortólogos / paralogos; existem vários pipelines (alguns analisados ​​aqui: https://www.ncbi.nlm.nih.gov/pubmed/27043882), mas eles vão levar algum tempo. alternativamente, para algo mais 'rápido e sujo', as sugestões de @terdon parecem sensatas
Dois respostas:
#1
+5
BaCh
2017-05-31 20:34:48 UTC
view on stackexchange narkive permalink

Há uma maneira muito simplista que uso que pode funcionar para o que você está fazendo, é semelhante ao que Terdon propôs.

Faça uma anotação de novo do genoma microbiano ferramenta (eu tenho minha própria, mas você pode usar / modificar prokka). Ferramentas como essas costumam primeiro prever os limites dos genes (com outras ferramentas como pródigo ou vislumbre) e, em seguida, tentar atribuir uma função aos genes encontrados. Essa atribuição de função geralmente é feita com o BLAST e outras ferramentas ... e é aí que você pode entrar e modificar para fazer o que precisa.

Eu uso um banco de dados de proteínas de "conhecimento" de genes que desejo anotaram estritamente como uma primeira linha de anotação (por exemplo, no seu caso: os genomas anotados). Para isso, faço um loop através de parâmetros de identidade / similaridade muito estritos que se tornam gradualmente relaxados.

Por exemplo: Loop 0: apenas transfere anotações com 100% de identidade de DNA, mesmo comprimento. , mesmo comprimento. Loop 2: apenas transferir anotações com 99% de similaridade, comprimento +/- 1% .... Loop n: apenas transferir anotações com 100- (n-1)% de similaridade, comprimento +/- (n-1 )%.

Em cada loop, obviamente, apenas anote o que não foi anotado nos loops anteriores.

Depois disso, use o pipeline de anotação "normal" da ferramenta para anotar o resto.

Isso não exige que os genes do genoma alvo tenham sido encontrados primeiro? Ou sua ferramenta também pode fazer previsão de genes de novo? (parece uma ferramenta muito útil, aliás, parabéns!)
A descoberta / previsão de genes procarióticos é um problema mais ou menos resolvido, as ferramentas existentes funcionam razoavelmente bem. Veja http://prodigal.ornl.gov/ e http://prodigal.ornl.gov/ (apenas para citar dois).
Sim, eu sei, fiquei surpreso por você não ter mencionado isso em sua resposta. Se bem entendi, o primeiro passo seria o OP encontrar a lista de genes putativos em seu genoma recém-sequenciado, certo?
Corrigir. Prokka (http://www.vicbioinformatics.com/software.prokka.shtml) usa uma bateria inteira de ferramentas de terceiros (incluindo pródigas) para anotar um genoma de-novo, comecei modificando prokka antes de escrever o meu próprio , que usa algumas ideias do pipeline de prokka.
#2
+3
terdon
2017-05-31 19:04:23 UTC
view on stackexchange narkive permalink

Acho que você terá que primeiro identificar as regiões homólogas às definidas em seu GFF e depois transferir as anotações. Claro, a suposição é que o homólogo também terá a mesma anotação, o que muitas vezes não é verdade. No entanto, não vejo como você pode fazer isso de outra maneira, já que não pode usar coordenadas genômicas (e você ainda estaria fazendo a mesma suposição mesmo se pudesse, de qualquer maneira) quando os genomas são tão diferentes.

Para uma abordagem muito simplista (que pode ser suficiente se, como você diz, suas sequências são quase idênticas), você pode fazer algo como:

  1. Colete as sequências de interesse de sua espécie já anotada.

  2. Use uma ferramenta como genewise ou exonerar para mapeá-los no genoma alvo. Ambas as ferramentas podem retornar a saída formatada por gff e ambas podem encontrar vários resultados no genoma alvo. Para o que você deseja, sugiro o uso de um limite muito alto de similaridade de sequência e cobertura de consulta (onde a sequência de destino encontrada cobre toda ou a maior parte da sequência de consulta usada).

    Uma vez que esses são genomas microbianos e, portanto, o splicing não é um problema, você poderia fazer a mesma coisa até mesmo com um BLASTn ou tBLASTn simples se começar com sequências de proteínas.

  3. Neste ponto, você deve ter uma lista de homólogos (alguns dos quais serão ortólogos e outros parálogos) e você pode transferir as anotações da sequência de consulta para o destino.

Mais uma vez, enfatizo que isso é fazer uma suposição gigantesca: que as sequências homólogas têm a mesma função e podem ser anotadas automaticamente como tudo o que você tinha no genoma de consulta. Isso vai ser verdade para muitos casos, mas também será falso para outros. Especialmente se você estiver olhando para parálogos (genes cuja duplicação ocorreu após o evento de especiação e, portanto, é provável que tenham divergido em função).

No entanto, como eu disse antes, esse problema seria exatamente o mesmo, mesmo se você conseguisse transferir anotações apenas identificando as regiões sintênicas dos genomas 1 , então não há muita diferença nisso.


1 Como disse nos comentários, não vejo como isso seria possível. Por definição, se você tiver duplicações extensas, as coordenadas genômicas serão completamente diferentes e é impossível mapear de um genoma para o outro.



Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.
Loading...