Encontrar homólogos de uma sequência de proteína

Questão:

Encontrar homólogos de uma sequência de proteína

Sara

2017-06-19 05:50:23 UTC

view on stackexchange narkive permalink

Eu tenho um refseq ID de uma proteína de E. coli e quero encontrar homólogos dessa proteína. Eu executei o Blast contra o banco de dados refseq, mas obtive muitas sequências, a maioria das quais era de Ecoli novamente. Decidi executar o PSI-Blast para obter mais espécies divergentes, mas não sei exatamente se meu resultado é homólogo real ou falso positivo. Qual é a sua ideia para encontrar sequências de proteínas homólogas de espécies mais divergentes? E o que posso fazer para selecionar os resultados reais (mas não falsos positivos)?

O falso positivo pode ser julgado pelos valores E e P, portanto, lembre-se de usá-los.

Eu sugeriria que, se você puder obter de forma robusta a mesma topologia usando uma variedade de métodos e modelos filogenéticos em suas proteínas, há uma chance de que a homologia seja verdadeira. Infelizmente, isso pode ser difícil de obter ao lidar com espécies muito distantes, mesmo se a homologia for verdadeira.

Dois respostas:

terdon

2017-06-19 18:55:00 UTC

view on stackexchange narkive permalink

Depende do que você está procurando. Se você está apenas procurando homologia de sequência, pode simplesmente escolher os melhores resultados em uma pesquisa de detonação. Se, no entanto, você está se referindo à homologia funcional , se você está procurando a proteína que tem as mesmas funções de sua consulta, então é mais complicado.

A homologia de sequência não é suficiente para inferir a homologia funcional. Por exemplo, você pode ter casos de duplicação de genes e subsequente divergência funcional. Esses paralogs ainda são homólogos ( paralogs são um subconjunto de homólogos), mas não têm necessariamente a mesma função. Também é comum que o homólogo (seja ele ortólogo ou parálogo) de uma proteína na espécie B tenha uma função completamente diferente do seu homólogo na espécie A, apesar de um alto nível de similaridade de sequência. Isso geralmente é muito difícil de determinar in silico .

Para encontrar a (s) proteína (s) funcionalmente homóloga (s), você idealmente precisaria identificar os resíduos essenciais que permitem que sua proteína execute seu função. Isso pode ser feito usando algo como PFam, que identificará os domínios de proteína. Você pode então verificar se os homólogos que encontrar também têm este domínio.

Isso é essencialmente o que PSI-blast faz. Embora não leve os domínios em consideração, cada iteração sucessiva é usada para construir um modelo de sua propriedade. O modelo é construído sob a suposição razoável de que resíduos altamente conservados são importantes. Portanto, ele irá considerar sequências mais divergentes como homólogas se esses resíduos forem conservados.

Se você sabe como sua proteína funciona e quais resíduos são importantes, você pode usar esse conhecimento para refinar os resultados do seu PSI-blast. Caso contrário, você terá que usar apenas "bons" hits para fazer o modelo. Uma maneira de fazer isso, para proteínas bem estudadas, é adicionar apenas proteínas que já estão anotadas como homólogas do que você está procurando para construir seu modelo e, em seguida, usar esse modelo para pesquisar em espécies não anotadas.

Se você não sabe, pode tentar procurar domínios de proteína reconhecíveis em sua proteína de consulta (use PFam) e, em seguida, usar o HMM (modelo de markov oculto) do domínio para identificar resíduos importantes. Por exemplo, este é o logotipo HMM para o domínio zf-A20 dedo de zinco:

O enorme resíduos de cisteína (C) são mostrados nesse tamanho porque eles são muito conservados em proteínas que transportam este domínio e, presumivelmente, são funcionalmente importantes para o domínio. Então, se você passar sua proteína através do PFam e identificar domínios, encontre os resíduos importantes e certifique-se de que todos os seus homólogos os tenham conservados. Se estiver usando PSI-blast, inclua apenas sequências onde esses resíduos são conservados nos resultados que você mantém.

Finalmente, outra ferramenta útil que funciona da mesma maneira é o HMMER. Isso leva um alinhamento de proteína como entrada, como PSI-blast constrói um modelo HMM a partir dele e, em seguida, pode usar esse modelo para consultar um banco de dados de proteínas para obter mais resultados. Métodos como HMMER e PSI-blast são muito melhores do que abordagens de similaridade de sequência simples ao procurar homólogos.

Ótima ferramenta HMMER, é tão rápida quanto o BLAST e funciona muito bem

Prezado terdon, sua resposta foi a melhor que alguém poderia ter dado a essa pergunta e foi exatamente a resposta que eu estava procurando. Muito obrigado pela sua excelente resposta

@Sara você é muito bem-vindo :)

gringer

2017-06-19 09:39:10 UTC

view on stackexchange narkive permalink

Parece que o Smart BLAST pode fazer o que você quiser. Aqui está a descrição de seu objetivo:

SmartBLAST é uma ferramenta NCBI nova e experimental que torna mais fácil concluir tarefas comuns de análise de sequência, como encontrar um nome de proteína candidata para uma sequência, localizar regiões de conservação de alta sequência, ou identificação de regiões cobertas por sequências de banco de dados, mas ausentes da consulta.

Para fazer isso, o SmartBLAST realiza as seguintes tarefas em muito menos tempo do que leva para executar uma pesquisa BLASTp típica:

uma comparação BLASTp da consulta com as sequências correspondentes mais próximas disponíveis;

uma pesquisa BLASTp paralela para encontrar as correspondências mais próximas a sequências de alta qualidade de organismos modelo;

um alinhamento múltiplo entre a consulta e cinco das sequências correspondentes mais próximas (geralmente incluindo duas sequências de alta qualidade);

uma análise que produz uma árvore filogenética a partir do alinhamento de várias sequências.

[de NCBI Insights]

SmartBLAST é uma ideia muito boa, pois dá organismos muito mais divergentes, mas há alguma maneira de dar seu resultado ao PSI-BLAST para mais iterações?

@Sara apenas anote os números de acesso das sequências encontradas pelo Smart BLAST e certifique-se de adicioná-los ao seu alinhamento na explosão psi. Eles devem ser encontrados como hits lá também.

ⓘ

Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.

about - legalese

Loading...