Depende do que você está procurando. Se você está apenas procurando homologia de sequência, pode simplesmente escolher os melhores resultados em uma pesquisa de detonação. Se, no entanto, você está se referindo à homologia funcional , se você está procurando a proteína que tem as mesmas funções de sua consulta, então é mais complicado.
A homologia de sequência não é suficiente para inferir a homologia funcional. Por exemplo, você pode ter casos de duplicação de genes e subsequente divergência funcional. Esses paralogs ainda são homólogos ( paralogs são um subconjunto de homólogos), mas não têm necessariamente a mesma função. Também é comum que o homólogo (seja ele ortólogo ou parálogo) de uma proteína na espécie B tenha uma função completamente diferente do seu homólogo na espécie A, apesar de um alto nível de similaridade de sequência. Isso geralmente é muito difícil de determinar in silico .
Para encontrar a (s) proteína (s) funcionalmente homóloga (s), você idealmente precisaria identificar os resíduos essenciais que permitem que sua proteína execute seu função. Isso pode ser feito usando algo como PFam, que identificará os domínios de proteína. Você pode então verificar se os homólogos que encontrar também têm este domínio.
Isso é essencialmente o que PSI-blast faz. Embora não leve os domínios em consideração, cada iteração sucessiva é usada para construir um modelo de sua propriedade. O modelo é construído sob a suposição razoável de que resíduos altamente conservados são importantes. Portanto, ele irá considerar sequências mais divergentes como homólogas se esses resíduos forem conservados.
Se você sabe como sua proteína funciona e quais resíduos são importantes, você pode usar esse conhecimento para refinar os resultados do seu PSI-blast. Caso contrário, você terá que usar apenas "bons" hits para fazer o modelo. Uma maneira de fazer isso, para proteínas bem estudadas, é adicionar apenas proteínas que já estão anotadas como homólogas do que você está procurando para construir seu modelo e, em seguida, usar esse modelo para pesquisar em espécies não anotadas.
Se você não sabe, pode tentar procurar domínios de proteína reconhecíveis em sua proteína de consulta (use PFam) e, em seguida, usar o HMM (modelo de markov oculto) do domínio para identificar resíduos importantes. Por exemplo, este é o logotipo HMM para o domínio zf-A20 dedo de zinco:
O enorme resíduos de cisteína (C) são mostrados nesse tamanho porque eles são muito conservados em proteínas que transportam este domínio e, presumivelmente, são funcionalmente importantes para o domínio. Então, se você passar sua proteína através do PFam e identificar domínios, encontre os resíduos importantes e certifique-se de que todos os seus homólogos os tenham conservados. Se estiver usando PSI-blast, inclua apenas sequências onde esses resíduos são conservados nos resultados que você mantém.
Finalmente, outra ferramenta útil que funciona da mesma maneira é o HMMER. Isso leva um alinhamento de proteína como entrada, como PSI-blast constrói um modelo HMM a partir dele e, em seguida, pode usar esse modelo para consultar um banco de dados de proteínas para obter mais resultados. Métodos como HMMER e PSI-blast são muito melhores do que abordagens de similaridade de sequência simples ao procurar homólogos.