Questão:
Como obter todos os homólogos de PDB do Uniprot (mapeamento + BLAST)?
Zubo
2017-12-12 19:33:06 UTC
view on stackexchange narkive permalink

Eu gostaria de criar um conjunto de dados consistindo em todas as sequências que estão presentes no PDB ou cujo homólogo está presente no PDB. Em outras palavras, qualquer sequência no PDB ou qualquer sequência relacionada a ele. A margem de semelhança deve ser muito ampla, então qualquer coisa acima, por exemplo, 25% de identidade de sequência é aceita (talvez haja critérios melhores, mas você entendeu).

Sem outras limitações, portanto, qualquer organismo, com ou sem dados experimentais, não se limita ao conjunto Swissprot com curadoria manual.

Eu tentei o banco de dados SIFTS, mas ele contém, pelo que eu posso dizer, apenas mapeamentos para identidade de sequência> 85%. Eu gostaria de ir muito abaixo disso.

Obrigado pela edição, isso é muito mais claro! Então, próxima pergunta: como você define "homólogos"? Você está procurando apenas homologia funcional? A homologia de sequência é suficiente? Suponho que você estará assumindo que as sequências homólogas compartilharão uma estrutura, mas certamente nem sempre é o caso. Existe alguma razão para você não fazer o contrário? Obter todas as sequências do PDB e mapeá-las para acessos UniProt?
Homólogos @terdon são definidos aqui como> 25% de identidade de sequência, de modo muito amplo. Eu estaria, de fato, disposto a executar uma pesquisa BLAST para cada entrada PDB vs Uniprot, mas presumo que isso levará algum tempo, então estou tentando evitar reinventar a roda.
Dois respostas:
marcin
2018-04-25 20:06:41 UTC
view on stackexchange narkive permalink

Para a correspondência entre as entradas PDB e Uniprot, você pode usar SIFTS - um mapeamento semiautomático entre PDB e UniProt mantido pelo PDBe.

O pipeline que cria os mapeamentos usa BLAST e alguns outros critérios para decidir qual entrada UniProt deve ser atribuída a cada entrada PDB. O site SIFTS contém todos os dados em arquivos CSV.

Obrigado pelo conselho! Dei uma olhada. Na publicação referenciada, encontrei apenas uma menção de que eles estão procurando uma identidade de sequência de 90% para aceitar uma referência cruzada; isso não é suficiente para mim - preciso de todas as entradas UniProt com, digamos, identidade de sequência acima de 25%. Pelo que entendi, é isso que está contido nos arquivos do servidor ftp ftp://ftp.ebi.ac.uk/pub/databases/msd/sifts/, notavelmente o uniprot_segments_observed.
Raw Dawg
2018-02-22 04:17:13 UTC
view on stackexchange narkive permalink

Você pode baixar um BLAST db contendo todas as sequências de proteínas no Uniprot e no PDB. Eu faria isso primeiro baixando os bancos de dados para uniprot e PDB e, em seguida, consultar o banco de dados PDB para cada sequência do Uniprot. Se você obtiver um hit BLAST acima de um certo limite (o que quer que você defina como homólogo), adicione essa sequência a um arquivo e pronto, você tem um conjunto completo de sequências que atendem aos seus critérios. As únicas ferramentas de que você precisa para isso são os executáveis ​​BLAST ( encontrados aqui) e os bancos de dados (informações sobre como fazer o download podem ser encontradas aqui).

Devo observar que você realmente não precisa de nenhum Python para fazer isso funcionar, apenas alguns scripts de shell. Embora você possa executar esses comandos por meio de um wrapper Python se realmente quiser.

Boa sorte!

Então são 60 milhões de consultas BLAST? Quanto tempo isso levaria?


Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.
Loading...