Como selecionar estruturas de alta qualidade do Protein Data Bank?

Questão:

marcin

2017-06-01 18:04:41 UTC

view on stackexchange narkive permalink

Os modelos de estruturas depositados no Protein Data Bank variam em qualidade, dependendo tanto da qualidade dos dados quanto da expertise e paciência de quem construiu o modelo. Existe um subconjunto bem aceito de entradas do PDB que possui apenas estruturas de "alta qualidade"? Idealmente, essas estruturas seriam representativas para classes de proteínas em todo o PDB.

_{com base em uma pergunta real da biologia. SE}

Dois respostas:

Davidmh

2017-06-01 18:55:33 UTC

view on stackexchange narkive permalink

Existe um banco de dados muito bom, pdbcull (também conhecido como servidor PISCES na literatura). Ele filtra o PDB para alta resolução e identidade de sequência reduzida. Ele também parece ser atualizado regularmente. Dependendo dos cortes, você obtém entre 3.000 e 35.000 estruturas.

Se você estiver especificamente interessado em rotâmeros, poderá dar uma olhada em top8000, onde eles verificaram para alta resolução e boas pontuações MolProbity. Eles também fornecem um banco de dados de rotamer.

O PDB também fornece seu próprio agrupamento. Eles primeiro agrupam as sequências e, em seguida, extraem uma estrutura representativa para cada uma, com base no fator de qualidade ( 1 / resolução - R_value ). Isso tem a vantagem de ser abrangente, mas você terá estruturas ruins quando nenhuma boa tiver sido obtida.

Rosalind Was Robbed

2017-06-15 03:56:46 UTC

view on stackexchange narkive permalink

Se você escolher realizar sua própria seleção do PDB, a resolução é provavelmente a primeira coisa que você vai querer olhar, que como Davidmh menciona é o principal critério de seleção para PISCES. Estruturas de alta qualidade também terão melhores valores de fator R. Você também pode dar preferência com base na técnica experimental, em ordem decrescente de qualidade:

Difração de nêutrons, difração de raios X, solução / RMN de estado sólido, microscopia eletrônica / cristalografia, difração de fibra, espalhamento de solução.

sim, são critérios do PISCES, embora pareçam bastante simplistas. O fator R é usado, mas a lacuna entre o fator R e Rfree é ignorada. Resolução (presumivelmente d_min) é o único critério de qualidade dos dados (a integridade dos dados é ignorada). Sem validação de geometria.

A discrepância de fator R e livre de R é uma grande coisa a se observar, mas, em minha experiência, o número de estruturas que relatam ambos de maneira padronizada é bastante pequeno. O BioJava só recentemente os disponibilizou, IIRC, e essa é a ferramenta que eu uso normalmente.

[80,7%] (http://mmcif.wwpdb.org/dictionaries/mmcif_pdbx_v50.dic/Items/_refine.ls_R_factor_R_free.html) de relatórios de estruturas PDB livre de R, ligeiramente inferior a [86,8%] (http: // mmcif .wwpdb.org / dicionários / mmcif_pdbx_v50.dic / Items / _refine.ls_d_res_high.html) que relata a resolução.

ⓘ

Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.

about - legalese