Eu gostaria de criar um conjunto de dados consistindo em todas as sequências que estão presentes no PDB ou cujo homólogo está presente no PDB. Em outras palavras, qualquer sequência no PDB ou qualquer sequência relacionada a ele. A margem de semelhança deve ser muito ampla, então qualquer coisa acima, por exemplo, 25% de identidade de sequência é aceita (talvez haja critérios melhores, mas você entendeu).
Sem outras limitações, portanto, qualquer organismo, com ou sem dados experimentais, não se limita ao conjunto Swissprot com curadoria manual.
Eu tentei o banco de dados SIFTS, mas ele contém, pelo que eu posso dizer, apenas mapeamentos para identidade de sequência> 85%. Eu gostaria de ir muito abaixo disso.