Existem bancos de dados de modelos para formatos de arquivo de bioinformática comuns?

Chris_Rands

2017-06-02 19:08:50 UTC

view on stackexchange narkive permalink

Quero alguns modelos de formatos de arquivo diferentes que posso usar para testar meus scripts e identificar possíveis bugs no meu código.

Por exemplo, considere o nucleotídeo FASTA, um formato simples, mas frequentemente abusado, deseja que os modelos capturem formatos regulares e irregulares, como eu vi todos estes:

1) Sequência de linha única

  >1ATG

2) Sequência multilinha

  >1ATG

3) Letras maiúsculas e minúsculas em sequência

  >1Atg

4) Ns e Xs (e possivelmente outras letras) em sequência

  >1ANnxX

5) Cabeçalhos incomuns ( às vezes, caracteres não ASCI, precisam considerar a codificação)

  >ATG > 汉字 ATG

6) Espaços em branco entre os registros

  >1ATG>2ATG

7) Cabeçalhos duplicados

  >1ATG>1ATC

8) Cabeçalhos ou sequências vazias (FASTA válido ?)

>>

9) Nenhum caractere de nova linha '\ n' na última linha (pode bagunçar o arquivo concatenação)

  >1A # < sem nova linha aqui

10) Diferentes caracteres de nova linha dependendo do sistema operacional

  >1A # \ r \ n vs \ n

etc.

Deve haver modelos separados para nucleotídeo e proteína FASTA, e outros separados para FASTA alinhado.

Idealmente, também incluiria outros aspectos, como diferentes formatos de compressão (como .gz , .bzip2 ) e diferentes extensões de arquivo (como . fa , .fasta).

Nunca vi recursos que forneçam templates cobrindo estes, mas acho que seria útil. Claro que eu poderia construir meus próprios modelos, mas demoraria para capturar todas as variações prováveis dos formatos, especialmente para formatos de arquivo mais complexos.

Observe, não estou interessado apenas no formato FASTA, ele é um exemplo.

Observe também, eu conheço ferramentas (como o BioPython ) que devem lidar com muitos formatos bem, mas eles também podem ter bugs. De qualquer forma, na prática, às vezes, acabo analisando os arquivos diretamente porque não quero a sobrecarga ou a dependência de um pacote externo.

EDITAR: Por favor, não responda a esta pergunta para dizer que não não sei de nenhum desses recursos, nem eu, daí a questão. A resposta útil de bli mostra que há pelo menos um conjunto de testes que pode ser usado como ponto de partida. Eu sei que normalmente é fácil pesquisar a especificação de qualquer formato de arquivo específico.

Na verdade, a definição do formato FASTA é muito simples. Ele tem apenas duas restrições e a segunda é frequentemente ignorada: i) as linhas de cabeçalho devem começar com `>` e podem conter qualquer coisa, exceto um `\ n`. ii) as linhas de sequência devem ter 60 caracteres por linha. Nada mais é relevante, nem o número de linhas de sequência, nem os caracteres no cabeçalho, nem a extensão (que geralmente é irrelevante fora do mundo do Windows de qualquer maneira), não há restrição sobre quais caracteres uma sequência pode ter (portanto, não há diferença entre especificações de proteínas e fástas de nucleotídeos).

Claro, a especificação é simples, mas como você diz na prática, ela nem sempre é seguida e quando você analisa um arquivo todas essas variações se tornam relevantes. Eu já tive muitas ferramentas tropeçando em estranhos cabeçalhos ou sequências FASTA e claramente é importante que as ferramentas distingam nucleotídeos de aminoácidos. Você pode `glob` arquivos com apenas 1 sufixo particular, por exemplo.

Se as ferramentas se engasgarem com isso, são as ferramentas que estão ignorando o padrão. O padrão FASTA é um dos poucos que é realmente claro e fácil de entender. É simplesmente um formato muito livre. E sim, é claro que você pode incluir extensões. Eu, por exemplo, tendo a nomear meus arquivos de proteína como `.pep` e nt` .fa`, mas não existe um padrão para isso. Todas as suas ferramentas precisam fazer é i) pegar a linha inteira após um `>` como um nome de sequência e ii) todo o resto como a sequência. Isso é tudo, e isso é tudo que é necessário para ser fasta.

Claro, as ferramentas podem ignorar o padrão, e é por isso que acho bom ter modelos variados para testar as ferramentas. E nem sempre é simples, por ex. se você usar cabeçalhos FASTA para nomear arquivos subsequentes, os caracteres especiais podem ser um incômodo. Enfim, como eu disse FASTA foi apenas um exemplo, a lógica se estende para outros formatos mais complexos

Você mencionou "Não estou apenas interessado no formato FASTA, foi um exemplo", mas lembre-se de que é melhor manter as perguntas o mais específicas possível.