Questão:
Existe um formato de arquivo de contagem K-mer padrão?
Jon Deaton
2017-07-26 06:44:10 UTC
view on stackexchange narkive permalink

Estou fazendo um projeto de pesquisa envolvendo o cálculo de frequências de k-mer e me pergunto se existe algum formato de arquivo padrão para armazenar contagens de k-mer.

Dois respostas:
gringer
2017-07-26 10:13:35 UTC
view on stackexchange narkive permalink

Não que eu saiba. O montador de Ray costumava (e possivelmente ainda armazena) os kmers como arquivos FASTA, onde o cabeçalho era a contagem da sequência, o que eu achei que era uma bastardização bem legal do formato de arquivo FASTA. Parece que este formato também é usado pelo Jellyfish ao relatar frequências kmer pelo comando dump (mas seu formato de saída padrão é um formato binário personalizado):

O dump o subcomando produz uma lista de todos os k-mers no arquivo associado à sua contagem. Por padrão, a saída está no formato FASTA, onde a linha do cabeçalho contém a contagem do k-mer e a parte da sequência é a sequência do k-mer. Este formato tem a vantagem de que a saída contém a sequência de k-mers e pode ser alimentada diretamente em outro programa, esperando o formato FASTA muito comum. Um formato de coluna mais conveniente (para seres humanos) é selecionado com a opção -c.

A medusa mudou seu formato interno entre v1 e v2 (ambos não FASTA) , porque eles mudaram para fazer contagens com base em filtros de flor. O Jellyfish2 tem um método opcional de duas passagens que configura um arquivo intermediário de filtro bloom para registrar kmers e vários formatos de relatório final diferentes.

Khmer também usa filtros bloom, mas em um forma ligeiramente diferente. Ele também foi estendido para ser útil para particionar e comparar conjuntos de dados.

Daniel Standage
2017-07-26 22:39:51 UTC
view on stackexchange narkive permalink

Com base na minha experiência na revisão do software de contagem k-mer e como um contribuidor principal do projeto khmer, posso dizer com segurança que não existe um formato padrão amplamente utilizado.



Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.
Loading...