Estou fazendo um projeto de pesquisa envolvendo o cálculo de frequências de k-mer e me pergunto se existe algum formato de arquivo padrão para armazenar contagens de k-mer.
Estou fazendo um projeto de pesquisa envolvendo o cálculo de frequências de k-mer e me pergunto se existe algum formato de arquivo padrão para armazenar contagens de k-mer.
Não que eu saiba. O montador de Ray costumava (e possivelmente ainda armazena) os kmers como arquivos FASTA, onde o cabeçalho era a contagem da sequência, o que eu achei que era uma bastardização bem legal do formato de arquivo FASTA. Parece que este formato também é usado pelo Jellyfish ao relatar frequências kmer pelo comando dump
(mas seu formato de saída padrão é um formato binário personalizado):
O dump o subcomando produz uma lista de todos os k-mers no arquivo associado à sua contagem. Por padrão, a saída está no formato FASTA, onde a linha do cabeçalho contém a contagem do k-mer e a parte da sequência é a sequência do k-mer. Este formato tem a vantagem de que a saída contém a sequência de k-mers e pode ser alimentada diretamente em outro programa, esperando o formato FASTA muito comum. Um formato de coluna mais conveniente (para seres humanos) é selecionado com a opção -c.
A medusa mudou seu formato interno entre v1 e v2 (ambos não FASTA) , porque eles mudaram para fazer contagens com base em filtros de flor. O Jellyfish2 tem um método opcional de duas passagens que configura um arquivo intermediário de filtro bloom para registrar kmers e vários formatos de relatório final diferentes.
Khmer também usa filtros bloom, mas em um forma ligeiramente diferente. Ele também foi estendido para ser útil para particionar e comparar conjuntos de dados.
Com base na minha experiência na revisão do software de contagem k-mer e como um contribuidor principal do projeto khmer, posso dizer com segurança que não existe um formato padrão amplamente utilizado.