Questão:
Que formato é esse? Certeza que não é um arquivo BED
ithinkiam
2017-08-29 21:31:13 UTC
view on stackexchange narkive permalink

É hora de adivinhar o formato do arquivo de bioinformática ... :)

Eu encontrei este arquivo '.bed' no GEO ( GSE84660), mas claramente não é um arquivo BED . Alguém sabe o que pode ser? E o que pode ver isso? É a partir de um expt HiC.

  #column headers: bait1_chr, bait1_start, bait1_end, bait2_chr, bait2_start, bait2_end, contact_ID, NA, NA, B1_D0_counts, B1_D3_counts, bait1_end, bait2_chr, bait2_start, bait2_end, contact_ID, NA, NA, B1_D0_counts, B1_D3_counts, B1D95_counts, B218_contas_contas3, B1_D956 848168 chr1 850619 874081 b2b_1. . 114 125 127 75 97 92chr1 831895 848168 chr1 889424 903640 b2b_2. . 15 12 16 4 15 20chr1 831895 848168 chr1 903641 927394 b2b_3. . 13 13 10 18 15 8 ...  
Você poderia explicar para que você precisa? Quer dizer, isso é apenas um arquivo de texto simples para que qualquer editor de texto (ou mesmo excel) possa visualizá-lo. Quais informações você precisa extrair dele?
Você está tentando visualizar a matriz de contato? Esses dados vêm [deste documento] (https://www.nature.com/ng/journal/vaop/ncurrent/full/ng.3935.html).
@DevonRyan idealmente sim, mas primeiro eu queria verificar se esse não era um formato específico que eu não conhecia. Tem alguma sugestão para visualizar uma matriz de contato?
@ithinkiam Eu sugiro [HiCExplorer] (https://github.com/maxplanck-ie/HiCExplorer), mas sou tendencioso. Para sua pergunta original, você ainda precisará omitir este arquivo, mas verei se consigo algum código para isso.
@ithinkiam Retiro o que disse, não está 100% claro qual é a maneira apropriada de ir de grandes regiões de isca para posições individuais. Espero que outra pessoa tenha uma ideia melhor.
Talvez tenha sido chamado de _.bed_ para sugerir que as coordenadas de início / fim devem ser interpretadas de uma maneira meio aberta com base 0 no estilo BED (ou, de forma equivalente, início com base em 0, fim com base em 1)? O par de intervalos genômicos por registro é uma reminiscência de [formato BEDPE] (http://bedtools.readthedocs.io/en/latest/content/general-usage.html#bedpe-format), mas não estou familiarizado com nada A HiC não comenta se isso é mera coincidência ...
Um responda:
aechchiki
2017-08-29 22:45:47 UTC
view on stackexchange narkive permalink

Parece uma maneira estranha de representar dados. Você está certo, não se parece em nada com uma CAMA.

Pesquisando no GEO me fez encontrar esta informação:

Supplementary_files_format_and_content: arquivo delimitado por tabulação relata um contato por linha. Os fragmentos HindIII que interagem são representados em formato de cama (chr / start / stop) com isca (ou isca a montante, no caso de contatos b2b) listados primeiro. Os campos a seguir correspondem a um ID de contato exclusivo, IDs de fragmento para primeiro e segundo fragmentos e contagens de leitura bruta que suportam contatos em cada replicação.

Portanto, acho que os autores fundiram um formato BED3 mais Campos não relacionados ao BED que geram um arquivo separado por tabulação - embora não claramente declarado em seus métodos. O mais fácil seria entrar em contato com os autores talvez?

Dependendo de seus objetivos, se você só precisar dos 3 primeiros campos (mas eu duvido) eu reformataria este arquivo "base" (para torná-lo processável como um arquivo BED) em dois subarquivos:

  cat original.bed | cut -f 1,2,3 > bait1.txtcat bait1.txt | head -3chr1 831895 848168 chr1 831895 848168 chr1 831895 848168cat original.bed | cut -f 4,5,6 > bait2.txtcat bait2.txt | head -3chr1 850619 874081 chr1 889424 903640chr1 903641 927394  

Não tenho certeza se isso se encaixaria em seus objetivos.

Além disso, para visualização de matrizes de contato, talvez você considere este artigo útil.

Você pode simplificar seu comando para `cut -f 1-3 original.bed> bait1.txt` se desejar. O `cat` não é necessário,` cut` pode levar um caminho de arquivo como entrada e listas de campos podem ser definidas com `x-y`.
Esta é uma das inúmeras maneiras de se pensar em representar uma matriz de contato e é provavelmente particular para os dados suplementares neste artigo (uma vez que é incomum armazenar 6 matrizes de contato em um único arquivo). Se o OP quiser visualizar isso, provavelmente precisará ser transformado em um formato muito diferente.
Obrigado pela ajuda, mas não é realmente o que estou procurando.
ok, então talvez seja sensato editar sua pergunta e deixar seus objetivos claros, para que os usuários possam dar respostas mais significativas. ou você apenas queria verificar se não há algum tipo de formato documentado que você possa ter pulado?


Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.
Loading...