Questão:
Têm motivos de DNA de 6-12 bp de comprimento, tentando obter pontuações de conservação
Eric Brenner
2017-05-31 02:18:08 UTC
view on stackexchange narkive permalink

Tenho cerca de 200 motivos nucleotídicos curtos (6-12 bp de comprimento) do genoma humano e estou tentando ver como eles são conservados entre os vertebrados.

Eu estava pensando que precisaria fazer um arquivo de cama para cada motivo que liste todas as suas ocorrências no genoma humano. A partir daí, eu poderia mapear os leitos para um grande arquivo de pontuações PhastCons (essencialmente fazendo o inverso do que o software PhastCons foi projetado para fazer). Isso soa como a melhor abordagem?

Estou ficando preso na etapa de ir dos motivos para os arquivos de cama. Eu tentei usar o BLAST para encontrar todas as ocorrências de motivos, mas seu comprimento curto está causando problemas.
Eu tentei mexer com o limite de valor e, tamanho de palavra e parâmetros de filtro, mas ainda não consigo quaisquer acertos.

Existe uma solução alternativa para esse problema ou devo apenas repensar toda a minha abordagem?

Fiz algo semelhante, mas com uma lista de n-mers bem definidos em vez de "motivos", todos com o mesmo valor de n. Caso isso possa ajudar, o código que usei para fazer o arquivo de cama é o seguinte: https://bitbucket.org/blaiseli/conservation_mirna_targets/src/20b7a0894b957e69912f637ef2d0493779036029/trie.py?at=master&fileviewer=file-view- defaultO código pode não ser muito eficiente em termos de memória.
Trzy respostas:
#1
+7
BaCh
2017-05-31 02:53:31 UTC
view on stackexchange narkive permalink

No caso de você ter apenas ACGT em seus motivos

Os motivos curtos fazem parecer que você está procurando um contador de kmer. Você pode escolher usar o software existente ou construir o seu próprio.

  1. Usar o software existente pode ser o caminho mais fácil. Uma postagem mais antiga de 2014 provavelmente dará a você uma primeira ideia do que está por aí: http://homolog.us/blogs/blog/2014/04/07/kmer-counting-a-2014-recap/. Observe que alguns algoritmos mencionados lá têm sucessores, portanto, vale a pena pesquisar um pouco. O tamanho pequeno do kmer tornará a maioria deles utilizável para suas necessidades.
  2. Como o tamanho máximo de seus kmers é comparativamente pequeno (12 nt precisam de 24 bits, ou seja, no máximo 16,7 milhões de entradas em sua tabela de kmer), você deve ser capaz de rolar facilmente seu próprio kmer contando em qualquer linguagem que você goste e em qualquer computador atual. A seção do pseudocódigo na entrada da Wikipedia para kmers lhe dará as primeiras dicas para isso. Pode ser um pouco mais trabalhoso, mas talvez mais flexível dependendo de suas necessidades.

Caso você tenha bases IUPAC (N, W, etc.) em seus motivos

Não conheço nenhum software pré-existente fazendo o que você precisa. Eu poderia imaginar que os motivos curtos tornam o uso de expressões regulares viável para esse tipo de pesquisa, mas posso estar errado. Testar isso deve ser fácil em um script simples, pois todas as principais linguagens de programação têm módulos ou bibliotecas para ERs. Mesmo que leve algumas horas para ser executado em seu conjunto de dados, isso seria bom o suficiente para um cálculo único.

#2
+3
rightskewed
2017-05-31 03:46:53 UTC
view on stackexchange narkive permalink

Para escanear motivos em um genoma (ou banco de dados), eu usaria FIMO, que fornecerá a localização exata desses motivos em seu genoma.

Assim que tiver os locais , você pode usar um phastCons bigiwig do UCSC para calcular as pontuações de conservação de base. No entanto, lembre-se de que as pontuações de phastCons são suavizadas nas janelas e pode não ser a melhor métrica se você estiver tentando comparar os níveis de conservação em seus locais de correspondência de motivos em comparação com as sequências que os flanqueiam.

Escrevi um pacote há algum tempo para fazer isso, incluindo a descoberta de motivos de novo. No entanto, pode ser um exagero para o seu caso de uso.

Já usei o FIMO antes, na verdade, mas para comparar motivos com PWMs (da JASPAR). Pode ser uma pergunta idiota, mas é muito fácil comparar com um genoma em vez de um banco de dados de PWMs?
@EricBrenner Você pode simplesmente carregar um arquivo de sequência na versão da web.
#3
+1
Alex Reynolds
2018-03-07 06:10:38 UTC
view on stackexchange narkive permalink

No que diz respeito aos locais de ligação do fator de transcrição, em nossos artigos usamos dados de conservação phyloP por base em vez de pontuações phastCons suavizadas.

Usamos BEDOPS mapa de cama para mapear pontuações em vários locais de ligação preenchidos (formatados em BED) para um determinado modelo de motivo. As pontuações phyloP são arquivos WIG obtidos do UCSC goldenpath e convertidos para BED via wig2bed.

A matriz resultante de intervalos de sites de ligação e suas pontuações por base podem ser transformadas em uma classificação mapa térmico ou agregado para determinar a conservação média por base para um modelo de motivo.

Embora os sites de ligação TF mostrem inatamente alto conteúdo de informação e, portanto, alta conservação, as matrizes podem ser posteriormente classificadas por mapas de pontuação de densidade de tag ChIP-seq ou DNaseI-seq.

Isso pode ajudar a filtrar por padrões interessantes de baixo ruído e alto sinal e é útil quando a matriz é em janela e a janela inclui regiões de baixa informação com alguns resíduos de alta informação fora do motivo principal - como é o caso da CTCF, por exemplo.



Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.
Loading...