Questão:
Como posso detectar sistematicamente sequências de código de barras / adaptador desconhecido em um conjunto de amostras?
story
2017-05-31 14:49:30 UTC
view on stackexchange narkive permalink

Frequentemente, baixei conjuntos de dados do SRA em que os autores não mencionaram quais adaptadores foram cortados durante o processamento.

Os alinhamentos locais tendem a superar esse obstáculo, mas parece um pouco bárbaro.

O fastQC funciona ocasionalmente para pegá-los, mas às vezes não consegue encontrar as sequências reais do adaptador.

Normalmente, acabei procurando os kits que eles usaram e tentei usar o grep para todos os códigos de barras possíveis.

Existe uma maneira mais robusta / eficiente de fazer isso?

Isso não responde à sua pergunta, mas espero que haja a possibilidade de relatar tais problemas à SRA para que eles solicitem aos autores que publiquem as informações que faltam.
Por que você acha que o alinhamento local é um pouco bárbaro? Deve ser o método padrão nos dias de hoje, a menos que você esteja trabalhando com sequenciamento de pequenos RNAs. Eu costumo aparar os adaptadores para estar no lado seguro, mas fiz muito trabalho sem me preocupar e apenas contando com o alinhamento local.
Quatro respostas:
#1
+4
ewels
2017-06-02 12:52:08 UTC
view on stackexchange narkive permalink

Você mencionou que FastQC "não consegue encontrar as sequências reais do adaptador" - eu acho que você quer dizer no gráfico de Contaminação da sequência do adaptador. No entanto, os gráficos de conteúdo de sequência e kmer são frequentemente úteis mesmo quando o anterior falha. Eu usei isso no passado - às vezes você pode apenas ler a sequência do adaptador desde o início do gráfico de conteúdo da sequência (ou pelo menos ver quantas bases cortar).

#2
+2
gringer
2017-05-31 15:45:23 UTC
view on stackexchange narkive permalink

Não estou ciente de nenhum método existente para fazer isso, mas aqui estão algumas idéias sobre como isso pode ser feito:

Canu tem um método de corte de adaptador que envolve procurar a ausência de sobreposição para leituras. Se não houver outras leituras que compartilhem a sequência em uma região específica, a leitura será interrompida no ponto de cobertura baixa e pequenos pedaços serão descartados. Seria possível usar um método como este para caçar possíveis sequências de adaptador / código de barras, preservando as leituras curtas.

Outra opção é fazer uma pesquisa kmer no início das leituras e ver se algum os kmers de alta abundância podem ser montados juntos e / ou combinados com adaptadores ou códigos de barras conhecidos existentes.

#3
+1
bli
2017-05-31 15:28:26 UTC
view on stackexchange narkive permalink

Se por acaso você conhece uma sequência que deve ser altamente abundante na biblioteca, você pode grep seu início ou fim (com destaque de correspondência de padrão) e ver se a mesma sequência vem sistematicamente imediatamente antes ou logo depois, respectivamente. Este tipo de inspeção visual pode ajudá-lo a encontrar o adaptador.

Por exemplo, em um laboratório anterior, estávamos trabalhando em D. melanogaster pequenos dados de sequenciamento de RNA e meu colega sabia por experiência anterior com este tipo de dados que o seguinte pequeno RNA provavelmente seria abundante: http://flybase.org/reports/FBgn0065042.html

Só tivemos que fazer um grep no arquivo fastq para ver muitas linhas com esta sequência, ao lado de outra sequência que por acaso era sempre a mesma: o adaptador desconhecido.

Posso saber a razão do downvote? Eu vi esse método aplicado em um caso de pequena RNA-seq, onde uma sequência altamente abundante era esperada. A inspeção visual da saída do grep desta sequência (com destaque de padrão) deu uma boa dica de qual era o adaptador (a parte não destacada).
A questão é saber como detectar sequências adaptadoras desconhecidas, para que o OP não saiba sobre sequências abundantes com antecedência. Esse é o tipo de ponto da questão ...
@tallphil Não vejo a ligação entre não saber o adaptador e não saber de uma sequência abundante que deve estar presente nos dados. Se bem me lembro, no exemplo que menciono em meu comentário, meu colega sabia por experiência anterior com este tipo de dados que o seguinte pequeno RNA era provavelmente abundante: http://flybase.org/reports/FBgn0065042.htmlNós apenas teve que fazer um grep no arquivo fastq para ver muitas linhas com essa sequência, ao lado de outra sequência que por acaso era sempre a mesma: o adaptador desconhecido.
Na verdade, acabei de reler sua postagem e agora vejo o que você quis dizer. Esta é uma ideia razoável. No entanto, acho que você explicou mal, no sentido de que um leitor pode ficar confuso e pensar que você quis dizer que a busca pela sequência mais abundante poderia resultar no código de barras. Você deve ter especificado que a "sequência abundante", nesse caso, era uma sequência de ácido nucleico conhecida que deveria ter adaptadores ligados a uma ou ambas as extremidades.
Ah, sim, desculpas - é exatamente assim que eu li. Provavelmente não ajudou o fato de que a questão original menciona grepping para sequências de adaptadores esperadas, então isso estava fresco em minha mente :) Desculpe, @bli! Downvote não era de mim, então não posso retratar, infelizmente.
Tentei esclarecer minhas explicações.
#4
+1
Nils
2017-06-02 16:41:16 UTC
view on stackexchange narkive permalink

O utilitário minion do kit de ferramentas kraken / reaper pode ser útil para isso: http://wwwdev.ebi.ac.uk/enright-dev/kraken/reaper/src/ reaper-latest / doc / minion.html

Parece exatamente o tipo certo de ferramenta. Embora seja uma pena, ele foi projetado principalmente para o adaptador de extremidade 3 '. Eu me pergunto se você poderia simplesmente virar todas as suas leituras e aplicá-las ao 5 'final.


Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.
Loading...