Questão:
Genes ausentes e normalização da saída RSEM usando EBSeq
J0HN_TIT0R
2017-06-02 03:57:13 UTC
view on stackexchange narkive permalink

Sem entrar em muitos detalhes, acabei de entrar para um laboratório como estagiário de bioinformática enquanto concluí meu mestrado na área. O laboratório tem dados de um RNA-seq terceirizado, mas o único problema é que os únicos dados que eles têm são pré-processados ​​pela empresa que fez o sequenciamento: filtrar as leituras, alinhá-las e colocar as leituras alinhadas por meio do RSEM. Atualmente, tenho saída do RSEM para cada uma das quatro amostras que consistem em: id do gene, id do transcrito (s), comprimento, contagem esperada e FPKM. Estou tentando obter os arquivos FASTQ do sequenciamento, mas, por enquanto, é isso que tenho e estou tentando obter algo disso, se possível.

Encontrei este artigo que fala sobre como as contagens de leitura esperadas podem ser melhores do que as contagens de leitura bruta ao analisar a expressão diferencial usando EBSeq; é apenas a opinião de um cara, e é de 2014, então pode estar errada ou desatualizada, mas pensei em tentar, pois tenho a contagem esperada.

No entanto, tenho apenas alguns de perguntas sobre como executar o EBSeq para as quais não consigo encontrar as respostas:

1: Nos arquivos RSEM de saída que tenho, nem todos os genes estão representados em cada um, cerca de 80% deles estão, mas para o aqueles que não são, devo removê-los antes da análise com EBSeq? Ele é executado quando eu faço, mas não tenho certeza se está correto.

2: Como eu sei qual fator de normalização usar ao executar o EBSeq? Esta é mais uma questão conceitual do que técnica.

Obrigado!

Dois respostas:
#1
+6
Daniel Standage
2017-06-02 05:14:21 UTC
view on stackexchange narkive permalink

Sim, aquela postagem do blog representa apenas a opinião de um cara (oi!) e data desde 2014 , que é, tipo, décadas em anos de genômica. :-) A propósito, há bastante literatura discutindo as melhorias que as contagens de leitura esperadas derivadas de um algoritmo de Maximização de Expectativas fornecem sobre as contagens de leitura brutas. Eu sugiro a leitura dos documentos do RSEM para um [ 1] [ 2] inicial.

Mas sua pergunta principal trata da mecânica de execução do RSEM e do EBSeq. Primeiro, o RSEM foi escrito explicitamente para ser compatível com o EBSeq, então eu ficaria muito surpreso se ele não funcionar corretamente fora da caixa. Em segundo lugar, a função MedianNorm do EBSeq funcionou muito bem em minha experiência para normalizar as contagens da biblioteca. Nesse sentido, o blog que você mencionou acima tem outro post que você pode achar útil.

Mas, brincadeiras à parte, essas ferramentas realmente estão desatualizadas. As ferramentas de RNA-Seq sem alinhamento proporcionam melhorias de ordens de magnitude no tempo de execução em relação às alternativas mais antigas baseadas em alinhamento, com precisão comparável. Sailfish foi o primeiro de uma lista crescente de ferramentas que agora inclui Salmon e Kallisto. Ao iniciar uma nova análise do zero (ou seja, se você conseguir os arquivos FASTQ originais), não há realmente nenhuma boa razão para não estimar a expressão usando essas ferramentas muito mais rápidas, seguidas por uma análise de expressão diferencial com DESeq2, edgeR ou detetive.


1 Li B, Ruotti V, Stewart RM, Thomson JA, Dewey CN (2010) Estimativa da expressão gênica de RNA-Seq com incerteza de mapeamento de leitura . Bioinformatics , 26 (4): 493–500, doi: 10.1093 / bioinformatics / btp692.

2 Li B, Dewey C (2011) RSEM: quantificação precisa da transcrição de dados de RNA-Seq com ou sem um genoma de referência. BMC Bioinformatics , 12: 323, doi: 10.1186 / 1471-2105-12-323.

"Não há realmente nenhuma boa razão para não estimar a expressão usando essas ferramentas muito mais rápidas" - a menos que você não tenha as leituras brutas, como é o caso aqui
Oh uau. Grande descuido da minha parte!
Uau, eu nunca esperei obter uma resposta do autor real! Usei R para processar os quadros de dados em uma única matriz de todas as contagens esperadas para cada gene de cada amostra.
Fiquei igualmente surpreso ao ver um link para meu antigo blog no StackExchange! :)
Como uma pequena pergunta de acompanhamento, estou tentando, em última análise, obter a alteração dobrada e o valor p associado para cada gene por condição. Achei GetMultiFC () para obter as alterações da dobra, mas não estou certo sobre a diferença exata entre a alteração da dobra e a alteração da dobra posterior. Estou pensando que a alteração da dobra posterior é apenas a alteração da dobra para os valores normalizados, então é o que eu deveria usar, mas não tenho certeza sobre isso. Além disso, é possível obter valores p associados?
#2
+3
gringer
2017-06-02 06:40:29 UTC
view on stackexchange narkive permalink
  1. Inclua todos os genes / transcrições em sua análise.

Uma transcrição que não foi detectada pode ser não detectada por meio de erro de amostragem (ou seja, o sequenciador / preparação da biblioteca por acaso não transcrição), ou pode ser porque a transcrição não foi gerada em uma amostra específica. Não é incomum que os genes sejam desligados em resposta a diferentes fatores biológicos, portanto, os genes de contagem zero não devem ser ignorados. Não posso falar por experiência própria com o EBSeq, mas contanto que o pacote de análise trate uma contagem zero como "não observada" em vez de "ausente" (e faça as correções relevantes), é uma boa ideia mantê-las.



Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.
Loading...