Questão:
Esclarecimento sobre o enriquecimento do gene
julianstanley
2017-09-08 19:27:57 UTC
view on stackexchange narkive permalink

Quando executo uma análise de GSEA em duas condições do mesmo RNaseq (injeção de PBS de controle negativo VS injeção de CpG de controle positivo) do mesmo conjunto de dados / lista de genes, obtenho resultados parecidos com estes: p> Example GSEA Image

Observe no meu exemplo que muitos conjuntos de genes são significativamente enriquecidos em PBS VS CpG, mas nenhum é significativamente enriquecido no inverso, CpG VS PBS.

Tenho uma pergunta básica:

Se estivermos comparando dois itens, digamos A e B, um conjunto de genes regulados para cima que é enriquecido em A não deveria ter um conjunto de genes regulados que é enriquecido em B?

Estou sempre confuso sobre como interpretar o fato de que uma das minhas duas condições tem muito mais conjuntos de genes enriquecidos do que a outra. O que estou perdendo / entendendo mal?

Obrigado!

Dois respostas:
llrs
2017-09-12 12:08:38 UTC
view on stackexchange narkive permalink

Se você comparar A vs B, a alteração da dobra dos genes terá o sinal oposto a B vs A. Assim, o gene será configurado ou regulado para baixo, dependendo da comparação a ser feita.

O gene set test analise se um determinado grupo de elementos está classificado de uma certa maneira em uma lista (estou falando de um GSE como o que você realizou ou o do Broad Institute). Normalmente, é usado para dizer que o conjunto de genes X é regulado positivamente na comparação A vs B, ou seja, o conjunto de genes X (em geral) é mais expresso em A do que em B. O enriquecimento é medido em uma pontuação de enriquecimento (ou uma pontuação de enriquecimento normalizada, quanto mais alta, mais clara a tendência / distribuição do grupo X. Para avaliar X é realmente diferencialmente expresso, um valor p também é calculado.

Apesar disso, o número de conjuntos de genes regulados para cima somar todos os conjuntos de genes testados conforme apontado por juod, o número de conjuntos de genes com valor p aa abaixo de 5% e 1% não é o mesmo em ambas as comparações, o que indica que você não está realmente usando as mesmas amostras em ambos os conjuntos de genes.

Verifique como você realizou sua comparação. Os genes em cada comparação têm o mesmo valor e sinal oposto?
Verifique também o software usado para executar a análise GSEA ( se eu reconheço que o tipo de relatório é de um pacote no Bioconductor [não reconheço qual deles agora]) porque você (ou eu) pode ter entendido mal algo ou ali é um erro se as comparações forem feitas corretamente. Por exemplo, pode ser que o relatório de valores de p abaixo do limite fosse apenas dos conjuntos de genes regulados para cima.

Obrigado pela resposta! Ainda estou tendo alguns problemas, provavelmente porque sou muito novo nisso. Isso veio de dados de RNAseq do mesmo experimento, mas há 3 amostras "tratadas com PBS" e 3 amostras "tratadas com CpG". Eu esperaria muita regulação positiva nas amostras tratadas com CpG. Nos resultados do GSE, um dos principais grupos PBS é 'GO_NEGATIVE_REGULATION_OF_B_CELL_ACTIVATION'. Isso significa que determinado conjunto de genes é enriquecido em PBS e não em CpG, certo? Eu não esperaria ver a ativação de células B na amostra CpG, então?
Pode tornar mais fácil explicar a resposta biológica que procuro. Eu gostaria de ser capaz de dizer: "Quando injetamos CpG (em oposição ao controle de PBS), os seguintes conjuntos de genes foram regulados positivamente:". Será que não existem tais conjuntos de genes?
@JulianStanley Se você usar GO como conjuntos de genes, não usará o relacionamento e a estrutura das ontologias de genes (use os pacotes Biocondutores topGO que levam isso em consideração). Acho que o GSE não está sendo realizado corretamente: você verificou o que eu falei? Mas sim, o GSE responderá a este tipo de perguntas quando feito corretamente. Veja minha edição também
@Llopis Acho que a chave aqui é descobrir qual teste exatamente é executado naquele pacote. Sua descrição parece Mann-Whitney ou algo semelhante, que concordo que deve ser simétrica. No entanto, estou mais acostumado a testes de enriquecimento pelo teste de Fisher (ou seja, a tabela de contingência "pertence ao conjunto - não" vs. "é regulada positivamente - não é"). Talvez a última abordagem não forneça necessariamente valores p simétricos? ..
@juod Concordo que saber qual teste OP usado é importante. O Mann-Whitney é diferente do GSEA porque você não tem conjuntos de genes regulados para cima / para baixo, mas sim conjuntos de genes sobre-representados (OR). Os valores de p se for um teste OR não serão simétricos, se for um GSEA deveriam.
Olá a todos - obrigado novamente pela discussão. Acabo de usar GSEA (o software fornecido pela Broad). Basicamente com configurações padrão - incluindo estatísticas de ruído para sinal e usei os conjuntos de genes GO do MsigDB. Você também disse para verificar se os valores são iguais, mas opostos, mas eu não tinha certeza do que você quis dizer com isso. Eles são contagens de RNAseq - portanto, nenhum valor negativo.
@JulianStanley Ótimo saber a ferramenta. Você forneceu sua expressão ou uma lista ordenada de genes expressos diferencialmente? Eu disse para verificar o sinal oposto pensando que você tem uma mudança de dobra ou como é chamado no programa uma lista ordenada. Se você carregar o AvsB e o BvsA, o mesmo conjunto de genes terá o mesmo valor p e sinal diferente, pontuação de enriquecimento normalizado de 0,5 a -0,5, por exemplo.
@Llopis ahh isso faz sentido! O programa me forneceu uma lista de genes com pontuações de enriquecimento, mas eu não sabia como interpretá-la. Acabei de fornecer minha expressão (deseq normalizada). Notavelmente, também experimentei AvB e BvA e os resultados pareciam iguais à primeira vista
@JulianStanley Ótimo saber que finalmente faz sentido, tentarei atualizar a resposta. Se você tiver outras perguntas, terei prazer em respondê-las. Além disso, para marcar como resolvido, considere marcar uma resposta como aceita.
juod
2017-09-11 20:55:24 UTC
view on stackexchange narkive permalink

Embora não esteja familiarizado com o software GSEA em particular, acredito que seu problema é que ele apenas testa conjuntos de genes regulados positivamente . Aviso:

  • conjuntos de genes 866/4408 são regulados positivamente
  • conjuntos de genes 3542/4408 são regulados positivamente

3542 + 866 = 4408. Ou seja, 866 conjuntos têm expressão média mais alta na condição positiva, o restante tem expressão média mais alta na condição negativa. Para evitar essa confusão, eu pessoalmente reservaria o uso dos termos "regulado para cima / para baixo" apenas para conjuntos em que essa mudança seja pelo menos remotamente significativa.



Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.
Loading...