Corrija o comprimento do gene ou leia as contagens na análise de enriquecimento GO

Questão:

Corrija o comprimento do gene ou leia as contagens na análise de enriquecimento GO

Ian Sudbery

2017-08-21 17:05:48 UTC

view on stackexchange narkive permalink

É um fato bem relatado que a análise GO dos resultados de RNAseq é afetada por uma série de vieses, incluindo viés de comprimento e viés de nível de expressão.

O pacote bioconductor goseq permite que você corrija esses vieses.

Por padrão, ele corrige o viés de comprimento, mas você também pode fazer com que ele faça o viés de contagem de leitura. Usar contagens de leitura para fazer a correção é atraente porque, em teoria, deve levar em conta as duas fontes de distorção ($ contagens de leitura \ expressão aproximada \ vezes comprimento $).

Estou fazendo uma análise de enriquecimento onde tenho tentei ambas as opções (contagens de comprimento e leitura) e obteve respostas muito diferentes. Se eu executar uma regressão binomial na expressão e comprimento vs probabilidade de ser diferencial, posso ver que ambos são independentemente importantes.

  > model <- glm (sig ~ expressão + log (comprimento), data = retained_genes, family = binomial (link = "logit")) > print (anova (model, test = "Chisq")) Análise de Deviance TableModel: binomial, link: logitResponse: sigTerms adicionado sequencialmente (do primeiro ao último) Df Deviance Resid. Df Resid. Dev Pr (>Chi) NULL 6676 4507,1 expressão 1 114,998 6675 4392,1 < 2,2e-16 *** log (comprimento) 1 102,553 6674 4289,5 < 2,2e-16 *** expressão: log (comprimento) 1 34,094 6673 4255,4 5,252e- 09 *** --- Signif. códigos: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1

Portanto, não sei o que fazer, devo usar o análise corrigida para comprimento ou contagem de leitura. Ou talvez aceite apenas termos significativos em ambos? Ou apenas em um?

Você testou a interação deles (`expressão * log (comprimento)`)?

Eu não tive. Agora eu tenho. Veja a pergunta atualizada.

Dois respostas:

llrs

2017-08-21 20:43:53 UTC

view on stackexchange narkive permalink

Meu entendimento do assunto é que o viés do comprimento do gene (e outro viés) deve ser levado em consideração ao analisar a expressão e antes da análise de enriquecimento. A análise de enriquecimento deve ser feita uma vez que as correções tenham sido feitas. Porque, como o resumo do artigo GOseq afirma:

A análise GO é amplamente usada ... mas os métodos padrão fornecem resultados tendenciosos em dados de RNA-seq devido a detecção de expressão diferencial para transcrições longas e altamente expressas.

Portanto, primeiro, tome cuidado com o viés de expressão diferencial por comprimento e, em seguida, use o GO para reduzir a complexidade. Como você cuida do viés nos dados de RNA-seq é outra questão. Mas o pacote cqn do Bioconductor pode corrigir a expressão pelo comprimento do gene e conteúdo GC. No entanto, essa correção pode prejudicar a ferramenta diferencial usada (veja esta discussão no Bioconductor), então pode ser melhor em alguns casos usar o GOSeq.

Agora, a pergunta em si:

Portanto, não sei o que fazer, devo usar a análise corrigida para comprimento ou contagem de leitura. Ou talvez aceite apenas termos significativos em ambos? Ou apenas em um?

Use qualquer método de correção que produza genes expressos diferencialmente melhores (DEG. Se você achar que a correção do comprimento melhora a precisão das previsões de DEG melhor do que corrigir por comprimento e GC, então use aquele.

Outra opção para obter termos GO precisos, então você poderia usar outros procedimentos de teste que não dependem exclusivamente do teste de Fisher, como aqueles que levam em consideração a estrutura do gráfico GO. TopGO usa esta abordagem (note que é um pouco difícil de trabalhar com este pacote), isso irá reduzir o papel do viés do comprimento do gene (e provavelmente outro viés) no resultado GO significativo.

Esses preconceitos funcionam por meio do poder. Você não pode gerar energia magicamente do nada, então há duas maneiras de remover o preconceito antes ou no estágio DE: 1) reduzindo a variância entre as amostras 2) reduzindo o peso de genes mais potentes. Como Mike Love observa nesse link, a modelagem nas contagens de leitura em linha não é compatível com os métodos DESeq2s (era possível ajustar o poder extra de genes altamente expressos no estágio DE, presumivelmente DESeq já o faria). Além disso, quem mede a precisão da previsão DEG sem nenhuma verdade fundamental?

Levar em consideração o comprimento dos genes não reduzirá a variância entre as amostras, então sua única opção é reduzir o peso de genes altamente poderosos. Talvez existam outros métodos para levar isso em consideração (ou você poderia desenvolvê-los). Para encontrar o verdadeiro DEG para uma determinada comparação: Você pode explorar os valores de FDR dos genes na comparação. Os valores de FDR são assumidos para seguir uma distribuição uniforme, porque cada gene tem a mesma probabilidade de ser DEG. Explorando o quão uniforme é essa distribuição, você pode descobrir se o modelo captura os vieses ou não. Você também pode usar o método SeqGSA

Mas não estou interessado em encontrar um conjunto melhor de DEGs, em vez disso, em avaliar melhor se sua divisão em categorias é o que você esperaria por acaso. O GOSeq permite que você faça isso enquanto corrige o viés, mas apenas um viés de cada vez.

O problema nessa abordagem é que o DEG que você testa são afetados por esse comprimento e pelo viés de GC. Se pretende avaliar a sua divisão em categorias utilize o topGO, porque é o único método que faz uma análise ORA tendo em conta a estrutura do gráfico GO. O GOSeq é tendencioso por não levar em consideração as relações entre os termos do GO.

benn

2017-08-21 18:21:22 UTC

view on stackexchange narkive permalink

Não tenho certeza se faz sentido usar contagens de leitura como viés em vez do comprimento do gene (e certamente não esperaria os mesmos resultados).

Você usa a contagem total de leitura de todas as suas amostras (tamanho da biblioteca)?

A correção para o comprimento do gene é puramente técnica, quanto mais longo um gene, mais leituras se alinharão (e os genes de contagem de leituras mais altos são mais significativos, pois estão muito acima do limite de ruído). Se você usar contagens de leitura, também terá um fator biológico (expressão) ali, que (eu acho) é o material que você testa com estatísticas (por exemplo, com edgeR) e, portanto, não é o viés que deseja corrigir.

Imagine que você tenha dois genes: o gene A tem 10.000 contagens na condição A e 5.000 na condição B. O gene B tem 1.000 contagens na condição A e 500 na condição B. Os lfcs são os mesmos, mas o gene A tem mais probabilidade de ser chamado de diferencial do que o gene B. Agora considere duas categorias GO. A categoria X é composta por 10.000 / 5.000 genes e a categoria Y é composta por 1.000 / 500 genes. A Cat X tem mais probabilidade de ser enriquecida do que a Cat Y, apesar do LFC real nos genes ser o mesmo.

Não sei se o segundo exemplo é verdadeiro (essa categoria X é mais provavelmente enriquecida). Talvez você deva perguntar a estatísticos reais sobre [bioconductor] (https://support.bioconductor.org/t/Latest/).

ⓘ

Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.

about - legalese

Loading...