É um fato bem relatado que a análise GO dos resultados de RNAseq é afetada por uma série de vieses, incluindo viés de comprimento e viés de nível de expressão.
O pacote bioconductor
goseq
permite que você corrija esses vieses.
Por padrão, ele corrige o viés de comprimento, mas você também pode fazer com que ele faça o viés de contagem de leitura. Usar contagens de leitura para fazer a correção é atraente porque, em teoria, deve levar em conta as duas fontes de distorção ($ contagens de leitura \ expressão aproximada \ vezes comprimento $).
Estou fazendo uma análise de enriquecimento onde tenho tentei ambas as opções (contagens de comprimento e leitura) e obteve respostas muito diferentes. Se eu executar uma regressão binomial na expressão e comprimento vs probabilidade de ser diferencial, posso ver que ambos são independentemente importantes.
> model <- glm (sig ~ expressão + log (comprimento), data = retained_genes, family = binomial (link = "logit")) > print (anova (model, test = "Chisq")) Análise de Deviance TableModel: binomial, link: logitResponse: sigTerms adicionado sequencialmente (do primeiro ao último) Df Deviance Resid. Df Resid. Dev Pr (>Chi) NULL 6676 4507,1 expressão 1 114,998 6675 4392,1 < 2,2e-16 *** log (comprimento) 1 102,553 6674 4289,5 < 2,2e-16 *** expressão: log (comprimento) 1 34,094 6673 4255,4 5,252e- 09 *** --- Signif. códigos: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1
Portanto, não sei o que fazer, devo usar o análise corrigida para comprimento ou contagem de leitura. Ou talvez aceite apenas termos significativos em ambos? Ou apenas em um?