Você pode considerar o uso de RUVSeq. Aqui está um trecho da publicação Nature Biotechnology de 2013:
Avaliamos o desempenho dos controles de spike-in do External RNA Control Consortium (ERCC) e investigamos a possibilidade de usando-os diretamente para normalização. Mostramos que os spike-ins não são confiáveis o suficiente para serem usados em escala global padrão ou procedimentos de normalização baseados em regressão. Propomos uma estratégia de normalização, chamada de remover variação indesejada (RUV), que se ajusta para efeitos técnicos incômodos, realizando análise fatorial em conjuntos adequados de genes de controle (por exemplo, ERCC spike-ins) ou amostras (por exemplo, bibliotecas replicadas) >
RUVSeq essencialmente ajusta um modelo linear generalizado (GLM) aos dados da expressão, onde sua matriz de expressão $ Y $ é uma matriz $ m $ por $ n $, onde $ m $ é o número de amostras e $ n $ o número de genes. O modelo se resume a
$ Y = X * \ beta + Z * \ gamma + W * \ alpha + \ epsilon $
onde $ X $ descreve as condições de interesse ( por exemplo, tratamento vs. controle), $ Z $ descreve as covariáveis observadas (por exemplo, gênero) e $ W $ descreve as covariáveis não observadas (por exemplo, lote, temperatura, laboratório). $ \ beta $, $ \ gamma $ e $ \ alpha $ são matrizes de parâmetros que registram a contribuição de $ X $, $ Z $ e $ W $, e $ \ epsilon $ é ruído aleatório. Para o subconjunto de genes cuidadosamente selecionados (por exemplo, spike-ins ERCC, genes de manutenção ou réplicas técnicas), podemos assumir que $ X $ e $ Z $ são zero e encontrar $ W $ - a "variação indesejada" em sua amostra.