Métodos de normalização com pico de RNA-Seq ERCC em?

Questão:

SmallChess

2017-05-17 10:24:25 UTC

view on stackexchange narkive permalink

ERCC spike-in é um conjunto de controles sintéticos desenvolvidos para RNA-Seq. Estou interessado em usá-lo para normalizar minhas amostras de RNA-Seq. Em particular, gostaria de usar os spike-ins para remover preconceitos técnicos e qualquer variação que não deva fazer parte da minha análise.

O site não fornece detalhes sobre como posso fazer isso .

P: Quais são as estratégias de normalização possíveis? Você pode descrevê-los resumidamente?

Você está interessado em RNA-seq em massa ou de célula única? O valor dos spike-ins é muito diferente, dependendo do

Dois respostas:

Scott Gigante

2017-05-17 10:43:41 UTC

view on stackexchange narkive permalink

Você pode considerar o uso de RUVSeq. Aqui está um trecho da publicação Nature Biotechnology de 2013:

Avaliamos o desempenho dos controles de spike-in do External RNA Control Consortium (ERCC) e investigamos a possibilidade de usando-os diretamente para normalização. Mostramos que os spike-ins não são confiáveis o suficiente para serem usados em escala global padrão ou procedimentos de normalização baseados em regressão. Propomos uma estratégia de normalização, chamada de remover variação indesejada (RUV), que se ajusta para efeitos técnicos incômodos, realizando análise fatorial em conjuntos adequados de genes de controle (por exemplo, ERCC spike-ins) ou amostras (por exemplo, bibliotecas replicadas) >

RUVSeq essencialmente ajusta um modelo linear generalizado (GLM) aos dados da expressão, onde sua matriz de expressão $ Y $ é uma matriz $ m $ por $ n $, onde $ m $ é o número de amostras e $ n $ o número de genes. O modelo se resume a

$ Y = X * \ beta + Z * \ gamma + W * \ alpha + \ epsilon $

onde $ X $ descreve as condições de interesse ( por exemplo, tratamento vs. controle), $ Z $ descreve as covariáveis observadas (por exemplo, gênero) e $ W $ descreve as covariáveis não observadas (por exemplo, lote, temperatura, laboratório). $ \ beta $, $ \ gamma $ e $ \ alpha $ são matrizes de parâmetros que registram a contribuição de $ X $, $ Z $ e $ W $, e $ \ epsilon $ é ruído aleatório. Para o subconjunto de genes cuidadosamente selecionados (por exemplo, spike-ins ERCC, genes de manutenção ou réplicas técnicas), podemos assumir que $ X $ e $ Z $ são zero e encontrar $ W $ - a "variação indesejada" em sua amostra.

gringer

2017-08-02 03:16:10 UTC

view on stackexchange narkive permalink

Adicionamos spike-ins ERCC a todos os nossos dados RNASeq, apenas no caso de outras pessoas acharem que é útil no futuro. No entanto, nunca o usei em minhas próprias análises porque não consigo pensar em uma maneira razoável de usá-lo.

A recomendação típica para ERCC é adicioná-lo em proporção à quantidade de RNA de entrada , mas isso pressupõe que as contagens de RNA de células totais são semelhantes em células diferentes (o que é comprovadamente falso ao olhar para os resultados de RNASeq de uma única célula).

Ainda estou para pensar em uma situação em que ERCC forneceria melhor resultados do que um conjunto de genes "housekeeping" amostrado a partir das leituras originais.

Por que você aumentaria o ERCC se não tem nenhum uso?

Fazemos a mesma coisa, a profundidade de sequenciamento necessária é muito pequena, por isso é barato e "melhor prevenir do que remediar".

Tentamos encontrar coisas para adicionar que significassem que não precisaríamos refazer execuções no futuro.

Um benefício potencial é que se você parece desvios extremos em certas amostras (por exemplo, uma ENORME% de leituras indo para ERCC), então você sabe que algo deu errado com os ácidos nucléicos (por exemplo, extração ruim, entrada muito baixa, etc ...).

Sim, acho que os ERCCs são um controle positivo razoável para a preparação da amostra. Esses problemas de preparação de amostra tendem a surgir por outros meios também (por exemplo, alta proporção de mapeamento ribossômico, baixa taxa de mapeamento, diferença de GC, número de transcrições expressas acima do nível X, PCA).

ⓘ

Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.

about - legalese