Melhore o conjunto de dados scRNA-seq para análise posterior

Nikita Vlasenko

2018-01-06 06:10:02 UTC

view on stackexchange narkive permalink

Recebi um conjunto de dados de C.Elegans scRNA-seq papel:

GSM2599701_Gene.count .matrix.celegans.cell.Rdata em GSE98561_RAW.tar

O conjunto de dados é 40 000 x 68 000 , onde as linhas representam genes e colunas - células. Então, peguei e tentei me processar para construir um pipeline scRNA-seq . Aqui está o que eu fiz:

Eu filtrei os genes que têm contagem zero em todas as células e o conjunto de dados foi reduzido para 29.000 x 68.000
Eu removi todas as células com contagens < 100 em todos os genes - o conjunto de dados tornou-se 29 000 x 66 000
Então, como o conjunto de dados era muito grande para executar a normalização, mesmo no cluster com 120 Gb RAM (porque existem vários tipos distintos de células, primeiro o agrupamento precisa ser feito), selecionei apenas as colunas pares e executei a normalização com o conjunto de dados 29 000 x 33 000 ( UMI_count ):
```
  library (scran) library (scater) sce <- newSCESet (countData = UMI_count) clusters <- quickCluster (sce) sce <- computeSumFactors (sce, clusters = clusters, positivo = TRUE)  
```

Depois de executar o código acima, decidi verificar se os dados estão corretos e então executei:

  > summa ry (sizeFactors (sce)) Min. 1º Qu. Mediana Média 3º Qu. Máx. 0,0000 0,0000 0,0000 0,0717 0,0000 33,3900

Eu também executei PCA no conjunto de dados normalizado e parece assim:

Parece-me que o conjunto de dados normalizado é péssimo e preciso fazer mais alguns processamentos antes de fazer análises adicionais. O que mais eu poderia fazer para melhorá-lo? Como filtrar? Não existem genes mitocondriais spike-ins e talvez 200 . A abordagem descrita aqui não funciona, provavelmente porque a maioria das células tem baixo número de genes expressos:

Tentei remover genes de baixa abundância após a normalização, mas parece que a maioria deles será removida:

  >ave.counts <- rowMeans (contagens (sce)) >keep < - ave.counts > = 1>sum (manter) 109

Devo filtrar todas as células - colunas - por até 500 contagem total de expressão gênica em vez de 100 ? É uma boa ideia? Não consigo pensar em mais nada.

Você olhou para os dados não normalizados (via PCA para verificar se a normalização não manipulou esses conjuntos de dados corretamente)? Que tipo de células existem? Eles são de várias linhagens celulares, estágios ou doenças?

Se você olhar a seção de amostras desse GSE, poderá descobrir que existem "células c.elegans (estágio L2)", "mistura de células HEK293T, HeLa S3 e NIH / 3T3" e "HEK293T fixo congelado e NIH / 3T3 mix de células ", então você pode precisar de

O que acontece se você soltar as células nas 25 ou 50% inferiores das leituras sequenciadas (e talvez em algumas das primeiras também)? Suspeito que qualquer coisa que restrinja a gama de fatores de tamanho levará a resultados mais limpos.

Várias linhas de células, várias dúzias talvez. É por isso que precisamos primeiro fazer o cluster. Estas são todas as células em C.Elegans. Se você olhar para o arquivo compactado bruto, lá você pode encontrar o conjunto de dados (veja o topo da questão). Antes da normalização, o PCA parecia da seguinte maneira: https://bioinformatics.stackexchange.com/questions/3115/filter-out-pca-outliers-automatically Definitivamente ficou melhor após a normalização, se você olhar para a variação% do PC1 e PC2 , mas ainda não é eficaz

@DevonRyan Não tenho certeza do que você quer dizer com relação aos fatores de tamanho. Você poderia explicar isso mais detalhadamente?

Você usou a função `sizeFactors ()` em sua postagem, quero dizer, sua saída.