Recebi um conjunto de dados de C.Elegans scRNA-seq
papel:
GSM2599701_Gene.count .matrix.celegans.cell.Rdata
em GSE98561_RAW.tar
O conjunto de dados é 40 000 x 68 000
, onde as linhas representam genes e colunas - células. Então, peguei e tentei me processar para construir um pipeline scRNA-seq
. Aqui está o que eu fiz:
-
Eu filtrei os genes que têm contagem zero em todas as células e o conjunto de dados foi reduzido para
29.000 x 68.000
-
Eu removi todas as células com contagens
< 100
em todos os genes - o conjunto de dados tornou-se29 000 x 66 000
-
Então, como o conjunto de dados era muito grande para executar a normalização, mesmo no cluster com
120 Gb
RAM (porque existem vários tipos distintos de células, primeiro o agrupamento precisa ser feito), selecionei apenas as colunas pares e executei a normalização com o conjunto de dados29 000 x 33 000
(UMI_count
):library (scran) library (scater) sce <- newSCESet (countData = UMI_count) clusters <- quickCluster (sce) sce <- computeSumFactors (sce, clusters = clusters, positivo = TRUE)
Depois de executar o código acima, decidi verificar se os dados estão corretos e então executei:
> summa ry (sizeFactors (sce)) Min. 1º Qu. Mediana Média 3º Qu. Máx. 0,0000 0,0000 0,0000 0,0717 0,0000 33,3900
Eu também executei PCA
no conjunto de dados normalizado e parece assim:
Parece-me que o conjunto de dados normalizado é péssimo e preciso fazer mais alguns processamentos antes de fazer análises adicionais. O que mais eu poderia fazer para melhorá-lo? Como filtrar? Não existem genes mitocondriais spike-ins
e talvez 200
. A abordagem descrita aqui não funciona, provavelmente porque a maioria das células tem baixo número de genes expressos:
Tentei remover genes de baixa abundância após a normalização, mas parece que a maioria deles será removida:
>ave.counts <- rowMeans (contagens (sce)) >keep < - ave.counts > = 1>sum (manter) 109
Devo filtrar todas as células - colunas - por até 500
contagem total de expressão gênica em vez de 100 ? É uma boa ideia? Não consigo pensar em mais nada.