Escalonamento por regressão linear em relação ao número de leituras

gc5

2017-12-28 03:24:17 UTC

view on stackexchange narkive permalink

Estou tentando construir o pipeline de pré-processamento apresentado em The Tabula Muris Consortium et al. (pp).

É um pipeline para pré-processar dados de sequenciamento de célula única. Há uma etapa que não está clara:

As contagens foram normalizadas por log (log (1 + contagens por N)) e, em seguida, dimensionadas por regressão linear em relação ao número de leituras (ou UMIs), a porcentagem de leituras mapeando para Rn45s e a porcentagem de leituras para genes ribossomais.

Eu entendo a primeira parte (presumo que o log neste contexto seja log2), mas preciso de ajuda sobre entender como dimensionar por regressão linear em relação ao número de leituras, a porcentagem de leituras mapeando para Rn45s e a porcentagem de leituras para genes ribossômicos.

Você contatou os autores do artigo? Eles seriam capazes de lhe dar uma resposta melhor, e seus comentários / perguntas os ajudariam a melhorar o artigo quando publicado corretamente.

@gringer Você está certo, postei aqui porque pensei que havia algum procedimento padrão.

A regressão linear é direta o suficiente, mas regredir contra apenas três valores (se estou interpretando isso corretamente) é uma receita para o desastre (parece muito pior do que até mesmo os picos de ERCC ... e esses não são exatamente ideais )

@DevonRyan ignorando agora o pequeno número de valores de regressão, como você escala usando a regressão linear? Não consigo ver como a regressão linear é usada neste caso. Você pode elaborar mais (talvez com uma resposta)?

Você descobriu como eles pré-processaram os dados da tabula muris?

@yuqi_yuqi consulte https://bioinformatics.stackexchange.com/a/3225/1771