Estou tentando construir o pipeline de pré-processamento apresentado em The Tabula Muris Consortium et al. (pp).
É um pipeline para pré-processar dados de sequenciamento de célula única. Há uma etapa que não está clara:
As contagens foram normalizadas por log (log (1 + contagens por N)) e, em seguida, dimensionadas por regressão linear em relação ao número de leituras (ou UMIs), a porcentagem de leituras mapeando para Rn45s e a porcentagem de leituras para genes ribossomais.
Eu entendo a primeira parte (presumo que o log neste contexto seja log2), mas preciso de ajuda sobre entender como dimensionar por regressão linear em relação ao número de leituras, a porcentagem de leituras mapeando para Rn45s e a porcentagem de leituras para genes ribossômicos.