Questão:
Escalonamento por regressão linear em relação ao número de leituras
gc5
2017-12-28 03:24:17 UTC
view on stackexchange narkive permalink

Estou tentando construir o pipeline de pré-processamento apresentado em The Tabula Muris Consortium et al. (pp).

É um pipeline para pré-processar dados de sequenciamento de célula única. Há uma etapa que não está clara:

As contagens foram normalizadas por log (log (1 + contagens por N)) e, em seguida, dimensionadas por regressão linear em relação ao número de leituras (ou UMIs), a porcentagem de leituras mapeando para Rn45s e a porcentagem de leituras para genes ribossomais.

Eu entendo a primeira parte (presumo que o log neste contexto seja log2), mas preciso de ajuda sobre entender como dimensionar por regressão linear em relação ao número de leituras, a porcentagem de leituras mapeando para Rn45s e a porcentagem de leituras para genes ribossômicos.

Você contatou os autores do artigo? Eles seriam capazes de lhe dar uma resposta melhor, e seus comentários / perguntas os ajudariam a melhorar o artigo quando publicado corretamente.
@gringer Você está certo, postei aqui porque pensei que havia algum procedimento padrão.
A regressão linear é direta o suficiente, mas regredir contra apenas três valores (se estou interpretando isso corretamente) é uma receita para o desastre (parece muito pior do que até mesmo os picos de ERCC ... e esses não são exatamente ideais )
@DevonRyan ignorando agora o pequeno número de valores de regressão, como você escala usando a regressão linear? Não consigo ver como a regressão linear é usada neste caso. Você pode elaborar mais (talvez com uma resposta)?
Você descobriu como eles pré-processaram os dados da tabula muris?
@yuqi_yuqi consulte https://bioinformatics.stackexchange.com/a/3225/1771
Um responda:
DCZ
2018-04-20 12:52:05 UTC
view on stackexchange narkive permalink

Não sei se essa questão já foi resolvida, mas o que eles tentam fazer é igualar a profundidade do sequenciamento para cada célula. Portanto, eles escalam para o número total de leituras. Se você regredir (por meio de regressão linear ou binomial negativa) as diferenças no número de leituras por célula, você acaba com células que foram sequenciadas com a mesma profundidade.

Na minha opinião, eles usam os genes ribossomais da mesma maneira. Eles são considerados uma espécie de genes de manutenção, que você pode usar para equalizar a profundidade de sequenciamento.

E sim, o log neste contexto é log2, usado para obter valores de alteração de dobra em vez de contagens.



Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.
Loading...