Questão:
Menor tamanho de grupo para expressão diferencial em limma (bulk RNA-Seq)
gc5
2018-05-24 19:30:03 UTC
view on stackexchange narkive permalink

Estou lendo Smyth et al. (ref. 1). Eu quero executar uma análise de expressão diferencial em um conjunto de dados RNA-Seq em massa no qual cada grupo é composto por 2 amostras. No artigo citado anteriormente está escrito que:

Os genes devem ser expressos em pelo menos um grupo (ou em pelo menos três amostras em todo o experimento, onde três foram escolhidos como este é o menor tamanho de grupo ) a ser mantido para análise posterior.

É possível usar a análise limma DE também com grupos compostos por apenas 2 amostras? NB. É possível que neste conjunto de dados em particular o menor tamanho do grupo seja 3.

Se não, qual alternativa devo usar?

Atualizar

Tenho 17 amostras . Minha ideia é testar um grupo versus o resto dos grupos (todos juntos). Portanto, pelo menos o grupo de referência seria composto por> 10 amostras. Nesse caso, o que pode ser uma análise viável para DE?

  1. Smyth, GK, Law, CW, Alhamdoosh, M., Su, S. & Ritchie, ME RNA-seq a análise é tão fácil quanto 1-2-3 com limma, Glimma e edgeR. F1000Research 5, 1408 (2016).
Dois respostas:
llrs
2018-05-24 19:43:57 UTC
view on stackexchange narkive permalink

O problema com a maioria dos métodos é que usam a variância do gene para cada grupo, que não pode ser calculada (confiável) quando a amostra é < = 2. Além disso, estatisticamente, teria um poder extremamente baixo, então o conclusões não eram muito confiáveis.

Você também pode calcular a alteração de dobra "bruta" por si mesmo (ou seja, sem a estimativa de variância e ajuste). Se você tivesse mais uma amostra por grupo, poderia usar o DESeq2 que foi pensado para tais casos. Mas a partir do artigo:

No entanto, se houver duas ou menos réplicas para uma condição, essas amostras não contribuem para a detecção de valores discrepantes, pois não há replicações suficientes para determinar o status de valores discrepantes. >

O que me deixa inseguro se funcionará bem para apenas duas amostras, pois não ajudará a detectar genes discrepantes.

Obrigado. Eu atualizei minha pergunta. Em particular, eu estava pensando em usar sua sugestão e apenas pegar a mudança bruta de dobra. É correto tomar genes que são considerados outliers (por exemplo,> 3 StD) ao comparar o grupo com o resto das amostras?
O problema com um número tão pequeno de amostras é que é difícil saber o que é um outlier e o que é "normal". Se você comparar 2 contra 15, ainda terá dois problemas. 1) você ainda precisa calcular a variância para o grupo dos 2, que tem o mesmo problema do inicial e 2) a comparação será significativa? Se você os considerou grupos diferentes, há um motivo, se você os misturar, isso o ajudará a entender quais são as diferenças entre eles.
Você poderia mostrar as amostras e os dados relevantes sobre essas amostras (a que grupos, a que pertencem, se são réplicas biológicas ou técnicas ou as diferenças entre as condições, ...) para ajudá-lo melhor.
O conjunto de dados que estou usando é este no GEO (https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE109125). Ainda não há citação e não encontrei nos metadados se são réplicas biológicas ou técnicas. No entanto, acho que são réplicas biológicas. O grupo é a primeira parte do nome da amostra (antes do sinal '#'). A matriz normalizada completa pode ser baixada aqui: ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE109nnn/GSE109125/suppl/GSE109125%5FGene%5Fcount%5Ftable%2Ecsv%2Egz
Isso pode parecer óbvio, mas você pode fornecer algum contexto na resposta sobre por que a variância não pode ser calculada de forma confiável quando a amostra é <= 2?
@gc5 Com menos de 2 você não tem variância, e com apenas 2 não é bom o suficiente, pois é definido pela diferença entre os pontos e a média, e se você adicionar outro ponto você adiciona 33% a mais dados! Mas essa seria uma boa pergunta para stats.SE, que poderia dar uma resposta mais razoável e detalhada do que eu: \
heathobrien
2018-05-24 21:07:56 UTC
view on stackexchange narkive permalink

Embora eu compartilhe da preocupação de Llopis em estimar a variação de 2 amostras, a declaração que você citou é sobre como evitar falsos positivos de genes que são expressos apenas em algumas amostras. É bastante comum excluir genes que se expressam em menos amostras do que o menor grupo, mesmo que o número de amostras por grupo seja muito maior do que 3.

Bom ponto, obrigado. Eu também acho que a frase significa isso neste caso específico.


Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 4.0 sob a qual é distribuído.
Loading...