Questão:
Como selecionar as vias mais representativas de uma análise de enriquecimento de genes?
llrs
2017-05-26 19:07:00 UTC
view on stackexchange narkive permalink

Realizei uma análise de enriquecimento para um grupo de genes. A saída é uma lista de caminhos e seu valor p (os caminhos são selecionados porque o valor p < 0,05). A lista ainda é bastante longa, então quero reduzi-la. Para isso, calculei o coeficiente de Dice das vias em uma matriz $ p $ x $ p $ onde $ p $ é o número de vias na lista. Eu quero os que são mais diferentes (eles se sobrepõem menos, seu coeficiente de Dice é menor) e as vias mais representativas das vias mais semelhantes (então, se houver um grupo de 5 vias que se sobrepõem em 0,8, escolha apenas uma).

Como posso selecionar os caminhos mais representantes?

Existe uma ferramenta semelhante para GO, mas ela se baseia no descarte de GO não significativo, enquanto aqui todos os caminhos iniciais já são significativos.

Se eu fizer um agrupamento das vias usando a matriz de coeficiente de dados, não sei onde (ou como) cortar.

circular dendrogara

Tentei usar a altura para selecionar os caminhos. Mas não tenho certeza da interpretação da altura.

Algumas outras ferramentas que vi usam um gráfico de escala multidimensional, mas não tenho certeza se realizá-lo e cortar em determinado ponto da primeira dimensão ajudaria. MDS plot

Você está usando o valor de p <0,05 ou o valor de p <0,05 / (# de termos testados)? Você vai querer usar o primeiro para evitar falsos positivos devido a vários testes
Estou supondo que você terá que se contentar com uma solução heurística "razoavelmente boa", uma vez que existem algumas variáveis ​​diferentes no problema que você está tentando resolver (número de caminhos no grupo, sobreposição / distância desejada entre os caminhos, etc. .) Posso imaginar muitas respostas possíveis.
A correção de @CloudyGloudy para testes múltiplos já foi feita, desculpe não ter mencionado isso anteriormente. Sim, eu estava brincando com a ideia de selecionar uma sobreposição / distância de 0,5 e manter aquelas acima disso, mas isso deixaria de fora os caminhos que são completamente diferentes dos outros, mas talvez eu pudesse selecionar aqueles acima de 0,75 e aqueles abaixo de 0,25
Trzy respostas:
#1
+4
gringer
2017-05-28 15:23:34 UTC
view on stackexchange narkive permalink

Isso soa como algo que pode ser adequado para um gráfico de mapa de calor agrupado, um gráfico de matriz de correlação ou algo semelhante. Você já olhou para uma matriz de correlação da matriz de coeficiente de dados (ou talvez apenas um gráfico de mapa de calor dessa matriz sem a matriz de correlação)?

O pacote corrplot parece que pode ser útil, em particular o hclust / apresentação de retângulos de desenho.

No entanto, não posso garantir este pacote; é apenas algo que encontrei em uma pesquisa por "matriz de correlação do gráfico R".

Com um mapa de calor ou um gráfico de correlação, pude observar as semelhanças entre as vias, como faço atualmente com o dendrograma e o gráfico MDS. No entanto, a questão é como selecionar essas vias mais representativas. Obrigado por suas correções e comentários btw.
#2
+3
benn
2017-12-12 18:38:49 UTC
view on stackexchange narkive permalink

Uma maneira de agrupar vias significativas semelhantes é quantificar quantos genes se sobrepõem entre as vias e, em seguida, usar isso no agrupamento (mapa de calor). Eu fiz uma ferramenta em R que calcula o índice de sobreposição entre os termos GO e subsequentemente os agrupa em um mapa de calor. O índice de sobreposição é a fração de genes que se sobrepõem (número entre 0-1). Além disso, a correlação de Pearson pode ser usada para agrupamento em vez do índice de sobreposição. Meu pacote ( gogadget) funciona apenas com a análise goseq, mas você pode usar goseq também para reactome ou dados kegg.

Eu usei esse agrupamento de sobreposição abordagem para diferentes conjuntos de dados agora, e geralmente podemos reduzir 200-300 termos GO em 10-20 grupos funcionais.

Qual índice de sobreposição ele usa? Existem vários índices de sobreposição. Eu não aconselharia o uso dessa abordagem no GO, pois existem métodos específicos para medir a semelhança entre dois termos GO. Consulte [GOSemSim] (www.bioconductor.org/packages/GOSemSim/).
O índice de sobreposição é definido pelo número de genes sobrepostos dividido pelo número de genes no menor dos dois conjuntos de genes. É descrito em [Bioconductor Case studies] (http://www-huber.embl.de/pub/pdf/HahneHuberGentlemanFalcon2008.pdf), capítulo 13.3. Este livro foi escrito por grandes nomes da bioinformática (como R. Gentleman e W. Huber).
Obrigado pelo novo índice de sobreposição, eu não sabia. BTW, a forma como essas semelhanças entre genes são calculadas é usando outros índices de sobreposição, então isso não vai ajudar.
Ok, mas meu ponto não é sobre qual índice usar, mas a abordagem de agrupamento (o mesmo que [gringer] (https://bioinformatics.stackexchange.com/users/73/gringer) está sugerindo). Se você olhar no [userguide] (https://sourceforge.net/projects/gogadget/files/gogadget.2.1/) do meu pacote na página 26-28, você verá um mapa de calor. Normalmente, consigo bons resultados com Ward.D e Euclidean. A árvore pode ser cortada em R, mas primeiro você pode querer ver e avaliar quais conjuntos de genes estão agrupados em quais ramos antes de encontrar o corte certo.
Desculpe, meu último comentário foi pensando em outra pergunta. Sim, esta abordagem pode funcionar
#3
+2
Scott Gigante
2017-05-27 15:43:35 UTC
view on stackexchange narkive permalink

Se você estiver satisfeito com uma classificação mais confiável dos conjuntos de genes mais representativos, em vez de necessariamente reduzir a lista, experimente o EGSEA. Ele usa uma abordagem de conjunto para fornecer uma classificação dos conjuntos de genes mais relevantes e também produz uma saída HTML interativa com estatísticas, mapas de calor, mapas de caminhos, gráficos de resumo e gráficos GO que permitem examinar a saída em vários níveis de granularidade.

Você pode ler o artigo em bioRxiv ou baixar o pacote em Bioconductor.

A classificação já está feita, através do valor p (pode-se argumentar que um teste mais elaborado como o proposto pela EGSEA seria melhor) mas isso não parece responder como selecionar caminhos relevantes a partir da saída do EGSEA ou outro software / tools / methods
Você não deve ser classificado por valor-p. O valor p é apenas uma indicação de se a mudança observada é estatisticamente significativa, não uma indicação da magnitude da mudança observada.


Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.
Loading...