Realizei uma análise de enriquecimento para um grupo de genes. A saída é uma lista de caminhos e seu valor p (os caminhos são selecionados porque o valor p < 0,05). A lista ainda é bastante longa, então quero reduzi-la. Para isso, calculei o coeficiente de Dice das vias em uma matriz $ p $ x $ p $ onde $ p $ é o número de vias na lista. Eu quero os que são mais diferentes (eles se sobrepõem menos, seu coeficiente de Dice é menor) e as vias mais representativas das vias mais semelhantes (então, se houver um grupo de 5 vias que se sobrepõem em 0,8, escolha apenas uma).
Como posso selecionar os caminhos mais representantes?
Existe uma ferramenta semelhante para GO, mas ela se baseia no descarte de GO não significativo, enquanto aqui todos os caminhos iniciais já são significativos.
Se eu fizer um agrupamento das vias usando a matriz de coeficiente de dados, não sei onde (ou como) cortar.
Tentei usar a altura para selecionar os caminhos. Mas não tenho certeza da interpretação da altura.
Algumas outras ferramentas que vi usam um gráfico de escala multidimensional, mas não tenho certeza se realizá-lo e cortar em determinado ponto da primeira dimensão ajudaria.