O objetivo de uma filogenia é estimar o número "esperado" de mutações entre todos os taxa na análise e seus ancestrais comuns hipotéticos. Uma análise de agrupamento identificará apenas as mutações "observadas" e as mutações "esperadas" e "observadas" podem ser muito diferentes devido ao principal artefato de mutação de reversão. Isso é particularmente verdadeiro para filogenias de nucleotídeos.
A principal diferença entre algoritmos de agrupamento baseados em uma matriz de distância "não corrigida" e a filogenia é que a última é baseada em um modelo explícito para acomodar mutações de reversão. O verdadeiro problema é que existem apenas 4 bases, então, aleatoriamente, há 1/4 de chance de uma mutação em uma determinada posição sofrer mutação de volta para o original, por exemplo A-> C-> A. Diferenças mutacionais observadas = 0, diferenças mutacionais esperadas (reais) = 2. O que preocupa a filogenia é reconstruir esse "2". O problema é significativo porque quase todos os genes têm regiões de mutações rápidas e regiões de mutações baixas.
A principal maneira de fazer isso é por meio da correção de Jukes-Cantor e é fundamental em todas as árvores de nucleotídeos esperadas por "distâncias p". Se a divergência de nucleotídeos for inferior a 75%, então é possível estimar o número esperado de mutações usando o observado por meio da correção JC. Além disso, quando combinada com um método de estimativa da variação da taxa dentro de um gene (geralmente a distribuição gama discreta), a correção JC é muito eficaz na recuperação da "árvore verdadeira". Isso ocorre porque sites homólogos de evolução rápida são agrupados - grande correção via JC, sites de evolução lenta são agrupados - pequena correção via JC. Outras abordagens para melhorar a correção de JC são por meio da identificação do viés entre mutações de purina para purina e mutações de pirimidina para pirimidina e purina para pirimidina.
A importância de JC foi demonstrada por estudos de simulação de 4 táxons ((a, b), (c, d)), se duas linhagens evoluíram muito rapidamente quando as linhagens irmãs evoluem lentamente, um algoritmo de agrupamento relatará que as linhagens rápidas são um grupo irmão, isto é ((b, c), (a, d)). Se o método JC for implementado via máxima verossimilhança (ou Bayesiana), ele recupera corretamente a árvore verdadeira ((a, b), (c, d)). O artefato é conhecido como atração de ramo longo.
Os algoritmos de agrupamento baseados em uma matriz de distância que implementa a correção JC tendem a ter um desempenho ruim para artefatos de atração de ramos longos. Isso não significa que a correção seja inútil, apenas não particularmente poderosa. O problema é que os métodos da matriz de distância não "aderem" ao modelo e o agrupamento introduzirá uma camada de imprecisão. Normalmente, a apresentação de uma matriz de distância "corrigida" combinada com um algoritmo de agrupamento exigirá bootstrapping (reamostragem com substituição) para avaliar se um determinado agrupamento é compatível. Matrizes de distância parametrizadas, usando agrupamento de união de vizinho em conjunto com um bootstrap são consideradas corretas.
O @ user172818 mencionou a parcimônia e este método é considerado menos confiável porque não pode implementar uma correção JC. OMI, é possível que a parcimônia ponderada possa "voltar", mas seria realmente complicado implementar um método de ponderação biológica e exigiria cálculos extensos e independentes.