Questão:
Como exatamente o "comprimento efetivo" é usado no FPKM é calculado?
user172818
2017-06-02 00:49:22 UTC
view on stackexchange narkive permalink

De acordo com esta famosa postagem do blog, o tamanho efetivo da transcrição é:

$ \ tilde {l} _i = l_i - \ mu $

onde $ l_i $ é o comprimento da transcrição e $ \ mu $ é o comprimento médio do fragmento. No entanto, normalmente o comprimento do fragmento é de cerca de 300 bp. E se a transcrição $ l_i $ for menor que 300? Como você calcula o comprimento efetivo neste caso?

Uma questão relacionada: ao calcular o FPKM de um gene, como escolher uma transcrição? Escolhemos uma transcrição "canônica" (como?) Ou combinamos os sinais de todas as transcrições para um FPKM em nível de gene?

Trzy respostas:
#1
+14
Devon Ryan
2017-06-02 01:03:41 UTC
view on stackexchange narkive permalink

O comprimento efetivo é $ \ tilde {l} _i = l_i - \ mu + 1 $ (observe o código R na parte inferior da postagem do blog de Harold), que no caso de $ \ mu < l_i $ deve ser 1 . Idealmente, você usaria o comprimento médio do fragmento mapeado para o recurso específico, em vez de $ \ mu $ global, mas isso é muito mais trabalhoso para um benefício provável.

Quanto à escolha de uma transcrição específica, o ideal seria usar um método como salmão ou kallisto (ou RSEM se você tiver tempo para matar). Caso contrário, suas opções são (A) escolher a isoforma principal (se for conhecida em seu tecido e condição) ou (B) usar um "modelo de gene de união" (somar os comprimentos de exon não redundantes) ou (C) obter a transcrição mediana comprimento. Nenhuma dessas três opções faz muita diferença se você estiver comparando as amostras, embora sejam todas inferiores a um salmão / kallisto / etc. métrica.

Por que salmon et al. melhores métodos? Eles não usam métricas arbitrárias que serão as mesmas nas amostras para determinar o comprimento do recurso. Em vez disso, eles usam a maximização da expectativa (ou algo semelhante, já que pelo menos o salmão não usa o EM) para quantificar o uso de isoformas individuais. O comprimento efetivo do gene em uma amostra é então a média dos comprimentos do transcrito após ponderação para sua expressão relativa (sim, deve-se remover $ \ mu $ lá). Isso pode variar entre as amostras, o que é bastante útil se você tiver uma troca de isoforma entre as amostras / grupos de forma que os métodos AC acima falhem (pense nos casos em que a troca é para uma transcrição menor com cobertura mais alta sobre ela ... resultando na cobertura / comprimento nos métodos AC a serem compactados).

Mas `\ tilde {l}` é um denominador. Configurá-lo como 1 aumentaria drasticamente o valor para transcrições curtas. Isso parece perigoso para mim ... Além disso, você poderia esclarecer qual é a vantagem do salmão / calisto em relação ao A / B / C? Obrigado.
Transcrições curtas têm FPKMs absurdamente altos, é uma das coisas inúteis sobre FPKMs. Vou atualizar a pergunta sobre salmão / kallisto / etc.
#2
+10
nomad
2017-06-18 23:04:10 UTC
view on stackexchange narkive permalink

Tenho uma postagem no blog que descreve o comprimento efetivo (assim como essas diferentes unidades de abundância relativa). A breve explicação é que o que as pessoas chamam de "comprimento efetivo" é na verdade o comprimento efetivo esperado (ou seja, a expectativa, em um sentido estatístico, do comprimento efetivo). A noção de comprimento efetivo é, na verdade, uma propriedade de uma transcrição, par de fragmentos, e é igual ao número de locais iniciais potenciais para um fragmento deste comprimento na transcrição dada. Se você pegar a média de todos os mapeamentos de fragmentos para uma transcrição (potencialmente ponderada pela probabilidade condicional desse mapeamento), essa quantidade é o comprimento efetivo esperado da transcrição. Geralmente é aproximado simplesmente de $ l_i - \ mu $ ou $ l_i - \ mu_ {l_i} $ --- onde $ \ mu_ {l_i} $ é a média da distribuição condicional do comprimento do fragmento (condicionado ao tamanho do fragmento ser < $ l_i $ para explicar exatamente o problema que você levantou).

#3
+4
Kristoffer Vitting-Seerup
2017-06-16 16:01:15 UTC
view on stackexchange narkive permalink

Para a parte do comprimento efetivo, consulte a resposta de Devons. Eu só tenho uma pequena adição: Kallisto / Salmon / RSEM incorpora todas as estimativas de polarização no comprimento efetivo, o que significa que o comprimento efetivo não apenas representa a polarização de comprimento se você pegar os valores dessas ferramentas (dado que eles foram executados com os algoritmos de polarização ativados naturalmente ).

Com relação à obtenção de estimativas de nível de gene, você não deve escolher uma transcrição específica. Em vez disso, você deve extrair / calcular o RPKM / FPKM / TxPM (transcrição por milhão que Kallisto / Salmon / RSEM produz) para cada transcrição e somá-los para obter a estimativa do nível do gene.



Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.
Loading...