Questão:
Letras maiúsculas e minúsculas no genoma de referência
Scott Gigante
2017-05-24 08:26:50 UTC
view on stackexchange narkive permalink

Estou usando um genoma de referência para o mouse mm10 baixado do NCBI e gostaria de entender com mais detalhes a diferença entre letras maiúsculas e minúsculas, que constituem partes aproximadamente iguais do genoma. Eu entendo que N é usado para 'máscara rígida' (áreas no genoma que não puderam ser montadas) e letras minúsculas para 'máscara suave' em regiões repetidas.

  1. O que essa máscara suave realmente significar?
  2. Até que ponto posso ter certeza sobre a sequência nessas regiões?
  3. O que um n minúsculo representa?
Trzy respostas:
#1
+25
rightskewed
2017-05-24 11:01:33 UTC
view on stackexchange narkive permalink

O que esse mascaramento suave realmente significa?

Muitas das sequências nos genomas são repetitivas. O genoma humano, por exemplo, tem (pelo menos) dois terços de elementos repetitivos [1].

Esses elementos repetitivos são mascarados pela conversão das letras maiúsculas em minúsculas. Um importante caso de uso dessas bases com máscara suave será em pesquisas de homologia: um atatatatatat tenderá a aparecer em genomas humanos e de camundongo, mas provavelmente não é homólogo.

Quão confiante posso estar sobre a sequência nessas regiões?

Como você pode estar em posições baseadas em máscaras não soft. O mascaramento suave é feito após determinar porções no genoma que são provavelmente repetitivas. Não há incerteza se uma base particular é 'A' ou 'G', apenas que é parte de uma repetição e, portanto, deve ser representada como um 'a'.

O que significa uma letra minúscula n representa?

UCSC usa Tandom Repeat Finder e RepeatMasker para repetições potenciais de mascaramento suave. O NCBI provavelmente usa TANTAN. 'N's representa nenhuma informação de sequência disponível para essa base. Ele sendo substituído por 'n' é provavelmente um artefato do software de máscara de repetição, em que mascara suavemente um 'N' por um 'n' para indicar que parte do genoma também é provavelmente uma repetição.

[1] http://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.1002384

Resposta informativa, mas acho que é controverso dizer que o genoma humano é "(pelo menos) dois terços de elementos repetitivos"; o método das nuvens P que você cita é bastante permissivo e metade é uma figura mais comumente aceita. E o mascaramento suave não envolve mascarar todas as repetições em geral, apenas repetições intercaladas e sequências de baixa complexidade. Além disso, sempre há incerteza em torno da chamada de base e construção de montagem, e mais ainda para sequências repetitivas, embora mm10 seja uma das melhores montagens, claro ...
#2
+11
Chris_Rands
2017-05-24 13:16:19 UTC
view on stackexchange narkive permalink

O uso de letras minúsculas / maiúsculas e letras N / n em sequências de genomas não é completamente padronizado e você deve sempre verificar a especificação do recurso que está usando .

As letras minúsculas são mais comumente usadas para representar "sequências mascaradas", uma convenção popularizada por RepeatMasker, onde repetições intercaladas (que abrange transposons, retrotransposons e pseudogenes processados) e as sequências de baixa complexidade são marcadas com letras minúsculas. Observe que repetições maiores, como repetições tandem de tamanho considerável, duplicações segmentais e duplicações de genes inteiros geralmente não são mascaradas.

No entanto, existem outros usos para letras maiúsculas / minúsculas, por exemplo, Ensembl usaram letras maiúsculas / minúsculas para representar sequências exônicas e intrônicas, respectivamente.

N e n nucleotídeos podem representar “sequências mascaradas rígidas ”, Onde repetições intercaladas e sequências de baixa complexidade são substituídas por N s. Mas N / n s podem, alternativamente, representar nucleotídeos ambíguos, de fato, esta é a especificação IUPAC.

Observe também ocasionalmente ( embora, felizmente, raramente) X / x também é usado para representar nucleotídeos ambíguos ou “sequências mascaradas”.

#3
+4
Kamil S Jaron
2017-05-24 17:29:31 UTC
view on stackexchange narkive permalink
  1. Nucleotídeos em letras minúsculas geralmente denotam sequências mascaradas suaves . Como exatamente o genoma foi mascarado, você pode encontrar no FAQ do NCBI:

As sequências repetitivas em genomas eucarióticos estão mascaradas?

Sequências repetitivas em arquivos de sequência de montagem do genoma eucariótico, conforme identificado por WindowMasker, foram mascaradas para minúsculas.

A localização e identidade das repetições encontradas por RepeatMasker também são fornecidos em um arquivo separado. Esses intervalos podem ser usados ​​para mascarar as sequências genômicas, se desejado. Esteja ciente, no entanto, que muitos organismos menos estudados não têm boas bibliotecas de repetição disponíveis para uso do RepeatMasker.

  1. IMHO, regiões de baixa complexidade são sempre mais provável de ser mal montado do que sequências de alta complexidade. No entanto, isso será um problema para organismos não-modelo. Eu imagino que a confiabilidade das regiões com máscara suave do genoma do mouse será muito alta.

  2. Não faço ideia, parece um artefato.

  3. ol >

    Um exemplo de uso da máscara suave

    O mapeamento da sequência para referência geralmente começa com correspondências perfeitas de sementes (substrings) das leituras mapeadas e da sequência de referência. As regiões com máscara suave (baixa complexidade) não são utilizadas para correspondências de sementes, mas somente para a extensão do alinhamento se houver uma semente em uma região vizinha. Esta aplicação de softmasking aplicada ao problema de montagem de longa leitura é descrita neste blog.



Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.
Loading...