Pooling data in metagenome assembly

Questão:

Pooling data in metagenome assembly

deepseas

2017-06-29 21:24:27 UTC

view on stackexchange narkive permalink

Tenho 12 leituras WGS Nextseq do microbioma intestinal humano (extremidade emparelhada de 151 bp). Qual será uma estratégia eficaz para montar um metagenoma?

Digamos que eu já tenha filtrado o fastq quanto à qualidade, sequência do adaptador e contaminação do hospedeiro (humano, neste caso).

1) Devo concatenar todas as leituras de R1 como uma única leitura de R1 e uma única leitura de R2?

  cat Sample [1..12] .R1 > Single_R1. fastqcat Sample [1..12] .R2 > Single_R2.fastq

e então usar Diginorm para normalizar Single_R1.fastq e Single_R2.fastq. Posteriormente, alimente esses arquivos fastq em qualquer montador de metagenoma, como Megahit, MetaSPAdes?

Normalize a saída usando CD-HIT ou ferramenta semelhante para remover duplicatas e filtrar por comprimento de contig.

OU

2) Execute a montagem do metagenoma para cada uma das amostras individualmente após a aplicação da filtragem, removendo os adaptadores e a contaminação do hospedeiro.

  R1 = (* _ R1_001.filtered.fastq) R2 = (* _ R2_001.filtered.fastq) para ((i = 0; i< = $ {# R1 [@]}; i ++) ); do / bin / metagenome-assembler -1 "$ {R1 [i]}" -2 "$ {R2 [i]}" -o $ {R1 [i]%. *}. contigs.fa; done

Seguido pela combinação de todos os contigs.fa em um mega_contigs.fa

  cat * .contigs.fa > Mega_contigs.fa

e use o CD-HIT ou ferramenta semelhante para remover duplicatas.

Acho que reunir dados separadamente é uma ideia melhor, pois haverá mais ruído nos sinais combinados de diferentes indivíduos e também em termos de recursos. No entanto, eu acho que você não deve apenas fazer montagens de gatos juntos, você quer evitar redundância (descarte o que é compartilhado entre os indivíduos), embora não tenha certeza absoluta de como fazer isso.

Trzy respostas:

Jeff Kimbrel

2017-07-04 02:16:20 UTC

view on stackexchange narkive permalink

Se o seu objetivo é agrupar os contigs resultantes em genomas, você deve fazer a opção nº 1, agrupar as leituras e montar em um conjunto de contigs.

DRL

2017-08-01 02:12:28 UTC

view on stackexchange narkive permalink

Também acho que o pooling é a melhor opção, seguido pelo particionamento por cobertura / taxonomia de contigs.

Talvez dê uma olhada no BlobTools, que ajuda a filtrar pares de leitura por taxonomia de contigs para os quais eles contribuem e também faz boas visualizações de montagens.

Fluxo de trabalho B parece ser o que você deseja.

Aviso de isenção de responsabilidade: eu sou o desenvolvedor desta ferramenta.

Edward Kirton

2018-03-01 13:24:44 UTC

view on stackexchange narkive permalink

Com metagenomas, existem várias estratégias e nenhum tamanho único. Você pode gastar muito tempo brincando com os dados para tentar obter a "melhor montagem". Mas depende do que você está tentando fazer, por exemplo, se você está ou não mais interessado nas espécies mais abundantes ou nas menos abundantes também.

Mas para propor uma estratégia que pareça razoável e ainda não tenha sido mencionada, meu pensamento inicial é que, como o microbioma intestinal não é complexo, você provavelmente pode obter montagens decentes de cada execução separadamente. Em seguida, você pode executar um algoritmo de agrupamento de contig (por exemplo, MetaBAT) para armazenar os contigs em genomas. Em seguida, compare as caixas dos vários conjuntos (ou seja, agrupe os clusters).

Pode ou não valer a pena tentar combinar os contigs dos compartimentos relacionados em uma sequência de consenso (pan) do genoma. Se você quiser, os métodos que foram usados com sucesso incluem a fragmentação dos contigs em pedaços sobrepostos e a montagem com um montador OLC. Mas se você estiver interessado em KO: read-counts (por exemplo), uma sequência de genoma de consenso não é realmente necessária. O mapeamento cruzado das leituras desmontadas também pode ser útil (ou seja, uma amostra pode ter uma OTU de baixa abundância que não produz bons contigs, mas pode ser associada a uma OTU que é melhor montada em outra amostra).

Se você fornecer mais detalhes sobre sua meta, posso comentar mais detalhadamente.

ⓘ

Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.

about - legalese

Loading...