Projetando um esquema de banco de dados de arquivo NGS de laboratório

Gus

2017-05-22 21:32:41 UTC

view on stackexchange narkive permalink

Eu sou o residente Bioinfo Geek em um laboratório acadêmico de hospital que rotineiramente emprega NGS, bem como CyTOF e outras tecnologias de produção de dados de grande volume. Estou farto de nosso "protocolo" atual para coleta de metadados e associação com os produtos finais (planilhas miriad excel e alguns bancos de dados RedCap mal projetados).

Quero implementar um armazenamento de dados central estruturado e controlado que irá cuide disso. Sei que a interface com os técnicos de como estarão inserindo os dados é fundamental para sua adoção, mas esse não é o foco desta pergunta em particular: Existe um esquema ou diretrizes de esquema para este tipo de banco de dados?

Prefiro usar um modelo desenvolvido por pessoas que sabem fazer isso bem. Eu conheço o BioSQL, mas parece mais voltado para registros completos de proteínas / nucleotídeos como aqueles encontrados em uniprot ou genbank. Não é isso que temos aqui. O que eu quero é algo semelhante ao sistema abordado neste preprint: http://biorxiv.org/content/early/2017/05/10/136358

Alternativamente, Alguém pode fornecer links para onde eu possa encontrar diretrizes relevantes ou fornecer conselhos pessoais?

Você deseja armazenar dados processados ou não? Qual seria um exemplo de formato de arquivo que você tentaria capturar?

Isso é principalmente para organização de dados primários: obtemos 800 BAMs de WES e eu quero a localização do arquivo de cada BAM associado a metadados como: PROJECT, READ_LENGTH, SAMPLE_NAME, FAMILY_ID, DATA_TYPE, DIAGNOSIS, etc.

Olá Gus, também estamos fazendo a mesma pesquisa e criamos essa pergunta no Biostars, diga-nos se você encontrou algo! https://www.biostars.org/p/350514/

CREATE TABLE Projeto (ac TEXT, - projeto / acesso de estudo PRIMARY KEY ( ac)); CREATE TABLE Sample (- amostra biológica / biópsia ac TEXT, PRIMARY KEY (ac)); CREATE TABLE AnalysisSample (prj_ac TEXT, - projeto acccession (Project.ac) símbolo TEXT, - um nome curto exclusivo em o projeto sample_ac TEXT, - amostra de acesso (Sample.ac) PRIMARY KEY (prj_ac, símbolo)); CREATE TABLE Collection (- um arquivo BAM ac TEXT, - coleção / alinhamento de arquivo de acesso prj_ac TEXT, - project access ( Project.ac) PRIMARY KEY (ac)); CRIAR TABELA ReadGroup (cl_ac TEXT, - acesso de coleção (Collection.ac) rg_id TEXT, - @ RG-ID sample_sym TEXT, - @ RG-SM; correspondente AnalysisSample.symbol PRIMARY KEY (cl_ac, rg_id)); CREATE TABLE VariantSet (- um arquivo VCF ac TEXT, - VCF file access prj_ac TEXT, - project access (Project.ac) PRIMARY KEY (ac)); CRIAR TABELA Va riantSample (vs_ac TEXT, - acesso ao arquivo VCF (VariantSet.ac) sample_sym TEXT, - símbolo de amostra no arquivo VCF; correspondência AnalysisSample.symbol PRIMARY KEY (vs_ac, sample_sym));