Modelos extremamente esparsos de desequilíbrio de ligação em estudos de associação ancestralmente diversos
LarLar > blog > Modelos extremamente esparsos de desequilíbrio de ligação em estudos de associação ancestralmente diversos

Modelos extremamente esparsos de desequilíbrio de ligação em estudos de associação ancestralmente diversos

Aug 24, 2023

Genética da Natureza (2023)Cite este artigo

293 Acessos

30 Altmétrico

Detalhes das métricas

O desequilíbrio de ligação (LD) é a correlação entre variantes genéticas próximas. Em estudos de associação genética, o LD é frequentemente modelado usando grandes matrizes de correlação, mas esta abordagem é ineficiente, especialmente em estudos ancestralmente diversos. No presente estudo, apresentamos modelos gráficos LD (LDGMs), que são uma representação extremamente esparsa e eficiente de LD. Os LDGMs são derivados de genealogias genômicas; as relações estatísticas entre os alelos no LDGM correspondem às relações genealógicas entre os haplótipos. Publicamos LDGMs e matrizes de precisão LDGM específicas de ancestralidade para 18 milhões de variantes comuns (frequência alélica menor> 1%) em cinco grupos de ancestrais, validamos sua precisão e demonstramos melhorias de ordem de grandeza em tempo de execução para cálculos de matriz LD comumente usados. Implementamos um método de predição poligênica multiancestral extremamente rápido, BLUPx-ldgm, que tem desempenho melhor do que um método semelhante baseado na matriz de correlação LD de referência. Os LDGMs permitirão métodos sofisticados que se adaptam a dados de associação genética ancestralmente diversos em milhões de variantes e indivíduos.

Esta é uma prévia do conteúdo da assinatura, acesse através da sua instituição

Acesse a Nature e 54 outras revistas do Nature Portfolio

Obtenha Nature+, nossa assinatura de acesso on-line de melhor valor

$ 29,99 / 30 dias

cancelar a qualquer momento

Assine esta revista

Receba 12 edições impressas e acesso online

$ 189,00 por ano

apenas $ 15,75 por edição

Alugue ou compre este artigo

Os preços variam de acordo com o tipo de artigo

a partir de US$ 1,95

para US$ 39,95

Os preços podem estar sujeitos a impostos locais que são calculados durante a finalização da compra

LDGMs, matrizes de precisão LDGM e sequências de árvores estão disponíveis em Zenodo (ref. 84; https://doi.org/10.5281/zenodo.8157131). Dados de genótipos faseados de 1000 genomas de alta cobertura estão disponíveis em http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/1000G_2504_high_coverage/working/20201028_3202_phased. Blocos independentes de LD estão disponíveis em https://github.com/jmacdon/LDblocks_GRCh38. As estatísticas resumidas do Biobanco do Reino Unido e LD estão disponíveis em s3://broad-alkesgroup-ukbb-ld/UKBB_LD/. Os estados ancestrais estão disponíveis via Ensembl versão 100 e podem ser baixados em ftp://ftp.ensembl.org/pub/release-100/fasta/ancestral_alleles (ref. 83).

Lançamos um pacote de software de código aberto, ldgm v.0.1, implementado em python e MATLAB. O ldgm permite inferência de LDGMs e matrizes de precisão LDGM, bem como análises computacionalmente eficientes de estatísticas resumidas de GWAS usando LDGMs. Ele está disponível em https://github.com/awohns/ldgm e é depositado em Zenodo85 (https://doi.org/10.5281/zenodo.8161389). Todas as funções para análise de estatísticas resumidas de GWAS com LDGMs, incluindo BLUPx-ldgm, estão atualmente implementadas no MATLAB; uma implementação Python está planejada. BLUPx-ldgm também é implementado em bcftools, disponível em https://github.com/freeseek/score; tskit está disponível em https://github.com/tskit-dev/tskit. Scripts para reproduzir os resultados deste manuscrito estão disponíveis em https://github.com/awohns/ldgm_paper.

Consórcio Internacional HapMap. Um mapa de haplótipos do genoma humano. Natureza 437, 1299–1320 (2005).

Artigo Google Acadêmico

Reich, DE et al. Desequilíbrio de ligação no genoma humano. Natureza 411, 199–204 (2001).

Artigo CAS PubMed Google Scholar

Abecasis, GR et al. Extensão e distribuição do desequilíbrio de ligação em três regiões genômicas. Sou. J. Hum. Geneta. 68, 191–197 (2001).

Artigo CAS PubMed Google Scholar

Finucane, HK et al. Particionando a herdabilidade por anotação funcional usando estatísticas resumidas de associação em todo o genoma. Nat. Geneta. 47, 1228–1235 (2015).

0.01. c and f show the alternative mean-squared error, defined as m−2 Tr((I−PR)(I−RP)). This measures the difference between PR, the product of the LD correlation matrix and the LDGM precision matrix, and the identity matrix (see Supplementary Note, section 4). Compared with the MSE, the alternative MSE is less sensitive to large eigenvalues of R, probably explaining why it is not elevated for AMR. For the identity matrix, the alternative MSE and the MSE are identical. In all plots, the lower whisker, lower hinge, center, upper hinge and upper whisker correspond to (lower hinge − 1.5× interquartile range (IQR)) and the 25th percentile, median, 75th percentile, and (upper hinge + 1.5× IQR), respectively./p>