ESCOPO: previsão de diagnósticos futuros em consultas médicas usando registros eletrônicos de saúde
Scientific Reports volume 13, Artigo número: 11005 (2023) Citar este artigo
338 Acessos
3 Altmétrico
Detalhes das métricas
Propomos um modelo interpretável e escalonável para prever diagnósticos prováveis em um encontro com base em diagnósticos anteriores e resultados laboratoriais. Este modelo tem como objetivo auxiliar os médicos na interação com os registros eletrônicos de saúde (EHR). Para conseguir isso, coletamos retrospectivamente e desidentificamos dados de EHR de 2.701.522 pacientes na Stanford Healthcare durante um período de janeiro de 2008 a dezembro de 2016. Uma amostra de base populacional de pacientes compreendendo 524.198 indivíduos (44% M, 56% F) com foram escolhidos vários encontros com pelo menos um código de diagnóstico de ocorrência frequente. Um modelo calibrado foi desenvolvido para prever os códigos de diagnóstico da CID-10 em um encontro com base em diagnósticos anteriores e resultados de laboratório, usando uma estratégia de modelagem multi-rótulo baseada em relevância binária. A regressão logística e as florestas aleatórias foram testadas como classificador base, e diversas janelas de tempo foram testadas para agregar os diagnósticos e laboratórios anteriores. Esta abordagem de modelagem foi comparada a um método de aprendizado profundo baseado em rede neural recorrente. O melhor modelo usou floresta aleatória como classificador base e integrou características demográficas, códigos de diagnóstico e resultados de laboratório. O melhor modelo foi calibrado e o seu desempenho foi comparável ou melhor do que os métodos existentes em termos de várias métricas, incluindo uma AUROC mediana de 0,904 (IQR [0,838, 0,954]) em 583 doenças. Ao prever a primeira ocorrência de um rótulo de doença para um paciente, a AUROC mediana com o melhor modelo foi de 0,796 (IQR [0,737, 0,868]). Nossa abordagem de modelagem teve um desempenho comparável ao método de aprendizagem profunda testado, superando-o em termos de AUROC (p < 0,001), mas apresentando desempenho inferior em termos de AUPRC (p < 0,001). A interpretação do modelo mostrou que o modelo usa recursos significativos e destaca muitas associações interessantes entre diagnósticos e resultados laboratoriais. Concluímos que o modelo multi-rótulo tem desempenho comparável ao modelo de aprendizagem profunda baseado em RNN, ao mesmo tempo que oferece simplicidade e interpretabilidade potencialmente superior. Embora o modelo tenha sido treinado e validado com base em dados obtidos de uma única instituição, a sua simplicidade, interpretabilidade e desempenho fazem dele um candidato promissor para implantação.
A adoção generalizada de registos de saúde eletrónicos (EHR) ofereceu um grande potencial de aprendizagem e aplicação a partir de fluxos de dados do mundo real, ao mesmo tempo que sobrecarrega os profissionais com trabalho administrativo de documentação que prejudica o atendimento direto ao paciente. Os médicos da atenção primária podem passar até metade do seu dia de trabalho interagindo com o EHR1, reduzindo o tempo dedicado ao atendimento ao paciente2. Além disso, a carga de documentação pode reduzir a satisfação dos médicos e pode até levar ao esgotamento3. Além disso, os dados do EHR são frequentemente tendenciosos4 e apresentam dados ausentes e incompletos5,6. Aqui, procuramos desenvolver métodos de aprendizado de máquina para enfrentar esses desafios-chave e desbloquear o potencial dos EHRs no ambiente de consulta ambulatorial.
O foco principal do nosso trabalho é prever diagnósticos prováveis para pacientes com base no histórico médico anterior. Nos últimos anos, tem havido um conjunto de trabalhos sobre a previsão de diagnósticos e resultados de pacientes a partir do histórico médico passado obtido de EHRs7,8,9. Nosso trabalho se concentra exclusivamente em atendimentos ambulatoriais. Em termos de métodos, os trabalhos recentes concentraram-se fortemente em abordagens de aprendizagem profunda10; aqui, entretanto, propomos modelos clássicos de aprendizado de máquina, como regressão logística e florestas aleatórias, que oferecem muito maior interpretabilidade, bem como modularidade e escalabilidade. Finalmente, em vez de nos concentrarmos apenas numa ou em algumas doenças11, avaliamos estes modelos numa vasta gama de doenças com um nível apropriado de granularidade, sujeito a restrições de dados. Isto é motivado pelo facto de os pacientes no ambulatório apresentarem frequentemente múltiplas doenças crónicas e agudas e, embora os modelos de doença única sejam muito úteis, torna-se rapidamente complicado manter e obter previsões significativas a partir de múltiplos modelos díspares. Apresentamos uma abordagem unificada para modelar o amplo escopo da prática no ambulatório.