O impacto de anotações humanas inconsistentes na tomada de decisões clínicas orientadas por IA
LarLar > blog > O impacto de anotações humanas inconsistentes na tomada de decisões clínicas orientadas por IA

O impacto de anotações humanas inconsistentes na tomada de decisões clínicas orientadas por IA

Jun 05, 2024

npj Digital Medicine volume 6, Número do artigo: 26 (2023) Citar este artigo

3210 Acessos

5 citações

18 Altmétrico

Detalhes das métricas

No desenvolvimento de modelos de aprendizagem supervisionada, especialistas de domínio são frequentemente usados ​​para fornecer rótulos de classe (anotações). Inconsistências de anotação geralmente ocorrem quando até mesmo especialistas clínicos altamente experientes anotam o mesmo fenômeno (por exemplo, imagem médica, diagnóstico ou status prognóstico), devido a preconceitos, julgamentos e deslizes inerentes de especialistas, entre outros fatores. Embora a sua existência seja relativamente bem conhecida, as implicações de tais inconsistências são amplamente pouco estudadas em ambientes do mundo real, quando a aprendizagem supervisionada é aplicada a dados rotulados como “ruidosos”. Para esclarecer essas questões, conduzimos extensos experimentos e análises em três conjuntos de dados reais de Unidades de Terapia Intensiva (UTI). Especificamente, modelos individuais foram construídos a partir de um conjunto de dados comum, anotado de forma independente por 11 consultores de UTI do Glasgow Queen Elizabeth University Hospital, e as estimativas de desempenho do modelo foram comparadas por meio de validação interna (κ de Fleiss = 0,383, ou seja, concordância justa). Além disso, uma ampla validação externa (em conjuntos de dados estáticos e de séries temporais) desses 11 classificadores foi realizada em um conjunto de dados externo HiRID, onde as classificações dos modelos apresentaram baixa concordância entre pares (κ médio de Cohen = 0,255, ou seja, concordância mínima) . Além disso, tendem a discordar mais na tomada de decisões de alta (κ de Fleiss = 0,174) do que na previsão de mortalidade (κ de Fleiss = 0,267). Dadas estas inconsistências, foram realizadas análises adicionais para avaliar as melhores práticas actuais na obtenção de modelos padrão-ouro e na determinação do consenso. Os resultados sugerem que: (a) nem sempre pode haver um “superespecialista” em ambientes clínicos agudos (usando o desempenho do modelo de validação interna e externa como proxy); e (b) a busca de consenso padrão (como a votação por maioria) leva consistentemente a modelos abaixo do ideal. Uma análise mais aprofundada, no entanto, sugere que avaliar a capacidade de aprendizagem da anotação e usar apenas conjuntos de dados anotados “aprendíveis” para determinar o consenso alcança modelos ideais na maioria dos casos.

O aprendizado de máquina supervisionado clássico assume que os rótulos dos exemplos de treinamento estão todos corretos, ignorando a presença de ruído de classe e imprecisões1. Na área da saúde, esta suposição pode não ser válida mesmo quando médicos altamente experientes fornecem estes rótulos, devido ao grau de ruído, à subjetividade do observador e ao preconceito envolvido. Se negligenciadas no treinamento de um Sistema de Apoio à Decisão de Aprendizado de Máquina (ML-DSS), inconsistências de anotação podem resultar em uma versão arbitrariamente parcial da verdade básica e em subsequentes consequências clínicas imprevisíveis, incluindo classificações errôneas2,3,4.

Idealmente, os rótulos de classe são obtidos através de um processo de aquisição de conhecimento, envolvendo a escolha do “padrão ouro” apropriado para basear esses rótulos de classe de verdade, para construir um Sistema Baseado em Conhecimento (SBC). No ambiente biomédico e de saúde, especialistas no domínio clínico são frequentemente usados ​​para fornecer esses rótulos5. No entanto, em muitas áreas clínicas, estas verdades básicas são difíceis de encontrar e definir, devido às incertezas fisiopatológicas, diagnósticas e prognósticas inerentes à medicina2,6.

A psicologia cognitiva mostrou experimentalmente que os humanos (e, portanto, os especialistas) cometem “deslizes”, por exemplo, devido à sobrecarga cognitiva e a preconceitos. Por outro lado, o campo dos sistemas especialistas e do SBC assumiu que para a (maioria) das disciplinas existem especialistas altamente qualificados, e a principal tarefa é como esses especialistas podem ser identificados objetiva ou subjetivamente. Contudo, evidências crescentes da literatura mostram que, em conjuntos comuns de tarefas (por exemplo, classificação), grupos de especialistas muitas vezes discordam significativamente uns dos outros5,7,8. Em 2021, Kahneman et al.9 publicaram uma importante contribuição para este tópico chamada Ruído: uma falha no julgamento humano, que argumenta de forma convincente que colegas especialistas em muitas disciplinas diferem. Estes autores9 fazem distinções entre julgamentos e opiniões onde, com os primeiros, espera-se que os especialistas forneçam uma resposta a partir de um conjunto (fixo) de alternativas, enquanto as opiniões são muito mais abertas. Neste artigo, lidamos com tarefas que exigem que vários especialistas façam julgamentos.

 0.90 (Almost Perfect)./p> 0.7). Figure 7 shows TMV (F1 micro = 0.438) performs significantly better than MV (F1 micro = 0.254). In fact, TMV outperforms almost all the consultant models. This indicates it is important to assess learnability of each domain expert’s judgments before creating a consensus, because poorly learnable (expert) judgments often lead to poor performances./p> 1–4, CL3 = > 4./p> 3-<4, CL3 = ≥ 4./p> 0.7)./p> 2-< 4, CL3 = ≥ 4, see Supplementary Fig. 1 for these results./p> 0.7), the differing feature importance distributions reflect the different rationales and decision-making processes between annotators. For certain annotators (C4), we can infer Noradrenaline is the most important feature when deciding to annotate a label ‘A’ classification. For some (C2), FiO2 is most important when making this classification. For others (C10), the rationale is more balanced on Noradrenaline and FiO2./p>

There are multiple statistics used to measure IAA, including Cohen’s κ, Fleiss’ κ and Krippendorff’s α. All three statistics were calculated within Python 3.0 using: cohen_kappa_score from sklearn.metrics60, fleiss_kappa from statsmodels.stats.inter_rater61, simpledorff (2020)." href="/articles/s41746-023-00773-3#ref-CR62" id="ref-link-section-d72589267e1597"62./p> 0.90 (Almost Perfect)32./p> 1–4, CL3 = > 4./p> 3-<4, CL3 = ≥ 4./p> 2-<4, CL3 = ≥ 4./p>

3.0.CO;2-5" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291097-0258%2820000229%2919%3A4%3C453%3A%3AAID-SIM350%3E3.0.CO%3B2-5" aria-label="Article reference 53" data-doi="10.1002/(SICI)1097-0258(20000229)19:43.0.CO;2-5"Article CAS PubMed Google Scholar /p>

(2020)./p>