Estudo de caso: Licenciamento de conjunto de dados médicos

Transformando o atendimento pediátrico e obstétrico-ginecológico por meio de treinamento de anotação e curadoria de dados de precisão

Desbloqueando o poder dos dados médicos: curadoria abrangente de dados, desidentificação, CID-10 CM e anotação para treinamento superior de modelos de IA.

Licenciamento de conjuntos de dados médicos

Visão geral do projeto

A Shaip fez uma parceria com uma empresa líder em IA de assistência médica para selecionar e anotar conjuntos de dados médicos de alta qualidade e não identificados para treinamento de modelos avançados de PNL. O projeto se concentrou em especialidades de Pediatria e OB-GYN, entregando registros ambulatoriais anotados com códigos CM do CID-10 por meio de uma estrutura de API robusta.

O conjunto de dados foi estruturado para facilitar o treinamento de IA em documentação de saúde do mundo real, aprimorando a capacidade do modelo na compreensão de narrativas clínicas.

Licenciamento de conjuntos de dados médicos

Estatísticas Chave

páginas 750 / Aproximadamente 300 registros de pacientes ambulatoriais

375 páginas Pediatria

375 páginas Ginecologia e Obstetrícia

Anotações do código médico ICD-10 CM 2023

Escopo do Projeto

Tipo de conjunto de dados Especialidade Volume Metadados Capturados Notas
Notas Médicas Pediatria 375 páginas (aproximadamente 150 registros) Nome do arquivo, especialidade,
Tipo de documento, classe de paciente (ambulatorial)
Inclui seções de Avaliação/Plano
ginecologista 375 páginas (aproximadamente 150 registros)
Anotações CID-10 CM (2023) Conjunto de dados completo Mapeamento de código via API A validação do código pelos codificadores está fora do escopo

Desafios

O projeto apresentou vários desafios críticos que exigiram planejamento e execução meticulosos:

1. Coleta de dados específicos da especialidade

Obter registros ambulatoriais de alta qualidade exclusivamente de especialidades de Pediatria e OB-GYN foi desafiador. Cada documento precisava incluir seções clínicas importantes, como Avaliação e Plano, para dar suporte a anotações precisas.

2. Desidentificação abrangente de PHI

Garantir a remoção completa de todas as informações pessoalmente identificáveis ​​(PII) enquanto se mantém o contexto médico foi essencial para a conformidade com a HIPAA. Isso exigiu revisões detalhadas para evitar quaisquer violações de privacidade.

3. Anotação complexa do CID-10 CM

Aplicar códigos precisos do CID-10 CM (2023) via API era complexo devido aos estilos narrativos variados e à terminologia médica. Consistência e precisão na codificação eram essenciais para garantir um treinamento confiável do modelo de IA.

4. Precisão e consistência dos metadados

Capturar e validar metadados como especialidade, tipo de documento e classe de paciente sem discrepâncias era vital. Qualquer incompatibilidade poderia impactar o treinamento do modelo e a usabilidade dos dados.

5. Filtragem rigorosa para pacientes ambulatoriais

Garantir que todos os registros fossem estritamente ambulatoriais aumentou a complexidade, pois muitos documentos clínicos podem conter classes de pacientes mistas ou seções incompletas.

6. Padrões de garantia de qualidade e precisão

Atingir o limite de precisão de 90% exigiu revisões em vários níveis para eliminar duplicatas, validar o alinhamento de especialidades e garantir a desidentificação — com disposições para retrabalho quando necessário.

Solução

Licenciamento e anotação abrangente de dados

  • Registros ambulatoriais pediátricos e de obstetrícia licenciados
  • Inclusão garantida de seções críticas: Reclamação principal, Histórico, ROS, Avaliação, Plano
  • Anotação CM do CID-10 baseada em API (versão 2023)

Desidentificação e conformidade

  • PHI substituído por marcadores de posição (NOME_DA_PESSOA, DATA, LOCAL, etc.)
  • Garantiu a conformidade com os padrões de privacidade de dados de saúde

Marcação de metadados

  • Metadados detalhados capturados por arquivo:
    • Nome do arquivo
    • Especialidade (Pediatria ou Ginecologia e Obstetrícia)
    • Tipo de documento (Acompanhamento, H&P, Consulta)
    • Classe de paciente (somente ambulatorial)

Controle de qualidade

  • Avaliações de qualidade rigorosas com:
    • Nenhum registro duplicado
    • Validação de correspondência de especialidade
    • Verificação somente ambulatorial
    • Verificação de consistência de metadados
  • Substituição ou correção de registros abaixo do limite de precisão de 90%

Resultado

Shaip entregou um conjunto de dados de notas médicas estruturadas e anotadas que permitiu ao cliente:

  • Treine modelos de IA para previsão precisa do código CM do CID-10
  • Melhore as capacidades de PNL em cenários de saúde do mundo real
  • Manter a conformidade com os padrões de privacidade e regulatórios
  • Dimensione modelos de IA de saúde em todos os domínios de pediatria e obstetrícia e ginecologia

A abordagem estruturada de Shaip para curadoria e anotação de conjuntos de dados excedeu nossas expectativas. A precisão, desidentificação e precisão de metadados fortaleceram significativamente nosso pipeline de treinamento de modelos de IA.

Estrela de Ouro 5