Estudo de caso: Licenciamento de conjunto de dados médicos
Transformando o atendimento pediátrico e obstétrico-ginecológico por meio de treinamento de anotação e curadoria de dados de precisão
Desbloqueando o poder dos dados médicos: curadoria abrangente de dados, desidentificação, CID-10 CM e anotação para treinamento superior de modelos de IA.
Visão geral do projeto
A Shaip fez uma parceria com uma empresa líder em IA de assistência médica para selecionar e anotar conjuntos de dados médicos de alta qualidade e não identificados para treinamento de modelos avançados de PNL. O projeto se concentrou em especialidades de Pediatria e OB-GYN, entregando registros ambulatoriais anotados com códigos CM do CID-10 por meio de uma estrutura de API robusta.
O conjunto de dados foi estruturado para facilitar o treinamento de IA em documentação de saúde do mundo real, aprimorando a capacidade do modelo na compreensão de narrativas clínicas.
Estatísticas Chave
páginas 750 / Aproximadamente 300 registros de pacientes ambulatoriais
375 páginas Pediatria
375 páginas Ginecologia e Obstetrícia
Anotações do código médico ICD-10 CM 2023
Escopo do Projeto
| Tipo de conjunto de dados | Especialidade | Volume | Metadados Capturados | Notas |
|---|---|---|---|---|
| Notas Médicas | Pediatria | 375 páginas (aproximadamente 150 registros) |
Nome do arquivo, especialidade, Tipo de documento, classe de paciente (ambulatorial) |
Inclui seções de Avaliação/Plano |
| ginecologista | 375 páginas (aproximadamente 150 registros) | |||
| Anotações | CID-10 CM (2023) | Conjunto de dados completo | Mapeamento de código via API | A validação do código pelos codificadores está fora do escopo |
Desafios
O projeto apresentou vários desafios críticos que exigiram planejamento e execução meticulosos:
1. Coleta de dados específicos da especialidade
Obter registros ambulatoriais de alta qualidade exclusivamente de especialidades de Pediatria e OB-GYN foi desafiador. Cada documento precisava incluir seções clínicas importantes, como Avaliação e Plano, para dar suporte a anotações precisas.
2. Desidentificação abrangente de PHI
Garantir a remoção completa de todas as informações pessoalmente identificáveis (PII) enquanto se mantém o contexto médico foi essencial para a conformidade com a HIPAA. Isso exigiu revisões detalhadas para evitar quaisquer violações de privacidade.
3. Anotação complexa do CID-10 CM
Aplicar códigos precisos do CID-10 CM (2023) via API era complexo devido aos estilos narrativos variados e à terminologia médica. Consistência e precisão na codificação eram essenciais para garantir um treinamento confiável do modelo de IA.
4. Precisão e consistência dos metadados
Capturar e validar metadados como especialidade, tipo de documento e classe de paciente sem discrepâncias era vital. Qualquer incompatibilidade poderia impactar o treinamento do modelo e a usabilidade dos dados.
5. Filtragem rigorosa para pacientes ambulatoriais
Garantir que todos os registros fossem estritamente ambulatoriais aumentou a complexidade, pois muitos documentos clínicos podem conter classes de pacientes mistas ou seções incompletas.
6. Padrões de garantia de qualidade e precisão
Atingir o limite de precisão de 90% exigiu revisões em vários níveis para eliminar duplicatas, validar o alinhamento de especialidades e garantir a desidentificação — com disposições para retrabalho quando necessário.
Solução
Licenciamento e anotação abrangente de dados
- Registros ambulatoriais pediátricos e de obstetrícia licenciados
- Inclusão garantida de seções críticas: Reclamação principal, Histórico, ROS, Avaliação, Plano
- Anotação CM do CID-10 baseada em API (versão 2023)
Desidentificação e conformidade
- PHI substituído por marcadores de posição (NOME_DA_PESSOA, DATA, LOCAL, etc.)
- Garantiu a conformidade com os padrões de privacidade de dados de saúde
Marcação de metadados
- Metadados detalhados capturados por arquivo:
-
- Nome do arquivo
- Especialidade (Pediatria ou Ginecologia e Obstetrícia)
- Tipo de documento (Acompanhamento, H&P, Consulta)
- Classe de paciente (somente ambulatorial)
Controle de qualidade
- Avaliações de qualidade rigorosas com:
- Nenhum registro duplicado
- Validação de correspondência de especialidade
- Verificação somente ambulatorial
- Verificação de consistência de metadados
- Substituição ou correção de registros abaixo do limite de precisão de 90%
Resultado
Shaip entregou um conjunto de dados de notas médicas estruturadas e anotadas que permitiu ao cliente:
- Treine modelos de IA para previsão precisa do código CM do CID-10
- Melhore as capacidades de PNL em cenários de saúde do mundo real
- Manter a conformidade com os padrões de privacidade e regulatórios
- Dimensione modelos de IA de saúde em todos os domínios de pediatria e obstetrícia e ginecologia
A abordagem estruturada de Shaip para curadoria e anotação de conjuntos de dados excedeu nossas expectativas. A precisão, desidentificação e precisão de metadados fortaleceram significativamente nosso pipeline de treinamento de modelos de IA.