Anotação de Dados – NER

Anotação de reconhecimento de entidade nomeada (NER) para PNL clínica

Anotação Ner

Dados de texto clínico bem anotados e padrão ouro para treinar/desenvolver PNL clínica para construir a próxima versão da API de saúde

A importância do Processamento de Linguagem Natural (PNL) clínico tem sido cada vez mais reconhecida nos últimos anos e levou a avanços transformadores. A PNL clínica permite que os computadores entendam o rico significado que está por trás da análise escrita de um paciente por um médico. A PNL clínica pode ter vários casos de uso, desde análises de saúde populacional até melhoria na documentação clínica, reconhecimento de fala, correspondência de ensaios clínicos, etc.

Para desenvolver e treinar qualquer modelo clínico de PNL, você precisa de conjuntos de dados precisos, imparciais e bem anotados em enormes volumes. O padrão ouro e dados diversos ajudam a aumentar a precisão e a recuperação dos mecanismos de PNL.

Volume

Nº de documentos anotados
10
Nº de páginas anotadas
10 +
Duração do projeto
< 1 mês

Desafios

O cliente estava ansioso para treinar e desenvolver sua plataforma de processamento de linguagem natural (PNL) com novos tipos de entidades e também identificar o relacionamento entre vários tipos. Além disso, eles estavam avaliando fornecedores que oferecessem alta precisão, cumprissem as leis locais e tivessem o conhecimento médico necessário para anotar um grande conjunto de dados.

A tarefa era rotular e anotar até 20,000 registros etiquetados, incluindo até 15,000 registros etiquetados de dados de registros eletrônicos de saúde (EHR) de pacientes internados e ambulatoriais e até 5,000 registros etiquetados de ditados médicos transcritos, distribuídos igualmente entre (1) proveniências geográficas e ( 2) especialidades médicas disponíveis.

Então, para resumir os desafios:

  • Organize dados clínicos heterogêneos para treinar a plataforma PNL
  • Identifique o relacionamento entre diferentes entidades para obter informações críticas
  • Capacidade e experiência para rotular/anotar um amplo conjunto de documentos clínicos complexos
  • Manter os custos sob controle para rotular/anotar um grande volume de dados para treinar PNL clínica dentro do prazo estipulado
  • Anote entidades no conjunto de dados clínicos que consiste em 75% de registros EHR e 25% de registros de Ditado.
  • Desidentificação de dados no momento da entrega

Outros desafios na compreensão da linguagem natural

Ambiguidade

As palavras são únicas, mas podem ter significados diferentes dependendo do contexto, resultando em ambigüidade nos níveis lexical, sintático e semântico.

Sinonímia

Podemos expressar a mesma ideia com termos diferentes que também são sinônimos: grande e grande significam o mesmo quando descrevem um objeto.

Coreferência

O processo de encontrar todas as expressões que se referem à mesma entidade em um texto é chamado de resolução de correferência.

Personalidade, Intenção, Emoções

Dependendo da personalidade do orador, a sua intenção e emoções podem ser expressas de forma diferente para a mesma ideia.

Solução

Está disponível um grande volume de dados e conhecimentos médicos, sob a forma de documentos médicos, mas principalmente num formato não estruturado. Com a anotação de entidade médica/reconhecimento de entidade nomeada (NER), Shaip conseguiu converter dados não estruturados em um formato estruturado, anotando informações úteis de diversos tipos de registros clínicos. Uma vez identificadas as entidades, também foi mapeado o relacionamento entre elas para identificar informações críticas.

Escopo do Trabalho: Anotação de Menção de Entidade de Saúde

9 tipos de entidade

  • Condição médica
  • Procedimento médico
  • Estrutura Anatômica
  • Remédio
  • Aparelho médico
  • Medição do corpo
  • Abuso de Substâncias
  • Dados laboratoriais
  • Função corporal

17 modificadores

  • Modificadores de medicação: Força, Unidade, Dose, De, Frequência, Via, Duração, Status
  • Modificadores de medição corporal: valor, unidade, resultado
  • Modificadores de Procedimento: Método
    • Modificador de dados laboratoriais: valor de laboratório, unidade de laboratório, resultado de laboratório
  • Gravidade
  • Resultado do procedimento

27 Relacionamentos e status do paciente

Resultado

Os dados anotados seriam usados ​​para desenvolver e treinar a plataforma clínica de PNL do Cliente, que seria incorporada na próxima versão de sua API de saúde. Os benefícios que o cliente obteve foram:

  • Os dados rotulados/anotados atenderam às diretrizes padrão de anotação de dados do Cliente.
  • Conjuntos de dados heterogêneos foram usados ​​para treinar a plataforma PNL para maior precisão.
  • Relacionamento entre diferentes entidades, ou seja, estrutura anatômica do corpo <> Dispositivo Médico, Condição Médica <> Dispositivo Médico, Condição Médica <> Medicamento, Condição Médica <> Procedimento foram identificados para obter informações médicas críticas.
  • O amplo conjunto de dados rotulados/anotados também foi desidentificado no momento da entrega.

Nossa colaboração com Shaip avançou significativamente nosso projeto em Tecnologia Ambiental e IA Conversacional na área da saúde. A sua experiência na criação e transcrição de diálogos sintéticos sobre cuidados de saúde proporcionou uma base sólida, mostrando o potencial dos dados sintéticos na superação de desafios regulamentares. Com a Shaip, superamos esses obstáculos e agora estamos um passo mais perto de concretizar nossa visão de soluções intuitivas de saúde.

Dourado-5 estrelas

Acelere sua IA de conversação
desenvolvimento de aplicativos em 100%