Analisar dados estruturados pode auxiliar em melhores diagnósticos e cuidados com o paciente. No entanto, analisar dados não estruturados pode alimentar descobertas e avanços médicos revolucionários.
Essa é a essência do tópico que discutiremos hoje. É muito interessante observar que tantos avanços radicais no espaço da tecnologia de saúde aconteceram com apenas 10-20% dos dados de saúde utilizáveis.
Estatísticas revelam que mais de 90% dos dados neste espectro são desestruturados, o que se traduz em dados menos utilizáveis e mais difíceis de entender, interpretar e aplicar. De dados analógicos, como uma prescrição médica, a dados digitais na forma de imagens médicas e dados audiovisuais, os dados não estruturados são de diferentes tipos.
Esses pedaços enormes de dados não estruturados abrigam insights incríveis que podem acelerar os avanços da saúde em décadas. Seja auxiliando na descoberta de medicamentos para doenças autoimunes críticas que consomem vidas, seja dados que podem auxiliar as empresas de seguro saúde em avaliações de risco, dados não estruturados podem abrir caminho para possibilidades desconhecidas.
Quando tais ambições estão em vigor, a interpretabilidade e a interoperabilidade dos dados de saúde tornam-se cruciais. Com diretrizes rigorosas e aplicação de conformidade regulatória como o GDPR e o HIPAA em vigor, o que se torna inevitável é desidentificação de dados de saúde.
Já abordamos um extenso artigo sobre a desmistificação dados estruturados de saúde e dados de saúde não estruturados. Há um artigo dedicado (leia-se extenso) sobre desidentificação de dados de saúde também. Nós pedimos que você os leia para obter informações holísticas, pois teremos este artigo para uma peça especial sobre desidentificação de dados não estruturados.
Desafios na desidentificação de dados não estruturados
Como o nome sugere, dados não estruturados não são organizados. Eles estão espalhados em termos de formatos, tipos de arquivo, tamanhos, contexto e muito mais. O simples fato de que dados não estruturados existem nas formas de áudio, texto, imagens médicas, entradas analógicas e muito mais torna ainda mais desafiador entender os Identificadores de Informações Pessoais (PII), que são essenciais em desidentificação de dados não estruturados.
Para lhe dar uma ideia dos desafios fundamentais, aqui está uma lista rápida:
- Compreensão contextual – onde é difícil para um stakeholder de IA entender o contexto específico por trás de uma porção ou aspecto particular de dados não estruturados. Por exemplo, entender se um nome é o nome de uma empresa, o nome de uma pessoa ou o nome de um produto pode trazer um dilema sobre se ele deve ser desidentificado.
- Dados não textuais – onde identificar pistas auditivas ou visuais para nomes ou PIIs pode ser uma tarefa assustadora, pois uma parte interessada pode ter que assistir horas e horas de filmagem ou gravação tentando desidentificar aspectos críticos.
- Ambiguidade – isso é especialmente verdadeiro no contexto de dados analógicos, como uma prescrição médica ou uma entrada hospitalar em um registro. Da caligrafia às limitações de expressão em linguagem natural, isso pode tornar a desidentificação de dados uma tarefa complexa.
Melhores práticas de desidentificação de dados não estruturados
O processo de remoção de PIIs de dados não estruturados é bem diferente de desidentificação de dados estruturados mas não impossível. Por meio de uma abordagem sistemática e contextual, o potencial de dados não estruturados pode ser perfeitamente explorado. Vamos dar uma olhada nas diferentes maneiras pelas quais isso pode ser alcançado.
Redação de imagem: Isto é com relação a dados de imagens médicas e envolve a remoção de identificadores de pacientes e o desfoque de referências anatômicas e porções de imagens. Estes são substituídos por caracteres especiais para ainda reter a funcionalidade de diagnóstico e a utilidade dos dados de imagem.
Correspondência de padrões: Algumas das PIIs mais comuns, como nomes, detalhes de contato e endereços, podem ser detectadas e removidas usando a sabedoria do estudo de padrões predefinidos.
Privacidade Diferencial ou Perturbação de Dados: Isso envolve a inclusão de ruído controlado para ocultar dados ou atributos que podem ser rastreados até um indivíduo. Esse método ideal não apenas garante a desidentificação dos dados, mas também a retenção das propriedades estatísticas do conjunto de dados para análises.
Desidentificação de dados: Esta é uma das maneiras mais confiáveis e eficazes de remover PIIs de dados não estruturados. Isso pode ser implementado de duas maneiras:
- Aprendizagem supervisionada – onde um modelo é treinado para classificar texto ou dados como PII ou não PII
- Aprendizagem não supervisionada – onde um modelo é treinado para aprender autonomamente a detectar padrões na identificação de PIIs
Este método garante a salvaguarda de privacidade do paciente mantendo ainda a intervenção humana para os aspectos mais redundantes da tarefa. As partes interessadas e os provedores de dados de saúde que implementam técnicas de ML para desidentificar dados não estruturados podem simplesmente ter um processo de garantia de qualidade habilitado por humanos para garantir a justiça, relevância e precisão dos resultados.
Mascaramento de dados: O mascaramento de dados é um jogo de palavras digital para desidentificar dados de saúde, onde identificadores específicos são tornados genéricos ou vagos por meio de técnicas de nicho, como:
- Tokenização – envolvendo a substituição de PIIs por caracteres ou tokens
- Generalização – substituindo valores PII específicos por valores genéricos/vagos
- Embaralhamento – misturando PIIs para torná-los ambíguos
No entanto, este método apresenta uma limitação: com um modelo ou abordagem sofisticados, os dados podem ser reidentificáveis.
Terceirização para participantes do mercado
A única abordagem correta para garantir o processo de desidentificação de dados não estruturados é hermético, infalível e aderente às diretrizes da HIPAA é terceirizar as tarefas para um provedor de serviços confiável como Saip. Com modelos de ponta e rígidos protocolos de garantia de qualidade, garantimos supervisão humana na privacidade de dados é mitigado em todos os momentos.
Sendo uma empresa dominante no mercado há anos, entendemos a criticidade dos seus projetos. Então, entre em contato conosco hoje mesmo para otimizar suas ambições de assistência médica com dados de assistência médica desidentificados pela Shaip.


