Imagine um cenário onde os pesquisadores estão desenvolvendo um novo medicamento. Eles precisam de dados extensos de pacientes para testes, mas há preocupações significativas sobre privacidade e disponibilidade de dados.
Aqui, os dados sintéticos oferecem uma solução. Ele fornece conjuntos de dados realistas, mas totalmente artificiais, que imitam as propriedades estatísticas de dados reais de pacientes. Essa abordagem permite pesquisas abrangentes sem comprometer a confidencialidade do paciente.
Donald Rubin foi o pioneiro no conceito de dados sintéticos no início dos anos 90. Ele gerou um conjunto de dados anônimo de respostas do censo dos EUA, refletindo as propriedades estatísticas dos dados reais do censo. Isso marcou o criação de um dos primeiros conjuntos de dados sintéticos que se alinha estreitamente com as estatísticas reais da população do censo.
A aplicação de dados sintéticos está ganhando impulso rapidamente. A Accenture a reconhece como uma tendência chave nas Ciências da Vida e MedTech. De forma similar, Previsões do Gartner que até 2024, os dados sintéticos constituirão 60% da utilização de dados.
Neste artigo, falaremos sobre dados sintéticos na área da saúde. Exploraremos sua definição, como é gerado e suas possíveis aplicações.
O que são dados sintéticos em saúde?
Dados Originais:
ID do paciente: 987654321
Idade: 35
Gênero: Masculino
Corrida: Branco
Etnia: hispânico
Histórico médico: Hipertensão, diabetes
Medicamentos atuais: Lisinopril, metformina
Resultados do laboratório: Pressão arterial 140/90 mmHg, açúcar no sangue 200 mg/dL
Diagnóstico: Escreva 2 diabetes
Dados Sintéticos:
ID do paciente: 123456789
Idade: 38
Gênero: Feminino
Corrida: Preto
Etnia: Não hispânicos
Histórico médico: Asma, depressão
Medicamentos atuais: Albuterol, fluoxetina
Resultados do laboratório: Pressão arterial 120/80 mmHg, açúcar no sangue 100 mg/dL
Diagnóstico: Asma
Dados sintéticos na área da saúde refere-se a dados gerados artificialmente que simulam dados reais de saúde de pacientes. Este tipo de dados é criado por meio de algoritmos e modelos estatísticos. Ele foi projetado para refletir os padrões e características complexos dos dados reais de saúde. No entanto, não corresponde a quaisquer indivíduos reais, protegendo assim a privacidade do paciente.
A criação de dados sintéticos envolve a análise de conjuntos de dados reais de pacientes para compreender suas propriedades estatísticas. Então, usando esses insights, novos pontos de dados são gerados. Eles imitam o comportamento estatístico dos dados originais, mas não replicam informações específicas de nenhum indivíduo.
Os dados sintéticos estão se tornando cada vez mais importantes na área da saúde. Ele equilibra o aproveitamento do poder do big data e o respeito à confidencialidade do paciente.
[Leia também: 22 conjuntos de dados de saúde gratuitos e abertos para aprendizado de máquina]
Estado atual dos dados em saúde
A área de saúde luta continuamente para equilibrar os benefícios dos dados com as preocupações com a privacidade dos pacientes. A obtenção de dados de saúde para fins comerciais ou acadêmicos é particularmente desafiadora e dispendiosa.
Por exemplo, obter aprovação para utilizar dados do sistema de saúde pode levar até dois anos. O acesso aos dados do paciente muitas vezes incorre em custos de centenas de milhares, se não mais, dependendo da escala do projeto. Estes obstáculos dificultam significativamente o progresso neste domínio.
O setor de saúde está nos estágios iniciais de sofisticação e aplicação de dados. Vários fatores, incluindo preocupações com privacidade, a ausência de formatos de dados padronizados e a existência de silos de dados, têm impedido a inovação e o avanço. No entanto, esse cenário está mudando rapidamente, particularmente com o surgimento de tecnologias de IA generativas.
Apesar destes obstáculos, a utilização de dados nos cuidados de saúde está a aumentar. Plataformas como Snowflake e AWS estão em uma corrida para oferecer ferramentas que aproveitem o potencial desses dados. O crescimento da computação em nuvem está facilitando análises de dados mais avançadas e acelerando o desenvolvimento de produtos.
Neste contexto, os dados sintéticos surgem como uma solução promissora para os desafios da acessibilidade dos dados na área da saúde.
Como os dados sintéticos são usados na área da saúde?
Dados sintéticos são a revolução atual na área da saúde, permitindo que organizações inovem enquanto respeitam os limites definidos pela segurança e privacidade. Como eles se assemelham a dados do mundo real, conjuntos de dados sintéticos permitem que pesquisadores, clínicos e desenvolvedores impulsionem inovações sem impedimentos pela confidencialidade do paciente.
Aqui estão apenas alguns casos reais simples de como dados sintéticos estão transformando a assistência médica:
1. Testando novos tratamentos sem arriscar a privacidade
Imagine uma equipe de pesquisadores desenvolvendo um tratamento para diabetes. Em vez de acessar registros confidenciais de pacientes, eles usam dados sintéticos que imitam as características de pacientes reais, como idade, níveis de açúcar no sangue e histórico médico. Eles conseguem desenvolver hipóteses e refiná-las em protocolos sobre como personalizar tratamentos, preservando a confidencialidade do paciente.
2. Treinamento de IA para diagnósticos mais rápidos
Pense em uma ferramenta de aprendizado de máquina projetada para detectar câncer de pulmão a partir de raios X. Imagens médicas sintéticas podem incluir muitos cenários — organizar formas, tamanhos e localizações de tumores de qualquer maneira divertida que possa ajudar a máquina a aprender com precisão na identificação de um caso com recidiva mercurial de câncer. Isso facilita o diagnóstico, ao mesmo tempo em que contorna totalmente as preocupações éticas em torno do uso de exames reais de pacientes.
3. Praticando Cirurgias em Realidade Virtual
Muitos estudantes de medicina exigem prática real antes de poderem tratar pacientes reais. Dados sintéticos criam uma transposição interativa completa em que um paciente virtual baseado em dados é simulado com históricos e condições médicas variadas, permitindo assim que os alunos experimentem cirurgias ou procedimentos de diagnóstico repetidamente e com muita segurança.
4. Possibilitar o planeamento da saúde pública
Simular o curso de doenças como COVID-19 ou gripe com dados sintéticos é importante para permitir que pesquisadores do epicentro modelem a propagação epidêmica de um vírus em áreas urbanas em comparação com áreas rurais, ao mesmo tempo em que estimam e testam estratégias de vacinação, contornando assim a ignorância de dados populacionais sensíveis.
5. Testando dispositivos médicos com segurança
Considere uma empresa desenvolvendo um novo dispositivo vestível para monitorar frequências cardíacas. Conjuntos de dados sintéticos imitando uma variedade de cardiopatias permitem que as empresas testem seus dispositivos em vários cenários antes de entrar na economia.
Como os dados sintéticos devem ser criados para a área da saúde
Criar dados sintéticos em assistência médica é, de fato, um processo longo que traça uma linha tênue entre expertise técnica e uma sólida compreensão de sistemas de assistência médica. Para simplificar os conceitos, é assim que, em geral, a criação de dados sintéticos em ambientes de assistência médica pode ser construída.
1. Entenda os dados reais
As organizações de saúde examinam dados reais de pacientes, começando com registros hospitalares, resultados de laboratório ou detalhes de ensaios clínicos. Por exemplo, um hospital pode analisar os dados demográficos de seus pacientes, histórico de tratamento e resultados para obter algum insight sobre as tendências ou padrões subjacentes.
2. Interrompendo a exposição de dados do paciente removendo PII
Depois disso, por uma questão de privacidade, o conjunto de dados não contém mais informações pessoalmente identificáveis (PII) - nomes, endereços ou números de Seguro Social. Você pode relacionar isso ao processo de anonimização de algumas notas médicas, que, se impressas agora, não serão rastreáveis a um indivíduo.
3. Identificação de padrões-chave
Um cientista de dados analisa um conjunto de dados limpo e descobre os padrões e inter-relacionamentos que constituem outro grande bloco de construção para uma pesquisa bem-sucedida. Por exemplo, eles podem descobrir que certos medicamentos são usados comumente por adultos mais velhos com diabetes ou que certas faixas etárias tendem a apresentar certos sintomas.
4. Construindo modelos usando os padrões
Uma vez que esses padrões foram determinados, os insights permitem a construção de modelos matemáticos que emulam as associações estatísticas encontradas nos dados reais. Por exemplo, se 30% dos pacientes no conjunto de dados têm pressão alta, podemos supor que os dados sintéticos refletirão aproximadamente essas condições em proporções semelhantes.
6. Validando os Dados Sintéticos
Então, o conjunto de dados sintéticos é comparado com os dados originais para que ele retenha as mesmas estatísticas que definem as propriedades e relacionamentos. Por exemplo, se houver uma correlação dependente entre obesidade e doença cardíaca no conjunto de dados original, o mesmo deve existir para este conjunto de dados sintéticos.
7. Teste de uso no mundo real
Finalmente, os dados sintéticos são retirados para testes em vários cenários para fazer uma alegação de que eles podem ser usados para seus propósitos pretendidos. Isso inclui usá-los para permitir que pesquisadores treinem um modelo de IA para diagnosticar doenças ou simular variações de recursos operacionais no departamento de emergência associadas à temporada de gripe.
Como validar dados sintéticos para assistência médica
Os tomadores de decisão em organizações devem examinar a validade de dados sintéticos antes de sua aplicação na área da saúde. Esse paradigma se aplica a todos e quaisquer dados usados sob protocolos de confidencialidade. A seguir estão algumas maneiras de avaliar a validade de dados sintéticos:
- Comparação com dados reais: Dados sintéticos são comparados a dados reais para confirmar que as principais tendências que eles definem, por exemplo, a relação entre idade e doença, são adequadamente espelhadas. Por exemplo, se 20 por cento dos pacientes reais têm diabetes, então uma proporção semelhante deve se manifestar em pacientes sintéticos.
- Realização de testes estatísticos: Os testes estatísticos nos permitem testar se os dados sintéticos estão alinhados com os originais em termos de distribuições e correlação, confirmando assim que são razoáveis e confiáveis para análise.
- Validação em Tarefas Reais: As tarefas do mundo real, como o exercício de treinamento em modelos de IA, seriam usadas para comparar se os resultados obtidos no treinamento de dados sintéticos também produziriam um resultado semelhante ao treinamento em dados reais.
- Avaliação de especialista: Conjuntos de dados sintéticos são revisados por clínicos e especialistas em saúde quanto a atributos autênticos, como históricos e tratamentos padrão a serem atendidos por um estudo de pesquisa realista.
- Controles de privacidade em vigor: Essa avaliação garantirá que dados sintéticos não possam ser rastreados até pacientes reais e manterá a privacidade dos pacientes reais intacta, evitando a perda de usabilidade do conjunto de dados.
[Leia também: Por que os conjuntos de dados de saúde são importantes para moldar o futuro da IA médica]
O potencial dos dados sintéticos na área da saúde e da indústria farmacêutica

A integração de dados sintéticos nos cuidados de saúde e produtos farmacêuticos abre um mundo de possibilidades. Esta abordagem inovadora está remodelando vários aspectos da indústria. A capacidade dos dados sintéticos de espelhar conjuntos de dados do mundo real, mantendo a privacidade, está revolucionando vários setores.
Melhore a acessibilidade dos dados e, ao mesmo tempo, mantenha a privacidade
Um dos obstáculos mais significativos na área da saúde e da indústria farmacêutica é o acesso a vastos dados e ao mesmo tempo cumprir as leis de privacidade. Os dados sintéticos oferecem uma solução inovadora. Fornece conjuntos de dados que retêm as características estatísticas de dados reais sem expor informações privadas. Esse avanço permite pesquisas e treinamento mais extensos de modelos de aprendizado de máquina. Promove avanços no tratamento e no desenvolvimento de medicamentos.
Melhor atendimento ao paciente por meio de análises preditivas
Os dados sintéticos podem melhorar enormemente o atendimento ao paciente. Modelos de aprendizado de máquina treinados em dados sintéticos ajudam os profissionais de saúde a prever as respostas dos pacientes aos tratamentos. Esse avanço leva a estratégias de cuidado mais personalizadas e eficazes. A medicina de precisão torna-se mais viável para melhorar a eficácia do tratamento e os resultados dos pacientes.
Simplifique custos com utilização avançada de dados
A aplicação de dados sintéticos nos cuidados de saúde e na indústria farmacêutica também conduz a reduções de custos significativas. Minimiza os riscos e custos associados a violações de dados. Além disso, os recursos preditivos aprimorados dos modelos de aprendizado de máquina ajudam a otimizar recursos. Essa eficiência se traduz em custos reduzidos de saúde e operações mais simplificadas.
Teste e Validação
Os dados sintéticos permitem o teste seguro e prático de novas tecnologias, incluindo sistemas de registos de saúde eletrónicos e ferramentas de diagnóstico. Os prestadores de cuidados de saúde podem avaliar rigorosamente as inovações utilizando dados sintéticos sem arriscar a privacidade dos pacientes ou a segurança dos dados. Garante que as novas soluções sejam eficientes e confiáveis antes de serem implementadas em cenários do mundo real.
Promova inovações colaborativas em saúde
Os dados sintéticos abrem novas portas para a colaboração em saúde e pesquisa farmacêutica. As organizações podem compartilhar conjuntos de dados sintéticos com parceiros. Permite estudos conjuntos sem comprometer a privacidade do paciente. Esta abordagem abre caminho para parcerias inovadoras. Estas colaborações aceleram os avanços médicos e criam um ambiente de investigação mais dinâmico.
Desafios com dados sintéticos
Embora os dados sintéticos tenham um potencial imenso, eles também apresentam desafios que você deve enfrentar.
Garantindo a precisão e representatividade dos dados
Os conjuntos de dados sintéticos devem espelhar de perto as propriedades estatísticas dos dados do mundo real. No entanto, atingir este nível de precisão é complexo e muitas vezes requer algoritmos sofisticados. Pode levar a insights enganosos e conclusões falsas se não for feito corretamente.
Gerenciando preconceito e diversidade de dados
Como os conjuntos de dados sintéticos são gerados com base em dados existentes, quaisquer distorções inerentes aos dados originais podem ser replicados. Garantir a diversidade e eliminar preconceitos é crucial para tornar os dados sintéticos fiáveis e universalmente aplicáveis.
Equilibrando privacidade e utilidade
Embora os dados sintéticos sejam elogiados pela sua capacidade de proteger a privacidade, encontrar o equilíbrio certo entre privacidade e utilidade dos dados é uma tarefa delicada. É necessário garantir que os dados sintéticos, embora anónimos, mantenham detalhes e especificidade suficientes para uma análise significativa.
Considerações éticas e legais
As questões sobre o consentimento e a utilização ética de dados sintéticos, especialmente quando derivados de informações de saúde sensíveis, continuam a ser áreas de discussão e regulamentação activas.
Privacidade e segurança com dados sintéticos na área da saúde
Embora dados sintéticos sejam conhecidos por proteger a privacidade do paciente por meio da subestação de dados reais com uma alternativa artificial, embora realista, os dilemas de privacidade e segurança ainda são abundantes. Um dos principais riscos associados é a reidentificação, pela qual dados sintéticos inadvertidamente expõem padrões que podem ajudar a decifrar pacientes reais em estudo. A conformidade com regras e regulamentos coloca um nível adicional de obstáculo para mitigar tais problemas - considerações ao trabalhar com dados sintéticos: HIPAA e GDPR.
Para remediar essas preocupações, as organizações de saúde devem adotar técnicas mais robustas de preservação de privacidade — como privacidade diferencial e algoritmos seguros — para evitar tal utilização. Se esses gerentes de risco complexos e em evolução forem colocados em medidas preventivas, os dados sintéticos continuarão a inovar, respeitando quaisquer princípios de confidencialidade em torno do paciente e o senso comum de ética.
Conclusão
Os dados sintéticos estão transformando os cuidados de saúde e os produtos farmacêuticos, equilibrando a privacidade com a utilização prática. Embora enfrente desafios, a sua capacidade de melhorar a investigação, o atendimento ao paciente e a colaboração é significativa. Isto torna os dados sintéticos uma inovação fundamental para o futuro da saúde.