Definição
Dados sintéticos são informações geradas artificialmente que imitam dados do mundo real. Eles podem ser criados por meio de simulações, GANs ou outros métodos generativos.
Propósito
O objetivo é aumentar ou substituir dados reais quando eles são escassos, sensíveis ou caros para coletar.
Importância
- Protege a privacidade reduzindo a dependência de dados pessoais.
- Permite treinamento para casos raros ou extremos.
- Pode não ter a complexidade total dos dados do mundo real.
- Cada vez mais usado em IA de segurança crítica.
Como Funciona
- Defina as características dos dados a serem replicados.
- Use simulação ou modelos generativos para criar dados.
- Valide dados sintéticos em relação às distribuições reais.
- Use dados sintéticos em pipelines de treinamento.
- Monitore lacunas no realismo.
Exemplos (mundo real)
- Waymo: usa cenas de direção sintéticas para treinamento autônomo.
- NVIDIA Omniverse: gera dados 3D sintéticos para robótica.
- Assistência médica: dados sintéticos de pacientes para pesquisa.
Referências/Leituras Adicionais
- Publicação especial do NIST sobre dados sintéticos.
- Gonçalves et al. “Geração e Avaliação de Dados Sintéticos”. Pesquisas de Computação da ACM.
- Cofre de Dados Sintéticos (MIT).
- O que são dados sintéticos em IA