Um estudo de caso sobre modelo de reconhecimento facial
Conjunto de dados de vídeo anti-spoofing para modelos de IA de detecção de fraude
Descubra como a Shaip entregou 25,000 conjuntos de dados de vídeo anti-spoofing de alta qualidade apresentando cenários de ataques reais e repetidos para treinar modelos de IA para detecção de fraudes.
Visão geral do projeto
A Shaip fez uma parceria com uma empresa líder em segurança de IA para fornecer um conjunto de dados de vídeo anti-spoofing de alta qualidade e pronto para uso, projetado para aprimorar o treinamento de modelos de IA para detecção de fraudes. O conjunto de dados incluiu 25,000 vídeos capturando cenários de ataque reais e de repetição, garantindo dados de treinamento robustos para modelos anti-spoofing.
Cada um dos 12,500 participantes contribuiu com dois vídeos — um ataque real e um de repetição — gravados em Resolução 720p ou superior com uma taxa de quadros de 26 FPS e acima.
O objetivo do projeto era entregar conjuntos de dados autênticos e diversos que permitiria que modelos de IA distinguissem efetivamente entre vídeos biométricos reais e falsos, reduzindo assim os riscos de fraude em sistemas de autenticação biométrica.
Estatísticas Chave
25,000 total de vídeos (12,500 vídeos reais, 12,500 vídeos de ataques de repetição)
12,500 único
participantes
5 grupos étnicos
representado no conjunto de dados
Entrega faseada: 4 lotes de 6,250 vídeos cada
Atributos de metadados: 12 parâmetros-chave para melhor usabilidade do conjunto de dados
Escopo do conjunto de dados biométricos anti-spoofing
Curadoria de conjuntos de dados: O projeto se concentrou em fornecer conjuntos de dados de vídeo anti-spoofing de alta qualidade, consistindo em vídeos de ataques reais e repetidos. Os principais aspectos incluíram:
- 12,500 participantes contribuindo dois vídeos cada (1 real, 1 falsificado).
- Diversidade em dispositivos de gravação para melhorar a adaptabilidade do modelo.
- Representação étnica equilibrada para garantir a inclusão do conjunto de dados.
Coleta de metadados: Cada vídeo foi acompanhado por 12 atributos de metadados para melhorar a usabilidade do conjunto de dados.
Desafios da coleta de dados de vídeo
Representação Igual
Manter uma distribuição de dados equilibrada por etnia e, ao mesmo tempo, obter vídeos de alta qualidade.
Controle de qualidade
Garantir que cada participante contribua com um vídeo de ataque real e um de repetição para manter a integridade do conjunto de dados.
Consistência técnica
Seguindo diretrizes rígidas para FPS (≥ 26), resolução (≥ 720p) e precisão de registro de data e hora (+/- 0.5 ms).
Como resolvemos isso
A Shaip forneceu um conjunto de dados estruturado e de alta qualidade para atender aos requisitos do projeto. A solução incluiu:
Curadoria de conjuntos de dados e controle de qualidade
- Vídeos 25,000 coletados através de Fases 4 para garantir um fluxo de dados estável e estruturado, evitando gargalos.
- Processo de validação rigoroso para garantir o cumprimento FPS, resolução e precisão de metadados. Cada vídeo passou por diversas verificações de qualidade antes da aceitação final.
- Marcação abrangente de metadados com as 12 atributos:
- ID/Nome do arquivo
- Tipo de ataque (real/replay)
- ID da pessoa
- Resolução de vídeo
- Vídeo Duração
- Etnia do sujeito
- Gênero do sujeito
- Se o vídeo é original ou falsificado
- Nome/Modelo do dispositivo
- Pessoa falando ou não
- Hora de início do registro de data e hora
- Hora de término do registro de data e hora
- Distribuição equilibrada de grupos étnicos: O conjunto de dados foi meticulosamente curado para manter uma representação étnica equilibrada. A distribuição inclui populações hispânicas (33%), sul-asiáticas (21%), caucasianas (20%), africanas (15%) e do leste asiático e do Oriente Médio (cada uma compreendendo até 6%).
- Nenhuma entrada duplicada para manter a exclusividade do conjunto de dados e evitar vieses no treinamento de IA.
- Seleção de participantes etnicamente diversos para criar um conjunto de dados que reflita as variações do usuário no mundo real, melhorando a adaptabilidade e a justiça do modelo de IA.
- Variação do dispositivo de gravação incluiu vários modelos de smartphones, câmeras e condições de iluminação para aumentar a robustez do modelo em diferentes ambientes.
Resultado
O conjunto de dados de vídeo anti-spoofing diversificado e de alta qualidade fornecido pela Shaip permitiu que o cliente treinasse modelos de IA para diferenciar com precisão entre vídeos reais e falsificados em vários cenários de autenticação biométrica. O conjunto de dados contribuiu para:
Detecção de fraude
Desempenho aprimorado de IA na detecção de ataques biométricos fraudulentos.
Dados de treinamento diversos
Fortaleceu a capacidade do modelo de reconhecer ataques repetidos em diferentes etnias, dispositivos e condições ambientais.
Global
O conjunto de dados serve como base para futuras melhorias e expansões do modelo anti-spoofing.
O conjunto de dados de Shaip foi fundamental para aprimorar nossos modelos anti-spoofing orientados por IA. A diversidade, qualidade e metadados estruturados forneceram uma base sólida para melhorar a detecção de fraudes em sistemas de autenticação biométrica.