Licenciamento de dados de imagem facial e vídeo prontos para uso

Conjuntos de dados de reconhecimento facial prontos para uso para treinamento de modelos de IA

Aproveitando conjuntos de dados demograficamente diversos e de origem ética para acelerar o treinamento de modelos de IA e reduzir o viés de um conglomerado líder global em tecnologia.

Conjuntos de dados de reconhecimento facial prontos para uso

Visão geral do projeto

O cliente procurou acelerar Desenvolvimento de reconhecimento facial orientado por IA sem passar por longos e dispendiosos ciclos de coleta de dados. Para conseguir isso, eles precisavam conjuntos de dados prontos para uso que não eram apenas grande e diverso, Mas também de origem ética e em conformidade com os regulamentos globais de privacidade de dados.

A Shaip forneceu conjuntos de dados abrangentes com variações controladas de iluminação, poses de cabeça, oclusões e emoções, permitindo que os modelos do cliente alcançassem precisão e imparcialidade, atendendo aos critérios étnicos e demográficos exigidos. Cada conjunto de dados incluía metadados detalhados, anotações de pose e caixas delimitadoras para reconhecimento de emoções, permitindo que os modelos fossem treinados e testados em cenários reais altamente diversos.

Conjuntos de dados de reconhecimento facial prontos para uso

Estatísticas Chave

Mais de 7,000 assuntos

Em um conjunto de dados históricos com mais de 300,000 imagens e 2,000 vídeos.

Mais de 10,000 assuntos

no conjunto de dados de emoções multiangulares.

Imagens 74,880

em iluminação
Conjunto de dados de variação.

Imagens 18,600

cobrindo seis
emoções essenciais.

Escopo do Projeto

O cliente exigiu conjuntos de dados de imagens faciais e vídeos em larga escala, de origem ética e demograficamente diversos para apoiar o desenvolvimento e treinamento de modelos de reconhecimento facial. Esses conjuntos de dados foram essenciais para potencializar casos de uso em sistemas anti-spoofing, verificação de identidade, correspondência de imagens e análise de expressão, garantindo um desempenho de IA robusto e imparcial em aplicações do mundo real.

O escopo do engajamento incluiu:

  • Entregando conjuntos de dados selecionados projetado para atender a casos de uso de reconhecimento facial, como anti-spoofing, verificação de identidade e reconhecimento de expressão.
  • Obter imagens e vídeos com anotações detalhadas para dados demográficos, pose da cabeça, oclusões, tipo de iluminação e emoções.
  • Garantir que cobertura demográfica equilibrada para reduzir o viés sistêmico no treinamento.
  • garantindo conformidade e consentimento com padrões globais de proteção de dados e privacidade.

Contribuições do conjunto de dados de amostra:

  • Conjunto de dados históricos (~7,000 assuntos): mais de 300,000 imagens e 2,000 vídeos com variações de pose e oclusão.
  • Conjunto de dados de emoções multiangulares (~10,000 assuntos): 15–20 imagens por assunto em diferentes ângulos e estados emocionais.
  • Conjunto de dados de seis emoções (~3,100 assuntos): 18,600 imagens anotadas cobrindo expressões humanas essenciais.
  • Conjunto de dados de variação de iluminação (~468 assuntos): 74,880 imagens em nove condições de iluminação.

Desafios

O projeto abordou os principais desafios comuns na construção de modelos de IA robustos:

Viés em modelos de IA

Evitar a super-representação de etnias ou gêneros específicos para garantir justiça.

Variabilidade do mundo real

Capturando condições de iluminação, ângulos faciais, oclusões e expressões naturais.

Escala e Qualidade

Fornecendo centenas de milhares de imagens de alta resolução sem comprometer a diversidade.

Conformidade Regulamentar

Atendendo aos rigorosos requisitos globais de privacidade e proteção de dados com total consentimento do participante.

Solução

Shaip implementou um abordagem estruturada para garantir a qualidade e a relevância do conjunto de dados:

  • Conjuntos de dados balanceados selecionados com ampla representação étnica, de gênero e idade.
  • Capturada poses multi-ângulo e variações de iluminação para replicar condições do mundo real.
  • Adicionado anotações detalhadas (por exemplo, postura da cabeça, oclusões, emoções) para enriquecer a usabilidade do conjunto de dados.
  • Estabelecido rigoroso fluxos de trabalho de controle de qualidade e conformidade para garantir o fornecimento ético e a adesão à privacidade.

Portfólio de conjuntos de dados

Conjunto de dados Volume Demografia / Diversidade Padrões / Especificações
Conjunto de dados históricos de imagens faciais e vídeos (~7,000 indivíduos) 7,000 imagens de inscrição; mais de 300,000 imagens históricas; 2,000 vídeos (1 interno + 1 externo para cada 1,000 participantes) Etnia: Negra (35%), Leste Asiático (42%), Sul Asiático (13%), Branca (10%); Gênero: 50% Masculino / 50% Feminino; Idade: Adultos com 18 anos ou mais (últimos 10 anos) Duração do vídeo: 1–2 min; Variação da postura da cabeça (P1–P7); 5 tipos de oclusão (O0–O4)
Conjunto de dados de imagens faciais (~5,000 indivíduos) 35 imagens por assunto; 2,500 indianos; 1,000 asiáticos; 1,500 negros Idade: 18–60 anos; Distribuição equilibrada de gênero Sem embelezamento; Fundo e roupas variados; Resolução mínima: 960×1280
Conjunto de dados de emoções multiangulares (~10,000 indivíduos – chinês) 15–20 imagens por sujeito; Poses: Frente, Esquerda, Direita (30°–60°); Expressões: Sorriso, boca aberta, triste, sério, neutro Etnia: chinesa; Idade: 18–26; Gênero: divisão 50/50 Resolução: 2160×3840 pixels ou superior
Conjunto de dados de seis emoções humanas (~3,100 indivíduos) 6 imagens por assunto (expressões diferentes); 18,600 imagens no total Etnias: japonesas (9,000), coreanas (2,400), chinesas (2,400), sudeste asiáticas (2,400), sul asiáticas (2,400); Idade: 20–65 anos Anotações de caixa delimitadora para emoções; Fundos simples; Sem chapéus, óculos ou obstruções
Conjunto de dados de variação de iluminação (~468 indivíduos indianos) 160 imagens por assunto; Total: 74,880 imagens Idade: 20–70; 70% homens 9 condições de iluminação (interna, externa, luz lateral, luz de fundo, neon, etc.)
Conjunto de dados de imagens faciais multiétnicas (~600 indivíduos) 3,752 imagens no total Etnias: Africano, Oriente Médio, Nativo Americano, Sul Asiático, Sudeste Asiático; Idade: 20–70 anos -

Resultado

A colaboração gerou impacto comercial e técnico significativo:

  • Precisão do modelo aprimorada: Precisão e recuperação aprimoradas para modelos de reconhecimento facial em vários casos de uso.
  • Redução de polarização: A representação demográfica equilibrada reduziu o viés sistêmico nos resultados da IA.
  • Cronogramas de desenvolvimento acelerados:Conjuntos de dados prontos para uso permitiram prototipagem rápida e treinamento de modelos sem coleta de dados demorada.
  • Conformidade Regulamentar: Todos os conjuntos de dados aderiram aos padrões globais de privacidade e incluíram o consentimento dos participantes.

Os conjuntos de dados diversificados e de origem ética da Shaip nos deram a velocidade, a qualidade e a conformidade que precisávamos. Com dados prontos para uso, aceleramos o treinamento de modelos de IA e reduzimos significativamente o viés sistêmico.

Estrela de Ouro 5