Construindo um conjunto de dados de imagens faciais de fora da UE/Reino Unido com diversidade de progressão etária

Um conjunto de imagens faciais de 1,205 participantes, coletadas em momentos distintos, para fortalecer a imparcialidade e a robustez de modelos de visão computacional.

Conjunto de dados de imagens faciais com diversidade de progressão etária

Visão geral do projeto

Uma empresa global de tecnologia que desenvolve IA centrada no rosto para experiências de segurança, personalização e identidade buscava um conjunto de dados de países fora da UE/Reino Unido com fotos tiradas em momentos diferentes para reduzir o viés e melhorar a resiliência do modelo em relação à idade, ambiente e acessórios.

O cliente fez uma parceria com Shaip para coletar, organizar e validar Um extenso conjunto de imagens faciais, no qual cada participante contribui com fotos recentes e antigas. O objetivo era codificar a progressão natural do envelhecimento, ao mesmo tempo que se impunha uma origem rigorosamente não pertencente à UE/Reino Unido e se alcançavam quotas equilibradas de género/idade.

Conjunto de dados de imagens faciais com diversidade de progressão etária

Estatísticas Chave

Participantes

 1,205 (Apenas para cidadãos de fora da UE/Reino Unido, proporção de gênero 50/50 ±10–15%)

 Faixa etária mista

 40% (10–29), 40% (30–49), 20% (50+) ±10–15% de tolerância

Global

Sul/Sudeste Asiático, Norte e Norte/Leste da África, Singapura, América do Sul

Timeline

19 semanas

Desafios

Restrição geográfica

Selecionando exclusivamente pessoas de fora da UE/Reino Unido e evitando imagens originárias da UE/Reino Unido relacionadas a viagens.

Cotas equilibradas em escala

Atingimos 1,205 participantes com tolerâncias rigorosas em relação a gênero e idade.

Evidências separadas pelo tempo

Garantir que cada documento de identidade contenha fotos recentes e antigas, correspondentes às faixas etárias.

Qualidade operacional

Impor limites mínimos de tamanho, variedade e duplicação de imagens/rostos sem comprometer a produtividade.

Solução

1. Painéis de país e controles de procedência

Nós estabelecemos grupos de fornecimento em nível nacional em todas as regiões-alvo e parceiros treinados em regras de proveniência (Apenas para países fora da UE/Reino Unido). As fotos foram analisadas quanto a riscos relacionados à origem da viagem usando pistas de metadados (ano, marcadores de localização) Além disso, as declarações dos remetentes reduzem o vazamento de informações da UE/Reino Unido antes do controle de qualidade. Isso reflete a prática comprovada da Shaip de antecipar as verificações de risco para proteger o fluxo de trabalho subsequente.

2. Projeto de Captura da Progressão da Idade

Em vez de “pedir 20 imagens”, criamos um fluxo de submissão de duas vias que orientou os participantes a:

  • Faixa A (Recente): Fotos dos últimos dois anos;
  • Faixa B (Histórica): Fotos antigas alinhadas à faixa etária do participante no momento da inscrição (por exemplo, janelas de 2 a 10/15/20 anos).

O portal incentivava os usuários com exemplos (ambientes internos/externos, ângulos, acessórios) para promover a variedade sem especificar demais.

3. Orquestração da Diversidade e Diretrizes de Cotas

A painel de cotas em tempo real matrículas monitoradas por gênero, faixa etária e geografia, interrompendo a admissão assim que um estrato atingisse os limites planejados. Isso evitou retrabalho no final do ciclo e reflete a abordagem padrão de Shaip de matrícula estratificada + bloqueios Utilizado em conjuntos de dados biométricos anteriores para manter uma representação equilibrada.

4. Fluxo de Qualidade (Intervenção Humana + Pré-verificações Automatizadas)

  • Portões automáticos: Detecção facial + limites mínimos de tamanho, verificações básicas de desfoque/ruído e agrupamento no mesmo dia para sinalizar possíveis duplicatas precocemente.
  • Níveis de controle de qualidade humano: Revisores de nível de imagem validaram exclusividade do assunto (apenas para o participante principal), variedade de cena/ângulo e sem filtros de embelezamentoOs auditores de CQA verificavam lotes aleatoriamente antes da aceitação. Controle de qualidade em várias camadas espelha os programas de dados biométricos publicados por Shaip.

5. Conformidade e Consentimento

Inscrição ≥20 anos Com consentimento assinado; casos de menores de 20 anos aceitos somente com consentimento do responsável legal. Registramos a presença do consentimento nos metadados e alinhamos as listas de verificação dos revisores. elegibilidade + consentimento campos, garantindo a auditabilidade.

6. Metadados e Rastreabilidade

nós entregamos metadados de nível de participante e de imagem (Vínculos de identificação, dados demográficos, nacionalidade/residência, ano da foto, data de envio, etc.) e nomes de campos padronizados para simplificar rotulagem e avaliação a jusanteIsso segue a melhor prática de Shaip. marcação de metadados avançados para conjuntos de dados biométricos.

7. Entrega faseada para reduzir a escala de risco

An Plano de lote 8 começou com um Calibração com 10 participantes definir o volume, seguido de um aumento gradual e controlado. O feedback do cliente após o primeiro lote orientou os ajustes na rubrica, e então os volumes foram aumentados em etapas previsíveis até atingir o objetivo. 1,205 participantes Em aproximadamente 19 semanas.

Escopo do Projeto

Dimensão O que entregamos
População 1,205 participantes de fora da UE/Reino Unido, com distribuição equilibrada entre gêneros e faixas etárias.
Conteúdo ≥20 imagens por participante: recentes + históricas para representar a progressão da idade; cenas, ângulos e acessórios variados.
Operações de Qualidade Verificações prévias automatizadas + controle de qualidade humano em múltiplas camadas (controle de duplicatas; exclusividade do sujeito; rejeição de filtros).
Compliance Verificação de procedência fora da UE/Reino Unido; governança do consentimento e validação da elegibilidade.
metadados Atributos do participante e da imagem para rastreabilidade e avaliação subsequente de aprendizado de máquina.
Entrega 8 lotes em fases, começando com a calibração e seguindo com a entrega em estado estacionário até atingir o alvo final.

O Resultado

  • Corpus equilibrado e pronto para auditoria: Cotas demográficas atendidas dentro da tolerância; origem não pertencente à UE/Reino Unido garantida em todas as imagens para fins de treinamento em conformidade.
  • Variabilidade de prontidão do modelo: Imagens obtidas em momentos diferentes, ambientes/ângulos diversos e cobertura de acessórios permitem testes de robustez e análise de viés.
  • Previsibilidade operacional: A implementação inicial da calibração, juntamente com as medidas de segurança de quotas, reduziu o retrabalho e garantiu o cumprimento do cronograma para atingir a meta total de 1,205 participantes.
  • Eficiência a jusante: Metadados ricos e uma higiene de arquivos consistente encurtaram o caminho para a anotação e a construção de benchmarks, seguindo os manuais de conjuntos de dados biométricos de Shaip.

A Shaip transformou um briefing complexo de conjunto de dados faciais de países fora da UE/Reino Unido em um corpus equilibrado e pronto para auditoria. Seu design de progressão de idade e controle de qualidade em etapas forneceram à nossa equipe de visão computacional dados limpos e diversificados nos quais podíamos confiar — sem comprometer o cronograma.

Estrela de Ouro 5