Construindo um conjunto de dados de imagens faciais de fora da UE/Reino Unido com diversidade de progressão etária
Um conjunto de imagens faciais de 1,205 participantes, coletadas em momentos distintos, para fortalecer a imparcialidade e a robustez de modelos de visão computacional.
Visão geral do projeto
Uma empresa global de tecnologia que desenvolve IA centrada no rosto para experiências de segurança, personalização e identidade buscava um conjunto de dados de países fora da UE/Reino Unido com fotos tiradas em momentos diferentes para reduzir o viés e melhorar a resiliência do modelo em relação à idade, ambiente e acessórios.
O cliente fez uma parceria com Shaip para coletar, organizar e validar Um extenso conjunto de imagens faciais, no qual cada participante contribui com fotos recentes e antigas. O objetivo era codificar a progressão natural do envelhecimento, ao mesmo tempo que se impunha uma origem rigorosamente não pertencente à UE/Reino Unido e se alcançavam quotas equilibradas de género/idade.
Estatísticas Chave
Participantes
1,205 (Apenas para cidadãos de fora da UE/Reino Unido, proporção de gênero 50/50 ±10–15%)
Faixa etária mista
40% (10–29), 40% (30–49), 20% (50+) ±10–15% de tolerância
Global
Sul/Sudeste Asiático, Norte e Norte/Leste da África, Singapura, América do Sul
Timeline
19 semanas
Desafios
Restrição geográfica
Selecionando exclusivamente pessoas de fora da UE/Reino Unido e evitando imagens originárias da UE/Reino Unido relacionadas a viagens.
Cotas equilibradas em escala
Atingimos 1,205 participantes com tolerâncias rigorosas em relação a gênero e idade.
Evidências separadas pelo tempo
Garantir que cada documento de identidade contenha fotos recentes e antigas, correspondentes às faixas etárias.
Qualidade operacional
Impor limites mínimos de tamanho, variedade e duplicação de imagens/rostos sem comprometer a produtividade.
Solução
1. Painéis de país e controles de procedência
Nós estabelecemos grupos de fornecimento em nível nacional em todas as regiões-alvo e parceiros treinados em regras de proveniência (Apenas para países fora da UE/Reino Unido). As fotos foram analisadas quanto a riscos relacionados à origem da viagem usando pistas de metadados (ano, marcadores de localização) Além disso, as declarações dos remetentes reduzem o vazamento de informações da UE/Reino Unido antes do controle de qualidade. Isso reflete a prática comprovada da Shaip de antecipar as verificações de risco para proteger o fluxo de trabalho subsequente.
2. Projeto de Captura da Progressão da Idade
Em vez de “pedir 20 imagens”, criamos um fluxo de submissão de duas vias que orientou os participantes a:
- Faixa A (Recente): Fotos dos últimos dois anos;
- Faixa B (Histórica): Fotos antigas alinhadas à faixa etária do participante no momento da inscrição (por exemplo, janelas de 2 a 10/15/20 anos).
O portal incentivava os usuários com exemplos (ambientes internos/externos, ângulos, acessórios) para promover a variedade sem especificar demais.
3. Orquestração da Diversidade e Diretrizes de Cotas
A painel de cotas em tempo real matrículas monitoradas por gênero, faixa etária e geografia, interrompendo a admissão assim que um estrato atingisse os limites planejados. Isso evitou retrabalho no final do ciclo e reflete a abordagem padrão de Shaip de matrícula estratificada + bloqueios Utilizado em conjuntos de dados biométricos anteriores para manter uma representação equilibrada.
4. Fluxo de Qualidade (Intervenção Humana + Pré-verificações Automatizadas)
- Portões automáticos: Detecção facial + limites mínimos de tamanho, verificações básicas de desfoque/ruído e agrupamento no mesmo dia para sinalizar possíveis duplicatas precocemente.
- Níveis de controle de qualidade humano: Revisores de nível de imagem validaram exclusividade do assunto (apenas para o participante principal), variedade de cena/ângulo e sem filtros de embelezamentoOs auditores de CQA verificavam lotes aleatoriamente antes da aceitação. Controle de qualidade em várias camadas espelha os programas de dados biométricos publicados por Shaip.
5. Conformidade e Consentimento
Inscrição ≥20 anos Com consentimento assinado; casos de menores de 20 anos aceitos somente com consentimento do responsável legal. Registramos a presença do consentimento nos metadados e alinhamos as listas de verificação dos revisores. elegibilidade + consentimento campos, garantindo a auditabilidade.
6. Metadados e Rastreabilidade
nós entregamos metadados de nível de participante e de imagem (Vínculos de identificação, dados demográficos, nacionalidade/residência, ano da foto, data de envio, etc.) e nomes de campos padronizados para simplificar rotulagem e avaliação a jusanteIsso segue a melhor prática de Shaip. marcação de metadados avançados para conjuntos de dados biométricos.
7. Entrega faseada para reduzir a escala de risco
An Plano de lote 8 começou com um Calibração com 10 participantes definir o volume, seguido de um aumento gradual e controlado. O feedback do cliente após o primeiro lote orientou os ajustes na rubrica, e então os volumes foram aumentados em etapas previsíveis até atingir o objetivo. 1,205 participantes Em aproximadamente 19 semanas.
Escopo do Projeto
| Dimensão | O que entregamos |
|---|---|
| População | 1,205 participantes de fora da UE/Reino Unido, com distribuição equilibrada entre gêneros e faixas etárias. |
| Conteúdo | ≥20 imagens por participante: recentes + históricas para representar a progressão da idade; cenas, ângulos e acessórios variados. |
| Operações de Qualidade | Verificações prévias automatizadas + controle de qualidade humano em múltiplas camadas (controle de duplicatas; exclusividade do sujeito; rejeição de filtros). |
| Compliance | Verificação de procedência fora da UE/Reino Unido; governança do consentimento e validação da elegibilidade. |
| metadados | Atributos do participante e da imagem para rastreabilidade e avaliação subsequente de aprendizado de máquina. |
| Entrega | 8 lotes em fases, começando com a calibração e seguindo com a entrega em estado estacionário até atingir o alvo final. |
O Resultado
- Corpus equilibrado e pronto para auditoria: Cotas demográficas atendidas dentro da tolerância; origem não pertencente à UE/Reino Unido garantida em todas as imagens para fins de treinamento em conformidade.
- Variabilidade de prontidão do modelo: Imagens obtidas em momentos diferentes, ambientes/ângulos diversos e cobertura de acessórios permitem testes de robustez e análise de viés.
- Previsibilidade operacional: A implementação inicial da calibração, juntamente com as medidas de segurança de quotas, reduziu o retrabalho e garantiu o cumprimento do cronograma para atingir a meta total de 1,205 participantes.
- Eficiência a jusante: Metadados ricos e uma higiene de arquivos consistente encurtaram o caminho para a anotação e a construção de benchmarks, seguindo os manuais de conjuntos de dados biométricos de Shaip.
A Shaip transformou um briefing complexo de conjunto de dados faciais de países fora da UE/Reino Unido em um corpus equilibrado e pronto para auditoria. Seu design de progressão de idade e controle de qualidade em etapas forneceram à nossa equipe de visão computacional dados limpos e diversificados nos quais podíamos confiar — sem comprometer o cronograma.