Aprimorando a compreensão da consulta de pesquisa com anotação humana
Aproveitando o julgamento humano e a taxonomia estruturada para lidar consistentemente com casos extremos ambíguos e melhorar a relevância da pesquisa para um conglomerado líder de comércio eletrônico sediado na Polônia.
Visão geral do projeto
O cliente, um líder em comércio eletrônico com sede na Polônia, recebe milhões de consultas de pesquisa diariamente. Muitas dessas consultas são ambíguo, incluir erros ortográficos, ou referir-se a múltiplas categorias de produtos, criando desafios para mecanismos de busca automatizados.
Para melhorar sprecisão da pesquisa e experiência do clienteShaip desenvolveu uma estrutura de anotação inspirada no estudo de Baymard. As consultas foram sistematicamente classificadas em Categorias 11 (por exemplo, categoria de produto, tema, atributo específico, exato, comerciante, sintoma, não produto, etc.) com regras de precedência para garantir uma categorização consistente.
Estatísticas Chave
Mais de 50,000 consultas anotadas
em várias categorias
11 Classes de Anotação
com definições claras e regras de precedência
Fluxo de trabalho de 3 etapas
Anotação ➔ Controle de Qualidade ➔ Arbitragem de PMEs
Escopo do Projeto
O projeto centrou-se na construção de uma taxonomia abrangente para capturar todo o espectro do comportamento de pesquisa do usuário em uma plataforma de marketplace de larga escala. O escopo incluiu:
- Desenvolvendo uma taxonomia de 11 categorias com definições claras e uma hierarquia de precedência para abordar casos em que as consultas podem se enquadrar em mais de uma classe.
- Anotando milhares de consultas reais em domínios de produtos e não produtos para treinar e calibrar o sistema de classificação.
- Resolução de consultas ambíguas escalando para especialistas no assunto (SMEs), garantindo consistência na forma como os casos extremos eram tratados.
- Fornecer exemplos anotados e justificativas para calibração de QA, criando um conjunto de treinamento no qual futuros anotadores poderiam confiar como referência.
Anotações de amostra incluídas:
- De dietrich ELENSIO ➔ Exato
- E 91 ➔ Difícil dizer
- tezfiles ➔ Comerciante
- subaru brz toyota gt86 ➔ Não Produto
- okulary BHP ➔ Categoria de produto
- stawu skokowego ➔ Sintoma
Desafios
O projeto teve que superar vários problemas de complexidade de dados que são típicos em ambientes de pesquisa de comércio eletrônico:
Ambiguidade
Consultas como “E 91” podem corresponder a produtos muito diferentes (um modelo de carro, um porta-fusível, uma impressão de cápsula), tornando a interpretação altamente incerta.
Erros de digitação e variantes
Erros de ortografia ou abreviações, como “lampa uf zestaw”, exigiram interpretação humana contextual para serem compreendidos como “lampa UV zestaw”.
Categorias sobrepostas
As consultas geralmente correspondiam a várias classes (por exemplo, Exato vs. Compatível vs. Atributo Específico), exigindo regras de precedência para garantir consistência.
Entradas inválidas
Códigos de série ou identificadores sem qualquer correspondência de produto precisavam ser marcados como “Frase inválida” em vez de serem classificados incorretamente.
Global
Aplicação consistente de regras de classificação diferenciadas em dezenas de milhares de consultas exigiu forte controle de qualidade e governança de anotação.
Solução
Para enfrentar estes desafios, uma estrutura de anotação estruturada foi introduzido, equilibrando a automação com a supervisão humana:
Diretrizes de anotação
Definições detalhadas, exemplos e instruções foram criadas para ajudar os anotadores a classificar de forma consistente, mesmo em cenários complexos.
Regras de Precedência
Uma hierarquia foi estabelecida (por exemplo, Compatível > Exato > Atributo Específico) para que casos sobrepostos fossem resolvidos sistematicamente.
Processo de QA multinível
- Anotação inicial por anotadores treinados.
- Revisão secundária por especialistas em controle de qualidade.
- Encaminhamento para PMEs para arbitragem em casos extremos ou desacordos
Aplicação prática de diretrizes com consultas do mundo real
- 4008146044786 ➔ Frase inválida
- miraculum królika ➔ Atributo Temático
- zcd cinza galáctico ➔ Compatível
- Pastor Belga ➔ Tema
Isto garantiu alinhamento, qualidade e confiabilidade através do pipeline de anotação.
Resultado
A iniciativa proporcionou melhorias mensuráveis ao ecossistema de pesquisa do cliente:
- Mais de 50,000 consultas classificadas com alta precisão, formando um conjunto de dados de treinamento robusto para melhorias de pesquisa.
- Relevância aprimorada dos resultados da pesquisa, aumentando diretamente a satisfação do usuário e reduzindo a frustração causada por correspondências irrelevantes.
- Ambiguidade Reduzida resolvendo sistematicamente casos extremos por meio de arbitragem conduzida por PMEs e regras de precedência.
- Maior capacidade de descoberta de produtos, garantindo que os usuários possam encontrar itens com mais precisão em categorias, atributos e temas.
No geral, o projeto lançou as bases para uma experiência de pesquisa mais inteligente e focada no usuário, ajudando o cliente a manter sua vantagem competitiva no mercado de comércio eletrônico.
O fluxo de trabalho de anotação humana trouxe clareza a consultas de pesquisa complexas. A taxonomia estruturada e as regras de precedência melhoraram significativamente a precisão do nosso mecanismo de busca e tornaram a experiência do usuário mais fluida.
– Chefe de Pesquisa e Descoberta, Conglomerado de Comércio Eletrônico sediado na Polônia