Aprimorando a compreensão da consulta de pesquisa com anotação humana

Aproveitando o julgamento humano e a taxonomia estruturada para lidar consistentemente com casos extremos ambíguos e melhorar a relevância da pesquisa para um conglomerado líder de comércio eletrônico sediado na Polônia.

Melhorando a consulta de pesquisa

Visão geral do projeto

O cliente, um líder em comércio eletrônico com sede na Polônia, recebe milhões de consultas de pesquisa diariamente. Muitas dessas consultas são ambíguo, incluir erros ortográficos, ou referir-se a múltiplas categorias de produtos, criando desafios para mecanismos de busca automatizados.

Para melhorar sprecisão da pesquisa e experiência do clienteShaip desenvolveu uma estrutura de anotação inspirada no estudo de Baymard. As consultas foram sistematicamente classificadas em Categorias 11 (por exemplo, categoria de produto, tema, atributo específico, exato, comerciante, sintoma, não produto, etc.) com regras de precedência para garantir uma categorização consistente.

 

Melhorando a consulta de pesquisa

Estatísticas Chave

Mais de 50,000 consultas anotadas

em várias categorias

11 Classes de Anotação

com definições claras e regras de precedência

Fluxo de trabalho de 3 etapas

Anotação ➔ Controle de Qualidade ➔ Arbitragem de PMEs

Escopo do Projeto

O projeto centrou-se na construção de uma taxonomia abrangente para capturar todo o espectro do comportamento de pesquisa do usuário em uma plataforma de marketplace de larga escala. O escopo incluiu:

  • Desenvolvendo uma taxonomia de 11 categorias com definições claras e uma hierarquia de precedência para abordar casos em que as consultas podem se enquadrar em mais de uma classe.
  • Anotando milhares de consultas reais em domínios de produtos e não produtos para treinar e calibrar o sistema de classificação.
  • Resolução de consultas ambíguas escalando para especialistas no assunto (SMEs), garantindo consistência na forma como os casos extremos eram tratados.
  • Fornecer exemplos anotados e justificativas para calibração de QA, criando um conjunto de treinamento no qual futuros anotadores poderiam confiar como referência.

Anotações de amostra incluídas:

  • De dietrich ELENSIO ➔ Exato
  • E 91 ➔ Difícil dizer
  • tezfiles ➔ Comerciante
  • subaru brz toyota gt86 ➔ Não Produto
  • okulary BHP ➔ Categoria de produto
  • stawu skokowego ➔ Sintoma

Desafios

O projeto teve que superar vários problemas de complexidade de dados que são típicos em ambientes de pesquisa de comércio eletrônico:

Ambiguidade

Consultas como “E 91” podem corresponder a produtos muito diferentes (um modelo de carro, um porta-fusível, uma impressão de cápsula), tornando a interpretação altamente incerta.

Erros de digitação e variantes

Erros de ortografia ou abreviações, como “lampa uf zestaw”, exigiram interpretação humana contextual para serem compreendidos como “lampa UV zestaw”.

Categorias sobrepostas

As consultas geralmente correspondiam a várias classes (por exemplo, Exato vs. Compatível vs. Atributo Específico), exigindo regras de precedência para garantir consistência.

Entradas inválidas

Códigos de série ou identificadores sem qualquer correspondência de produto precisavam ser marcados como “Frase inválida” em vez de serem classificados incorretamente.

Global

Aplicação consistente de regras de classificação diferenciadas em dezenas de milhares de consultas exigiu forte controle de qualidade e governança de anotação.

Solução

Para enfrentar estes desafios, uma estrutura de anotação estruturada foi introduzido, equilibrando a automação com a supervisão humana:

Diretrizes de anotação

Definições detalhadas, exemplos e instruções foram criadas para ajudar os anotadores a classificar de forma consistente, mesmo em cenários complexos.

Regras de Precedência

Uma hierarquia foi estabelecida (por exemplo, Compatível > Exato > Atributo Específico) para que casos sobrepostos fossem resolvidos sistematicamente.

Processo de QA multinível

  1. Anotação inicial por anotadores treinados.
  2. Revisão secundária por especialistas em controle de qualidade.
  3. Encaminhamento para PMEs para arbitragem em casos extremos ou desacordos

Aplicação prática de diretrizes com consultas do mundo real

  • 4008146044786 ➔ Frase inválida
  • miraculum królika Atributo Temático
  • zcd cinza galáctico Compatível
  • Pastor Belga Tema

 Isto garantiu alinhamento, qualidade e confiabilidade através do pipeline de anotação.

Resultado

A iniciativa proporcionou melhorias mensuráveis ​​ao ecossistema de pesquisa do cliente:

  • Mais de 50,000 consultas classificadas com alta precisão, formando um conjunto de dados de treinamento robusto para melhorias de pesquisa.
  • Relevância aprimorada dos resultados da pesquisa, aumentando diretamente a satisfação do usuário e reduzindo a frustração causada por correspondências irrelevantes.
  • Ambiguidade Reduzida resolvendo sistematicamente casos extremos por meio de arbitragem conduzida por PMEs e regras de precedência.
  • Maior capacidade de descoberta de produtos, garantindo que os usuários possam encontrar itens com mais precisão em categorias, atributos e temas.

No geral, o projeto lançou as bases para uma experiência de pesquisa mais inteligente e focada no usuário, ajudando o cliente a manter sua vantagem competitiva no mercado de comércio eletrônico.

O fluxo de trabalho de anotação humana trouxe clareza a consultas de pesquisa complexas. A taxonomia estruturada e as regras de precedência melhoraram significativamente a precisão do nosso mecanismo de busca e tornaram a experiência do usuário mais fluida.

– Chefe de Pesquisa e Descoberta, Conglomerado de Comércio Eletrônico sediado na Polônia

Dourado-5 estrelas