Análise de emoção e sentimento de fala
Habilitando Call Centers mais inteligentes com insights baseados em IA
Aproveitando a experiência de Shaip em coleta e anotação de dados de áudio para aprimorar a detecção de emoções e sentimentos em tempo real e melhorar o atendimento ao cliente.
Análise automatizada de emoção e sentimento de fala
O Cliente fez uma parceria com a Shaip para desenvolver um modelo automatizado de análise de emoção e sentimento de fala para call centers. O projeto envolveu a coleta e anotação de 250 horas de dados de áudio de call center em quatro dialetos ingleses – EUA, Reino Unido, Austrália e Índia. Isso permitiu que o cliente aprimorasse seus modelos de IA para detectar emoções como Feliz, Neutro e Irritado, e sentimentos como Insatisfeito e Satisfeito em interações com clientes em tempo real.
O projeto superou desafios como detecção de sarcasmo, durações de áudio variadas e sinais verbais sutis de insatisfação, entregando resultados precisos e escaláveis.
Estatísticas Chave
Dados de áudio do call center coletados e anotados em 4 dialetos ingleses
Hrs 250
Nº de idiomas
Inglês dos EUA, inglês do Reino Unido, inglês australiano e inglês indiano
Casos de uso
Análise automatizada de emoção e sentimento de fala
Escopo do Projeto
Coletar e anotar 250 horas de dados de áudio de call center em quatro dialetos do inglês:
- Inglês dos EUA (30%)
- Inglês do Reino Unido (30%)
- Inglês australiano (20%)
- Inglês indiano (20%)
Na mira
O projeto consiste em três partes:
- Dados de áudio com entidades específicas, incluindo metadados.
- Arquivos transcritos correspondentes com detalhes de segmentação e registro de data e hora.
- Anotações de emoção e sentimento:
- Emoção de áudio: Feliz, Neutro, Irritado
- Sentimento da transcrição: Extremamente insatisfeito, insatisfeito, neutro, satisfeito, extremamente satisfeito
Desafios
Diversidade de dialetos
Garantir que os dados de áudio representem com precisão os dialetos especificados (EUA, Reino Unido, Austrália e Índia) pode ser desafiador. Diferentes regiões dentro dessas categorias podem usar vocabulário, sotaques e pronúncia variados.
Requisito de experiência
Anotar áudio e transcrições para emoção e sentimento requer anotadores treinados, familiarizados com as nuances culturais e sutilezas linguísticas de cada dialeto.
Complexidade de Emoções e Sentimentos
Emoção de áudio e sentimento de transcrição nem sempre se alinham. Por exemplo, uma pessoa pode soar brava, mas na verdade expressar satisfação. Por exemplo, lidar com conversas sarcásticas em frases sarcásticas como "Oh, maravilhoso, outra pessoa que não consegue resolver meu problema" precisa ser corretamente anotada para emoção e sentimento.
Qualidade de áudio
A qualidade das gravações de áudio pode variar, afetando a precisão da transcrição e a detecção de emoções. Ruído de fundo, conversas sobrepostas e equipamentos de gravação variados podem representar desafios significativos.
Capturando com precisão
Insatisfação por meio de sinais verbais, como expirações pesadas ou outros sinais de frustração.
Solução
Aproveitando técnicas avançadas de processamento de linguagem natural (PLN), as seguintes soluções foram implementadas:
Coleta de Dados
- 250 horas de dados de áudio divididas em cotas específicas para cada dialeto.
- Inglês dos EUA (30% ou 75 horas)
- Inglês do Reino Unido (30% ou 75 horas)
- Inglês australiano (20% ou 50 horas)
- Inglês indiano (20% ou 50 horas)
- Usuários de sotaque nativo dos EUA, Reino Unido, Austrália e Índia.
- Amostras de fala contendo tons variados, com foco especial em casos em que a emoção da voz é Raiva e o sentimento do texto é Insatisfeito ou Extremamente Insatisfeito.
Classificação/Anotação de Texto
- Anotação de emoções e sentimentos com base em categorias específicas:
- Emoção de áudio: Feliz, Neutro, Irritado.
- Sentimento da transcrição: Extremamente insatisfeito, insatisfeito, neutro, satisfeito, extremamente satisfeito.
- Cada segmento de áudio continha apenas uma emoção primária.
- Segmentos de atraso variáveis (de 2 a 30 segundos) aplicados em conversas.
- O formato de transcrição seguiu a saída JSON, incluindo informações do locutor esquerdo e direito, tags de sentimento e sentimento do segmento final.
Garantia de qualidade
Precisão da transcrição:
- Garantiu que 250 horas de áudio fossem entregues com um mínimo de:
- Precisão de 90% na taxa de erro de transcrição (TER).
- Precisão de 95% na Taxa de Reconhecimento de Palavras (WER).
Processo de controle de qualidade:
- Foram realizadas auditorias regulares de amostras selecionadas aleatoriamente do conjunto de dados.
- Foram utilizadas ferramentas automatizadas para medir TER e WER em todo o conjunto de dados.
- A revisão manual das seções sinalizadas garantiu que os limites de precisão fossem atingidos.
O Resultado
Os dados de treinamento darão suporte ao desenvolvimento de um modelo automatizado de detecção de emoções e sentimentos, fornecendo:
- Detecção de emoções em tempo real em interações de call center.
- Tratamento mais eficaz de casos complexos, como sarcasmo ou insatisfação.
- Escalabilidade para projetos futuros, adaptando-se facilmente a maiores volumes de dados e mais idiomas.
Entregas
- 250 horas de arquivos de áudio (em formato PCM WAV de 8 kHz, mono)
- Arquivos de transcrição (com segmentação, tags de sentimento e identificadores de locutor)
- Metadados (duração do áudio, detalhes do palestrante, etc.)
A parceria com a Shaip para nosso projeto de dados de call center foi um momento crucial no avanço de nossas soluções de IA. Sua equipe coletou e anotou habilmente 250 horas de dados de áudio em quatro dialetos principais do inglês – EUA, Reino Unido, Austrália e Índia – garantindo a mais alta qualidade e precisão. A atenção às nuances linguísticas nessas regiões melhorou significativamente a precisão de nossos modelos de reconhecimento de fala. Além disso, a experiência da Shaip em lidar com projetos complexos de anotação de dados foi fundamental para nos ajudar a construir modelos confiáveis e compatíveis em escala.

