Coleção de áudio de frases-chave/avisos

Estudo de caso: Coleta de frases-chave para sistemas ativados por voz no carro

Coleção de frases-chave

Há uma demanda crescente por sistemas automotivos ativados por voz na indústria automobilística, redefinindo como nos relacionamos com nossos veículos de mobilidade.

A indústria automotiva adotou rapidamente sistemas ativados por voz, com grandes players como Ford, Tesla e BMW integrando reconhecimento de voz avançado em seus veículos. Até 2022, estimou-se que mais de 50% dos carros novos apresentavam recursos de reconhecimento de voz. Essas integrações visam aumentar a segurança, permitindo que os motoristas operem as funções de navegação, entretenimento e comunicação sem distrações.

O valor de mercado do reconhecimento de voz em automóveis foi projetado para ultrapassar US$ 1 bilhão até 2023, indicando uma demanda crescente por interações inteligentes e sem uso das mãos no carro.

Automotivo

A pesquisa sugere que até 2022, 73% dos motoristas usarão um assistente de voz no carro.

O mercado Automotive Voice Recognition System foi avaliado em US$ 2.01 bilhões em 2021 e deve atingir US$ 3.51 bilhões em 2027, registrando um CAGR de cerca de 8.07%.

Solução do mundo real

Dados que alimentam sistemas ativados por voz

Os sistemas ativados por voz nos carros aumentam a segurança e a conveniência. Eles permitem que os motoristas acessem a navegação, façam chamadas, enviem mensagens de texto e controlem a música sem tirar as mãos do volante ou os olhos da estrada. Ao responder a comandos verbais, esses sistemas reduzem a distração, promovem a multitarefa e garantem o foco contínuo na direção. 

O cliente é um líder global em inteligência de conversação que oferece soluções de AI de voz que permitem que as empresas ofereçam experiências de conversação incríveis a seus clientes. Eles estavam trabalhando com empresas automotivas líderes para treinar seus sistemas ativados por voz com frases-chave de marca e precisavam da experiência de Shaip em coleta de dados de áudio.

Solução do mundo real
Desafios

Desafios

  • Multidão de Fornecimento: Recrute mais de 2800 falantes nativos por idioma globalmente.
  • Coleção de dados: Proteja mais de 200 mil prompts em 12 idiomas dentro do prazo definido.
  • Reconhecimento de contexto e intenção: para entender as solicitações do usuário corretamente, os sistemas precisavam ser treinados em diferentes variações para a mesma frase-chave.
  • Tratamento de ruído de fundo: Aborde o ruído de fundo do mundo real para precisão do modelo de ML.
  • Reduzindo o viés: Adquira amostras de voz de diversos dados demográficos para garantir a inclusão.
  • Especificações de áudio: 16 khz 16 bits PCM, mono, canal único, WAV; nenhum processamento.
  • Ambiente de Gravação: As gravações devem ter áudio limpo, sem ruído de fundo ou perturbação. Frases-chave a serem gravadas usando fala normal.
  • Verificação da qualidade:  Todas as gravações de fala passarão por avaliação e validação de qualidade, apenas gravações de fala validadas serão entregues. Se a Shaip não atender aos Padrões de Qualidade acordados, a Shaip reenviará os dados sem nenhum custo adicional

Solução

A Shaip, com sua experiência no espaço Conversational AI, permitiu ao cliente:

  • Coleção de dados: 208 mil frases-chave/prompts de marca coletados em 12 idiomas globais de 2800 falantes no prazo estipulado
  • Sotaques e dialetos diversos: Especialistas recrutados de todo o mundo, proficientes nos sotaques e dialetos desejados.
  • Reconhecimento de contexto e intenção: cada palestrante foi encarregado de gravar as frases-chave em 20 variações distintas, permitindo que os modelos de ML compreendessem com precisão as solicitações do usuário em termos de contexto e intenção.
  • Tratamento de Ruído de Fundo: Para garantir uma qualidade de áudio impecável, garantimos que as frases-chave fossem capturadas em um ambiente sereno com níveis de ruído abaixo de 40 dB, sem interferências de fundo como TV, rádio, música, fala ou sons da rua.
  • Reduzindo o viés: Para minimizar o viés, envolvemos indivíduos de diversas regiões e mantivemos uma representação demográfica equilibrada com 50% de homens e 50% de mulheres, abrangendo faixas etárias de 18 a 60 anos.
  • Diretrizes de gravação: As frases-chave foram capturadas em um padrão de fala consistente e normal, sem variações como ritmo rápido ou lento. Silêncio de 2 segundos no início e no final para garantir que nenhuma parte do discurso seja cortada inadvertidamente.
  • Formato de Gravação: O áudio foi gravado em 16kHz, PCM de 16 bits em mono, utilizando um único canal e salvo no formato de arquivo WAV. O áudio permanece sem processamento, o que significa que não houve aplicação de compressão, reverberação ou EQ.
  • Qualidade: Cada gravação de fala foi submetida a rigorosas verificações de qualidade e validação. Apenas as gravações que passaram nesta avaliação foram entregues. Todos os arquivos que ficaram aquém dos padrões de qualidade acordados foram regravados e fornecidos sem nenhum custo extra
Solução
Resultado

Resultado

Os dados de áudio ou comandos de voz de frase-chave da marca de alta qualidade permitirão às empresas automotivas e seus clientes:

  1. Marca e Identidade: Prompts de voz com frases de marca específicas ajudam as empresas a criar uma conexão direta e memorável entre o usuário e a marca que melhora a lembrança da marca.
  2. Facilidade de uso: Os comandos de voz facilitam a interação dos motoristas com os veículos sem tirar as mãos do volante ou os olhos da estrada, aumentando assim a segurança na estrada.
  3. Funcionalidade: Os comandos de voz tornam o acesso e o controle dos recursos do carro mais intuitivos. Seja navegação, reprodução de mídia ou controle climático.
  4. Integração com Outros Sistemas: Muitos sistemas ativados por voz são integrados a smartphones, dispositivos domésticos inteligentes e outros dispositivos IoT. Por exemplo, um usuário pode solicitar que seu carro acenda as luzes de casa ao se aproximar de casa.
  5. Vantagem competitiva: oferecer sistemas avançados ativados por voz pode ser um ponto de venda e um diferencial. Os compradores procuram a tecnologia mais recente ao considerar a compra de um carro novo.
  6. À prova de futuro: À medida que a tecnologia evolui e a IoT se torna mais integrada à vida cotidiana, ter um sistema robusto ativado por voz posiciona as empresas automotivas para serem mais adaptáveis ​​à tecnologia do futuro.
  7. Oportunidades de receita: Oportunidades adicionais de monetização, ou seja, sistemas de voz oferecem recomendações ou experiências integradas de comércio eletrônico (como pedir comida ou encontrar serviços próximos) que podem gerar receita para afiliados.
Dourado-5 estrelas

Quando começamos a fornecer comandos de voz para o setor automotivo, os desafios eram numerosos. Capturar a diversidade de fala, sotaques e tons foi vital para representar a clientela global de nosso cliente. Shaip se destacou não apenas como fornecedor, mas como um verdadeiro parceiro. Seu compromisso em garantir uma gama diversificada de vozes de diferentes regiões foi louvável. Eles foram além de simplesmente reunir vozes; eles captaram as nuances das necessidades do nosso projeto, garantindo gravações de alto nível. Sua adesão impecável aos padrões de coleta de áudio demonstrou seu profissionalismo e dedicação ao projeto.

Acelere sua IA de conversação
desenvolvimento de aplicativos em 100%