Estudo de caso: coleção de enunciados

Entregue mais de 7 milhões de enunciados para criar assistentes digitais multilíngues em 13 idiomas

Coleção de enunciados

Solução do mundo real

Dados que impulsionam as conversas globais

A necessidade de treinamento de Expressão surge porque nem todos os clientes usam as palavras ou frases exatas ao interagir ou fazer perguntas a seus assistentes de voz em um formato de script. É por isso que aplicativos de voz específicos devem ser treinados em dados de fala espontânea. Por exemplo, “Onde está localizado o hospital mais próximo?” “Encontre um hospital perto de mim” ou “Existe um hospital perto de mim?” todos indicam a mesma intenção de pesquisa, mas são redigidos de maneira diferente.

Coleção de enunciados1

Problema

Para executar o roteiro de fala do Digital Assistant dos clientes para idiomas mundiais, a equipe precisava adquirir grandes volumes de dados de treinamento para o modelo de IA de reconhecimento de fala. Os requisitos críticos do cliente foram:

  • Adquira grandes volumes de dados de treinamento (solicitações de enunciado de um único falante com duração não superior a 3-30 segundos) para serviços de reconhecimento de fala em 13 idiomas globais
  • Para cada idioma, o fornecedor gerará prompts de texto para os falantes gravarem (a menos que o
    suprimentos do cliente) e transcreva o áudio resultante.
  • Fornecer dados de áudio e transcrição de enunciados gravados com arquivos JSON correspondentes
    contendo os metadados de todas as gravações.
  • Garanta uma mistura diversificada de falantes por idade, gênero, educação e dialeto
  • Garanta uma mistura diversificada de ambientes de gravação de acordo com as especificações.
  • Cada gravação de áudio deve ter pelo menos 16kHz, mas preferencialmente 44kHz

Acelere sua IA de conversação
desenvolvimento de aplicativos em 100%

“Depois de avaliar muitos fornecedores, o cliente escolheu a Shaip por causa de sua experiência em projetos de IA de conversação. Ficamos impressionados com a competência de execução de projetos da Shaip, sua experiência para obter, transcrever e entregar os enunciados necessários de linguistas especialistas em 13 idiomas dentro de prazos rigorosos e com a qualidade exigida”

Solução

Com nosso profundo conhecimento de IA conversacional, ajudamos o cliente a coletar, transcrever e anotar os dados com uma equipe de linguistas e anotadores especializados para treinar seu pacote de voz multilíngue de processamento de fala com inteligência artificial.

O escopo de trabalho da Shaip incluía, mas não se limitava a adquirir grandes volumes de dados de treinamento de áudio para reconhecimento de fala, transcrever gravações de áudio em vários idiomas para todos os idiomas em nosso roteiro de idiomas de Nível 1 e Nível 2 e fornecer JSON arquivos contendo os metadados. Shaip coletou enunciados de 3 a 30 segundos em escala, mantendo os níveis desejados de qualidade necessários para treinar modelos de ML para projetos complexos.

  • Áudio coletado, transcrito e anotado: 22,250 horas
  • Idiomas suportados: 13 (dinamarquês, coreano, árabe saudita, holandês, chinês continental e de Taiwan, francês canadense, espanhol mexicano, turco, hindi, polonês, japonês, russo)
  • Nº de Enunciados: 7M +
  • Linha do tempo: 7-8 meses

Suíte de voz multilíngue com processamento de fala com tecnologia AI

Ao coletar enunciados de áudio em 16 kHz, garantimos uma mistura saudável de falantes por idade, gênero, educação e dialetos em diversos ambientes de gravação.

Resultado

Os dados de áudio de alta qualidade de linguistas especializados capacitaram o cliente a treinar com precisão seu modelo de reconhecimento de fala multilíngue em 13 idiomas globais de nível 1 e 2. Com conjuntos de dados de treinamento padrão ouro, o cliente pode oferecer assistência digital inteligente e robusta para resolver problemas futuros do mundo real.

Dados de áudio de elocução de alta qualidade

Nossa especialidade

Horas de fala coletadas
0 +
Equipe de Coletores de Dados de Voz
0
Compatível com PII
0 %
Número legal
0 +
Aceitação e precisão dos dados
> 0
Clientela Fortune 500
0 +

Diga-nos como podemos ajudar em sua próxima iniciativa de IA.