IA de conversação: reconhecimento automático de fala

Mais de 8 mil horas de áudio coletadas e 800 horas transcritas para tecnologia de voz multilíngue

IA conversacional

Introdução

A Índia precisava de uma plataforma que se concentrasse na criação de conjuntos de dados multilíngues e soluções de tecnologia linguística baseadas em IA, a fim de fornecer serviços digitais em línguas indianas. Para lançar esta iniciativa, o Cliente fez parceria com a Shaip para coletar e transcrever a língua indiana para construir modelos de fala multilíngue.

Volume

Horas de dados coletados
10
Nº de páginas anotadas
10 +
Duração do projeto
< 1 mês

Desafios

Para ajudar o cliente com seu roteiro de tecnologia de fala para idiomas indianos, a equipe precisava adquirir, segmentar e transcrever grandes volumes de dados de treinamento para construir um modelo de IA. Os requisitos críticos do cliente eram:

Recolha de Dados

  • Adquira 8000 horas de dados de treinamento em locais remotos da Índia
  • O fornecedor coleta discursos espontâneos de faixas etárias de 20 a 70 anos
  • Garantir uma mistura diversificada de falantes por idade, sexo, educação e dialetos
  • Cada gravação de áudio deve ter pelo menos 16kHz com 16 bits/amostra.
A coleta de dados

Transcrição de Dados

Siga as diretrizes de transcrição detalhadas sobre caracteres e símbolos especiais, ortografia e gramática, letras maiúsculas, abreviações, contrações, letras faladas individuais, números, pontuações, siglas e inicialismos, fala disfluente, fala ininteligível, idiomas não-alvo, não fala

Transcrição de dados

Verificação de qualidade e feedback

Todas as gravações serão submetidas a avaliação e validação de qualidade, apenas gravações de fala validadas serão entregues

Solução

Com nosso profundo conhecimento de IA conversacional, ajudamos o cliente a coletar e transcrever os dados de áudio com uma equipe de coletores, linguistas e anotadores especializados para construir um grande corpus de dados de áudio de partes remotas da Índia.

O escopo de trabalho da Shaip incluía, mas não se limitava, à aquisição de grandes volumes de dados de treinamento de áudio, à transcrição dos dados e à entrega dos arquivos JSON correspondentes contendo os metadados [tanto para locutores quanto para transcritores. Para cada palestrante, os metadados incluem um ID de palestrante anônimo, detalhes do dispositivo, informações demográficas como sexo, idade e educação, junto com seu código PIN, status socioeconômico, idiomas falados e um registro da duração da estadia. Para cada transcritor, os dados incorporam um ID de transcritor anônimo, detalhes demográficos semelhantes aos dos falantes, a duração da experiência de transcrição e uma análise completa dos idiomas que eles podem ler, escrever e falar.

Shaip coletado 8000 horas de dados de áudio / fala espontânea em escala e transcrita 800 horas, mantendo os níveis desejados de qualidade necessários para treinar tecnologia de fala para projetos complexos. O Termo de Consentimento Explícito foi retirado de cada um dos participantes. A fala espontânea coletada foi baseada em imagens fornecidas pela Universidade. De 3500 imagens, 1000 são genéricos e 2500 estão relacionados à cultura, festivais, etc. específicos do distrito. As imagens retratam vários domínios, como estações de trem, mercados, clima e muito mais.

Recolha de Dados

EstadoDistritosHoras de áudioTranscrição
(Horas)
BiharSaran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaffarpur, Jamui2000200
Utar PradeshDeoria, Varanasi, Gorakhpur, Ghazipur, Muzzaffarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun1000100
RajasthanNagaur, Churu20020
UttarakhandTehri Garhwal, Uttarkashi20020
ChhattisgarhBilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma1000100
West BengalPaschim Medinipur, Malda, Jalpaiguri, Purulia, Calcutá, Jhargram, Norte 24 Parganas, Dakshin Dinajpur80080
JharkhandSahebganj, Jamtara20020
APGuntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam60060
TelanganaKarimnagar, Nalgonda20020
GoaNorte + Sul de Goa10010
KarnatakaDakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar1000100
MaharashtraSindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur70070
Total8000800

Diretrizes Gerais

Formato

    • Áudio a 16 kHz, 16 bits/amostra.
    • Canal único.
    • Áudio bruto sem transcodificação.

Style

    • Discurso espontâneo.
    • Frases baseadas em imagens fornecidas pela Universidade. De 3500 imagens, 1000 são genéricas e 2500 estão relacionadas à cultura, festivais, etc. específicos do distrito. As imagens retratam vários domínios, como estações de trem, mercados, clima e muito mais.

Gravação de fundo

    • Gravado em um ambiente silencioso e sem eco.
    • Sem perturbações no smartphone (vibração ou notificações) durante a gravação.
    • Sem distorções como recorte ou efeitos de campo distante.
    • Vibrações do telefone são inaceitáveis; vibrações externas são toleráveis ​​se o áudio for claro.

Especificação do alto-falante

    • Faixa etária de 20 a 70 anos com distribuição equilibrada de género por distrito.
    • Mínimo de 400 falantes nativos em cada distrito.
    • Os oradores devem usar a sua língua/dialeto de origem.
    • Formulários de consentimento obrigatórios para todos os participantes.


Verificação de qualidade e garantia de qualidade crítica

O processo de controle de qualidade prioriza a garantia de qualidade para gravações e transcrições de áudio. Os padrões de áudio concentram-se em silêncios precisos, duração do segmento, clareza de um único alto-falante e metadados detalhados, incluindo idade e status socioeconômico. Os critérios de transcrição enfatizam a precisão da tag, a veracidade das palavras e os detalhes corretos do segmento. O benchmark de aceitação determina que se mais de 20% de um lote de áudio falhar nesses padrões, ele será rejeitado. Para discrepâncias inferiores a 20%, são necessárias gravações de substituição com perfis semelhantes.

Transcrição de Dados

As diretrizes de transcrição enfatizam a precisão e a transcrição literal somente quando as palavras são claras e compreensíveis; palavras pouco claras são marcadas como [ininteligível] ou [inaudível] com base no problema. Os limites das frases em áudio longo são marcados com , e nenhuma paráfrase ou correção de erros gramaticais é permitida. A transcrição literal cobre erros, gírias e repetições, mas omite inícios falsos, sons de preenchimento e gagueira. Os ruídos de fundo e de primeiro plano são transcritos com tags descritivas, enquanto nomes próprios, títulos e números seguem regras de transcrição específicas. Os rótulos dos alto-falantes são usados ​​para cada frase e as frases incompletas são indicadas com.

Fluxo de Trabalho do Projeto

O fluxo de trabalho descreve o processo de transcrição de áudio. Tudo começa com a integração e o treinamento dos participantes. Eles gravam áudio usando um aplicativo, que é carregado em uma plataforma de controle de qualidade. Este áudio passa por verificações de qualidade e segmentação automática. A equipe técnica então prepara segmentos para transcrição. Após a transcrição manual, há uma etapa de garantia de qualidade. As transcrições são entregues ao cliente e, se aceitas, a entrega é considerada concluída. Caso contrário, as revisões serão feitas com base no feedback do cliente.

Resultado

Os dados de áudio de alta qualidade de linguistas especialistas permitirão que nosso cliente treine e construa com precisão modelos multilíngues de reconhecimento de fala em vários idiomas indianos com diferentes dialetos no tempo estipulado. Os modelos de reconhecimento de fala podem ser usados ​​para:

  • Supere a barreira do idioma para a inclusão digital conectando os cidadãos às iniciativas em sua própria língua materna.
  • Promove a Governança Digital
  • Catalisador para formar um ecossistema de serviços e produtos em idiomas indianos
  • Conteúdo digital mais localizado nos domínios de interesse público, particularmente governança e política

Estamos maravilhados com a experiência de Shaip no domínio da IA ​​conversacional. A tarefa de lidar com 8000 horas de dados de áudio juntamente com 800 horas de transcrição em 80 distritos diversos foi monumental, para dizer o mínimo. Foi a profunda compreensão de Shaip dos intrincados detalhes e nuances deste domínio que tornou possível a execução bem-sucedida de um projeto tão desafiador. Sua capacidade de gerenciar e navegar perfeitamente pelas complexidades dessa vasta quantidade de dados, garantindo ao mesmo tempo uma qualidade de alto nível, é verdadeiramente louvável.

Dourado-5 estrelas

Acelere sua IA de conversação
desenvolvimento de aplicativos em 100%