IA de conversação: reconhecimento automático de fala
Mais de 8 mil horas de áudio coletadas e 800 horas transcritas para tecnologia de voz multilíngue
Introdução
A Índia precisava de uma plataforma que se concentrasse na criação de conjuntos de dados multilíngues e soluções de tecnologia linguística baseadas em IA, a fim de fornecer serviços digitais em línguas indianas. Para lançar esta iniciativa, o Cliente fez parceria com a Shaip para coletar e transcrever a língua indiana para construir modelos de fala multilíngue.
Volume
Desafios
Para ajudar o cliente com seu roteiro de tecnologia de fala para idiomas indianos, a equipe precisava adquirir, segmentar e transcrever grandes volumes de dados de treinamento para construir um modelo de IA. Os requisitos críticos do cliente eram:
Recolha de Dados
- Adquira 8000 horas de dados de treinamento em locais remotos da Índia
- O fornecedor coleta discursos espontâneos de faixas etárias de 20 a 70 anos
- Garantir uma mistura diversificada de falantes por idade, sexo, educação e dialetos
- Cada gravação de áudio deve ter pelo menos 16kHz com 16 bits/amostra.
Transcrição de Dados
Siga as diretrizes de transcrição detalhadas sobre caracteres e símbolos especiais, ortografia e gramática, letras maiúsculas, abreviações, contrações, letras faladas individuais, números, pontuações, siglas e inicialismos, fala disfluente, fala ininteligível, idiomas não-alvo, não fala
Verificação de qualidade e feedback
Todas as gravações serão submetidas a avaliação e validação de qualidade, apenas gravações de fala validadas serão entregues
Solução
Com nosso profundo conhecimento de IA conversacional, ajudamos o cliente a coletar e transcrever os dados de áudio com uma equipe de coletores, linguistas e anotadores especializados para construir um grande corpus de dados de áudio de partes remotas da Índia.
O escopo de trabalho da Shaip incluía, mas não se limitava, à aquisição de grandes volumes de dados de treinamento de áudio, à transcrição dos dados e à entrega dos arquivos JSON correspondentes contendo os metadados [tanto para locutores quanto para transcritores. Para cada palestrante, os metadados incluem um ID de palestrante anônimo, detalhes do dispositivo, informações demográficas como sexo, idade e educação, junto com seu código PIN, status socioeconômico, idiomas falados e um registro da duração da estadia. Para cada transcritor, os dados incorporam um ID de transcritor anônimo, detalhes demográficos semelhantes aos dos falantes, a duração da experiência de transcrição e uma análise completa dos idiomas que eles podem ler, escrever e falar.
Shaip coletado 8000 horas de dados de áudio / fala espontânea em escala e transcrita 800 horas, mantendo os níveis desejados de qualidade necessários para treinar tecnologia de fala para projetos complexos. O Termo de Consentimento Explícito foi retirado de cada um dos participantes. A fala espontânea coletada foi baseada em imagens fornecidas pela Universidade. De 3500 imagens, 1000 são genéricos e 2500 estão relacionados à cultura, festivais, etc. específicos do distrito. As imagens retratam vários domínios, como estações de trem, mercados, clima e muito mais.
Recolha de Dados
Estado | Distritos | Horas de áudio | Transcrição (Horas) |
Bihar | Saran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaffarpur, Jamui | 2000 | 200 |
Utar Pradesh | Deoria, Varanasi, Gorakhpur, Ghazipur, Muzzaffarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun | 1000 | 100 |
Rajasthan | Nagaur, Churu | 200 | 20 |
Uttarakhand | Tehri Garhwal, Uttarkashi | 200 | 20 |
Chhattisgarh | Bilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma | 1000 | 100 |
West Bengal | Paschim Medinipur, Malda, Jalpaiguri, Purulia, Calcutá, Jhargram, Norte 24 Parganas, Dakshin Dinajpur | 800 | 80 |
Jharkhand | Sahebganj, Jamtara | 200 | 20 |
AP | Guntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam | 600 | 60 |
Telangana | Karimnagar, Nalgonda | 200 | 20 |
Goa | Norte + Sul de Goa | 100 | 10 |
Karnataka | Dakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar | 1000 | 100 |
Maharashtra | Sindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur | 700 | 70 |
Total | 8000 | 800 |
Diretrizes Gerais
Formato
- Áudio a 16 kHz, 16 bits/amostra.
- Canal único.
- Áudio bruto sem transcodificação.
Style
- Discurso espontâneo.
- Frases baseadas em imagens fornecidas pela Universidade. De 3500 imagens, 1000 são genéricas e 2500 estão relacionadas à cultura, festivais, etc. específicos do distrito. As imagens retratam vários domínios, como estações de trem, mercados, clima e muito mais.
Gravação de fundo
- Gravado em um ambiente silencioso e sem eco.
- Sem perturbações no smartphone (vibração ou notificações) durante a gravação.
- Sem distorções como recorte ou efeitos de campo distante.
- Vibrações do telefone são inaceitáveis; vibrações externas são toleráveis se o áudio for claro.
Especificação do alto-falante
- Faixa etária de 20 a 70 anos com distribuição equilibrada de género por distrito.
- Mínimo de 400 falantes nativos em cada distrito.
- Os oradores devem usar a sua língua/dialeto de origem.
- Formulários de consentimento obrigatórios para todos os participantes.
Verificação de qualidade e garantia de qualidade crítica
O processo de controle de qualidade prioriza a garantia de qualidade para gravações e transcrições de áudio. Os padrões de áudio concentram-se em silêncios precisos, duração do segmento, clareza de um único alto-falante e metadados detalhados, incluindo idade e status socioeconômico. Os critérios de transcrição enfatizam a precisão da tag, a veracidade das palavras e os detalhes corretos do segmento. O benchmark de aceitação determina que se mais de 20% de um lote de áudio falhar nesses padrões, ele será rejeitado. Para discrepâncias inferiores a 20%, são necessárias gravações de substituição com perfis semelhantes.
Transcrição de Dados
As diretrizes de transcrição enfatizam a precisão e a transcrição literal somente quando as palavras são claras e compreensíveis; palavras pouco claras são marcadas como [ininteligível] ou [inaudível] com base no problema. Os limites das frases em áudio longo são marcados com , e nenhuma paráfrase ou correção de erros gramaticais é permitida. A transcrição literal cobre erros, gírias e repetições, mas omite inícios falsos, sons de preenchimento e gagueira. Os ruídos de fundo e de primeiro plano são transcritos com tags descritivas, enquanto nomes próprios, títulos e números seguem regras de transcrição específicas. Os rótulos dos alto-falantes são usados para cada frase e as frases incompletas são indicadas com.
Fluxo de Trabalho do Projeto
O fluxo de trabalho descreve o processo de transcrição de áudio. Tudo começa com a integração e o treinamento dos participantes. Eles gravam áudio usando um aplicativo, que é carregado em uma plataforma de controle de qualidade. Este áudio passa por verificações de qualidade e segmentação automática. A equipe técnica então prepara segmentos para transcrição. Após a transcrição manual, há uma etapa de garantia de qualidade. As transcrições são entregues ao cliente e, se aceitas, a entrega é considerada concluída. Caso contrário, as revisões serão feitas com base no feedback do cliente.
Resultado
Os dados de áudio de alta qualidade de linguistas especialistas permitirão que nosso cliente treine e construa com precisão modelos multilíngues de reconhecimento de fala em vários idiomas indianos com diferentes dialetos no tempo estipulado. Os modelos de reconhecimento de fala podem ser usados para:
- Supere a barreira do idioma para a inclusão digital conectando os cidadãos às iniciativas em sua própria língua materna.
- Promove a Governança Digital
- Catalisador para formar um ecossistema de serviços e produtos em idiomas indianos
- Conteúdo digital mais localizado nos domínios de interesse público, particularmente governança e política
Estamos maravilhados com a experiência de Shaip no domínio da IA conversacional. A tarefa de lidar com 8000 horas de dados de áudio juntamente com 800 horas de transcrição em 80 distritos diversos foi monumental, para dizer o mínimo. Foi a profunda compreensão de Shaip dos intrincados detalhes e nuances deste domínio que tornou possível a execução bem-sucedida de um projeto tão desafiador. Sua capacidade de gerenciar e navegar perfeitamente pelas complexidades dessa vasta quantidade de dados, garantindo ao mesmo tempo uma qualidade de alto nível, é verdadeiramente louvável.