IA de conversação: reconhecimento automático de fala

Mais de 8 mil horas de áudio coletadas e 800 horas transcritas para tecnologia de voz multilíngue

Introdução

A Índia precisava de uma plataforma que se concentrasse na criação de conjuntos de dados multilíngues e soluções de tecnologia linguística baseadas em IA, a fim de fornecer serviços digitais em línguas indianas. Para lançar esta iniciativa, o Cliente fez parceria com a Shaip para coletar e transcrever a língua indiana para construir modelos de fala multilíngue.

Volume

Horas de dados coletados

Nº de páginas anotadas

10 +

Duração do projeto

< 1 mês

Desafios

Para ajudar o cliente com seu roteiro de tecnologia de fala para idiomas indianos, a equipe precisava adquirir, segmentar e transcrever grandes volumes de dados de treinamento para construir um modelo de IA. Os requisitos críticos do cliente eram:

Recolha de Dados

Adquira 8000 horas de dados de treinamento em locais remotos da Índia
O fornecedor coleta discursos espontâneos de faixas etárias de 20 a 70 anos
Garantir uma mistura diversificada de falantes por idade, sexo, educação e dialetos
Cada gravação de áudio deve ter pelo menos 16kHz com 16 bits/amostra.

Transcrição de Dados

Siga as diretrizes de transcrição detalhadas sobre caracteres e símbolos especiais, ortografia e gramática, letras maiúsculas, abreviações, contrações, letras faladas individuais, números, pontuações, siglas e inicialismos, fala disfluente, fala ininteligível, idiomas não-alvo, não fala

Verificação de qualidade e feedback

Todas as gravações serão submetidas a avaliação e validação de qualidade, apenas gravações de fala validadas serão entregues

Solução

Com nosso profundo conhecimento de IA conversacional, ajudamos o cliente a coletar e transcrever os dados de áudio com uma equipe de coletores, linguistas e anotadores especializados para construir um grande corpus de dados de áudio de partes remotas da Índia.

O escopo de trabalho da Shaip incluía, mas não se limitava, à aquisição de grandes volumes de dados de treinamento de áudio, à transcrição dos dados e à entrega dos arquivos JSON correspondentes contendo os metadados [tanto para locutores quanto para transcritores. Para cada palestrante, os metadados incluem um ID de palestrante anônimo, detalhes do dispositivo, informações demográficas como sexo, idade e educação, junto com seu código PIN, status socioeconômico, idiomas falados e um registro da duração da estadia. Para cada transcritor, os dados incorporam um ID de transcritor anônimo, detalhes demográficos semelhantes aos dos falantes, a duração da experiência de transcrição e uma análise completa dos idiomas que eles podem ler, escrever e falar.

Shaip coletado 8000 horas de dados de áudio / fala espontânea em escala e transcrita 800 horas, mantendo os níveis desejados de qualidade necessários para treinar tecnologia de fala para projetos complexos. O Termo de Consentimento Explícito foi retirado de cada um dos participantes. A fala espontânea coletada foi baseada em imagens fornecidas pela Universidade. De 3500 imagens, 1000 são genéricos e 2500 estão relacionados à cultura, festivais, etc. específicos do distrito. As imagens retratam vários domínios, como estações de trem, mercados, clima e muito mais.

Recolha de Dados

Estado	Distritos	Horas de áudio	Transcrição (Horas)
Bihar	Saran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaﬀarpur, Jamui	2000	200
Utar Pradesh	Deoria, Varanasi, Gorakhpur, Ghazipur, Muzzaﬀarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun	1000	100
Rajasthan	Nagaur, Churu	200	20
Uttarakhand	Tehri Garhwal, Uttarkashi	200	20
Chhattisgarh	Bilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma	1000	100
West Bengal	Paschim Medinipur, Malda, Jalpaiguri, Purulia, Calcutá, Jhargram, Norte 24 Parganas, Dakshin Dinajpur	800	80
Jharkhand	Sahebganj, Jamtara	200	20
AP	Guntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam	600	60
Telangana	Karimnagar, Nalgonda	200	20
Goa	Norte + Sul de Goa	100	10
Karnataka	Dakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar	1000	100
Maharashtra	Sindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur	700	70
Total		8000	800

Diretrizes Gerais

Formato

- Áudio a 16 kHz, 16 bits/amostra.
- Canal único.
- Áudio bruto sem transcodificação.

Style

- Discurso espontâneo.
- Frases baseadas em imagens fornecidas pela Universidade. De 3500 imagens, 1000 são genéricas e 2500 estão relacionadas à cultura, festivais, etc. específicos do distrito. As imagens retratam vários domínios, como estações de trem, mercados, clima e muito mais.

Gravação de fundo

- Gravado em um ambiente silencioso e sem eco.
- Sem perturbações no smartphone (vibração ou notificações) durante a gravação.
- Sem distorções como recorte ou efeitos de campo distante.
- Vibrações do telefone são inaceitáveis; vibrações externas são toleráveis se o áudio for claro.

Especificação do alto-falante

- Faixa etária de 20 a 70 anos com distribuição equilibrada de género por distrito.
- Mínimo de 400 falantes nativos em cada distrito.
- Os oradores devem usar a sua língua/dialeto de origem.
- Formulários de consentimento obrigatórios para todos os participantes.

Verificação de qualidade e garantia de qualidade crítica

O processo de controle de qualidade prioriza a garantia de qualidade para gravações e transcrições de áudio. Os padrões de áudio concentram-se em silêncios precisos, duração do segmento, clareza de um único alto-falante e metadados detalhados, incluindo idade e status socioeconômico. Os critérios de transcrição enfatizam a precisão da tag, a veracidade das palavras e os detalhes corretos do segmento. O benchmark de aceitação determina que se mais de 20% de um lote de áudio falhar nesses padrões, ele será rejeitado. Para discrepâncias inferiores a 20%, são necessárias gravações de substituição com perfis semelhantes.

Transcrição de Dados

As diretrizes de transcrição enfatizam a precisão e a transcrição literal somente quando as palavras são claras e compreensíveis; palavras pouco claras são marcadas como [ininteligível] ou [inaudível] com base no problema. Os limites das frases em áudio longo são marcados com , e nenhuma paráfrase ou correção de erros gramaticais é permitida. A transcrição literal cobre erros, gírias e repetições, mas omite inícios falsos, sons de preenchimento e gagueira. Os ruídos de fundo e de primeiro plano são transcritos com tags descritivas, enquanto nomes próprios, títulos e números seguem regras de transcrição específicas. Os rótulos dos alto-falantes são usados para cada frase e as frases incompletas são indicadas com.

Fluxo de Trabalho do Projeto

O fluxo de trabalho descreve o processo de transcrição de áudio. Tudo começa com a integração e o treinamento dos participantes. Eles gravam áudio usando um aplicativo, que é carregado em uma plataforma de controle de qualidade. Este áudio passa por verificações de qualidade e segmentação automática. A equipe técnica então prepara segmentos para transcrição. Após a transcrição manual, há uma etapa de garantia de qualidade. As transcrições são entregues ao cliente e, se aceitas, a entrega é considerada concluída. Caso contrário, as revisões serão feitas com base no feedback do cliente.

Resultado

Os dados de áudio de alta qualidade de linguistas especialistas permitirão que nosso cliente treine e construa com precisão modelos multilíngues de reconhecimento de fala em vários idiomas indianos com diferentes dialetos no tempo estipulado. Os modelos de reconhecimento de fala podem ser usados para:

Supere a barreira do idioma para a inclusão digital conectando os cidadãos às iniciativas em sua própria língua materna.
Promove a Governança Digital
Catalisador para formar um ecossistema de serviços e produtos em idiomas indianos
Conteúdo digital mais localizado nos domínios de interesse público, particularmente governança e política

Estamos maravilhados com a experiência de Shaip no domínio da IA conversacional. A tarefa de lidar com 8000 horas de dados de áudio juntamente com 800 horas de transcrição em 80 distritos diversos foi monumental, para dizer o mínimo. Foi a profunda compreensão de Shaip dos intrincados detalhes e nuances deste domínio que tornou possível a execução bem-sucedida de um projeto tão desafiador. Sua capacidade de gerenciar e navegar perfeitamente pelas complexidades dessa vasta quantidade de dados, garantindo ao mesmo tempo uma qualidade de alto nível, é verdadeiramente louvável.

Acelere sua IA de conversação
desenvolvimento de aplicativos em 100%

IA de conversação: reconhecimento automático de fala

Mais de 8 mil horas de áudio coletadas e 800 horas transcritas para tecnologia de voz multilíngue

Introdução

Volume

Desafios

Recolha de Dados

Transcrição de Dados

Verificação de qualidade e feedback

Solução

Diretrizes Gerais

Verificação de qualidade e garantia de qualidade crítica

Transcrição de Dados

Fluxo de Trabalho do Projeto

Resultado

Serviços de dados de IA

Especialidade

Indústria

Produtos

Empresa

Recursos

Contate-nos

Deixe-nos saber mais sobre você!