Estudo de caso: IA conversacional

Mais de 3 mil horas de dados coletados, segmentados e transcritos para criar ASR em 8 idiomas indianos

Coleção de enunciados
O governo visa permitir que seus cidadãos tenham acesso fácil à Internet e serviços digitais em seu próprio idioma nativo por meio do Projeto Bhashini.

BHASHINI, a plataforma de tradução de idiomas baseada em IA da Índia, é uma parte vital da iniciativa Digital India.

Projetada para fornecer ferramentas de Inteligência Artificial (IA) e Processamento de Linguagem Natural (NLP) para MPMEs, startups e inovadores independentes, a plataforma Bhashini serve como um recurso público. Seu objetivo é promover a inclusão digital permitindo que os cidadãos indianos interajam com as iniciativas digitais do país em seus idiomas nativos.

Além disso, visa expandir significativamente a disponibilidade de conteúdo da Internet em idiomas indianos. Isso é especialmente direcionado para áreas de interesse público, como governança e política, ciência e tecnologia, etc. Consequentemente, isso incentivará os cidadãos a usar a Internet em seu próprio idioma, promovendo sua participação ativa.

Aproveite o NLP para permitir um ecossistema diversificado de colaboradores, entidades parceiras e cidadãos com o objetivo de transcender as barreiras linguísticas, garantindo assim a inclusão digital e o empoderamento

Solução do mundo real

Liberando o poder da localização com dados

A Índia precisava de uma plataforma que se concentrasse na criação de conjuntos de dados multilíngues e soluções de tecnologia de linguagem baseadas em IA para fornecer serviços digitais em idiomas indianos. Para lançar esta iniciativa, o Indian Institute of Technology, Madras (IIT Madras) fez parceria com Shaip para coletar, segmentar e transcrever conjuntos de dados de idiomas indianos para construir modelos de fala multilíngues.

Desafios

Para auxiliar o cliente com seu roteiro de fala da Speech Technology para idiomas indianos, a equipe precisou adquirir, segmentar e transcrever grandes volumes de dados de treinamento para construir o modelo de IA. Os requisitos críticos do cliente foram:

Recolha de Dados

  • Adquira 3000 horas de dados de treinamento em 8 idiomas indianos com 4 dialetos por idioma.
  • Para cada idioma, o fornecedor coletará Extempore Speech e
    Discurso de conversação de grupos etários de 18 a 60 anos
  • Garanta uma mistura diversificada de falantes por idade, sexo, educação e dialetos
  • Garanta uma mistura diversificada de ambientes de gravação de acordo com as especificações.
  • Cada gravação de áudio deve ter pelo menos 16kHz, mas preferencialmente 44kHz

Segmentação de Dados

  • Crie segmentos de fala de 15 segundos e marque o áudio em milissegundos para cada alto-falante, tipo de som (fala, balbuciar, música, ruído), voltas, declarações e frases em uma conversa
  • Crie cada segmento para seu sinal de som direcionado com um preenchimento de 200-400 milissegundos no início e no final.
  • Para todos os segmentos, os seguintes objetos devem ser preenchidos, por exemplo, hora inicial, hora final, ID do segmento, nível de volume, tipo de som, código do idioma, ID do alto-falante, etc.

Transcrição de Dados

  • Siga as diretrizes de transcrição de detalhes sobre caracteres e símbolos especiais, ortografia e gramática, letras maiúsculas, abreviações, contrações, letras faladas individualmente, números, pontuações, acrônimos, disfluência, fala, fala ininteligível, idiomas não-alvo, não-fala, etc.

Verificação de qualidade e feedback

  • Todas as gravações devem passar por avaliação e validação de qualidade, apenas discurso validado a ser entregue

Solução

Com nosso profundo conhecimento da IA ​​conversacional, ajudamos o cliente a coletar, segmentar e transcrever os dados com uma equipe de coletores, linguistas e anotadores especializados para criar um grande corpus de conjunto de dados de áudio em 8 idiomas indianos

O escopo do trabalho para Shaip incluiu, mas não se limitou a adquirir grandes volumes de dados de treinamento de áudio, segmentar as gravações de áudio em múltiplas, transcrever os dados e entregar os arquivos JSON correspondentes contendo os metadados [SpeakerID, Age, Gender, Language, Dialect,
Língua Materna, Qualificação, Ocupação, Domínio, Formato de arquivo, Frequência, Canal, Tipo de Áudio, Nº de falantes, Nº de Línguas Estrangeiras, Configuração utilizada, Áudio de Banda Estreita ou Banda Larga, etc.]. 

Shaip coletou 3000 horas de dados de áudio em escala, mantendo os níveis desejados de qualidade necessários para treinar a tecnologia de fala para projetos complexos. O Termo de Consentimento Explícito foi retirado de cada um dos participantes.

1. Coleção de dados

2. Segmentação de dados

  • Os dados de áudio coletados foram ainda bifurcados em segmentos de fala de 15 segundos cada e marcados em milissegundos para cada alto-falante, tipo de som, voltas, declarações e frases em uma conversa.
  • Criou cada segmento para seu sinal de som direcionado com um preenchimento de 200-400 milissegundos no início e no final de um sinal de som.
  • Para todos os segmentos, os seguintes objetos estavam presentes e preenchidos, ou seja, hora de início, hora de término, ID do segmento, nível de sonoridade (alto, normal, silencioso), tipo de som primário (fala, balbuciar, música, ruído, sobreposição), código de idioma alto-falante ID, transcrição, etc.

3. Verificação de qualidade e feedback

  • Todas as gravações foram avaliadas quanto à qualidade e apenas gravações de fala validadas com WER de 90% e TER de 90% foram entregues
  • Lista de verificação de qualidade seguida:
       » Max 15 segundos de duração do segmento
       » Transcrição de domínios específicos, nomeadamente: Meteorologia, diversos tipos de notícias, saúde, agricultura, educação, emprego ou finanças
       » Ruído de fundo baixo
       » Nenhum clipe de áudio desligado – Sem distorção
       » Segmentação de áudio correta para transcrição

4. Transcrição de dados
Todas as palavras faladas, incluindo hesitações, palavras de preenchimento, falsos começos e outros tiques verbais, foram capturados com precisão na transcrição. Também seguimos as diretrizes de transcrição de detalhes sobre letras maiúsculas e minúsculas, ortografia, letras maiúsculas, abreviações, contrações, números,
pontuação, acrônimos, fala disfluente, ruídos não falados, etc. Além disso, o fluxo de trabalho seguido para coleta e transcrição é o seguinte:

Resultado

Os dados de áudio de alta qualidade de linguistas especializados permitirão que o Indian Institute of Technology – Madras treine e construa com precisão modelos multilíngues de reconhecimento de fala em 8 idiomas indianos com diferentes dialetos no tempo estipulado. Os modelos de reconhecimento de fala podem ser usados ​​para:

  • Supere a barreira do idioma para a inclusão digital conectando os cidadãos às iniciativas em sua própria língua materna.
  • Promove a Governança Digital
  • Catalisador para formar um ecossistema de serviços e produtos em idiomas indianos
  • Conteúdo digital mais localizado nos domínios de interesse público, particularmente governança e política
Dourado-5 estrelas

Ficamos impressionados com a experiência de Shaip em espaço de IA conversacional. Sua competência geral de execução de projetos desde a obtenção, segmentação, transcrição e entrega dos dados de treinamento necessários de linguistas especializados em 8 idiomas dentro de cronogramas e diretrizes rigorosos; mantendo o padrão aceitável de qualidade.”

Acelere sua IA de conversação
desenvolvimento de aplicativos em 100%

Clientes em destaque

Capacitando equipes para construir produtos de IA líderes mundiais.