Projeto Vaani

Projeto Vaani: O papel de Shaip na formação de uma IA multilíngue para a Índia

Em um país tão culturalmente diverso e linguisticamente rico como a Índia, a construção de uma IA inclusiva começa com a coleta de conjuntos de dados representativos e de alta qualidade. Essa é a visão por trás Projeto Vaani—uma iniciativa de código aberto em larga escala liderada por ARTPARK, IISc Bengaluru e Google, com o objetivo de dar voz a todas as línguas e dialetos indianos.

O objetivo ambicioso? Colecionar Mais de 150,000 horas de discurso e Mais de 15,000 horas de transcrições da 1 milhão de pessoas em Distritos 773 da Índia.

Como um dos principais fornecedores para esta missão nacional, Saip desempenhou um papel fundamental na curadoria de dados de fala espontânea, transcrição e coleta de metadados, estabelecendo as bases para tecnologias de voz equitativas que realmente representam a Índia real.

A visão por trás do projeto Vaani

O Projeto Vaani foi criado para preencher a lacuna de inclusão da IA, criando a maior conjunto de dados multimodal, multilíngue e de código aberto na Índia. Esses dados são fundamentais para o desenvolvimento de sistemas precisos de reconhecimento de fala, tradução e IA generativa em línguas nativas indianas — muitas das quais são sub-representadas nos ecossistemas tecnológicos globais.

A visão de longo prazo é impulsionar aplicações impactantes em:

Como Shaip ajudou a construir o maior conjunto de dados de fala de código aberto da Índia para o Projeto Vaani

Shaip foi encarregado da coleta de 8,000 horas de discurso espontâneo e 800 horas de transcrições verificadas manualmenteNossa responsabilidade abrangeu integração de palestrantes, captura de áudio, marcação de metadados, coordenação de transcrição e controle de qualidade.

8,000 horas de dados de áudio espontâneos

800 horas de transcrições manuais de alta qualidade

Gravações de Mais de 400 falantes nativos por distrito, representando diversas faixas etárias, gêneros e dialetos

80 distritos, coberto

Aviso baseado em imagem para garantir discurso natural e contextual

Veja o que tornou nossa abordagem única:

Diversidade em nível distrital

Diversidade em nível distrital

Obtivemos gravações de 80 distritos espalhados por estados como Bihar, Uttar Pradesh, Karnataka, Bengala Ocidental e Maharashtra. Cada distrito contribuiu com 100 horas de dados de áudio, garantindo o equilíbrio regional. Utilizamos falantes nativos, garantindo a representação de sotaques e dialetos regionais frequentemente ignorados nos principais conjuntos de dados de IA.

Representação Linguística e Demográfica

Representação Linguística e Demográfica

Obtivemos gravações de 80 distritos espalhados por estados como Bihar, Uttar Pradesh, Karnataka, Bengala Ocidental e Maharashtra. Cada distrito contribuiu com 100 horas de dados de áudio, garantindo o equilíbrio regional. Utilizamos falantes nativos, garantindo a representação de sotaques e dialetos regionais frequentemente ignorados nos principais conjuntos de dados de IA.

Discurso orientado por imagem

Para estimular o vocabulário espontâneo e natural, os participantes assistiram a 45 a 90 imagens por sessão e foram solicitados a descrevê-las. Os participantes foram estimulados a usar imagens diversas — desde símbolos culturais a objetos do cotidiano — para obter respostas naturais e espontâneas em sua língua nativa. Isso garantiu que as gravações refletissem a fala contextualizada do mundo real — essencial para o treinamento de sistemas avançados de PNL.

Padrões de transcrição de alta qualidade

Padrões de transcrição de alta qualidade

Apenas 10% dos dados de fala foram transcritos — totalizando 800 horas. As transcrições foram realizadas por linguistas locais em um raio de 20 a 50 km do falante, garantindo familiaridade com dialetos e nuances. Uma verificação de segunda camada garantiu uma taxa de erro de palavras (WER) inferior a 5%.

Rigorosa garantia de qualidade

Os dados de áudio precisavam atender a um alto padrão: sem ruído de fundo, ecos, vibrações do telefone ou distorções. O áudio foi gravado em ambientes silenciosos e sem eco. Os arquivos foram submetidos a uma revisão rigorosa para atender às diretrizes de clareza da fala, níveis de ruído, precisão dos metadados e verificação do locutor. A marcação dos metadados precisava ser precisa em todos os arquivos, e todas as gravações foram verificadas quanto ao alinhamento do locutor e do local.

Desafios que resolvemos

Nosso sucesso se deve ao planejamento meticuloso, à validação baseada em tecnologia e às parcerias com equipes locais que entendiam as nuances culturais de cada região.

Impacto e aplicações

A contribuição de Shaip não só acelerou o progresso do Projeto Vaani, como também estabeleceu as bases para uma IA inclusiva na Índia. O conjunto de dados de fala selecionado já está sendo usado para construir e refinar modelos de IA para:

  • Assistentes de voz vernáculos
  • Motores de tradução regionais
  • Ferramentas de comunicação acessíveis para deficientes visuais
  • Plataformas de tecnologia educacional baseadas em IA para estudantes rurais
  • Telemedicina rural
  • Serviços ao cidadão baseados em voz
  • Tradução e transcrição em tempo real

Conclusão

O Projeto Vaani é um passo ousado em direção à IA inclusiva e acessível — e Shaip tem a honra de desempenhar um papel fundamental. O trabalho de Shaip no Projeto Vaani reafirma nosso compromisso em construir sistemas de IA éticos e inclusivos, baseados na diversidade e na representação. Com mais de 8,000 horas de discurso coletadas e 800 horas transcritas, temos orgulho de ter feito parte de um dos projetos de inclusão digital mais visionários da Índia.

À medida que o Projeto Vaani avança rumo à sua meta maior de mais de 150,000 horas de dados, estamos prontos para dar suporte à próxima fronteira da inovação em IA que fala com — e para — todos os indianos.

Quer fazer parceria conosco para desenvolver uma IA que entenda o mundo real? www.shaip.com

Ações Sociais