Prompts de pagamento UPI baseados em voz: capturando diversidade para modelos de IA aprimorados

Aproveitando a experiência de Shaip em criação rápida e gravações de áudio diversas para dar suporte a sistemas de pagamento UPI baseados em voz com dados culturalmente diversos e de alta qualidade.

Avisos de pagamento UPI baseados em voz

Visão geral do projeto

A Shaip fez uma parceria com uma empresa líder em fintech para desenvolver um aplicativo de pagamento baseado em voz, criando e gravando diversos prompts de pagamento UPI. O projeto envolveu a criação de 2,500 prompts exclusivos e 87,000 prompts diversificados em 13 intenções relacionadas a pagamentos, como envio de dinheiro, solicitação de dinheiro, consulta de saldo e pagamentos de contas. Esses prompts foram gravados ao longo de 200 horas por 45 palestrantes de diversas regiões, origens e faixas etárias, garantindo uma ampla gama de diversidade linguística e ambiental.

O objetivo do projeto era desenvolver dados de treinamento de alta qualidade para um modelo de IA que pudesse reconhecer e responder a comandos de voz relacionados a pagamentos UPI em ambientes reais.

Pagamento UPI por voz

Estatísticas Chave

Horas de áudio de avisos de pagamento UPI gravadas

200

Palestrantes de diversas origens (idade, educação, região)

45

Intenções cobertas, com mais de 87,000 prompts diversificados

13

Idiomas: Inglês, com falantes de diversas origens de línguas nativas (Kumaoni, Bengali, Malayalam, Gujarati, Hindi, Marathi etc.)

Escopo do Projeto

Criação de Prompt

O escopo incluiu a criação de prompts exclusivos para um sistema de pagamento UPI baseado em voz. Os prompts foram projetados para cobrir múltiplas intenções, garantindo que fossem diversos em estrutura, vocabulário e entidades nomeadas. Alguns aspectos-chave incluíram:

13 principais intenções, incluindo:

  • Enviar dinheiro: 65,653 prompts únicos e diversificados
  • Consulta de saldo: 3,052 solicitações
  • Pedir dinheiro: 26,972 solicitações
  • Histórico de transações, recarga, pagamento de contas, etc.

Gravação de áudio

Para garantir autenticidade e aplicabilidade no mundo real, os prompts foram gravados por 45 falantes de diferentes origens linguísticas. A diversidade capturada por meio de diferentes línguas nativas, dialetos regionais e ambientes (internos e externos) ajudou a aprimorar os dados de treinamento.

  • Diversidade linguística: Usuários fluentes em inglês, mas com diversos idiomas nativos, como kumaoni, gujarati, hindi, bengali, marati e malaiala.
  • Idade, gênero e histórico educacional: Os dados capturaram uma ampla gama de dados demográficos.
  • Palestrantes urbanos e rurais: Para refletir o uso no mundo real, foram incluídos falantes urbanos e rurais.
  • Ambiente de Gravação: As gravações de áudio foram realizadas em ambientes internos e externos, com uma variedade de ruídos de fundo incluídos.

Desafios

Diversidade linguística e regional

Garantir que os prompts refletissem diversos dialetos regionais e características dos falantes exigiu planejamento e execução cuidadosos.

Variações de áudio natural

Lidar com ruídos de fundo e condições ambientais (internas e externas) foi crucial para aplicações no mundo real.

Perfis de palestrantes diversos

A inclusão de palestrantes de diferentes faixas etárias, origens educacionais e regiões rurais/urbanas introduziu complexidade na captura de dados autênticos.

Solução

Shaip apresentou uma solução que abordou os desafios do projeto, implementando técnicas avançadas de PNL (Processamento de Linguagem Natural) e um planejamento cuidadoso tanto na criação quanto na gravação dos prompts. Os principais aspectos da solução incluíram:

Criação de Prompt

  • 2,500 foram criados prompts exclusivos, cada um diversificado por estrutura e vocabulário.
  • 13 intenções foram abordadas, desde solicitações básicas de pagamento até consultas mais complexas, como histórico de transações e pagamentos de contas.

Gravação de áudio

  • 200 horas de gravações de áudio foram conduzidas por usuários 45, garantindo diversidade entre línguas nativas, ambientes e demografias de falantes.
  • Ambientes internos e externos foram usados ​​para gravação para garantir variação natural de áudio.
  • Os falantes representavam uma variedade de dialetos regionais, garantindo uma representação linguística precisa.
Intenção Enviar Consulta de saldo Pedir dinheiro Histórico de transações
Prompt Faça um pagamento de vinte e cem para Sumatri pelo aluguel da casa Quero saber meu saldo atual na minha conta poupança. Você pode pedir ao Raji trezentas e dezoito rúpias para uma emergência? Mostre-me o histórico de transações do meu cartão de débito.
gujarati સુમાત્રીને ઘરના ભાડા પેટે એકવીસસો ચૂકવો હું મારા બચત ખાતામાં મારી વર્તમાન બેલેન્સ જાણ Isso é tudo. શું તમે રાજી પાસેથી ઇમર્જન્સી માટે ત્રણસો અઢા Você está certo? મને મારા ડેબિટ કાર્ડના વ્યવહાર દેખાડો.
Hindi सुमात्री को मकान किराए के लिए इक्कीस सौ रुपए का O que é isso? मैं अपने बचत खाते में वर्तमान शेष राशि जानना चाहता sim क्या आप राजी से किसी इमरजेंसी के लिए तीन सौ अठारह O que você acha? मुझे मेरा डेबिट कार्ड का लेनदेन ब्यौरा दिखाओ।
malayalam Mais informações Isso é tudo. എൻ്റെ സേവിംഗ്സ് അക്കൗണ്ടിലൕ Isso é tudo. Você pode fazer isso sozinho. Você está certo? Não há nada que você possa fazer.
telugu ఇంటి అద్దె కోసం సుమత్రికి ఇరవై ఒక్క వంద చెల్ల ించండి నేను నా సేవింగ్స్ అకౌంట్ లో నా ప్రస్తుత బ్యాల ెన్స్నుకుంటున్నాను. ఎమర్జెన్సీ కోసం రాజిని మూడు వందల Você está certo? నా డెబిట్ కార్డ్ లావాదేవీ చరిత్రను నాకు చూపి Sim.
Bangla (বাংলা) বাড়ি ভাড়ার জন্য সুমাত্রিকে ২১,০০০ টাকা পরিশ োধ করুন আমি আমার সঞ্চয় অ্যাকাউন্টে বর্তমান ব্যালেন্ স জানতে চাই। আপনি রাজির কাছে তাৎক্ষণিক অবস্থার জন্য O que você precisa fazer? আমার ডেবিট কার্ডের লেনদেনের ইতিহাস দেখান।
marata सुमात्रीला घराच्या भाड्यासाठी दोन हजार एकशे Isso mesmo. मला माझ्या बचत खात्यातील सध्याचा शिल्लक जाणून Sim. आपण राजीकडून तातडीसाठी तीनशे अठरा रुपये मागू Você é? माझ्या डेबिट कार्डचे व्यवहार दाखवा.

O Resultado

Os dados de áudio diversos e de alta qualidade entregues pela Shaip permitiram que o cliente desenvolvesse um sistema de pagamento UPI baseado em voz e orientado por IA, capaz de reconhecer comandos em vários dialetos, ambientes e contextos. Os dados ajudaram a aprimorar:

  • Reconhecimento de voz em tempo real em ambientes complexos.
  • Transação UPI mais precisa manuseio para uma gama mais ampla de usuários.
  • Escalabilidade: O projeto estabelece uma base sólida para expansão para outras línguas indianas.

Entregas

  • 200 horas de arquivos de áudio (formato PCM WAV de 8 kHz, mono)
  • 87,000+ prompts diversificados anotados com intenções únicas
  • Metadados: Perfis de falantes, detalhes do ambiente e precisão da transcrição

A capacidade de Shaip de capturar a diversidade da Índia por meio de prompts exclusivos e gravações de áudio autênticas mudou o jogo para nosso sistema de pagamento UPI baseado em voz. Sua equipe garantiu que cada aspecto do projeto – da criação do prompt à qualidade da gravação – fosse tratado com precisão, nos ajudando a construir um modelo de reconhecimento de voz mais inclusivo e robusto.

Estrela de Ouro 5