Estudo de caso de IA musical

Coleta de dados de voz cantada

Coleção de áudio de canto baseado em voz para treinamento de algoritmo de compressão e equalização: capturando diversidade linguística e musical

Coleção de áudio de canto baseado na voz

Visão geral do projeto

A Shaip fez uma parceria com uma empresa líder em tecnologia para coletar diversas gravações de áudio de canto em quatro idiomas priorizados: chinês, árabe, espanhol e russo. O projeto teve como objetivo fornecer dados de alta qualidade para treinar algoritmos de equalização e compressão baseados em IA, que são essenciais para melhorar o processamento automatizado de áudio.

A coleção incluiu 40 participantes (10 por idioma) de vários gêneros, com foco em gravações com qualidade de estúdio usando diversos microfones e ambientes.

Coleção de áudio de canto

Estatísticas Chave

línguas 4: Chinês, árabe, espanhol, russo

10 cantores para
idioma (40 no total)

20 horas of
áudio cantado

Formato de áudio: PCM de 48 kHz, mono, WAV

Transcrição de áudio em línguas nativas

Duração do projeto:
Semanas 18

Escopo do Projeto

Coleta de Dados

O escopo abrangeu a coleta de áudio de canto em quatro idiomas alvo, gravados por artistas reais em vários gêneros musicais. Um ambiente de estúdio foi usado para garantir gravações de alta qualidade adequadas para treinar modelos de IA.

Requisitos-chave

  • Participantes: 10 cantores por idioma, com distribuição de gênero equilibrada (50% masculino, 50% feminino).
  • Gêneros: Uma variedade de gêneros, autoidentificados pelo artista, validados quanto à consistência.
  • Ambiente de Gravação: Qualidade de estúdio, com várias configurações de microfone (dinâmico, condensador).
  • Formato de áudio: Arquivos PCM de 48 kHz, mono, WAV, sem processamento (por exemplo, sem compressão, equalização, reverberação).
  • transcrição: As músicas serão transcritas no idioma em que serão cantadas, com regras especiais para músicas bilíngues.
  • Idiomas: Chinês, árabe, espanhol, russo
  • Transcrição
    • As transcrições devem ser fornecidas no idioma da gravação (por exemplo, versos em hindi em devanágari, seguidos de inglês).
    • Certifique-se de que cada segmento não tenha mais de 15 segundos para maior clareza e precisão.
  • Requisitos de gravação de áudio
    • Mínimo de 3 configurações de microfone por sessão de gravação.
    • 3 minutos por música, com 3 tomadas por música, garantindo gravações de microfone diversas para cada participante.
    • Ambiente acústico com qualidade de estúdio, sem ruído de fundo.

Desafios

Diversidade de participantes

Garantir uma distribuição equilibrada de cantores por gênero, tom de voz e gênero musical foi um desafio complexo.

A consistência dos dados

Manter configurações de microfone e ambiente consistentes enquanto captura diversas performances vocais em vários idiomas.

Controle de qualidade de áudio

Garantindo áudio com qualidade de estúdio, sem ruído externo, e transcrição precisa em vários idiomas.

Solução

A Shaip entregou uma solução abrangente para atender aos requisitos do projeto por meio de:

  • Recrutando 40 cantores em quatro idiomas e garantindo representação diversificada em gênero, tom e estilo musical.
  • Realizar gravações com qualidade de estúdio com vários tipos de microfone (dinâmico, condensador) para capturar uma ampla gama de dados de áudio.
  • Transcrever gravações com precisão nos idiomas utilizados, seguindo regras específicas para músicas bilíngues.
  • Consentimento: Os formulários de consentimento serão coletados de todos os participantes antes da gravação.

Resultado

Os diversos dados de áudio de canto coletados permitiram que o cliente desenvolvesse um conjunto de treinamento robusto para algoritmos automatizados de equalização e compressão, aprimorando a qualidade do processamento de áudio. As gravações de alta qualidade e os metadados detalhados garantiram que os modelos de IA pudessem lidar com vários gêneros musicais e complexidades linguísticas. Principais resultados:

  • Dados de áudio diversos e de alta qualidade para treinamento de sistemas de IA.
  • Transcrição precisa e metadados para análise.
  • Uma base mais sólida para ferramentas de processamento de áudio baseadas em IA.

Entregas

  • 20 horas de gravações de áudio com qualidade de estúdio (48 kHz PCM, arquivos WAV mono).
  • Transcrições no idioma da gravação.
  • Metadados: marca/modelo do microfone, DAC/interface de áudio, perfil do cantor, informações sobre gênero.
  • Formato JSON para transcrição com metadados.

A habilidade de Shaip de capturar a diversidade de talentos musicais e riqueza linguística foi inestimável para o desenvolvimento de nossos algoritmos de EQ e compressão. Sua equipe garantiu que cada aspecto, do recrutamento de artistas à qualidade da gravação, fosse tratado com precisão, tornando isso uma etapa essencial no refinamento de nossos sistemas automatizados de processamento de áudio.

Somos verdadeiramente gratos pela confiança e colaboração que Shaip demonstrou durante todo o processo. Apesar de nossos rigorosos e desafiadores requisitos técnicos, sua dedicação, trabalho duro e atenção aos detalhes foram excelentes. Foi um prazer trabalhar com uma equipe tão comprometida em entregar excelência

Estrela de Ouro 5