Estudo de caso de IA musical
Coleta de dados de voz cantada
Coleção de áudio de canto baseado em voz para treinamento de algoritmo de compressão e equalização: capturando diversidade linguística e musical
Visão geral do projeto
A Shaip fez uma parceria com uma empresa líder em tecnologia para coletar diversas gravações de áudio de canto em quatro idiomas priorizados: chinês, árabe, espanhol e russo. O projeto teve como objetivo fornecer dados de alta qualidade para treinar algoritmos de equalização e compressão baseados em IA, que são essenciais para melhorar o processamento automatizado de áudio.
A coleção incluiu 40 participantes (10 por idioma) de vários gêneros, com foco em gravações com qualidade de estúdio usando diversos microfones e ambientes.
Estatísticas Chave
línguas 4: Chinês, árabe, espanhol, russo
10 cantores para
idioma (40 no total)
20 horas of
áudio cantado
Formato de áudio: PCM de 48 kHz, mono, WAV
Transcrição de áudio em línguas nativas
Duração do projeto:
Semanas 18
Escopo do Projeto
Coleta de Dados
O escopo abrangeu a coleta de áudio de canto em quatro idiomas alvo, gravados por artistas reais em vários gêneros musicais. Um ambiente de estúdio foi usado para garantir gravações de alta qualidade adequadas para treinar modelos de IA.
Requisitos-chave
- Participantes: 10 cantores por idioma, com distribuição de gênero equilibrada (50% masculino, 50% feminino).
- Gêneros: Uma variedade de gêneros, autoidentificados pelo artista, validados quanto à consistência.
- Ambiente de Gravação: Qualidade de estúdio, com várias configurações de microfone (dinâmico, condensador).
- Formato de áudio: Arquivos PCM de 48 kHz, mono, WAV, sem processamento (por exemplo, sem compressão, equalização, reverberação).
- transcrição: As músicas serão transcritas no idioma em que serão cantadas, com regras especiais para músicas bilíngues.
- Idiomas: Chinês, árabe, espanhol, russo
- Transcrição
- As transcrições devem ser fornecidas no idioma da gravação (por exemplo, versos em hindi em devanágari, seguidos de inglês).
- Certifique-se de que cada segmento não tenha mais de 15 segundos para maior clareza e precisão.
- Requisitos de gravação de áudio
- Mínimo de 3 configurações de microfone por sessão de gravação.
- 3 minutos por música, com 3 tomadas por música, garantindo gravações de microfone diversas para cada participante.
- Ambiente acústico com qualidade de estúdio, sem ruído de fundo.
Desafios
Diversidade de participantes
Garantir uma distribuição equilibrada de cantores por gênero, tom de voz e gênero musical foi um desafio complexo.
A consistência dos dados
Manter configurações de microfone e ambiente consistentes enquanto captura diversas performances vocais em vários idiomas.
Controle de qualidade de áudio
Garantindo áudio com qualidade de estúdio, sem ruído externo, e transcrição precisa em vários idiomas.
Solução
A Shaip entregou uma solução abrangente para atender aos requisitos do projeto por meio de:
- Recrutando 40 cantores em quatro idiomas e garantindo representação diversificada em gênero, tom e estilo musical.
- Realizar gravações com qualidade de estúdio com vários tipos de microfone (dinâmico, condensador) para capturar uma ampla gama de dados de áudio.
- Transcrever gravações com precisão nos idiomas utilizados, seguindo regras específicas para músicas bilíngues.
- Consentimento: Os formulários de consentimento serão coletados de todos os participantes antes da gravação.
Resultado
Os diversos dados de áudio de canto coletados permitiram que o cliente desenvolvesse um conjunto de treinamento robusto para algoritmos automatizados de equalização e compressão, aprimorando a qualidade do processamento de áudio. As gravações de alta qualidade e os metadados detalhados garantiram que os modelos de IA pudessem lidar com vários gêneros musicais e complexidades linguísticas. Principais resultados:
- Dados de áudio diversos e de alta qualidade para treinamento de sistemas de IA.
- Transcrição precisa e metadados para análise.
- Uma base mais sólida para ferramentas de processamento de áudio baseadas em IA.
Entregas
- 20 horas de gravações de áudio com qualidade de estúdio (48 kHz PCM, arquivos WAV mono).
- Transcrições no idioma da gravação.
- Metadados: marca/modelo do microfone, DAC/interface de áudio, perfil do cantor, informações sobre gênero.
- Formato JSON para transcrição com metadados.
A habilidade de Shaip de capturar a diversidade de talentos musicais e riqueza linguística foi inestimável para o desenvolvimento de nossos algoritmos de EQ e compressão. Sua equipe garantiu que cada aspecto, do recrutamento de artistas à qualidade da gravação, fosse tratado com precisão, tornando isso uma etapa essencial no refinamento de nossos sistemas automatizados de processamento de áudio.
Somos verdadeiramente gratos pela confiança e colaboração que Shaip demonstrou durante todo o processo. Apesar de nossos rigorosos e desafiadores requisitos técnicos, sua dedicação, trabalho duro e atenção aos detalhes foram excelentes. Foi um prazer trabalhar com uma equipe tão comprometida em entregar excelência