Agora pegue 50% DE DESCONTO* em conjuntos de dados prontos para uso de IA conversacional
Conjunto de dados de fala e áudio para chatbots, assistentes de voz, dispositivos habilitados para fala.
*Oferta por período limitado
Aprovado pelos líderes da indústria
Adicionar ao carrinho | Palavra-chave | Conjunto de dados de idioma pronto para uso | Conversas de Call Center 8khz* | Conversas Genéricas 8kHz* | Mídia e podcasts 16khz* | Enunciado/Monólogo Scripted 16khz* | Volume total em horas | Dialetos cobertos | Formato de áudio | Formato de transcrição de texto | Caso de uso | fonte | CTA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
afrikaans | Conjunto de dados de áudio em africâner | 600 | 900 | 1500 | Afrikaans falado na África | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | |||
Arabe | Conjunto de dados de áudio árabe | 800 | 1500 | 2300 | Árabe dos países do Golfo | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | |||
Chinês | Conjunto de dados de áudio chinês | 2000 | 2000 | chinês da china | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | ||||
Dinamarquês | Conjunto de dados de áudio dinamarquês | 400 | 600 | 2000 | 3000 | Dinamarquês da Dinamarca | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | ||
Neerlandês | Conjunto de dados de áudio holandês | 2000 | 2000 | Holandês da Holanda | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | ||||
Inglês - Acento AAVE | Inglês - Conjunto de dados de áudio AAVE (inglês vernacular afro-americano) | 500 | 500 | 1000 | A variedade vernacular (às vezes conhecida como AAVE, normalmente falada pela grande maioria dos afro-americanos de classe média e trabalhadora) e a variedade mais padrão (tipicamente falada por afro-americanos de classe média em situações formais e públicas), mas com uma ênfase mais forte no vernáculo. | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | |||
Inglês - Sotaque Boston/Nova York | Inglês - Conjunto de dados de áudio de Boston/Nova York | 225 | 225 | 350 | 800 | Esta é uma coleção de vários sotaques regionais falados em torno das cidades de Boston, Nova York e Filadélfia. Esses sotaques podem soar semelhantes aos de não-locais, mas distintos de outros sotaques americanos. Apesar de algum vocabulário local diferente de outras partes do mundo de língua inglesa, esses sotaques são mutuamente inteligíveis com o inglês falado em outros lugares. | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | ||
Inglês - sotaque chinês | Inglês - Conjunto de dados de áudio com sotaque chinês | 150 | 300 | 450 | Falantes que falam chinês como primeira língua e que se mudaram/imigraram para os Estados Unidos quando adolescentes/adultos e aprenderam inglês como segunda língua. | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | |||
Inglês - Sotaque do Sul Profundo | Inglês - Conjunto de dados de áudio do Deep South | 275 | 275 | 450 | 1000 | Palestrantes de (i) Texas; (ii) Carolina do Norte, Carolina do Sul, Geórgia; (iii) Nova Orleans; (iv) Panhandle da Flórida; (v) Tennessee, Arkansas, Michigan. | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | ||
Inglês - sotaque hispânico | Inglês - Conjunto de dados de áudio com sotaque hispânico | 400 | 400 | 800 | O inglês hispânico refere-se às variedades de inglês dos EUA faladas por hispano-americanos de diversas heranças nacionais. O foco principal foi em mexicanos-americanos, falantes de diferentes origens nacionais (por exemplo, México, Porto Rico, República Dominicana, Equador, Cuba, etc.) e de diferentes regiões (por exemplo, Califórnia, Nova York, Flórida). Os oradores incluídos foram que falam espanhol como primeira língua, bem como falantes de origem hispânica que falam espanhol tem uma língua de herança. | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | |||
Inglês - Sotaque da Nova Zelândia | Inglês - Conjunto de dados de áudio da Nova Zelândia | 250 | 750 | 1000 | Falantes em ambas as ilhas, incluindo uma mistura de falantes mais jovens (<40 anos) e falantes mais velhos (>40 anos) em proporções iguais. | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | |||
Inglês - Sotaque de Cingapura | Inglês - Conjunto de dados de áudio de Cingapura | 400 | 600 | 1000 | Tanto o inglês padrão de Cingapura quanto o inglês coloquial de Cingapura. cingapurianos de diferentes origens étnicas (por exemplo, chineses, malaios, indianos, etc.) e de diferentes níveis educacionais. | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | |||
Inglês - Sotaque da África do Sul | Inglês - Conjunto de dados de áudio da África do Sul | 400 | 600 | 1000 | Representantes de várias classes socioeconômicas e origens etnológicas (por exemplo, sul-africanos de origem europeia, africana, indiana ou mista). | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | |||
Inglês - sotaque irlandês | Inglês - conjunto de dados de áudio irlandês | 500 | 500 | Inglês falado na Irlanda | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | ||||
Inglês - sotaque escocês | Inglês - Conjunto de dados de áudio escocês | 800 | 800 | Inglês falado por escoceses | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | ||||
Inglês - sotaque galês | Inglês - Conjunto de dados de áudio galês | 800 | 800 | Inglês galês | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | ||||
Franco-canadense | Conjunto de dados de áudio francês canadense | 1000 | 1000 | Francês canadense | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | ||||
Hebraico | Conjunto de dados de áudio hebraico | 750 | 750 | 1500 | hebraico em Israel | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | |||
Indonésio | Conjunto de dados de áudio da Indonésia | 1000 | 1000 | 2000 | Bahasa indonésio | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | |||
Japonês | Conjunto de dados de áudio japonês | 2000 | 2000 | Japonês do Japão | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | ||||
Coreana | Conjunto de dados de áudio coreano | 100 | 200 | 1500 | 1800 | Palestrantes espalhados por toda a Coreia do Sul. | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | ||
Malay | Conjunto de dados de áudio malaio | 500 | 500 | 1000 | Malaio na Malásia | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | |||
Espanhol mexicano | Conjunto de dados de áudio espanhol mexicano | 1250 | 1250 | Mexicano do México | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | ||||
Polaco | Conjunto de dados de áudio polonês | 250 | 2000 | 2250 | polonês da Polônia | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | |||
Russo | Conjunto de dados de áudio russo | 2000 | 2000 | russo da Rússia | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | ||||
swahili | Conjunto de dados de áudio suaíli | 350 | 650 | 1000 | Suaíli sul-africano e queniano | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | |||
Sueco | Conjunto de dados de áudio sueco | 350 | 650 | 1000 | Sueco na Suécia | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | |||
Chinês de Taiwan | Conjunto de dados de áudio chinês de Taiwan | 1000 | 1000 | Chinês de Taiwan | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | ||||
Tailandês | Conjunto de dados de áudio tailandês | 350 | 450 | 800 | Um registro informal usado entre amigos, | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | |||
Turco | Conjunto de dados de áudio turco | 2000 | 2000 | turco da Turquia | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | ||||
Vietnamita | Conjunto de dados de áudio vietnamita | 600 | 400 | 1000 | Norte (por exemplo, Hanói), Central e Sul (por exemplo, Ho Chi Minh City). | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | |||
Hindi | Conjunto de dados de áudio hindi | 800 | 2000 | 2800 | Hindi na Índia especificamente nas regiões Norte, Leste e Oeste | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | |||
Hinglish | Conjunto de dados de áudio em inglês indiano | 300 | 500 | 800 | Coletado de cidades urbanas indianas que são centros financeiros do país devido às crescentes oportunidades econômicas. Esses lugares podem ser Noida, Delhi, Dehradun, Chandigarh, Mumbai, Kolkata, Bangalore, Pune, Chennai, Hyderabad, etc. | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | |||
Inglês | Conjunto de dados de áudio em inglês | 700 | 700 | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | |||||
kannada | Conjunto de dados de áudio Kannada | 60 | 100 | 40 | 200 | Kannada de Karnataka, Índia | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | ||
malayalam | Conjunto de dados de áudio malaiala | 60 | 100 | 40 | 200 | Malayalam de Kerala, Lakshadweep e Puducherry | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | ||
Oriya | Conjunto de dados de áudio Oriya | 60 | 100 | 40 | 200 | Oriya de partes de Odisha, Bengala Ocidental, Jharkhand e Chhattisgarh | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | ||
Punjabi | Conjunto de dados de áudio de Punjabi | 60 | 100 | 40 | 200 | Punjabi de Punjab, Índia | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | ||
tâmil | Conjunto de dados de áudio em tâmil | 60 | 100 | 240 | 400 | Tamil de Tamil Nadu, Índia | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | ||
telugu | Conjunto de dados de áudio Telugu | 100 | 950 | 950 | 2000 | Telugu de Andhra Pradesh, Índia | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | ||
bengali | Conjunto de dados de áudio bengali | 60 | 100 | 40 | 200 | Bengali de Bengala Ocidental, Índia | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | ||
gujarati | Conjunto de dados de áudio guzerate | 60 | 100 | 40 | 200 | Gujarati de Gujarat, Índia | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | ||
marata | Conjunto de dados de áudio Marathi | 60 | 100 | 40 | 200 | Marathi de Maharashtra, Índia | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato | ||
Assamese | Conjunto de dados de áudio assamês | 60 | 100 | 40 | 200 | Assamese de Asssam, Índia | . Wav | json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Contato Contato |
Profundo conhecimento em IA de conversação
Conversational AI ou Chatbots ou Virtual / Digital Assistants são tão inteligentes quanto a tecnologia e os dados por trás deles. Na Shaip, oferecemos a você um amplo conjunto de dados de áudio diversificados para processamento de linguagem natural (NLP) que imita conversas com pessoas reais que permitem dar vida à sua IA. Com nosso profundo conhecimento, ajudamos você a criar e localizar modelos de fala habilitados para IA, com a máxima precisão, com conjuntos de dados ricos e estruturados em vários idiomas de todo o mundo. Oferecemos serviços de coleta de áudio multilíngue, transcrição de áudio e anotação de áudio com base em sua necessidade, ao mesmo tempo em que personalizamos totalmente a intenção, os enunciados e a distribuição demográfica desejados.
Coleta de fala com script
Coleta de fala espontânea
Transcrição de dados de áudio
Rotulagem e anotação de dados
O Shaip permite que você treine com precisão a sua Conversational AI Platform para que ela possa:
- Fale, envie mensagens de texto e converse perfeitamente em vários canais.
- Aprenda com as interações existentes na forma de bate-papo, transcrições de voz, transações etc. e sugira e converse com base nesses aprendizados.
- Entenda a intenção por trás da fala humana e remova a ambiguidade na compreensão da linguagem humana.
- Interage com você individualmente e pode ser treinado para identificar usuários e lembrar de conversas anteriores.
Um líder mundial em dados de treinamento de IA de conversação
Horas de dados de áudio em mais de 100 idiomas – Originados, transcritos e anotados
Licenciamento de dados de fala
Mais de 20 mil horas de dados de fala em mais de 40 idiomas e dialetos, abrangendo mais de 55 tópicos de diferentes domínios, como Call-center, debates, conversas gerais, discursos, podcasts, etc.
Coleta de dados de fala
Colete dados de áudio e fala (monólogo, conversa de 2 pessoas, bate-papo humano-bot) em mais de 100 idiomas de todo o mundo, personalizados de acordo com seus requisitos de IA.
Transcrição de dados de fala
Transcrição de áudio ou anotação de áudio econômica por meio de uma forte força de trabalho de 30,000 colaboradores com TAT, precisão e economia garantidos
Acelere o desenvolvimento de seu aplicativo Conversational AI com Audio Collection e Audio Annotation Services
A Vantagem Shaip
Escala
Podemos fornecer, dimensionar e fornecer dados de áudio de todo o mundo em vários idiomas e dialetos com base em seus requisitos.
Perícia
Temos a experiência certa em relação à coleta de dados precisa e imparcial, transcrição e anotação padrão-ouro.
Network
Uma rede de mais de 30,000 colaboradores qualificados, que podem receber rapidamente tarefas de coleta de dados para criar modelos de treinamento de IA e serviços de expansão.
Equipar
Temos uma plataforma totalmente baseada em IA com ferramentas e processos proprietários para alavancar o gerenciamento de fluxo de trabalho 24 horas por dia, 7 dias por semana.
Agilidade
Nós nos adaptamos às mudanças nos requisitos do cliente muito rapidamente e ajudamos a acelerar o desenvolvimento de IA com dados de fala de qualidade 5 a 10 vezes mais rápido que a concorrência.
Segurança
Damos a máxima importância à segurança e privacidade dos dados e também somos certificados para lidar com dados confidenciais altamente regulamentados.
O que fazemos de melhor
Dados de treinamento
Obtenha dados rotulados da mais alta qualidade em uma fração do tempo. É padrão-ouro, confiável e pronto para treinar seus modelos de IA e ML para atingir os mais altos níveis de desempenho.
Coleta de dados, rotulagem e anotação
Com a Shaip, você obtém mais de 15 anos de experiência comprovada na coleta, transcrição e anotação de dados de qualidade. Com nossa força de trabalho global, podemos coletar dados de todo o mundo e fornecer serviços de rotulagem e anotação com a quantidade perfeita de nível de habilidade e experiência necessária para seus dados.
Catálogos de dados e licenciamento
Com nosso vasto inventário de milhões de conjuntos de dados, você pode coletar e organizar conforme necessário. Podemos então licenciar esses dados de qualidade para seus requisitos específicos de uso de IA e ML. Além disso, esses dados estão disponíveis por uma fração do custo se você os criasse sozinho.
Quer construir seu próprio conjunto de dados?
Entre em contato conosco agora para saber como podemos coletar um conjunto de dados personalizado para sua solução exclusiva de IA.