Conjunto de dados de PNL para ML

15 melhores conjuntos de dados de PNL para treinar seus modelos de processamento de linguagem natural

O processamento de linguagem natural é uma parte vital na armadura do aprendizado de máquina. No entanto, ele precisa de grandes quantidades de dados e treinamento para que o modelo funcione bem. Um dos problemas significativos com a PNL é a falta de conjuntos de dados de treinamento que possam cobrir vastos campos de interesse dentro do domínio.

Se você está começando nesse vasto campo, pode achar desafiador e praticamente redundante criar seus conjuntos de dados. Principalmente quando há qualidade PNL conjuntos de dados disponíveis para treinar seus modelos de aprendizado de máquina com base em sua finalidade.

O mercado de PNL deve crescer a uma CAGR de 11.7% durante 2018 e 2026 para atingir US $ 28.6 bilhões até 2026. Graças à crescente demanda por PNL e aprendizado de máquina, agora é possível obter conjuntos de dados de qualidade para análise de sentimentos, revisões, análise de perguntas e respostas e conjuntos de dados de análise de fala.

Os conjuntos de dados de PNL para aprendizado de máquina em que você pode confiar

Como inúmeros conjuntos de dados – com foco em várias necessidades – estão sendo lançados quase todos os dias, pode ser um desafio acessar conjuntos de dados de qualidade, confiáveis ​​e melhores. Aqui, facilitamos o trabalho para você, pois apresentamos conjuntos de dados selecionados segregados com base nas categorias que eles atendem.

Geral

O Spambase, criado no Hewlett-Packard Labs, possui uma coleção de e-mails de spam pelos usuários, com o objetivo de desenvolver um filtro de spam personalizado. Possui mais de 4600 observações de mensagens de e-mail, das quais cerca de 1820 são spam.

  • Conjunto de dados da Enron (Link)

O conjunto de dados da Enron possui uma vasta coleção de e-mails 'reais' anônimos disponíveis ao público para treinar seus modelos de aprendizado de máquina. Possui mais de meio milhão de e-mails de mais de 150 usuários, predominantemente da alta administração da Enron. Esse conjunto de dados está disponível para uso em formatos estruturados e não estruturados. Para enfeitar os dados não estruturados, você precisa aplicar técnicas de processamento de dados.

  • Conjunto de dados de sistemas de recomendação (Link)

O conjunto de dados do sistema de recomendação é uma enorme coleção de vários conjuntos de dados contendo diferentes recursos, como,

  • Revisões do produto
  • Classificação por estrelas
  • Rastreamento de condicionamento físico
  • Dados da música
  • Redes sociais
  • Timestamps
  • Interações do usuário/item
  • Dados GPS

Análise de Sentimentos

  • Dicionários de filmes e finanças (Link)

Análise de sentimentos
O conjunto de dados Dicionários para filmes e finanças fornece dicionários específicos de domínio para polaridade positiva ou negativa em preenchimentos de finanças e resenhas de filmes. Esses dicionários são extraídos de preenchimentos do IMDb e do US Form-8.

O Sentiment 140 tem mais de 160,000 tweets com vários emoticons categorizados em 6 campos diferentes: data do tweet, polaridade, texto, nome de usuário, ID e consulta. Esse conjunto de dados permite que você descubra o sentimento de uma marca, um produto ou até mesmo um tópico com base na atividade do Twitter. Como esse conjunto de dados é criado automaticamente, ao contrário de outros tweets anotados por humanos, ele classifica os tweets com emoções positivas e emoções negativas como desfavoráveis.

  • Conjunto de dados de sentimento de vários domínios (Link)

Este conjunto de dados de sentimento de vários domínios é um repositório de avaliações da Amazon para vários produtos. Algumas categorias de produtos, como livros, têm milhares de avaliações, enquanto outras têm apenas algumas centenas de avaliações. Além disso, as avaliações com estrelas podem ser convertidas em rótulos binários.

Vamos discutir seu requisito de dados de treinamento de IA hoje.

Texto

  • O corpus de controle de qualidade da Wiki (Link)

Criado para ajudar na pesquisa de perguntas e respostas de domínio aberto, o WiKi QA Corpus é um dos mais extensos conjuntos de dados disponíveis publicamente. Compilado a partir dos logs de consulta do mecanismo de pesquisa do Bing, ele vem com pares de perguntas e respostas. Tem mais de 3000 perguntas e 1500 frases de resposta rotuladas.

  • Conjunto de dados de relatórios de casos jurídicos (Link)

O conjunto de dados do Legal Case Reports tem uma coleção de 4000 casos legais e pode ser usado para treinar para resumo automático de texto e análise de citações. Cada documento, frases de efeito, classes de citação, frases de efeito de citação e muito mais são usados.

O conjunto de dados do Jeopardy é uma coleção de mais de 200,000 perguntas apresentadas no popular programa de TV de quiz reunido por um usuário do Reddit. Cada ponto de dados é classificado por sua data de exibição, número do episódio, valor, rodada e pergunta/resposta.

Fala de áudio

  • Corpora da Wikipedia falada (Link)

Discurso de áudio Este conjunto de dados é perfeito para todos que desejam ir além do idioma inglês. Este conjunto de dados contém uma coleção de artigos falados em holandês, alemão e inglês. Tem uma gama diversificada de tópicos e conjuntos de alto-falantes que duram centenas de horas.

O conjunto de dados 2000 HUB5 English tem 40 transcrições de conversas telefônicas no idioma inglês. Os dados são fornecidos pelo Instituto Nacional de Padrões e Tecnologia e seu foco principal é reconhecer a fala de conversação e converter a fala em texto.

O conjunto de dados LibriSpeech é uma coleção de quase 1000 horas de fala em inglês tiradas e devidamente segmentadas por tópicos em capítulos de livros de áudio, tornando-se uma ferramenta perfeita para processamento de linguagem natural.

Opinões

O conjunto de dados do Yelp tem uma vasta coleção de cerca de 8.5 milhões de avaliações de mais de 160,000 empresas, suas avaliações e dados de usuários. As revisões podem ser usadas para treinar seus modelos na análise de sentimentos. Além disso, esse conjunto de dados também possui mais de 200,000 fotos cobrindo oito localidades metropolitanas.

As resenhas do IMDB estão entre os conjuntos de dados mais populares que contêm informações de elenco, classificações, descrição e gênero para mais de 50 mil filmes. Esse conjunto de dados pode ser usado para testar e treinar seus modelos de aprendizado de máquina.

  • Conjunto de dados de avaliações e classificações da Amazon (Link)

O conjunto de dados de avaliação e classificação da Amazon contém uma valiosa coleção de metadados e avaliações de diferentes produtos da Amazon coletados de 1996 a 2014 – cerca de 142.8 milhões de registros. Os metadados incluem o preço, a descrição do produto, a marca, a categoria e muito mais, enquanto as avaliações têm a qualidade do texto, a utilidade do texto, classificações e muito mais.

Então, em qual conjunto de dados você escolheu para treinar seu modelo de aprendizado de máquina?

À medida que avançamos, vamos deixá-lo com um dica profissional. 

Certifique-se de examinar completamente o arquivo README antes de escolher um conjunto de dados NLP para suas necessidades. O conjunto de dados conterá todas as informações necessárias que você possa precisar, como o conteúdo do conjunto de dados, os vários parâmetros nos quais os dados foram categorizados e os prováveis ​​casos de uso do conjunto de dados.

Independentemente dos modelos que você constrói, há uma perspectiva empolgante de integrar nossas máquinas de forma mais próxima e intrínseca às nossas vidas. Com a PNL, as possibilidades de negócios, filmes, reconhecimento de voz, finanças e muito mais são múltiplas. Se você estiver procurando por mais conjuntos de dados Clique aqui.

Ações Sociais

Você pode gostar