Conjuntos de dados de PLN são a espinha dorsal de muitos projetos de processamento de linguagem natural, oferecendo flexibilidade para uma ampla gama de tarefas, como classificação de texto, análise de sentimentos e resposta a perguntas. O Blog Authorship Corpus, por exemplo, contém mais de 681,000 posts de blog de quase 20,000 blogueiros, tornando-se um recurso valioso para estudar estilos de escrita, identificação de autores e muito mais.
Para os interessados em pesquisa acadêmica, o conjunto de dados de artigos científicos arXiv oferece acesso a uma vasta coleção de artigos científicos em diversas disciplinas, apoiando tarefas avançadas de PLN, como análise de citações e classificação de documentos. O conjunto de dados do Centro de Dados de Compras Federais é outro recurso valioso, oferecendo informações detalhadas sobre contratos federais — ideal para projetos que envolvam dados governamentais e reconhecimento de entidades.
Esses conjuntos de dados de PNL são amplamente utilizados para treinar e avaliar modelos de aprendizado de máquina, ajudando pesquisadores e desenvolvedores a melhorar o desempenho de seus sistemas em diversas tarefas de PNL. Seja trabalhando com posts de blog, artigos de pesquisa ou dados governamentais, esses conjuntos de dados fornecem a base para aplicações de PNL robustas e versáteis.
O que é PNL?
NLP (Natural Language Processing) ajuda os computadores a entender a linguagem humana. É como ensinar os computadores a ler, entender e responder a texto e fala da mesma forma que os humanos.
O que a PNL pode fazer?
- Transforme texto confuso em dados organizados
- Entenda se os comentários são positivos ou negativos
- Traduzir entre idiomas
- Crie resumos de textos longos
- E muito mais!
- Introdução à PNL:
Para construir bons sistemas de PNL, você precisa de muitos exemplos para treiná-los – assim como os humanos aprendem melhor com mais prática. A boa notícia é que há muitos recursos gratuitos onde você pode encontrar esses exemplos: Abraçando o rosto, Kaggle e GitHub. Os conjuntos de dados dessas plataformas podem ser facilmente acessados, o que acelera o desenvolvimento de projetos de PNL.
Tamanho e crescimento do mercado de PNL:
Em 2023, o mercado de Processamento de Linguagem Natural (NLP) foi avaliado em cerca de US$ 26 bilhões. Espera-se que ele cresça significativamente, com uma taxa de crescimento anual composta (CAGR) de cerca de 30% de 2023 a 2030. Esse crescimento é impulsionado pela crescente demanda por aplicações de NLP em setores como saúde, finanças e atendimento ao cliente.
Ao escolher um bom conjunto de dados de PNL, considere os seguintes fatores:
- Relevância: Certifique-se de que o conjunto de dados esteja alinhado com sua tarefa ou domínio específico.
- Dimensões::Conjuntos de dados maiores geralmente melhoram o desempenho do modelo, mas equilibram tamanho com qualidade.
- Diversidade: Procure conjuntos de dados com estilos de linguagem e contextos variados para aumentar a robustez do modelo.
- Qualidade: Verifique se os dados estão bem rotulados e precisos para evitar a introdução de erros.
- Acessibilidade: Certifique-se de que o conjunto de dados esteja disponível para uso e considere quaisquer restrições de licenciamento.
- Pré-processando: Determine se o conjunto de dados requer limpeza ou pré-processamento significativo.
- Comunitário de Apoio: Conjuntos de dados populares geralmente têm mais recursos e suporte da comunidade, o que pode ser útil.
Ao avaliar esses fatores, você pode selecionar o conjunto de dados mais adequado às necessidades do seu projeto. Escolher os conjuntos de dados certos é essencial para alcançar resultados ideais em projetos de PLN, pois eles impactam diretamente o desempenho do modelo e a eficiência do treinamento.
Os 33 principais conjuntos de dados abertos imperdíveis para PNL
Geral
Spambase da UCI (Link)
O Spambase, criado no Hewlett-Packard Labs, possui uma coleção de e-mails de spam pelos usuários, com o objetivo de desenvolver um filtro de spam personalizado. Possui mais de 4600 observações de mensagens de e-mail, das quais cerca de 1820 são spam.
Conjunto de dados da Enron (Link)
O conjunto de dados da Enron possui uma vasta coleção de e-mails "reais" anonimizados, disponíveis ao público para treinar seus modelos de aprendizado de máquina. Ele conta com mais de meio milhão de e-mails de mais de 150 usuários, predominantemente da alta gerência da Enron. Este conjunto de dados está disponível para uso em formatos estruturados e não estruturados. Para aprimorar os dados não estruturados, é necessário aplicar técnicas de processamento de dados.
Conjunto de dados de sistemas de recomendação (Link)
O conjunto de dados do sistema de recomendação é uma enorme coleção de vários conjuntos de dados contendo diferentes recursos, como,
- Revisões do produto
- Classificação por estrelas
- Rastreamento de condicionamento físico
- Dados da música
- Redes sociais
- Timestamps
- Interações do usuário/item
- Dados GPS
Penn Treebank (Link)
Este corpus, do Wall Street Journal, é popular para testar modelos de rotulagem de sequências.
NLTK (Link)
Esta biblioteca Python oferece acesso a mais de 100 corpora e recursos lexicais para PNL. Inclui também o livro NLTK, um curso de treinamento para o uso da biblioteca. O NLTK inclui acesso ao WordNet, um amplo banco de dados lexical em inglês, onde palavras como substantivos, verbos, adjetivos e advérbios são agrupadas em synsets com base em significados compartilhados. O NLTK também fornece uma lista anotada de corpora e recursos lexicais para pesquisa em PNL.
Dependências Universais (Link)
O UD fornece uma maneira consistente de fazer anotações gramaticais, com recursos em mais de 100 idiomas, 200 bancos de árvores e suporte de mais de 300 membros da comunidade.
Conjuntos de dados de análise de sentimento
Dicionários de filmes e finanças (Link)
O conjunto de dados Dicionários para filmes e finanças fornece dicionários específicos de domínio para polaridade positiva ou negativa em preenchimentos de finanças e resenhas de filmes. Esses dicionários são extraídos de preenchimentos do IMDb e do US Form-8.Sentimento 140 (Link)
O Sentiment 140 tem mais de 160,000 tweets com vários emoticons categorizados em 6 campos diferentes: data do tweet, polaridade, texto, nome de usuário, ID e consulta. Esse conjunto de dados permite que você descubra o sentimento de uma marca, um produto ou até mesmo um tópico com base na atividade do Twitter. Como esse conjunto de dados é criado automaticamente, ao contrário de outros tweets anotados por humanos, ele classifica os tweets com emoções positivas e emoções negativas como desfavoráveis.
Conjunto de dados de sentimento de vários domínios (Link)
Este conjunto de dados de sentimento de vários domínios é um repositório de avaliações da Amazon para vários produtos. Algumas categorias de produtos, como livros, têm milhares de avaliações, enquanto outras têm apenas algumas centenas de avaliações. Além disso, as avaliações com estrelas podem ser convertidas em rótulos binários.
Árvore de sentimento de Standford (Link)
Este conjunto de dados de PNL do Rotten Tomatoes inclui frases mais longas e exemplos de texto mais detalhados.
O Corpus de Autoria do Blog (Link)
Esta coleção possui postagens de blog com quase 1.4 milhão de palavras, cada blog é um conjunto de dados separado.
Conjunto de dados OpinRank (Link)
300,000 avaliações da Edmunds e do TripAdvisor, organizadas por modelo de carro ou destino de viagem e hotel.
Conjunto de dados de texto
O corpus de controle de qualidade da Wiki (Link)
Criado para ajudar na pesquisa de perguntas e respostas de domínio aberto, o WiKi QA Corpus é um dos mais extensos conjuntos de dados disponíveis publicamente. Compilado a partir dos logs de consulta do mecanismo de pesquisa do Bing, ele vem com pares de perguntas e respostas. Tem mais de 3000 perguntas e 1500 frases de resposta rotuladas.
Conjunto de dados de relatórios de casos jurídicos (Link)
O conjunto de dados do Legal Case Reports tem uma coleção de 4000 casos legais e pode ser usado para treinar para resumo automático de texto e análise de citações. Cada documento, frases de efeito, classes de citação, frases de efeito de citação e muito mais são usados.
Perigo (Link)
O conjunto de dados do Jeopardy é uma coleção de mais de 200,000 perguntas apresentadas no popular programa de TV de quiz reunido por um usuário do Reddit. Cada ponto de dados é classificado por sua data de exibição, número do episódio, valor, rodada e pergunta/resposta.
20 grupos de notícias (Link)
Uma coleção de 20,000 mil documentos abrange 20 grupos de notícias e assuntos, detalhando temas que vão desde religião até esportes populares.
Conjunto de dados de notícias da Reuters (Link)
Aparecendo pela primeira vez em 1987, este conjunto de dados foi rotulado, indexado e compilado para fins de aprendizado de máquina.
ArXiv (Link)
Este conjunto de dados substancial de 270 GB inclui o texto completo de todos os artigos de pesquisa do arXiv.
Corpus paralelo dos procedimentos do Parlamento Europeu (Link)
Os pares de frases dos procedimentos do Parlamento incluem entradas de 21 línguas europeias, apresentando algumas línguas menos comuns para corpora de aprendizagem automática.
Benchmark de bilhões de palavras (Link)
Derivado do News Crawl do WMT 2011, este conjunto de dados de modelagem de linguagem compreende quase um bilhão de palavras para testar técnicas inovadoras de modelagem de linguagem.
Conjuntos de dados de fala em áudio
Corpora da Wikipedia falada (Link)
Este conjunto de dados é perfeito para todos que desejam ir além do idioma inglês. Este conjunto de dados contém uma coleção de artigos falados em holandês, alemão e inglês. Tem uma gama diversificada de tópicos e conjuntos de alto-falantes que duram centenas de horas.2000 HUB5 Inglês (Link)
O conjunto de dados 2000 HUB5 English tem 40 transcrições de conversas telefônicas no idioma inglês. Os dados são fornecidos pelo Instituto Nacional de Padrões e Tecnologia e seu foco principal é reconhecer a fala de conversação e converter a fala em texto.
LibriSpeech (Link)
O conjunto de dados LibriSpeech é uma coleção de quase 1000 horas de fala em inglês tiradas e devidamente segmentadas por tópicos em capítulos de livros de áudio, tornando-se uma ferramenta perfeita para processamento de linguagem natural.
Conjunto de dados de dígitos falados grátis (Link)
Este conjunto de dados de PNL inclui mais de 1,500 gravações de dígitos falados em inglês.
Conjunto de dados de fala do M-AI Labs (Link)
O conjunto de dados oferece quase 1,000 horas de áudio com transcrições, abrangendo vários idiomas e categorizados por vozes masculinas, femininas e mistas.
Banco de dados de fala barulhenta (ligação)
Este conjunto de dados apresenta gravações paralelas de fala limpa e ruidosa, destinadas ao desenvolvimento de software de aprimoramento de fala, mas também benéficas para treinamento de fala em condições desafiadoras.
Conjuntos de dados de avaliações
Comentários do Yelp (Link)
O conjunto de dados do Yelp tem uma vasta coleção de cerca de 8.5 milhões de avaliações de mais de 160,000 empresas, suas avaliações e dados de usuários. As revisões podem ser usadas para treinar seus modelos na análise de sentimentos. Além disso, esse conjunto de dados também possui mais de 200,000 fotos cobrindo oito localidades metropolitanas.
Comentários IMDB (Link)
As resenhas do IMDB estão entre os conjuntos de dados mais populares que contêm informações de elenco, classificações, descrição e gênero para mais de 50 mil filmes. Esse conjunto de dados pode ser usado para testar e treinar seus modelos de aprendizado de máquina.
Conjunto de dados de avaliações e classificações da Amazon (Link)
O conjunto de dados de avaliação e classificação da Amazon contém uma valiosa coleção de metadados e avaliações de diferentes produtos da Amazon coletados de 1996 a 2014 – cerca de 142.8 milhões de registros. Os metadados incluem o preço, a descrição do produto, a marca, a categoria e muito mais, enquanto as avaliações têm a qualidade do texto, a utilidade do texto, classificações e muito mais.
Conjuntos de dados de perguntas e respostas
Conjunto de dados de perguntas e respostas de Stanford (SQuAD) (Link)
Este conjunto de dados de compreensão de leitura tem 100,000 perguntas respondíveis e 50,000 perguntas não respondidas, todas criadas por trabalhadores coletivos da Wikipedia.
Questões naturais (Link)
Este conjunto de treinamento tem mais de 300,000 exemplos de treinamento, 7,800 exemplos de desenvolvimento e 7,800 exemplos de teste, cada um com uma consulta do Google e uma página correspondente da Wikipedia.
Trivia QA (Link)
Este conjunto de perguntas desafiadoras tem 950,000 pares de controle de qualidade, incluindo subconjuntos verificados por humanos e gerados por máquinas.
CLEVR (Linguagem Composicional e Raciocínio Visual Elementar) (Link)
Este conjunto de dados de resposta a perguntas visuais apresenta objetos renderizados em 3D e milhares de perguntas com detalhes sobre a cena visual.
Então, em qual conjunto de dados você escolheu para treinar seu modelo de aprendizado de máquina?
À medida que avançamos, vamos deixá-lo com um dica profissional.
Certifique-se de examinar completamente o arquivo README antes de escolher um conjunto de dados NLP para suas necessidades. O conjunto de dados conterá todas as informações necessárias que você possa precisar, como o conteúdo do conjunto de dados, os vários parâmetros nos quais os dados foram categorizados e os prováveis casos de uso do conjunto de dados.
Independentemente dos modelos que você constrói, há uma perspectiva interessante de integrar nossas máquinas de forma mais estreita e intrínseca às nossas vidas. Com a PNL, as possibilidades de negócios, filmes, reconhecimento de fala, finanças e muito mais aumentam muito.