Conjuntos de dados abertos
Descubra conjuntos de dados de código aberto que permitem que você treine modelos de ML
Conjuntos de dados de código aberto para você começar com modelos de IA/ML
A saída de seus modelos de IA e ML é tão boa quanto os dados que você usa para treiná-los – portanto, a precisão que você aplica à agregação de dados e à marcação e identificação desses dados é importante!
Portanto, se você deseja iniciar uma nova iniciativa de IA/ML e agora está percebendo rapidamente que encontrar dados de treinamento de alta qualidade será um dos aspectos mais desafiadores do seu projeto, pois conjuntos de dados de alta qualidade são o combustível que mantém a IA/ Motor de ML funcionando. Acumulamos uma lista de conjuntos de dados abertos que são gratuitos para usar e treinar seus modelos de IA/ML do futuro.
| Especialização | Tipo de dados | Nome do conjunto de dados | Indústria / Dep. | Anotação/caso de uso | de vidrio |
|---|---|---|---|---|---|
| +PNL | Texto | Comentários Amazon | Ecommerce | Análise de Sentimentos | de vidrio |
| Descrição | Um conjunto de 35 milhões de avaliações e classificações dos últimos 18 anos em texto simples com detalhes do usuário e do produto. | ||||
| +PNL | Texto | Dados de links da Wikipedia | Geral | de vidrio | |
| Descrição | Mais de 4 milhões de artigos contendo 1.9 bilhão de palavras da Wikipédia. Cada artigo contém hiperlinks para a entidade associada. | ||||
| +PNL | Texto | Treebank de sentimento de Standford | Retalho e Entretenimento | Análise de Sentimentos | de vidrio |
| Descrição | Conjunto de dados de anotações de sentimento para mais de 10,000 frases de críticas de filmes do Rotten Tomatoes. Disponível em nível de frase — cada frase é analisada em subfrases por meio da binarização das árvores de análise sintática no formato Penn Treebank. | ||||
| +PNL | Texto | Sentimento da companhia aérea dos EUA no Twitter | Companhia aérea | Análise de Sentimentos | de vidrio |
| Descrição | Em 2015, os tweets sobre companhias aéreas americanas se dividiram em sentimentos positivos, neutros e negativos. | ||||
| +CV | Imagem | Rede de imagens | Geral | de vidrio | |
| Descrição | Conjunto de dados com mais de 14 milhões de imagens em vários formatos de arquivo mapeadas para cerca de 21,000 synsets. Synsets são sinônimos com entidades associadas presentes como uma imagem. 1 milhão de imagens possuem caixas delimitadoras e mais de 1 milhão de imagens possuem características SIFT. | ||||
| +CV | Imagem | Imagens abertas do Google | Geral | de vidrio | |
| Descrição | Um conjunto de dados semelhante ao ImageNet com 600 categorias. Disponível em versões para desenvolvimento, validação e treinamento. Algumas imagens também incluem caixas delimitadoras e relações visuais. | ||||
| +PNL | Texto | Diálogos de filmes de Cornell | Retalho e Entretenimento | Diálogos | de vidrio |
| Descrição | Uma coleção de conversas fictícias, com metadados de personagens e filmes. Cada linha representa um diálogo entre duas pessoas, em formato de pergunta e resposta. | ||||
| Descrição | Um conjunto de dados de perguntas e respostas do portal Yahoo Respostas, coletado entre abril de 2007 e outubro de 2007. | ||||
| +PNL | Texto | SENHORA MARCO | Geral | Resposta a Perguntas | de vidrio |
| Descrição | Um conjunto de dados de perguntas e respostas com anotações dos registros de pesquisa da Bing. Cada pergunta contém uma resposta fornecida por um usuário, bem como trechos da web que contêm a resposta. | ||||
| +PNL | Texto | Conjunto de dados de perguntas naturais | Geral | Resposta a Perguntas | de vidrio |
| Descrição | Divulgado pelo Google, este conjunto de dados contém consultas e respostas reais de usuários a partir de artigos da Wikipédia. | ||||
| +PNL | Texto | DBPedia | Geral | Gráfico conhecimento | de vidrio |
| Descrição | Uma representação estruturada da Wikipédia, com entidades e relações extraídas como um Grafo de Conhecimento. | ||||
| +PNL | Texto | YAGO | Geral | Gráfico conhecimento | de vidrio |
| Descrição | Um grafo de conhecimento contendo entidades e relações da Wikipédia, WordNet e GeoNames. | ||||
| +PNL | Texto | Base Livre | Geral | Gráfico conhecimento | de vidrio |
| Descrição | Uma base de conhecimento colaborativa composta por entidades e relacionamentos, agora incorporada ao gráfico de conhecimento do Google. | ||||
| +PNL | Texto | Ontonotes | Geral | Rotulagem de Papéis Semânticos | de vidrio |
| Descrição | Um corpus com anotações sintáticas, semânticas e de nível discursivo usado nas tarefas compartilhadas do CoNLL. | ||||
| Descrição | Um conjunto de dados em inglês anotado com entidades nomeadas, como pessoa, organização e localização. | ||||
| +CV | Imagem | COCO | Geral | Detecção de Objetos | de vidrio |
| Descrição | Objetos Comuns em Contexto: um conjunto de dados ricamente anotado para detecção, segmentação e legendagem de objetos. | ||||
| +CV | Imagem | VOC PASCAL | Geral | Detecção de Objetos | de vidrio |
| Descrição | Um conjunto de dados de referência para desafios de detecção e segmentação de objetos. | ||||
| +CV | Imagem | Cityscapes | Condução Autônoma | Segmentação Semântica | de vidrio |
| Descrição | Conjunto de dados para compreensão de cenas urbanas com anotações em nível de pixel para 30 classes. | ||||
| +CV | Imagem | MNIST | Geral | Classificação de dígitos | de vidrio |
| Descrição | Conjunto de dados de dígitos manuscritos com 60,000 imagens de treinamento e 10,000 imagens de teste de 28x28 pixels. | ||||
| +CV | Imagem | Moda-MNIST | Varejo | Classificação de imagens | de vidrio |
| Descrição | Conjunto de dados de imagens de artigos da Zalando no mesmo formato do MNIST, usado como substituto direto para avaliação comparativa. | ||||
| +PNL | em áudio | LibriSpeech | Geral | ASR | de vidrio |
| Descrição | Um conjunto de gravações de fala em inglês extraídas de audiolivros, contendo 1000 horas de áudio e textos associados. | ||||
| +PNL | em áudio | TED-LIUM | Geral | ASR | de vidrio |
| Descrição | Transcrição de palestras TED com áudio e transcrições alinhadas para pesquisa em reconhecimento de fala. | ||||
| +PNL | em áudio | TEMPO | Geral | Reconhecimento de fonemas | de vidrio |
| Descrição | Transcrição fonética da fala de falantes de inglês americano, amplamente utilizada em tarefas de reconhecimento de fonemas. | ||||
| +PNL | em áudio | Voz comum | Geral | ASR | de vidrio |
| Descrição | Um corpus multilíngue de fala lida, contribuído por voluntários de todo o mundo. | ||||
| +PNL | em áudio | VoxCelebGenericName | Geral | Reconhecimento de alto-falante | de vidrio |
| Descrição | Um extenso conjunto de dados para identificação de falantes, coletado a partir de vídeos do YouTube. | ||||
| +PNL | Texto | Despejo da Wikipédia | Geral | Modelagem de linguagem | de vidrio |
| Descrição | Despejos de texto completo de artigos da Wikipédia, atualizados regularmente, são usados para o pré-treinamento de modelos de linguagem. | ||||
| +PNL | Texto | Gigapalavra | Notícias | Modelagem de linguagem | de vidrio |
| Descrição | Um arquivo abrangente de dados textuais de agências de notícias. | ||||
| +PNL | Texto | Comentários IMDB | Retalho e Entretenimento | Análise de Sentimentos | de vidrio |
| Descrição | Grande conjunto de dados de avaliações de filmes para classificação binária de sentimentos. | ||||
| +CV | Vídeo | Cinética-700 | Geral | Reconhecimento de Ação | de vidrio |
| Descrição | Um conjunto de dados de alta qualidade e em grande escala, composto por videoclipes do YouTube, abrangendo 700 classes de ações humanas. | ||||
| +CV | Vídeo | UCF101 | Geral | Reconhecimento de Ação | de vidrio |
| Descrição | Um conjunto de dados de vídeos de ação realistas, com 101 categorias de ação. | ||||
| +CV | Vídeo | HMDB51 | Geral | Reconhecimento de Ação | de vidrio |
| Descrição | Um extenso banco de dados de vídeos de movimentos humanos com 51 categorias de ação. | ||||
| Descrição | Um banco de dados de fotografias de rostos projetado para o estudo do reconhecimento facial irrestrito. | ||||
| +CV | Imagem | CASIA-WebFace | Geral | Face Recognition | de vidrio |
| Descrição | Um conjunto de dados com milhões de imagens de rostos para treinamento de modelos de reconhecimento facial profundo. | ||||
| +PNL | Texto | Pelotão | Geral | Compreensão de leitura | de vidrio |
| Descrição | Conjunto de dados de perguntas e respostas de Stanford: perguntas feitas por trabalhadores remotos sobre um conjunto de artigos da Wikipédia. | ||||
| Descrição | Um conjunto de dados de compreensão de máquina com perguntas e respostas baseadas em artigos de notícias da CNN. | ||||
| +PNL | Texto | MultiNLI | Geral | Inferência de Linguagem Natural | de vidrio |
| Descrição | Um conjunto de dados para inferência de linguagem natural a partir de pares de frases em diversos gêneros. | ||||
| +PNL | Texto | SNLI | Geral | Inferência de Linguagem Natural | de vidrio |
| Descrição | Corpus de Inferência de Linguagem Natural de Stanford com pares de frases rotuladas como implicação, contradição ou neutras. | ||||
| Descrição | Uma coleção de mais de 100 milhões de tokens extraídos do conjunto de artigos verificados como Bons e Destacados na Wikipédia. | ||||
| Descrição | Um conjunto de dados com 16,185 imagens de 196 classes de carros. | ||||
| +CV | Imagem | Oxford Flowers 102 | botânica | Classificação detalhada | de vidrio |
| Descrição | 102 categorias de flores comuns no Reino Unido. | ||||
| +CV | Imagem | CIFAR-10 | Geral | Classificação de imagens | de vidrio |
| Descrição | Imagens de 10 classes: avião, automóvel, pássaro, gato, veado, cachorro, sapo, cavalo, navio e caminhão. | ||||
| +CV | Imagem | CIFAR-100 | Geral | Classificação de imagens | de vidrio |
| Descrição | Um conjunto de dados semelhante ao CIFAR-10, mas com 100 classes de granularidade fina. | ||||
| +CV | Imagem | Layout de Pessoa VOC | Geral | Estimativa de pose | de vidrio |
| Descrição | Parte do PASCAL VOC com foco em anotações de layout de pessoas, como cabeça, mãos e pés. | ||||
| +CV | Imagem | MPII Pose Humana | Geral | Estimativa de pose | de vidrio |
| Descrição | Aproximadamente 25,000 imagens contendo mais de 40,000 pessoas com articulações do corpo anotadas. | ||||
| Descrição | Coletânea de artigos da agência de notícias Reuters para pesquisa de categorização de texto. | ||||
| +PNL | Texto | 20 grupos de notícias | Geral | Classificação de Texto | de vidrio |
| Descrição | Uma coleção de 20,000 documentos de grupos de notícias, divididos em 20 grupos de notícias diferentes. | ||||