Conjuntos de dados abertos
Descubra conjuntos de dados de código aberto que permitem que você treine modelos de ML
Conjuntos de dados de código aberto para você começar com modelos de IA/ML
A saída de seus modelos de IA e ML é tão boa quanto os dados que você usa para treiná-los – portanto, a precisão que você aplica à agregação de dados e à marcação e identificação desses dados é importante!
Portanto, se você deseja iniciar uma nova iniciativa de IA/ML e agora está percebendo rapidamente que encontrar dados de treinamento de alta qualidade será um dos aspectos mais desafiadores do seu projeto, pois conjuntos de dados de alta qualidade são o combustível que mantém a IA/ Motor de ML funcionando. Acumulamos uma lista de conjuntos de dados abertos que são gratuitos para usar e treinar seus modelos de IA/ML do futuro.
Especialização | Tipo de dados | Nome do conjunto de dados | Indústria / Dep. | Anotação/caso de uso | Descrição | Ligação |
---|---|---|---|---|---|---|
PNL | Texto | Comentários Amazon | Ecommerce | Análise de Sentimentos | Um conjunto de 35 milhões de avaliações e classificações dos últimos 18 anos em texto simples com detalhes do usuário e do produto. | Ligação |
PNL | Texto | Dados de links da Wikipedia | Geral | Mais de 4 Mn. artigos contendo 1.9 bilhão. palavra que compreende de palavras e frases, bem como parágrafos. | Ligação | |
PNL | Texto | Standford Sentiment Treebank | Entretenimento | Análise de Sentimentos | Conjunto de dados de anotações de sentimento para mais de 10,000 avaliações do Rotten Tomatoes em formato de arquivo HTML | Ligação |
PNL | Texto | Sentimento da companhia aérea dos EUA no Twitter | Companhia aérea | Análise de Sentimentos | Tweets de 2015 na US Airlines se bifurcaram em tons positivos, negativos e neutros | Ligação |
CV | Imagem | Rostos rotulados na natureza | Geral | Reconhecimento facial | Conjunto de dados contendo mais de 13,000 rostos recortados com duas imagens diferentes para treinamento de reconhecimento facial. | Ligação |
CV | Vídeo, Imagem | Conjunto de dados UMDFes | Geral | Reconhecimento facial | Conjunto de dados anotado contendo mais de 367,000 rostos de mais de 8,000 assuntos que inclui imagens estáticas e de vídeo. | Ligação |
CV | Imagem | Rede de imagens | Geral | Conjunto de dados com mais de 14 Mn. imagens em vários formatos de arquivo, organizados de acordo com a hierarquia WordNet. | Ligação | |
CV | Imagem | Imagens abertas do Google | Geral | 9 M. URLs para categorizar imagens públicas de mais de 6,000 categorias. | Ligação | |
PNL | Texto | Banco de dados de cuidados intensivos MIMIC | Assistência médica | Conjuntos de dados de fisiologia computacional com dados não identificados de 40,000 pacientes de cuidados intensivos. O conjunto de dados contém informações como dados demográficos, sinais vitais, medicamentos, etc. | Ligação | |
CV | Imagem | Escritório Nacional de Viagens e Turismo dos EUA | Turismo | Fornece amplas fotografias da indústria do turismo com bancos de dados confiáveis, cobrindo tópicos como viagens de entrada e saída e informações turísticas internacionais. | Ligação | |
PNL | Texto | Departamento de Transporte | Turismo | Conjuntos de dados de turismo que incluem Parques Nacionais, registros de motoristas, pontes e informações ferroviárias, etc. | Ligação | |
PNL | Áudio | Corpus de legendas de áudio do Flickr | Geral | Mais de 40 mil legendas faladas de 8,000 fotografias projetadas para padrões de fala não supervisionados | Ligação | |
PNL | Áudio | Conjunto de dados de comandos de fala | Geral | Reconhecimento de fala, anotação de áudio | Enunciados de 1 segundo de milhares de indivíduos, para construir uma interface de voz básica. | Ligação |
PNL | Áudio | Conjuntos de dados de áudio ambiental | Geral | Conjuntos de dados de áudio do ambiente que contém tabelas de som de eventos e tabelas de cenas acústicas. | Ligação | |
PNL | Texto | Conjunto de dados de pesquisa aberta COVID-19 | Assistência médica | IA médica | Um conjunto de dados de pesquisa composto por 45,000 artigos acadêmicos sobre COVID-19 e a família de vírus coronavírus. | Ligação |
CV | Imagem | Conjunto de dados aberto Waymo | Automotivo | Os mais diversos conjuntos de dados de direção autônoma lançados pela Waymo | Ligação | |
CV | Imagem | Genoma Visual | Geral | Legenda de imagem | Uma base de conhecimento visual com legendas detalhadas de mais de 100 mil imagens | Ligação |
CV | Imagem | Labelme | Governo Público | Grande conjunto de imagens anotadas acessíveis através do Labelme Matlab | Ligação | |
CV | Imagem | BOBINA 100 | Geral | Mais de 100 objetos variados fotografados de vários ângulos (ou seja, 360 graus) | Ligação | |
CV | Imagem | Conjunto de dados Stanford Dogs | Geral | Mais de 20,500 imagens categorizadas em um conjunto de imagens de 120 raças de cães diferentes | Ligação | |
CV | Imagem | Reconhecimento de cena interna | Geral | Reconhecimento de cena | Um conjunto de dados específico composto por 15620 imagens de 67 categorias internas para construir modelos de reconhecimento de cena | Ligação |
CV | Imagem | Controle de qualidade visual | Geral | Um conjunto de dados que inclui perguntas abertas relacionadas a 265,016 fotos que exigem compreensão da visão e compreensão da linguagem para responder. | Ligação | |
PNL | Texto | Conjunto de dados de análise de sentimento de vários domínios | Ecommerce | Análise de Sentimentos | Conjunto de dados contendo análises de produtos da Amazon | Ligação |
PNL | Texto | Comentários IMDB | Entretenimento | Análise de Sentimentos | Conjunto de dados contendo 25000 resenhas de filmes para análise de sentimentos | Ligação |
PNL | Texto | Sentimento 140 | Geral | Análise de Sentimentos | Conjunto de dados contendo 160,000 tweets com emoticons pré-removidos para maior precisão | Ligação |
PNL | Texto | Corpus do Blogger | Geral | Análise de palavras-chave | Conjunto de dados contendo 681,288 postagens de blog do blogger.com, consistindo de no mínimo 200 ocorrências de palavras em inglês amplamente usadas. | Ligação |
PNL | Texto | Perigo | Geral | Treinamento de chatbot | Conjunto de dados com mais de 200,000 perguntas que podem ser usadas para treinar modelos de aprendizado de máquina para responder automaticamente de forma inteligente | Ligação |
PNL | Texto | Coleta de spam por SMS em inglês | Telecomunicações | Reconhecimento de spam | Um conjunto de dados de mensagens de spam que consiste em 5,574 SMS em inglês | Ligação |
PNL | Texto | Comentários do Yelp | Geral | Análise de Sentimentos | Um conjunto de dados com mais de 5 milhões de revisão publicado pelo Yelp | Ligação |
PNL | Texto | Spambase da UCI | Empreendimento | Reconhecimento de spam | Um grande conjunto de dados de e-mails de spam, útil para filtragem de spam. | Ligação |
CV | Vídeo, Imagem | Berkeley Deep Drive BDD100k | Automotivo | Veículos Autônomos | Um dos maiores conjuntos de dados para IA de direção autônoma, contendo 1,100 horas de experiências de direção em mais de 100,000 vídeos de diferentes horários do dia da área de Nova York e São Francisco. | Ligação |
CV | Vídeo | Vírgula.ai | Automotivo | Veículos Autônomos | Um conjunto de dados de condução em rodovia de 7 horas que consiste em informações sobre velocidade, aceleração, ângulo de direção e coordenadas de GPS do carro | Ligação |
CV | Vídeo, Imagem | Conjunto de dados de paisagem urbana | Automotivo | Etiqueta Semântica para Veículo Autônomo | Um conjunto de dados de 5,000 anotações em nível de pixel mais um conjunto maior de 20,000 quadros com anotações fracas em sequências de vídeo estéreo, gravadas em 50 cidades diferentes | Ligação |
CV | Imagem | Conjunto de dados de sinais de trânsito KUL Bélgica | Automotivo | Veículos Autônomos | Mais de 10000 anotações de sinais de trânsito da região de Flandres com base em sinais de trânsito fisicamente distintos de toda a Bélgica. | Ligação |
CV | Imagem | LISA: Laboratório para Automóveis Inteligentes e Seguros, UC San Diego Datasets | Automotivo | Veículos Autônomos | Um rico conjunto de dados contendo sinais de trânsito, detecção de veículos, semáforos e padrões de trajetória. | Ligação |
CV | Imagem | CIFAR-10 | Geral | Reconhecimento de objeto | Um conjunto de dados composto por 50,000 imagens e 10,000 imagens de teste (ou seja, 60,000 imagens coloridas 32×32 em 10 classes) para reconhecimento de objetos. | Ligação |
CV | Imagem | Moda MNIST | Moda | Um conjunto de dados de imagem que consiste em 60,000 exemplos e um conjunto de teste de 10,000 exemplos em imagens em tons de cinza 28×28, associado a um rótulo de 10 classes. | Ligação | |
CV | Imagem | Conjunto de dados IMDB-Wiki | Entretenimento | Reconhecimento facial | Um grande conjunto de dados de imagens faciais com rótulos como sexo e idade. Do total de 523,051 imagens de rosto, 460,723 imagens são obtidas de 20,284 celebridades do IMDB e 62,328 da Wikipedia. | Ligação |
CV | Vídeo | Cinética-700 | Geral | Para cada classe de ação, o conjunto de dados de alta qualidade consiste em 650,000 videoclipes e abrange 700 classes de ação humana com pelo menos 600 videoclipes. Aqui, cada clipe dura cerca de 10 segundos. | Ligação | |
CV | Imagem | MS Coco | Geral | Detecção de objetos, segmentação | O conjunto de dados contém 328 mil imagens e tem um total de 2.5 milhões de instâncias e 91 imagens de objetos para treinar modelos de ML relacionados à detecção, segmentação e legenda de dados de objetos em grande escala. | Ligação |
CV | Imagem | Conjunto de dados de pose humana MPII | Geral | Cerca de 25 mil fotografias contendo mais de 40 mil indivíduos com articulações corporais anotadas estão incluídas no conjunto de dados, que é usado para articular a estimativa de pose humana. No geral, o conjunto de dados abrange 410 atividades humanas e cada imagem é fornecida com um rótulo de atividade. | Ligação | |
CV | Imagem | Abrir imagens | Geral | Anotações de localização do objeto | Conjunto de dados de imagem com cerca de 9 milhões de imagens anotadas com rótulos de nível de imagem, caixas delimitadoras de objetos, segmentação de objetos, etc. O conjunto de dados também consiste em 16 milhões. caixas delimitadoras para 600 classes de objetos em imagens de 1.9 Mn. | Ligação |
CV | Vídeo | Plataforma Aberta Apollo, da Baidu Inc, China | Automotivo | Caixa delimitadora, LiDAR | Um rico conjunto de dados de direção autônoma, que fornece aos desenvolvedores os dados necessários na direção autônoma para acelerar a eficiência da iteração inovadora. | Ligação |
CV | Vídeo, Imagem | Argo, por Argo, EUA | Automotivo | Caixa delimitadora, fluxo óptico, rótulo comportamental, rótulo semântico, marcação de pista | Um conjunto de dados autônomo que consiste em mapas HD com metadados geométricos e semânticos, ou seja, linhas centrais da pista, direção da pista e área de condução. O conjunto de dados é usado para treinar modelos de ML, para criar algoritmos de percepção mais precisos, que ajudarão os veículos autônomos a navegar com segurança. | Ligação |
CV | Vídeo | Semáforos pequenos Bosch, pela Bosch North America Research | Automotivo | Caixa delimitadora | Um conjunto de dados que consiste em 13427 imagens de câmeras com resolução de 1280*720 para construir um sistema de detecção de semáforos baseado em visão. O conjunto de dados tem mais de 24000 semáforos anotados. | Ligação |
CV | Vídeo | Brain4Cars, por Cornell Univ., Estados Unidos | Automotivo | Rótulo Comportamental | Um conjunto de dados composto por um conjunto de sensores de cabine (câmeras, sensores táteis, dispositivos inteligentes, etc.) para extrair estatísticas úteis sobre o estado de alerta do motorista. Nossos algoritmos podem detectar motoristas sonolentos ou distraídos e aumentar os alarmes necessários para melhorar a proteção. | Ligação |
CV | Imagem | CULane, pela Universidade Chinesa. de Hong Kong, Pequim, China | Automotivo | Marcação de pista | Um conjunto de dados de Visão Computacional sobre detecção de faixas de tráfego, consistindo de 55 horas de vídeos, dos quais 133,235 (88880 conjuntos de treinamento, 9675 conjuntos de validação e 34680 conjuntos de teste) foram extraídos. Ele é coletado por câmeras montadas em seis veículos diferentes dirigidos por diferentes motoristas em Pequim. | Ligação |
CV | Vídeo | DAVIS, pela Univ. de Zurique, ETH ¨ Zurique, Alemanha, Suíça | Automotivo | Um conjunto de dados de treinamento de condução de veículos de ponta a ponta que usa uma câmera de evento+frame DAVIS. Dados do carro, como direção, acelerador, GPS, etc., são usados para avaliar a fusão de dados de quadro e evento para aplicativos automotivos. | Ligação | |
CV | Vídeo | DBNet, por Shanghai Jiao Tong Univ., Xiamen Univ., China | Automotivo | Nuvem de Pontos, LiDAR | Dados de direção de 1000 km do mundo real, que incluem vídeo alinhado, nuvem de pontos, GPS e comportamento do motorista para uma pesquisa aprofundada sobre comportamentos de direção. | Ligação |
CV | Vídeo | Dr(eye)ve, pela Univ. de Modena e Reggio Emilia, Modena, Itália | Automotivo | Rótulo Comportamental | Conjunto de dados contendo 74 sequências de vídeo de 5 minutos cada, que foram anotadas em mais de 500,000 quadros. O conjunto de dados consiste em locais georreferenciados, velocidade de condução, curso, e também rotula as fixações do olhar dos motoristas e sua integração temporal fornecendo mapas específicos da tarefa. | Ligação |
CV | Vídeo | ETH Pedestrian (2009), por ETH Zurich, Zurique, Suíça | Geral | Caixa delimitadora | Um conjunto de dados de 74 sequências de vídeo de 5 minutos cada, anotadas em mais de 500,000 quadros. O conjunto de dados fornece posições georreferenciadas, velocidade de direção, direção e também rotula fixações de olhar para motoristas e sua integração temporal, incluindo mapas específicos de tarefas. | Ligação |
CV | Vídeo | Ford (2009), pela Univ. de Michigan, Michigan, EUA | Automotivo | Caixa delimitadora, , LiDAR | Um conjunto de dados compilado por um veículo terrestre automatizado armado com um scanner Velodyne 3D-lidar, duas vassouras Rieg lidars voltadas para o futuro, uma Unidade de Medição Inercial (IMU) técnica e de consumidor e um sistema de câmera omnidirecional Point Grey Ladybug3. | Ligação |
CV | Vídeo | HCI Challenging Stereo, Bosch Corporation Research, Hildesheim, Alemanha | Geral | Um conjunto de dados de vários milhões de quadros de cenas de vídeo capturadas que incluem uma ampla variedade de condições climáticas, várias camadas de movimento e profundidade; situações na cidade e no campo, etc. | Ligação | |
CV | Vídeo | JAAD, pela Universidade de York, Ucrânia, Canadá | Automotivo | Caixa delimitadora, rótulo comportamental | "JAAD é um conjunto de dados para estudar a atenção conjunta no contexto da direção autônoma. O foco está nos comportamentos de pedestres e motoristas no ponto de travessia e nos fatores que os influenciam. Para isso, o conjunto de dados JAAD fornece uma coleção ricamente anotada de 346 vídeos curtos clipes (5 a 10 segundos de duração) extraídos de mais de 240 horas de filmagens de condução de vários locais na América do Norte e na Europa Oriental. Caixas delimitadoras com tags de oclusão são usadas para todos os pedestres, tornando este conjunto de dados adequado para detecção de pedestres. As anotações de comportamento especificam comportamentos para pedestres que interagem ou exigem atenção do motorista. Para cada vídeo, há várias tags (clima, locais etc.) e rótulos de comportamento com carimbo de data/hora (por exemplo, parado, andando, olhando etc.). Além disso, uma lista de atributos demográficos é fornecido para cada pedestre (por exemplo, idade, sexo, direção do movimento, etc.), bem como uma lista de elementos de cena de trânsito visíveis (por exemplo, sinal de parada, sinal de trânsito, etc.) em cada quadro." | Ligação |
CV | Vídeo | KAIST Urban, por KAIST, Coreia do Sul | Geral | LiDAR | A coleta de dados inclui vários sensores de localização para dados LiDAR e imagens estéreo direcionadas a uma área urbana muito complexa (por exemplo, áreas metropolitanas, edifícios complexos e áreas residenciais). | Ligação |
CV | Imagem | LISA Sinalização, pela Univ. da Califórnia, San Diego, Estados Unidos | Automotivo | Caixa delimitadora | O conjunto de conjuntos de dados contendo vídeos e quadros anotados contendo sinais de trânsito dos EUA. Ele é lançado em duas etapas, uma apenas com as fotos e outra com fotos e vídeos. | Ligação |
CV | Imagem | Mapillary Vistas, por Mapillary AB, Global | Automotivo | Etiqueta semântica | Um conjunto de dados de fotografia no nível da rua para interpretar cenas de rua em todo o mundo com anotações humanas com precisão de pixel e específicas de instância. | Ligação |
CV | Vídeo, Imagem | Semântica KITTI, pela Universidade de Bonn, Karlsruhe, Alemanha | Automotivo | Caixa delimitadora, rótulo semântico, marcação de faixa | Um conjunto de dados que inclui uma anotação semântica para todas as sequências do Odometry Benchmark. O conjunto de dados anota vários tipos de tráfego em movimento e não em movimento: incluindo carros, bicicletas, bicicletas, pedestres e ciclistas, permitindo que objetos na cena sejam estudados. | Ligação |
CV | Vídeo | Stanford Track, pela Stanford Univ., Estados Unidos | Automotivo | Detecção / Classificação de Objetos LiDAR, GPS, Códigos | Um conjunto de dados que inclui 14,000 rastros de objetos rotulados observados por um Velodyne HDL-64E S2 LIDAR em cenas de rua naturais, que podem ser usados para treinar modelos de aprendizado de máquina para reconhecimento de objetos 3D. | Ligação |
CV | Vídeo, Imagem | O Boxy Dataset, da Bosch, Estados Unidos | Automotivo | Caixa Delimitadora / Detecção de Veículos | Um conjunto de dados de detecção de veículos contendo 2 milhões de veículos anotados para treinamento e análise de estratégias de reconhecimento de objetos para carros autônomos em rodovias. | Ligação |
CV | Vídeo | Auto-estrada TME, pela Universidade Técnica Checa, Norte de Itália | Automotivo | Caixa delimitadora | Um conjunto de dados de 28 clipes para um total de 27 minutos bifurcados em mais de 30,000 quadros de anotações de veículos. A anotação foi produzida de forma semiautomática usando os dados do scanner a laser. Essa coleta de dados envolve cenários de tráfego variáveis, número de faixas, curvatura da estrada e iluminação, abrangendo grande parte das condições da aquisição completa. | Ligação |
CV | Vídeo | Lhamas não supervisionadas, da Bosch, Estados Unidos | Automotivo | Marcação de Pista, LiDAR | O conjunto de dados Unsupervised Llamas foi anotado gerando mapas de direção automática de alta definição, incluindo marcadores de pista baseados em Lidar. O veículo autônomo pode ser alinhado com esses mapas e as marcações da pista são projetadas no quadro da câmera. A projeção 3D é otimizada minimizando a discrepância entre os marcadores de imagem já observados e os previstos. | Ligação |
PNL | Áudio | LibriSpeech multilíngue de IA do Facebook (MLS) | Geral | Anotação de áudio/reconhecimento de fala | O Facebook AI Multilingual LibriSpeech (MLS) é um conjunto de dados de código aberto de grande escala projetado para ajudar a avançar na pesquisa em reconhecimento automático de fala (ASR). A MLS oferece mais de 50,000 horas de áudio em 8 idiomas: inglês, alemão, holandês, francês, espanhol, italiano, português e polonês. | Ligação |