Conjuntos de dados abertos

Descubra conjuntos de dados de código aberto que permitem que você treine modelos de ML

Conjuntos de dados de código aberto para você começar com modelos de IA/ML

A saída de seus modelos de IA e ML é tão boa quanto os dados que você usa para treiná-los – portanto, a precisão que você aplica à agregação de dados e à marcação e identificação desses dados é importante!

Portanto, se você deseja iniciar uma nova iniciativa de IA/ML e agora está percebendo rapidamente que encontrar dados de treinamento de alta qualidade será um dos aspectos mais desafiadores do seu projeto, pois conjuntos de dados de alta qualidade são o combustível que mantém a IA/ Motor de ML funcionando. Acumulamos uma lista de conjuntos de dados abertos que são gratuitos para usar e treinar seus modelos de IA/ML do futuro.

Especialização	Tipo de dados	Nome do conjunto de dados	Indústria / Dep.	Anotação/caso de uso	Descrição	Ligação
PNL	Texto	Comentários Amazon	Ecommerce	Análise de Sentimentos	Um conjunto de 35 milhões de avaliações e classificações dos últimos 18 anos em texto simples com detalhes do usuário e do produto.	Ligação
PNL	Texto	Dados de links da Wikipedia	Geral		Mais de 4 Mn. artigos contendo 1.9 bilhão. palavra que compreende de palavras e frases, bem como parágrafos.	Ligação
PNL	Texto	Treebank de sentimento de Standford	Entretenimento	Análise de Sentimentos	Conjunto de dados de anotações de sentimento para mais de 10,000 avaliações do Rotten Tomatoes em formato de arquivo HTML	Ligação
PNL	Texto	Sentimento da companhia aérea dos EUA no Twitter	Companhia aérea	Análise de Sentimentos	Tweets de 2015 na US Airlines se bifurcaram em tons positivos, negativos e neutros	Ligação
CV	Imagem	Rostos rotulados na natureza	Geral	Reconhecimento facial	Conjunto de dados contendo mais de 13,000 rostos recortados com duas imagens diferentes para treinamento de reconhecimento facial.	Ligação
CV	Vídeo, Imagem	Conjunto de dados UMDFes	Geral	Reconhecimento facial	Conjunto de dados anotado contendo mais de 367,000 rostos de mais de 8,000 assuntos que inclui imagens estáticas e de vídeo.	Ligação
CV	Imagem	Rede de imagens	Geral		Conjunto de dados com mais de 14 Mn. imagens em vários formatos de arquivo, organizados de acordo com a hierarquia WordNet.	Ligação
CV	Imagem	Imagens abertas do Google	Geral		9 M. URLs para categorizar imagens públicas de mais de 6,000 categorias.	Ligação
PNL	Texto	Banco de dados de cuidados intensivos MIMIC	Assistência médica		Conjuntos de dados de fisiologia computacional com dados não identificados de 40,000 pacientes de cuidados intensivos. O conjunto de dados contém informações como dados demográficos, sinais vitais, medicamentos, etc.	Ligação
CV	Imagem	Escritório Nacional de Viagens e Turismo dos EUA	Turismo		Fornece amplas fotografias da indústria do turismo com bancos de dados confiáveis, cobrindo tópicos como viagens de entrada e saída e informações turísticas internacionais.	Ligação
PNL	Texto	Departamento de Transporte	Turismo		Conjuntos de dados de turismo que incluem Parques Nacionais, registros de motoristas, pontes e informações ferroviárias, etc.	Ligação
PNL	em áudio	Corpus de legendas de áudio do Flickr	Geral		Mais de 40 mil legendas faladas de 8,000 fotografias projetadas para padrões de fala não supervisionados	Ligação
PNL	em áudio	Conjunto de dados de comandos de fala	Geral	Reconhecimento de fala, anotação de áudio	Enunciados de 1 segundo de milhares de indivíduos, para construir uma interface de voz básica.	Ligação
PNL	em áudio	Conjuntos de dados de áudio ambiental	Geral		Conjuntos de dados de áudio do ambiente que contém tabelas de som de eventos e tabelas de cenas acústicas.	Ligação
PNL	Texto	Conjunto de dados de pesquisa aberta COVID-19	Assistência médica	IA médica	Um conjunto de dados de pesquisa composto por 45,000 artigos acadêmicos sobre COVID-19 e a família de vírus coronavírus.	Ligação
CV	Imagem	Conjunto de dados aberto Waymo	Automotivo		Os mais diversos conjuntos de dados de direção autônoma lançados pela Waymo	Ligação
CV	Imagem	Genoma Visual	Geral	Legenda de imagem	Uma base de conhecimento visual com legendas detalhadas de mais de 100 mil imagens	Ligação
CV	Imagem	Etiqueta-me	Governo Público		Grande conjunto de imagens anotadas acessíveis através do Labelme Matlab	Ligação
CV	Imagem	BOBINA 100	Geral		Mais de 100 objetos variados fotografados de vários ângulos (ou seja, 360 graus)	Ligação
CV	Imagem	Conjunto de dados Stanford Dogs	Geral		Mais de 20,500 imagens categorizadas em um conjunto de imagens de 120 raças de cães diferentes	Ligação
CV	Imagem	Reconhecimento de cena interna	Geral	Reconhecimento de cena	Um conjunto de dados específico composto por 15620 imagens de 67 categorias internas para construir modelos de reconhecimento de cena	Ligação
CV	Imagem	Controle de qualidade visual	Geral		Um conjunto de dados que inclui perguntas abertas relacionadas a 265,016 fotos que exigem compreensão da visão e compreensão da linguagem para responder.	Ligação
PNL	Texto	Conjunto de dados de análise de sentimento de vários domínios	Ecommerce	Análise de Sentimentos	Conjunto de dados contendo análises de produtos da Amazon	Ligação
PNL	Texto	Comentários IMDB	Entretenimento	Análise de Sentimentos	Conjunto de dados contendo 25000 resenhas de filmes para análise de sentimentos	Ligação
PNL	Texto	Sentimento 140	Geral	Análise de Sentimentos	Conjunto de dados contendo 160,000 tweets com emoticons pré-removidos para maior precisão	Ligação
PNL	Texto	Corpus do Blogger	Geral	Análise de palavras-chave	Conjunto de dados contendo 681,288 postagens de blog do blogger.com, consistindo de no mínimo 200 ocorrências de palavras em inglês amplamente usadas.	Ligação
PNL	Texto	Perigo	Geral	Treinamento de chatbot	Conjunto de dados com mais de 200,000 perguntas que podem ser usadas para treinar modelos de aprendizado de máquina para responder automaticamente de forma inteligente	Ligação
PNL	Texto	Coleta de spam por SMS em inglês	Telecomunicações	Reconhecimento de spam	Um conjunto de dados de mensagens de spam que consiste em 5,574 SMS em inglês	Ligação
PNL	Texto	Comentários do Yelp	Geral	Análise de Sentimentos	Um conjunto de dados com mais de 5 milhões de revisão publicado pelo Yelp	Ligação
PNL	Texto	Spambase da UCI	Empreendimento	Reconhecimento de spam	Um grande conjunto de dados de e-mails de spam, útil para filtragem de spam.	Ligação
CV	Vídeo, Imagem	Berkeley Deep Drive BDD100k	Automotivo	Veículos Autônomos	Um dos maiores conjuntos de dados para IA de direção autônoma, contendo 1,100 horas de experiências de direção em mais de 100,000 vídeos de diferentes horários do dia da área de Nova York e São Francisco.	Ligação
CV	Vídeo	Vírgula.ai	Automotivo	Veículos Autônomos	Um conjunto de dados de condução em rodovia de 7 horas que consiste em informações sobre velocidade, aceleração, ângulo de direção e coordenadas de GPS do carro	Ligação
CV	Vídeo, Imagem	Conjunto de dados de paisagem urbana	Automotivo	Etiqueta Semântica para Veículo Autônomo	Um conjunto de dados de 5,000 anotações em nível de pixel mais um conjunto maior de 20,000 quadros com anotações fracas em sequências de vídeo estéreo, gravadas em 50 cidades diferentes	Ligação
CV	Imagem	Conjunto de dados de sinais de trânsito KUL Bélgica	Automotivo	Veículos Autônomos	Mais de 10000 anotações de sinais de trânsito da região de Flandres com base em sinais de trânsito fisicamente distintos de toda a Bélgica.	Ligação
CV	Imagem	LISA: Laboratório para Automóveis Inteligentes e Seguros, UC San Diego Datasets	Automotivo	Veículos Autônomos	Um rico conjunto de dados contendo sinais de trânsito, detecção de veículos, semáforos e padrões de trajetória.	Ligação
CV	Imagem	CIFAR-10	Geral	Reconhecimento de objeto	Um conjunto de dados composto por 50,000 imagens e 10,000 imagens de teste (ou seja, 60,000 imagens coloridas 32×32 em 10 classes) para reconhecimento de objetos.	Ligação
CV	Imagem	Moda MNIST	Moda		Um conjunto de dados de imagem que consiste em 60,000 exemplos e um conjunto de teste de 10,000 exemplos em imagens em tons de cinza 28×28, associado a um rótulo de 10 classes.	Ligação
CV	Imagem	Conjunto de dados IMDB-Wiki	Entretenimento	Reconhecimento facial	Um grande conjunto de dados de imagens faciais com rótulos como sexo e idade. Do total de 523,051 imagens de rosto, 460,723 imagens são obtidas de 20,284 celebridades do IMDB e 62,328 da Wikipedia.	Ligação
CV	Vídeo	Cinética-700	Geral		Para cada classe de ação, o conjunto de dados de alta qualidade consiste em 650,000 videoclipes e abrange 700 classes de ação humana com pelo menos 600 videoclipes. Aqui, cada clipe dura cerca de 10 segundos.	Ligação
CV	Imagem	MS Coco	Geral	Detecção de objetos, segmentação	O conjunto de dados contém 328 mil imagens e tem um total de 2.5 milhões de instâncias e 91 imagens de objetos para treinar modelos de ML relacionados à detecção, segmentação e legenda de dados de objetos em grande escala.	Ligação
CV	Imagem	Conjunto de dados de pose humana MPII	Geral		Cerca de 25 mil fotografias contendo mais de 40 mil indivíduos com articulações corporais anotadas estão incluídas no conjunto de dados, que é usado para articular a estimativa de pose humana. No geral, o conjunto de dados abrange 410 atividades humanas e cada imagem é fornecida com um rótulo de atividade.	Ligação
CV	Imagem	Abrir imagens	Geral	Anotações de localização do objeto	Conjunto de dados de imagem com cerca de 9 milhões de imagens anotadas com rótulos de nível de imagem, caixas delimitadoras de objetos, segmentação de objetos, etc. O conjunto de dados também consiste em 16 milhões. caixas delimitadoras para 600 classes de objetos em imagens de 1.9 Mn.	Ligação
CV	Vídeo	Plataforma Aberta Apollo, da Baidu Inc, China	Automotivo	Caixa delimitadora, LiDAR	Um rico conjunto de dados de direção autônoma, que fornece aos desenvolvedores os dados necessários na direção autônoma para acelerar a eficiência da iteração inovadora.	Ligação
CV	Vídeo, Imagem	Argo, por Argo, EUA	Automotivo	Caixa delimitadora, fluxo óptico, rótulo comportamental, rótulo semântico, marcação de pista	Um conjunto de dados autônomo que consiste em mapas HD com metadados geométricos e semânticos, ou seja, linhas centrais da pista, direção da pista e área de condução. O conjunto de dados é usado para treinar modelos de ML, para criar algoritmos de percepção mais precisos, que ajudarão os veículos autônomos a navegar com segurança.	Ligação
CV	Vídeo	Semáforos pequenos Bosch, pela Bosch North America Research	Automotivo	Caixa delimitadora	Um conjunto de dados que consiste em 13427 imagens de câmeras com resolução de 1280*720 para construir um sistema de detecção de semáforos baseado em visão. O conjunto de dados tem mais de 24000 semáforos anotados.	Ligação
CV	Vídeo	Brain4Cars, por Cornell Univ., Estados Unidos	Automotivo	Rótulo Comportamental	Um conjunto de dados composto por um conjunto de sensores de cabine (câmeras, sensores táteis, dispositivos inteligentes, etc.) para extrair estatísticas úteis sobre o estado de alerta do motorista. Nossos algoritmos podem detectar motoristas sonolentos ou distraídos e aumentar os alarmes necessários para melhorar a proteção.	Ligação
CV	Imagem	CULane, pela Universidade Chinesa. de Hong Kong, Pequim, China	Automotivo	Marcação de pista	Um conjunto de dados de Visão Computacional sobre detecção de faixas de tráfego, consistindo de 55 horas de vídeos, dos quais 133,235 (88880 conjuntos de treinamento, 9675 conjuntos de validação e 34680 conjuntos de teste) foram extraídos. Ele é coletado por câmeras montadas em seis veículos diferentes dirigidos por diferentes motoristas em Pequim.	Ligação
CV	Vídeo	DAVIS, pela Univ. de Zurique, ETH ¨ Zurique, Alemanha, Suíça	Automotivo		Um conjunto de dados de treinamento de condução de veículos de ponta a ponta que usa uma câmera de evento+frame DAVIS. Dados do carro, como direção, acelerador, GPS, etc., são usados para avaliar a fusão de dados de quadro e evento para aplicativos automotivos.	Ligação
CV	Vídeo	DBNet, por Shanghai Jiao Tong Univ., Xiamen Univ., China	Automotivo	Nuvem de Pontos, LiDAR	Dados de direção de 1000 km do mundo real, que incluem vídeo alinhado, nuvem de pontos, GPS e comportamento do motorista para uma pesquisa aprofundada sobre comportamentos de direção.	Ligação
CV	Vídeo	Dr(eye)ve, pela Univ. de Modena e Reggio Emilia, Modena, Itália	Automotivo	Rótulo Comportamental	Conjunto de dados contendo 74 sequências de vídeo de 5 minutos cada, que foram anotadas em mais de 500,000 quadros. O conjunto de dados consiste em locais georreferenciados, velocidade de condução, curso, e também rotula as fixações do olhar dos motoristas e sua integração temporal fornecendo mapas específicos da tarefa.	Ligação
CV	Vídeo	ETH Pedestrian (2009), por ETH Zurich, Zurique, Suíça	Geral	Caixa delimitadora	Um conjunto de dados de 74 sequências de vídeo de 5 minutos cada, anotadas em mais de 500,000 quadros. O conjunto de dados fornece posições georreferenciadas, velocidade de direção, direção e também rotula fixações de olhar para motoristas e sua integração temporal, incluindo mapas específicos de tarefas.	Ligação
CV	Vídeo	Ford (2009), pela Univ. de Michigan, Michigan, EUA	Automotivo	Caixa delimitadora, , LiDAR	Um conjunto de dados compilado por um veículo terrestre automatizado armado com um scanner Velodyne 3D-lidar, duas vassouras Rieg lidars voltadas para o futuro, uma Unidade de Medição Inercial (IMU) técnica e de consumidor e um sistema de câmera omnidirecional Point Grey Ladybug3.	Ligação
CV	Vídeo	HCI Challenging Stereo, Bosch Corporation Research, Hildesheim, Alemanha	Geral		Um conjunto de dados de vários milhões de quadros de cenas de vídeo capturadas que incluem uma ampla variedade de condições climáticas, várias camadas de movimento e profundidade; situações na cidade e no campo, etc.	Ligação
CV	Vídeo	JAAD, pela Universidade de York, Ucrânia, Canadá	Automotivo	Caixa delimitadora, rótulo comportamental	"JAAD é um conjunto de dados para estudar a atenção conjunta no contexto da direção autônoma. O foco está nos comportamentos de pedestres e motoristas no ponto de travessia e nos fatores que os influenciam. Para isso, o conjunto de dados JAAD fornece uma coleção ricamente anotada de 346 vídeos curtos clipes (5 a 10 segundos de duração) extraídos de mais de 240 horas de filmagens de condução de vários locais na América do Norte e na Europa Oriental. Caixas delimitadoras com tags de oclusão são usadas para todos os pedestres, tornando este conjunto de dados adequado para detecção de pedestres. As anotações de comportamento especificam comportamentos para pedestres que interagem ou exigem atenção do motorista. Para cada vídeo, há várias tags (clima, locais etc.) e rótulos de comportamento com carimbo de data/hora (por exemplo, parado, andando, olhando etc.). Além disso, uma lista de atributos demográficos é fornecido para cada pedestre (por exemplo, idade, sexo, direção do movimento, etc.), bem como uma lista de elementos de cena de trânsito visíveis (por exemplo, sinal de parada, sinal de trânsito, etc.) em cada quadro."	Ligação
CV	Vídeo	KAIST Urban, por KAIST, Coreia do Sul	Geral	LiDAR	A coleta de dados inclui vários sensores de localização para dados LiDAR e imagens estéreo direcionadas a uma área urbana muito complexa (por exemplo, áreas metropolitanas, edifícios complexos e áreas residenciais).	Ligação
CV	Imagem	LISA Sinalização, pela Univ. da Califórnia, San Diego, Estados Unidos	Automotivo	Caixa delimitadora	O conjunto de conjuntos de dados contendo vídeos e quadros anotados contendo sinais de trânsito dos EUA. Ele é lançado em duas etapas, uma apenas com as fotos e outra com fotos e vídeos.	Ligação
CV	Imagem	Mapillary Vistas, por Mapillary AB, Global	Automotivo	Etiqueta semântica	Um conjunto de dados de fotografia no nível da rua para interpretar cenas de rua em todo o mundo com anotações humanas com precisão de pixel e específicas de instância.	Ligação
CV	Vídeo, Imagem	Semântica KITTI, pela Universidade de Bonn, Karlsruhe, Alemanha	Automotivo	Caixa delimitadora, rótulo semântico, marcação de faixa	Um conjunto de dados que inclui uma anotação semântica para todas as sequências do Odometry Benchmark. O conjunto de dados anota vários tipos de tráfego em movimento e não em movimento: incluindo carros, bicicletas, bicicletas, pedestres e ciclistas, permitindo que objetos na cena sejam estudados.	Ligação
CV	Vídeo	Stanford Track, pela Stanford Univ., Estados Unidos	Automotivo	Detecção / Classificação de Objetos LiDAR, GPS, Códigos	Um conjunto de dados que inclui 14,000 rastros de objetos rotulados observados por um Velodyne HDL-64E S2 LIDAR em cenas de rua naturais, que podem ser usados para treinar modelos de aprendizado de máquina para reconhecimento de objetos 3D.	Ligação
CV	Vídeo, Imagem	O Boxy Dataset, da Bosch, Estados Unidos	Automotivo	Caixa Delimitadora / Detecção de Veículos	Um conjunto de dados de detecção de veículos contendo 2 milhões de veículos anotados para treinamento e análise de estratégias de reconhecimento de objetos para carros autônomos em rodovias.	Ligação
CV	Vídeo	Auto-estrada TME, pela Universidade Técnica Checa, Norte de Itália	Automotivo	Caixa delimitadora	Um conjunto de dados de 28 clipes para um total de 27 minutos bifurcados em mais de 30,000 quadros de anotações de veículos. A anotação foi produzida de forma semiautomática usando os dados do scanner a laser. Essa coleta de dados envolve cenários de tráfego variáveis, número de faixas, curvatura da estrada e iluminação, abrangendo grande parte das condições da aquisição completa.	Ligação
CV	Vídeo	Lhamas não supervisionadas, da Bosch, Estados Unidos	Automotivo	Marcação de Pista, LiDAR	O conjunto de dados Unsupervised Llamas foi anotado gerando mapas de direção automática de alta definição, incluindo marcadores de pista baseados em Lidar. O veículo autônomo pode ser alinhado com esses mapas e as marcações da pista são projetadas no quadro da câmera. A projeção 3D é otimizada minimizando a discrepância entre os marcadores de imagem já observados e os previstos.	Ligação
PNL	em áudio	LibriSpeech multilíngue de IA do Facebook (MLS)	Geral	Anotação de áudio/reconhecimento de fala	O Facebook AI Multilingual LibriSpeech (MLS) é um conjunto de dados de código aberto de grande escala projetado para ajudar a avançar na pesquisa em reconhecimento automático de fala (ASR). A MLS oferece mais de 50,000 horas de áudio em 8 idiomas: inglês, alemão, holandês, francês, espanhol, italiano, português e polonês.	Ligação

Conjuntos de dados abertos

Conjuntos de dados de código aberto para você começar com modelos de IA/ML

Serviços de dados de IA

Especialidade

Indústria

Produtos

Empresa

Recursos

Contacto