Conjuntos de dados abertos

Descubra conjuntos de dados de código aberto que permitem que você treine modelos de ML

Conjuntos de dados abertos

Conjuntos de dados de código aberto para você começar com modelos de IA/ML

A saída de seus modelos de IA e ML é tão boa quanto os dados que você usa para treiná-los – portanto, a precisão que você aplica à agregação de dados e à marcação e identificação desses dados é importante!

Portanto, se você deseja iniciar uma nova iniciativa de IA/ML e agora está percebendo rapidamente que encontrar dados de treinamento de alta qualidade será um dos aspectos mais desafiadores do seu projeto, pois conjuntos de dados de alta qualidade são o combustível que mantém a IA/ Motor de ML funcionando. Acumulamos uma lista de conjuntos de dados abertos que são gratuitos para usar e treinar seus modelos de IA/ML do futuro.

EspecializaçãoTipo de dadosNome do conjunto de dadosIndústria / Dep.Anotação/caso de usoDescriçãoLigação
PNLTextoComentários AmazonEcommerceAnálise de SentimentosUm conjunto de 35 milhões de avaliações e classificações dos últimos 18 anos em texto simples com detalhes do usuário e do produto.Ligação
PNLTextoDados de links da WikipediaGeralMais de 4 Mn. artigos contendo 1.9 bilhão. palavra que compreende de palavras e frases, bem como parágrafos.Ligação
PNLTextoTreebank de sentimento de StandfordEntretenimentoAnálise de SentimentosConjunto de dados de anotações de sentimento para mais de 10,000 avaliações do Rotten Tomatoes em formato de arquivo HTMLLigação
PNLTextoSentimento da companhia aérea dos EUA no TwitterCompanhia aéreaAnálise de SentimentosTweets de 2015 na US Airlines se bifurcaram em tons positivos, negativos e neutrosLigação
CVImagem Rostos rotulados na naturezaGeralReconhecimento facialConjunto de dados contendo mais de 13,000 rostos recortados com duas imagens diferentes para treinamento de reconhecimento facial.Ligação
CVVídeo, ImagemConjunto de dados UMDFesGeralReconhecimento facialConjunto de dados anotado contendo mais de 367,000 rostos de mais de 8,000 assuntos que inclui imagens estáticas e de vídeo.Ligação
CVImagem Rede de imagensGeralConjunto de dados com mais de 14 Mn. imagens em vários formatos de arquivo, organizados de acordo com a hierarquia WordNet.Ligação
CVImagem Imagens abertas do GoogleGeral9 M. URLs para categorizar imagens públicas de mais de 6,000 categorias.Ligação
PNLTextoBanco de dados de cuidados intensivos MIMICAssistência médicaConjuntos de dados de fisiologia computacional com dados não identificados de 40,000 pacientes de cuidados intensivos. O conjunto de dados contém informações como dados demográficos, sinais vitais, medicamentos, etc.Ligação
CVImagemEscritório Nacional de Viagens e Turismo dos EUATurismoFornece amplas fotografias da indústria do turismo com bancos de dados confiáveis, cobrindo tópicos como viagens de entrada e saída e informações turísticas internacionais.Ligação
PNLTextoDepartamento de TransporteTurismoConjuntos de dados de turismo que incluem Parques Nacionais, registros de motoristas, pontes e informações ferroviárias, etc.Ligação
PNLem áudioCorpus de legendas de áudio do FlickrGeralMais de 40 mil legendas faladas de 8,000 fotografias projetadas para padrões de fala não supervisionadosLigação
PNLem áudioConjunto de dados de comandos de falaGeralReconhecimento de fala, anotação de áudioEnunciados de 1 segundo de milhares de indivíduos, para construir uma interface de voz básica.Ligação
PNLem áudioConjuntos de dados de áudio ambientalGeralConjuntos de dados de áudio do ambiente que contém tabelas de som de eventos e tabelas de cenas acústicas.Ligação
PNLTextoConjunto de dados de pesquisa aberta COVID-19 Assistência médicaIA médicaUm conjunto de dados de pesquisa composto por 45,000 artigos acadêmicos sobre COVID-19 e a família de vírus coronavírus.Ligação
CVImagemConjunto de dados aberto Waymo AutomotivoOs mais diversos conjuntos de dados de direção autônoma lançados pela WaymoLigação
CVImagemGenoma Visual GeralLegenda de imagemUma base de conhecimento visual com legendas detalhadas de mais de 100 mil imagensLigação
CVImagemEtiqueta-me Governo PúblicoGrande conjunto de imagens anotadas acessíveis através do Labelme MatlabLigação
CVImagemBOBINA 100GeralMais de 100 objetos variados fotografados de vários ângulos (ou seja, 360 graus)Ligação
CVImagemConjunto de dados Stanford DogsGeralMais de 20,500 imagens categorizadas em um conjunto de imagens de 120 raças de cães diferentesLigação
CVImagemReconhecimento de cena internaGeralReconhecimento de cenaUm conjunto de dados específico composto por 15620 imagens de 67 categorias internas para construir modelos de reconhecimento de cenaLigação
CVImagemControle de qualidade visualGeralUm conjunto de dados que inclui perguntas abertas relacionadas a 265,016 fotos que exigem compreensão da visão e compreensão da linguagem para responder.Ligação
PNLTextoConjunto de dados de análise de sentimento de vários domíniosEcommerceAnálise de SentimentosConjunto de dados contendo análises de produtos da AmazonLigação
PNLTextoComentários IMDBEntretenimentoAnálise de SentimentosConjunto de dados contendo 25000 resenhas de filmes para análise de sentimentosLigação
PNLTextoSentimento 140GeralAnálise de SentimentosConjunto de dados contendo 160,000 tweets com emoticons pré-removidos para maior precisãoLigação
PNLTextoCorpus do BloggerGeralAnálise de palavras-chaveConjunto de dados contendo 681,288 postagens de blog do blogger.com, consistindo de no mínimo 200 ocorrências de palavras em inglês amplamente usadas.Ligação
PNLTextoPerigoGeralTreinamento de chatbotConjunto de dados com mais de 200,000 perguntas que podem ser usadas para treinar modelos de aprendizado de máquina para responder automaticamente de forma inteligenteLigação
PNLTextoColeta de spam por SMS em inglêsTelecomunicaçõesReconhecimento de spamUm conjunto de dados de mensagens de spam que consiste em 5,574 SMS em inglêsLigação
PNLTextoComentários do YelpGeralAnálise de SentimentosUm conjunto de dados com mais de 5 milhões de revisão publicado pelo YelpLigação
PNLTextoSpambase da UCIEmpreendimentoReconhecimento de spamUm grande conjunto de dados de e-mails de spam, útil para filtragem de spam.Ligação
CVVídeo, ImagemBerkeley Deep Drive BDD100kAutomotivoVeículos AutônomosUm dos maiores conjuntos de dados para IA de direção autônoma, contendo 1,100 horas de experiências de direção em mais de 100,000 vídeos de diferentes horários do dia da área de Nova York e São Francisco.Ligação
CVVídeoVírgula.aiAutomotivoVeículos Autônomos Um conjunto de dados de condução em rodovia de 7 horas que consiste em informações sobre velocidade, aceleração, ângulo de direção e coordenadas de GPS do carroLigação
CVVídeo, ImagemConjunto de dados de paisagem urbanaAutomotivoEtiqueta Semântica para Veículo AutônomoUm conjunto de dados de 5,000 anotações em nível de pixel mais um conjunto maior de 20,000 quadros com anotações fracas em sequências de vídeo estéreo, gravadas em 50 cidades diferentesLigação
CVImagemConjunto de dados de sinais de trânsito KUL BélgicaAutomotivoVeículos AutônomosMais de 10000 anotações de sinais de trânsito da região de Flandres com base em sinais de trânsito fisicamente distintos de toda a Bélgica.Ligação
CVImagemLISA: Laboratório para Automóveis Inteligentes e Seguros, UC San Diego DatasetsAutomotivoVeículos AutônomosUm rico conjunto de dados contendo sinais de trânsito, detecção de veículos, semáforos e padrões de trajetória.Ligação
CVImagemCIFAR-10GeralReconhecimento de objetoUm conjunto de dados composto por 50,000 imagens e 10,000 imagens de teste (ou seja, 60,000 imagens coloridas 32×32 em 10 classes) para reconhecimento de objetos.Ligação
CVImagemModa MNISTModaUm conjunto de dados de imagem que consiste em 60,000 exemplos e um conjunto de teste de 10,000 exemplos em imagens em tons de cinza 28×28, associado a um rótulo de 10 classes.Ligação
CVImagemConjunto de dados IMDB-WikiEntretenimentoReconhecimento facialUm grande conjunto de dados de imagens faciais com rótulos como sexo e idade. Do total de 523,051 imagens de rosto, 460,723 imagens são obtidas de 20,284 celebridades do IMDB e 62,328 da Wikipedia.Ligação
CVVídeoCinética-700GeralPara cada classe de ação, o conjunto de dados de alta qualidade consiste em 650,000 videoclipes e abrange 700 classes de ação humana com pelo menos 600 videoclipes. Aqui, cada clipe dura cerca de 10 segundos.Ligação
CVImagemMS CocoGeralDetecção de objetos, segmentaçãoO conjunto de dados contém 328 mil imagens e tem um total de 2.5 milhões de instâncias e 91 imagens de objetos para treinar modelos de ML relacionados à detecção, segmentação e legenda de dados de objetos em grande escala.Ligação
CVImagemConjunto de dados de pose humana MPIIGeralCerca de 25 mil fotografias contendo mais de 40 mil indivíduos com articulações corporais anotadas estão incluídas no conjunto de dados, que é usado para articular a estimativa de pose humana. No geral, o conjunto de dados abrange 410 atividades humanas e cada imagem é fornecida com um rótulo de atividade.Ligação
CVImagemAbrir imagensGeralAnotações de localização do objetoConjunto de dados de imagem com cerca de 9 milhões de imagens anotadas com rótulos de nível de imagem, caixas delimitadoras de objetos, segmentação de objetos, etc. O conjunto de dados também consiste em 16 milhões. caixas delimitadoras para 600 classes de objetos em imagens de 1.9 Mn.Ligação
CVVídeoPlataforma Aberta Apollo, da Baidu Inc, ChinaAutomotivoCaixa delimitadora, LiDARUm rico conjunto de dados de direção autônoma, que fornece aos desenvolvedores os dados necessários na direção autônoma para acelerar a eficiência da iteração inovadora.Ligação
CVVídeo, ImagemArgo, por Argo, EUAAutomotivoCaixa delimitadora, fluxo óptico, rótulo comportamental, rótulo semântico, marcação de pistaUm conjunto de dados autônomo que consiste em mapas HD com metadados geométricos e semânticos, ou seja, linhas centrais da pista, direção da pista e área de condução. O conjunto de dados é usado para treinar modelos de ML, para criar algoritmos de percepção mais precisos, que ajudarão os veículos autônomos a navegar com segurança.Ligação
CVVídeoSemáforos pequenos Bosch, pela Bosch North America ResearchAutomotivoCaixa delimitadoraUm conjunto de dados que consiste em 13427 imagens de câmeras com resolução de 1280*720 para construir um sistema de detecção de semáforos baseado em visão. O conjunto de dados tem mais de 24000 semáforos anotados.Ligação
CVVídeoBrain4Cars, por Cornell Univ., Estados UnidosAutomotivoRótulo ComportamentalUm conjunto de dados composto por um conjunto de sensores de cabine (câmeras, sensores táteis, dispositivos inteligentes, etc.) para extrair estatísticas úteis sobre o estado de alerta do motorista. Nossos algoritmos podem detectar motoristas sonolentos ou distraídos e aumentar os alarmes necessários para melhorar a proteção.Ligação
CVImagemCULane, pela Universidade Chinesa. de Hong Kong, Pequim, ChinaAutomotivoMarcação de pistaUm conjunto de dados de Visão Computacional sobre detecção de faixas de tráfego, consistindo de 55 horas de vídeos, dos quais 133,235 (88880 conjuntos de treinamento, 9675 conjuntos de validação e 34680 conjuntos de teste) foram extraídos. Ele é coletado por câmeras montadas em seis veículos diferentes dirigidos por diferentes motoristas em Pequim.Ligação
CVVídeoDAVIS, pela Univ. de Zurique, ETH ¨ Zurique, Alemanha, SuíçaAutomotivoUm conjunto de dados de treinamento de condução de veículos de ponta a ponta que usa uma câmera de evento+frame DAVIS. Dados do carro, como direção, acelerador, GPS, etc., são usados ​​para avaliar a fusão de dados de quadro e evento para aplicativos automotivos.Ligação
CVVídeoDBNet, por Shanghai Jiao Tong Univ., Xiamen Univ., ChinaAutomotivoNuvem de Pontos, LiDARDados de direção de 1000 km do mundo real, que incluem vídeo alinhado, nuvem de pontos, GPS e comportamento do motorista para uma pesquisa aprofundada sobre comportamentos de direção.Ligação
CVVídeoDr(eye)ve, pela Univ. de Modena e Reggio Emilia, Modena, ItáliaAutomotivoRótulo ComportamentalConjunto de dados contendo 74 sequências de vídeo de 5 minutos cada, que foram anotadas em mais de 500,000 quadros. O conjunto de dados consiste em locais georreferenciados, velocidade de condução, curso, e também rotula as fixações do olhar dos motoristas e sua integração temporal fornecendo mapas específicos da tarefa.Ligação
CVVídeoETH Pedestrian (2009), por ETH Zurich, Zurique, SuíçaGeralCaixa delimitadoraUm conjunto de dados de 74 sequências de vídeo de 5 minutos cada, anotadas em mais de 500,000 quadros. O conjunto de dados fornece posições georreferenciadas, velocidade de direção, direção e também rotula fixações de olhar para motoristas e sua integração temporal, incluindo mapas específicos de tarefas.Ligação
CVVídeoFord (2009), pela Univ. de Michigan, Michigan, EUAAutomotivoCaixa delimitadora, , LiDARUm conjunto de dados compilado por um veículo terrestre automatizado armado com um scanner Velodyne 3D-lidar, duas vassouras Rieg lidars voltadas para o futuro, uma Unidade de Medição Inercial (IMU) técnica e de consumidor e um sistema de câmera omnidirecional Point Grey Ladybug3.Ligação
CVVídeoHCI Challenging Stereo, Bosch Corporation Research, Hildesheim, AlemanhaGeralUm conjunto de dados de vários milhões de quadros de cenas de vídeo capturadas que incluem uma ampla variedade de condições climáticas, várias camadas de movimento e profundidade; situações na cidade e no campo, etc.Ligação
CVVídeoJAAD, pela Universidade de York, Ucrânia, CanadáAutomotivoCaixa delimitadora, rótulo comportamental"JAAD é um conjunto de dados para estudar a atenção conjunta no contexto da direção autônoma. O foco está nos comportamentos de pedestres e motoristas no ponto de travessia e nos fatores que os influenciam. Para isso, o conjunto de dados JAAD fornece uma coleção ricamente anotada de 346 vídeos curtos clipes (5 a 10 segundos de duração) extraídos de mais de 240 horas de filmagens de condução de vários locais na América do Norte e na Europa Oriental. Caixas delimitadoras com tags de oclusão são usadas para todos os pedestres, tornando este conjunto de dados adequado para detecção de pedestres. As anotações de comportamento especificam comportamentos para pedestres que interagem ou exigem atenção do motorista. Para cada vídeo, há várias tags (clima, locais etc.) e rótulos de comportamento com carimbo de data/hora (por exemplo, parado, andando, olhando etc.). Além disso, uma lista de atributos demográficos é fornecido para cada pedestre (por exemplo, idade, sexo, direção do movimento, etc.), bem como uma lista de elementos de cena de trânsito visíveis (por exemplo, sinal de parada, sinal de trânsito, etc.) em cada quadro."Ligação
CVVídeoKAIST Urban, por KAIST, Coreia do SulGeralLiDARA coleta de dados inclui vários sensores de localização para dados LiDAR e imagens estéreo direcionadas a uma área urbana muito complexa (por exemplo, áreas metropolitanas, edifícios complexos e áreas residenciais).Ligação
CVImagemLISA Sinalização, pela Univ. da Califórnia, San Diego, Estados UnidosAutomotivoCaixa delimitadoraO conjunto de conjuntos de dados contendo vídeos e quadros anotados contendo sinais de trânsito dos EUA. Ele é lançado em duas etapas, uma apenas com as fotos e outra com fotos e vídeos.Ligação
CVImagemMapillary Vistas, por Mapillary AB, GlobalAutomotivoEtiqueta semânticaUm conjunto de dados de fotografia no nível da rua para interpretar cenas de rua em todo o mundo com anotações humanas com precisão de pixel e específicas de instância.Ligação
CVVídeo, ImagemSemântica KITTI, pela Universidade de Bonn, Karlsruhe, AlemanhaAutomotivoCaixa delimitadora, rótulo semântico, marcação de faixaUm conjunto de dados que inclui uma anotação semântica para todas as sequências do Odometry Benchmark. O conjunto de dados anota vários tipos de tráfego em movimento e não em movimento: incluindo carros, bicicletas, bicicletas, pedestres e ciclistas, permitindo que objetos na cena sejam estudados.Ligação
CVVídeoStanford Track, pela Stanford Univ., Estados UnidosAutomotivoDetecção / Classificação de Objetos LiDAR, GPS, CódigosUm conjunto de dados que inclui 14,000 rastros de objetos rotulados observados por um Velodyne HDL-64E S2 LIDAR em cenas de rua naturais, que podem ser usados ​​para treinar modelos de aprendizado de máquina para reconhecimento de objetos 3D.Ligação
CVVídeo, ImagemO Boxy Dataset, da Bosch, Estados UnidosAutomotivoCaixa Delimitadora / Detecção de VeículosUm conjunto de dados de detecção de veículos contendo 2 milhões de veículos anotados para treinamento e análise de estratégias de reconhecimento de objetos para carros autônomos em rodovias.Ligação
CVVídeoAuto-estrada TME, pela Universidade Técnica Checa, Norte de ItáliaAutomotivoCaixa delimitadoraUm conjunto de dados de 28 clipes para um total de 27 minutos bifurcados em mais de 30,000 quadros de anotações de veículos. A anotação foi produzida de forma semiautomática usando os dados do scanner a laser. Essa coleta de dados envolve cenários de tráfego variáveis, número de faixas, curvatura da estrada e iluminação, abrangendo grande parte das condições da aquisição completa.Ligação
CVVídeoLhamas não supervisionadas, da Bosch, Estados UnidosAutomotivoMarcação de Pista, LiDARO conjunto de dados Unsupervised Llamas foi anotado gerando mapas de direção automática de alta definição, incluindo marcadores de pista baseados em Lidar. O veículo autônomo pode ser alinhado com esses mapas e as marcações da pista são projetadas no quadro da câmera. A projeção 3D é otimizada minimizando a discrepância entre os marcadores de imagem já observados e os previstos.Ligação
PNLem áudioLibriSpeech multilíngue de IA do Facebook (MLS)GeralAnotação de áudio/reconhecimento de falaO Facebook AI Multilingual LibriSpeech (MLS) é um conjunto de dados de código aberto de grande escala projetado para ajudar a avançar na pesquisa em reconhecimento automático de fala (ASR). A MLS oferece mais de 50,000 horas de áudio em 8 idiomas: inglês, alemão, holandês, francês, espanhol, italiano, português e polonês. Ligação