A Shaip agora faz parte do ecossistema da Ubiquity: a mesma equipe, agora com recursos ampliados para dar suporte aos clientes em grande escala. |
Visão Computacional

31 conjuntos de dados de imagens gratuitos para visão computacional para impulsionar seu projeto [atualizado em 2025]

Um algoritmo de IA é tão bom quanto os dados que você o alimenta.

Não é uma afirmação ousada nem pouco convencional. A IA poderia parecer um tanto absurda algumas décadas atrás, mas a Inteligência Artificial e o Aprendizado de Máquina percorreram um longo caminho desde então.

A visão computacional ajuda os computadores a entender e interpretar rótulos e imagens. Ao treinar seu computador com o tipo certo de conjunto de dados de imagens, ele pode adquirir a capacidade de detectar, entender e identificar diversas características faciais, detectar doenças, dirigir veículos autônomos e também salvar vidas por meio de escaneamento multidimensional de órgãos.

Prevê-se que o mercado de visão computacional atinja US $ 144.46 bilhões até 2028 de um modesto $ 7.04 bilhões em 2020, crescendo em um CAGR de 45.64% entre 2021 e 2028.

O conjunto de dados de imagens que você alimenta e treina para suas tarefas de aprendizado de máquina e visão computacional é crucial para o sucesso do seu projeto de IA. Um conjunto de dados de qualidade é bastante difícil de obter. Usar uma coleção diversificada de imagens é essencial para garantir um treinamento robusto do modelo e refletir melhor a complexidade do mundo real.

Dependendo da complexidade do seu projeto, pode levar de alguns dias a algumas semanas para obter conjuntos de dados confiáveis ​​e relevantes para fins de visão computacional. Uma gama diversificada de conjuntos de dados é necessária para cobrir diversas tarefas de visão computacional e cenários do mundo real. Pesquisadores frequentemente buscam um conjunto de dados substancial para fins de pesquisa, a fim de garantir uma avaliação abrangente do modelo e dar suporte a uma ampla gama de aplicações.

Aqui, fornecemos uma variedade (categorizada para sua facilidade) de conjuntos de dados de imagens de código aberto que você pode usar imediatamente.

Tarefas de conjunto de dados de imagem: classificação, segmentação, detecção e muito mais

Conjuntos de dados de imagens são a espinha dorsal da visão computacional moderna, impulsionando uma ampla gama de tarefas que permitem às máquinas interpretar e compreender informações visuais. Seja construindo um modelo para veículos autônomos, desenvolvendo tecnologia de reconhecimento facial ou trabalhando na análise de imagens médicas, o conjunto de dados de imagens certo é uma ferramenta essencial para o sucesso.

Classificação de imagem é uma das tarefas mais fundamentais da visão computacional. Nesse processo, um modelo aprende a atribuir um rótulo a uma imagem inteira com base em seu conteúdo. Por exemplo, um conjunto de dados de classificação de imagens pode ajudar um modelo a distinguir entre imagens de gatos e cães ou a identificar diferentes tipos de plantas. Essa tarefa é crucial para aplicações como marcação automatizada de fotos, diagnóstico de doenças a partir de imagens médicas e benchmarks de categorização de cenas.

Detecção de objetos vai um passo além, não apenas identificando a presença de objetos em uma imagem, mas também identificando suas localizações usando caixas delimitadoras. Conjuntos de dados para detecção de objetos, como aqueles que contêm imagens anotadas com caixas delimitadoras, são vitais para aplicações como detecção de pedestres em veículos autônomos, vigilância de segurança e análises de varejo. A detecção de objetos também é um componente essencial no desenvolvimento de algoritmos robustos de visão computacional para cenários do mundo real.

Segmentação semântica Envolve a classificação de cada pixel de uma imagem em uma categoria específica, proporcionando uma compreensão detalhada da cena. Essa segmentação de trimap em nível de pixel é especialmente importante em tarefas como imagens médicas, onde é necessária a delimitação precisa de órgãos ou tumores, e em ambientes urbanos para direção autônoma, onde a distinção entre estradas, calçadas e veículos é crucial.

Além dessas tarefas principais, os conjuntos de dados de imagens também suportam segmentação de instâncias (diferenciação entre objetos individuais da mesma classe), legendagem de imagens (geração de texto descritivo para imagens) e reconhecimento facial (identificação ou verificação de rostos humanos em imagens). Cada uma dessas tarefas de visão computacional depende de imagens anotadas de alta qualidade para treinar e validar modelos de aprendizado de máquina.

Ao utilizar conjuntos de dados de imagens diversificados e bem anotados, cientistas de dados e profissionais de aprendizado de máquina podem enfrentar uma variedade de desafios de visão computacional, desde tarefas de reconhecimento e classificação de imagens até problemas complexos de segmentação e detecção. O conjunto de dados certo não apenas acelera a pesquisa e o desenvolvimento, mas também garante que os sistemas de visão computacional funcionem com precisão em aplicações do mundo real.

Lista abrangente de conjuntos de dados de imagem para treinar seu modelo de visão computacional

Geral:

  1. IMAGEnet

    O ImageNet é um conjunto de dados amplamente utilizado e vem com impressionantes 1.2 milhão de imagens categorizadas em 1000 categorias. Este conjunto de dados é organizado de acordo com a hierarquia WorldNet e categorizado em três partes – os dados de treinamento, rótulos de imagem e dados de validação.

  2. Cinética 700

    O Kinetics 700 é um enorme conjunto de dados de alta qualidade com mais de 650,000 clipes de 700 classes de ação humana diferentes. Cada uma das ações de classe tem cerca de 700 videoclipes. Os clipes no conjunto de dados têm interações humano-objeto e humano-humano, que estão provando ser bastante úteis no reconhecimento de ações humanas em vídeos.

  3. CIFAR-10

    O CIFAR 10 é um dos maiores conjuntos de dados de visão computacional com 60000 imagens coloridas 32 x 32 representando dez classes diferentes. Cada aula tem cerca de 6000 imagens usadas para treinar algoritmos de visão computacional e aprendizado de máquina.

  4. Conjunto de dados de imagens de animais de estimação Oxford-IIIT

    O conjunto de dados de imagens de animais de estimação compreende 37 categorias com 200 imagens por classe. Essas imagens variam em escala, pose e iluminação, e são acompanhadas por anotações para raça, ROI da cabeça e segmentação de trimap em nível de pixel.

  5. Imagens abertas do Google

    Com impressionantes 9 milhões de URLs, este é um dos maiores conjuntos de dados de imagens da lista, contendo milhões de imagens rotuladas em 6,000 categorias.

  6. Imagens de plantas

    Esta compilação inclui vários conjuntos de dados de imagens com impressionantes 1 milhão de imagens de plantas, abrangendo aproximadamente 11 espécies.

  7. LSUN

    LSUN é um conjunto de dados de imagens em larga escala com milhões de imagens rotuladas em diversas categorias de cenas e objetos. O conjunto de dados inclui um conjunto de testes dedicado para avaliação de modelos.

Reconhecimento facial:

O reconhecimento facial

  1. Rostos rotulados na natureza

    Labeled Faced in the Wild é um enorme conjunto de dados contendo mais de 13,230 imagens de quase 5,750 pessoas detectadas na Internet. Esse conjunto de dados de rostos foi projetado para facilitar o estudo da detecção de rosto sem restrições.

  2. CASIA Web Face

    O CASIA Web face é um conjunto de dados bem projetado que ajuda o aprendizado de máquina e a pesquisa científica sobre reconhecimento facial irrestrito. Com mais de 494,000 imagens de quase 10,000 identidades reais, é ideal para tarefas de identificação e verificação de rostos.

  3. Conjunto de dados de rostos UMD

    O UMD enfrenta um conjunto de dados bem anotado que contém duas partes – imagens estáticas e quadros de vídeo. O conjunto de dados tem mais de 367,800 anotações de rosto e 3.7 milhões de quadros de vídeo anotados de assuntos.

  4. Detecção de máscara facial

    Este conjunto de dados inclui 853 imagens categorizadas em três classes: “com máscara”, “sem máscara” e “máscara usada incorretamente”, juntamente com suas caixas delimitadoras no formato PASCAL VOC.

  5. FERET

    O FERET (Facial Recognition Technology Database) é um conjunto abrangente de dados de imagens que contém mais de 14,000 imagens anotadas de rostos humanos.

Reconhecimento de caligrafia:

  1. Banco de dados MNIST

    O MNIST é um banco de dados contendo amostras de dígitos manuscritos de 0 a 9, e possui 60,000 e 10,000 imagens de treinamento e teste. Lançado em 1999, o MNIST facilita o teste de sistemas de processamento de imagem em Deep Learning.

  2. Conjunto de dados de caracteres artificiais

    O conjunto de dados de caracteres artificiais é, como o nome sugere, dados gerados artificialmente que descrevem a estrutura do idioma inglês em dez letras maiúsculas. Ele vem com mais de 6000 imagens.

Detecção de objetos:

  1. MS COCO

    MS COCO ou Common Objects in Context é um conjunto de dados de detecção e legendagem de objetos.

    Possui mais de 328,000 imagens com detecção de pontos-chave, detecção de vários objetos, legendas e anotações de máscara de segmentação. Ele vem com 80 categorias de objetos e cinco legendas por imagem.

  2. LSUN

    LSUN, abreviação de Large-scale Scene Understanding, tem mais de um milhão de imagens rotuladas em 20 categorias de objetos e 10 cenas. Algumas categorias possuem cerca de 300,000 imagens, sendo 300 imagens específicas para validação e 1000 imagens para dados de teste.

  3. Objetos de casa

    O conjunto de dados Home Objects contém imagens anotadas de objetos aleatórios de toda a casa – cozinha, sala de estar e banheiro. Este conjunto de dados também tem alguns vídeos anotados e 398 fotos não anotadas projetadas para teste.

  4. Genoma Visual

    O Visual Genome é uma base de conhecimento visual abrangente com mais de 108,000 imagens legendadas. Ele fornece anotações detalhadas para objetos, atributos e relacionamentos, tornando-o valioso para reconhecimento de objetos, legendagem de imagens e tarefas de aprendizagem multimodal.

Automotivo:

  1. Conjunto de dados de paisagem urbana

    Cityscape é o conjunto de dados para procurar várias sequências de vídeo gravadas de cenas de rua de várias cidades. Essas imagens foram capturadas ao longo de um longo tempo e em diferentes condições climáticas e de luz. As anotações são para 30 classes de imagens divididas em oito categorias diferentes.

  2. Barkley Deep Drive

    O Barkley DeepDrive foi projetado especificamente para treinamento de veículos autônomos e possui mais de 100 mil sequências de vídeo anotadas. É um dos dados de treinamento mais úteis para veículos autônomos pelas mudanças nas condições da estrada e da direção.

  3. Mapilar

    O Mapillary possui mais de 750 milhões de cenas de rua e sinais de trânsito em todo o mundo, o que é muito útil no treinamento de modelos de percepção visual em algoritmos de aprendizado de máquina e IA. Ele permite desenvolver veículos autônomos que atendem a várias condições de iluminação e clima e pontos de vista.

Imagiologia Médica:

  1. Conjunto de dados de pesquisa aberta Covid-19

    Este conjunto de dados original tem cerca de 6500 segmentações de pulmão poligonal pixel sobre radiografias de tórax AP/PA. Além disso, estão disponíveis 517 imagens de radiografias de pacientes com Covid-19 com etiquetas contendo nome, local, detalhes de admissão, resultado e muito mais.

  2. Banco de dados do NIH de 100,000 radiografias de tórax

    O banco de dados do NIH é um dos mais extensos conjuntos de dados disponíveis publicamente, contendo 100,000 imagens de radiografias de tórax e dados relacionados úteis para a comunidade científica e de pesquisa. Ele ainda tem imagens de pacientes com condições pulmonares avançadas.

  3. Atlas de Patologia Digital

    O Atlas of Digital Pathology oferece várias imagens de manchas histopatológicas, mais de 17,000 no total, de cerca de 100 lâminas anotadas de diferentes órgãos. Este conjunto de dados é útil no desenvolvimento de software de visão computacional e reconhecimento de padrões.

Reconhecimento de Cena:

Reconhecimento de cena

  1. Reconhecimento de cena interna

    O Indoor Scene Recognition é um conjunto de dados altamente categorizado com quase 15620 imagens de objetos e cenários internos para serem usados ​​em aprendizado de máquina e treinamento de dados. Ele vem com mais de 65 categorias, e cada categoria tem um mínimo de 100 imagens.

  2. xVisualizar

    Como um dos conjuntos de dados disponíveis publicamente mais conhecidos, o xView contém toneladas de imagens gerais anotadas de várias cenas complexas e grandes. Com cerca de 60 classes e mais de um milhão de instâncias de objetos, o objetivo desse conjunto de dados é fornecer melhor alívio de desastres usando imagens de satélite.

  3. Locais

    Places, um conjunto de dados contribuído pelo MIT, tem mais de 1.8 milhão de imagens de 365 categorias de cenas diferentes. Existem cerca de 50 imagens em cada uma dessas categorias para validação e 900 imagens para teste. É possível aprender recursos de cena profundos para estabelecer reconhecimento de cena ou tarefas de reconhecimento visual.

  4. Banco de dados SUN

    O banco de dados SUN é um benchmark abrangente de categorização de cenas amplamente utilizado em visão computacional. Ele contém milhares de imagens abrangendo uma ampla gama de ambientes internos e externos, com anotações detalhadas para cada cena. O banco de dados SUN é reconhecido por sua cobertura de diferentes cenas e serve como referência padrão para avaliar algoritmos de compreensão de cenas.

Entertainment:

  1. Conjunto de dados IMDB WIKI

    IMDB – Wiki é um dos bancos de dados públicos mais populares de rostos rotulados adequadamente com idade, sexo e nomes. Também tem cerca de 20 mil rostos de celebridades e 62 mil da Wikipedia.

  2. Rostos de celebridades

    Celeb Faces é um banco de dados em grande escala com 200,000 imagens anotadas de celebridades. As imagens vêm com ruído de fundo e variações de pose, tornando-as valiosas para conjuntos de teste de treinamento em tarefas de visão computacional. É altamente benéfico para obter maior precisão no reconhecimento facial, edição, localização de partes faciais e muito mais.

  3. Conjunto de dados do YouTube-8M

    O YouTube-8M é um conjunto de dados de vídeos rotulados em larga escala que contém milhões de IDs de vídeos do YouTube com anotações de entidades visuais de alta qualidade, geradas por máquina. Este conjunto de dados é amplamente utilizado para a compreensão de vídeos em larga escala e o treinamento de algoritmos de visão, pois vincula o conteúdo do vídeo a metadados por meio de IDs de vídeo do YouTube, permitindo a coleta e anotação escaláveis ​​de dados de vídeo.

Agora que você tem uma lista enorme de conjuntos de dados de imagens de código aberto para alimentar sua máquina de inteligência artificial, o resultado dos seus modelos de IA e aprendizado de máquina depende principalmente da qualidade dos conjuntos de dados com os quais você os alimenta e os treina. Se você deseja que seu modelo de IA produza previsões precisas, ele precisa de conjuntos de dados de qualidade, agregados, marcados e rotulados com perfeição. Trabalhar com esses conjuntos de dados é uma excelente maneira de desenvolver e aprimorar suas habilidades de aprendizado de máquina por meio de projetos práticos e reais. Para ampliar o sucesso do seu sistema de visão computacional, você deve usar bancos de dados de imagens de qualidade relevantes para a visão do seu projeto.

Ações Sociais