Visão de Computador

22+ conjuntos de dados de código aberto mais procurados para visão computacional

Um algoritmo de IA é tão bom quanto os dados que você o alimenta.

Não é uma afirmação ousada nem pouco convencional. A IA poderia parecer um tanto absurda algumas décadas atrás, mas a Inteligência Artificial e o Aprendizado de Máquina percorreram um longo caminho desde então.

Visão computacional ajuda os computadores a entender e interpretar rótulos e imagens. Quando você treina seu computador usando o tipo certo de imagens, ele pode obter a capacidade de detectar, entender e identificar vários recursos faciais, detectar doenças, dirigir veículos autônomos e também salvar vidas usando a digitalização de órgãos multidimensionais.

Prevê-se que o mercado de visão computacional atinja $ 144.46 bilhões em 2028, de modestos US$ 7.04 bilhões em 2020, crescendo a um CAGR de 45.64% entre 2021 e 2028.

Alguns dos casos de uso da visão computacional são:

  • Imagem Médica
  • Veículo autônomo
  • Reconhecimento facial e de objetos
  • Identificação de defeitos
  • Detecção de cena

A conjunto de dados de imagem você está alimentando e treinando suas tarefas de aprendizado de máquina e visão computacional são cruciais para o sucesso do seu projeto de IA. Um conjunto de dados de qualidade é bastante difícil de obter. Dependendo da complexidade do seu projeto, pode levar de alguns dias a algumas semanas para obter conjuntos de dados confiáveis ​​e relevantes para fins de visão computacional.

Aqui, fornecemos uma variedade (categorizada para sua facilidade) de conjuntos de dados de código aberto que você pode usar imediatamente.

Lista abrangente de conjuntos de dados de visão computacional

Geral:

  1. IMAGEnet (Link)

    O ImageNet é um conjunto de dados amplamente utilizado e vem com impressionantes 1.2 milhão de imagens categorizadas em 1000 categorias. Este conjunto de dados é organizado de acordo com a hierarquia WorldNet e categorizado em três partes – os dados de treinamento, rótulos de imagem e dados de validação.

  2. Cinética 700 (Link)

    O Kinetics 700 é um enorme conjunto de dados de alta qualidade com mais de 650,000 clipes de 700 classes de ação humana diferentes. Cada uma das ações de classe tem cerca de 700 videoclipes. Os clipes no conjunto de dados têm interações humano-objeto e humano-humano, que estão provando ser bastante úteis no reconhecimento de ações humanas em vídeos.

  3. CIFAR-10 (Link)

    O CIFAR 10 é um dos maiores conjuntos de dados de visão computacional com 60000 imagens coloridas 32 x 32 representando dez classes diferentes. Cada aula tem cerca de 6000 imagens usadas para treinar algoritmos de visão computacional e aprendizado de máquina.

Reconhecimento facial:

O reconhecimento facial

  1. Rostos rotulados na natureza (Link)

    Labeled Faced in the Wild é um enorme conjunto de dados contendo mais de 13,230 imagens de quase 5,750 pessoas detectadas na Internet. Esse conjunto de dados de rostos foi projetado para facilitar o estudo da detecção de rosto sem restrições.

  2. CASIA Web Face (Link)

    O CASIA Web face é um conjunto de dados bem projetado que ajuda o aprendizado de máquina e a pesquisa científica sobre reconhecimento facial irrestrito. Com mais de 494,000 imagens de quase 10,000 identidades reais, é ideal para tarefas de identificação e verificação de rostos.

  3. Conjunto de dados de rostos UMD (Link)

    O UMD enfrenta um conjunto de dados bem anotado que contém duas partes – imagens estáticas e quadros de vídeo. O conjunto de dados tem mais de 367,800 anotações de rosto e 3.7 milhões de quadros de vídeo anotados de assuntos.

Reconhecimento de caligrafia:

  1. Banco de dados MNIST (Link)

    O MNIST é um banco de dados contendo amostras de dígitos manuscritos de 0 a 9, e possui 60,000 e 10,000 imagens de treinamento e teste. Lançado em 1999, o MNIST facilita o teste de sistemas de processamento de imagem em Deep Learning.

  2. Conjunto de dados de caracteres artificiais (Link)

    O conjunto de dados de caracteres artificiais é, como o nome sugere, dados gerados artificialmente que descrevem a estrutura do idioma inglês em dez letras maiúsculas. Ele vem com mais de 6000 imagens.

Vamos discutir seu requisito de dados de treinamento de IA hoje.

Detecção de objetos:

  1. MS COCO (Link)

    MS COCO ou Common Objects in Context é um conjunto de dados de detecção e legendagem de objetos.

    Possui mais de 328,000 imagens com detecção de pontos-chave, detecção de vários objetos, legendas e anotações de máscara de segmentação. Ele vem com 80 categorias de objetos e cinco legendas por imagem.

  2. LSUN(Link)

    LSUN, abreviação de Large-scale Scene Understanding, tem mais de um milhão de imagens rotuladas em 20 categorias de objetos e 10 cenas. Algumas categorias possuem cerca de 300,000 imagens, sendo 300 imagens específicas para validação e 1000 imagens para dados de teste.

  3. Objetos de casa(Link)

    O conjunto de dados Home Objects contém imagens anotadas de objetos aleatórios de toda a casa – cozinha, sala de estar e banheiro. Este conjunto de dados também tem alguns vídeos anotados e 398 fotos não anotadas projetadas para teste.

Automotivo:

  1. Conjunto de dados de paisagem urbana (Link)

    Cityscape é o conjunto de dados para procurar várias sequências de vídeo gravadas de cenas de rua de várias cidades. Essas imagens foram capturadas ao longo de um longo tempo e em diferentes condições climáticas e de luz. As anotações são para 30 classes de imagens divididas em oito categorias diferentes.

  2. Barkley Deep Drive (Link)

    O Barkley DeepDrive foi projetado especificamente para treinamento de veículos autônomos e possui mais de 100 mil sequências de vídeo anotadas. É um dos dados de treinamento mais úteis para veículos autônomos pelas mudanças nas condições da estrada e da direção.

  3. Mapilar (Link)

    O Mapillary possui mais de 750 milhões de cenas de rua e sinais de trânsito em todo o mundo, o que é muito útil no treinamento de modelos de percepção visual em algoritmos de aprendizado de máquina e IA. Ele permite desenvolver veículos autônomos que atendem a várias condições de iluminação e clima e pontos de vista.

Imagiologia Médica:

  1. Conjunto de dados de pesquisa aberta Covid-19 (Link)

    Este conjunto de dados original tem cerca de 6500 segmentações de pulmão poligonal pixel sobre radiografias de tórax AP/PA. Além disso, estão disponíveis 517 imagens de radiografias de pacientes com Covid-19 com etiquetas contendo nome, local, detalhes de admissão, resultado e muito mais.

  2. Banco de dados do NIH de 100,000 radiografias de tórax (Link)

    O banco de dados do NIH é um dos mais extensos conjuntos de dados disponíveis publicamente, contendo 100,000 imagens de radiografias de tórax e dados relacionados úteis para a comunidade científica e de pesquisa. Ele ainda tem imagens de pacientes com condições pulmonares avançadas.

  3. Atlas de Patologia Digital (Link)

    O Atlas of Digital Pathology oferece várias imagens de manchas histopatológicas, mais de 17,000 no total, de cerca de 100 lâminas anotadas de diferentes órgãos. Este conjunto de dados é útil no desenvolvimento de software de visão computacional e reconhecimento de padrões.

Reconhecimento de Cena:

Reconhecimento de cena

  1. Reconhecimento de cena interna (Link)

    O Indoor Scene Recognition é um conjunto de dados altamente categorizado com quase 15620 imagens de objetos e cenários internos para serem usados ​​em aprendizado de máquina e treinamento de dados. Ele vem com mais de 65 categorias, e cada categoria tem um mínimo de 100 imagens.

  2. xVisualizar (Link)

    Como um dos conjuntos de dados disponíveis publicamente mais conhecidos, o xView contém toneladas de imagens gerais anotadas de várias cenas complexas e grandes. Com cerca de 60 classes e mais de um milhão de instâncias de objetos, o objetivo desse conjunto de dados é fornecer melhor alívio de desastres usando imagens de satélite.

  3. Locais (Link)

    Places, um conjunto de dados contribuído pelo MIT, tem mais de 1.8 milhão de imagens de 365 categorias de cenas diferentes. Existem cerca de 50 imagens em cada uma dessas categorias para validação e 900 imagens para teste. É possível aprender recursos de cena profundos para estabelecer reconhecimento de cena ou tarefas de reconhecimento visual.

Entertainment:

  1. Conjunto de dados IMDB WIKI (Link)

    IMDB – Wiki é um dos bancos de dados públicos mais populares de rostos rotulados adequadamente com idade, sexo e nomes. Também tem cerca de 20 mil rostos de celebridades e 62 mil da Wikipedia.

  2. Rostos de celebridades (Link)

    Celeb Faces é um banco de dados em grande escala com 200,000 imagens anotadas de celebridades. As imagens vêm com ruído de fundo e variações de pose, tornando-as valiosas para conjuntos de teste de treinamento em tarefas de visão computacional. É altamente benéfico para obter maior precisão no reconhecimento facial, edição, localização de partes faciais e muito mais.

Agora que você tem uma lista enorme de conjuntos de dados de imagens de código aberto para alimentar seu maquinário de inteligência artificial. O resultado de seus modelos de IA e aprendizado de máquina depende principalmente da qualidade dos conjuntos de dados com os quais você os alimenta e os treina. Se você deseja que seu modelo de IA gere previsões precisas, ele precisa de conjuntos de dados de qualidade que sejam agregados, marcados e rotulados com perfeição. Para ampliar o sucesso do seu sistema de visão computacional, você deve usar bancos de dados de imagens de qualidade relevantes para a visão do seu projeto. Se você estiver procurando por mais conjuntos de dados Clique aqui

Ações Sociais

Você pode gostar