Conjuntos de dados manuscritos

Os 15 melhores conjuntos de dados de manuscrito de código aberto para treinar seus modelos de ML

O mundo dos negócios está se transformando em um ritmo fenomenal, mas essa transformação digital não é tão abrangente quanto gostaríamos que fosse. As pessoas ainda estão lidando com documentos físicos em suas operações diárias, de grandes corporações a pequenas empresas. Embora a frequência de uso tenha reduzido consideravelmente, ela não foi completamente eliminada. Em vez do demorado processo de digitalização de documentos para uso digital, usando o mais recente OCR é eficiente em termos de tempo e eficaz.

O aumento no uso do reconhecimento óptico de caracteres pode ser atribuído principalmente ao aumento na produção de sistemas de reconhecimento automático. Como resultado, o valor de mercado global da tecnologia OCR, atrelado a US$ 8.93 bilhões em 2021, está previsto crescer a um CAGR de 15.4% entre 2022 e 2030.

Mas o que exatamente é a tecnologia OCR? E por que é um divisor de águas para empresas que desenvolvem modelos de IA eficientes? Vamos descobrir.

O que é OCR?

Alternativamente referido como reconhecimento de texto, OCR ou Reconhecimento Óptico de Caracteres é um programa que extrai dados impressos ou escritos de documentos digitalizados, PDFs somente de imagem e notas manuscritas em um formato legível por máquina. O software retira cada letra da imagem e as combina em palavras e frases, facilitando o acesso e a edição digital dos documentos.

O que são conjuntos de dados de código aberto?

Existem vários lugares onde a tecnologia OCR tem grande potencial para ser aproveitada. Alguns lugares incluem o aeroporto, publicação de e-books, anúncios, bancos e sistemas de cadeia de suprimentos. No entanto, para que os aplicativos atendam ao seu propósito, eles precisam ser treinados em Conjuntos de dados de reconhecimento óptico de caracteres.

A eficiência da aplicação depende muito da qualidade do conjunto de dados e da metodologia de treinamento envolvida. No entanto, encontrar qualidade digital e conjuntos de dados de manuscrito é difícil para a aplicação. Portanto, muitas empresas usam conjuntos de dados de código aberto ou de uso gratuito em vez de conjuntos de dados proprietários.

Benefícios e desafios dos conjuntos de dados de código aberto

As empresas precisam comparar os benefícios e os desafios entre si para entender se devem optar por dados de uso gratuito para seus aplicativos de ML.

Benefícios

  • Os dados estão facilmente disponíveis para acesso. Devido à disponibilidade de dados, o custo de desenvolvimento do aplicativo é reduzido significativamente.
  • O tempo e o esforço gastos na coleta de dados para o aplicativo são significativamente reduzidos, pois o conjunto de dados está prontamente disponível.
  • Há uma abundância de fóruns da comunidade ou grupos de ajuda que ajudam a aprender, adaptar e otimizar o conjunto de dados.
  • Uma das principais vantagens do conjunto de dados de código aberto é que ele não impõe restrições à personalização.
  •   Os dados de código aberto são acessíveis a uma grande parte da população, tornando possível a análise e a inovação sem barreiras monetárias.

Desafios

  • Os dados específicos do projeto são difíceis de adquirir. Além disso, existe a possibilidade de informações ausentes e uso incorreto dos dados disponíveis.
  • Adquirir dados proprietários leva tempo, esforço e é caro
  • Embora possa ser mais fácil adquirir dados, o custo do conhecimento e da análise pode superar a vantagem inicial.
  • Outros desenvolvedores também usam os mesmos dados para desenvolver aplicativos.
  • Esses conjuntos de dados são altamente vulneráveis ​​a violações de segurança, privacidade e consentimento.

15 melhores conjuntos de dados de caligrafia e OCR para aprendizado de máquina

Conjuntos de dados ocr de código aberto

Muitos conjuntos de dados de código aberto estão disponíveis para desenvolvimento de aplicativos de reconhecimento de texto. Alguns dos 15 melhores são

  1. O conjunto de dados ICDAR

    A International Conference for Document Analysis and Recognition possui um repositório de 229 imagens de treinamento e 233 de teste, além de anotações. Ele atua como uma referência para avaliação de detecção de texto.

  2. Conjunto de dados de 5 palavras IIT

    Extraído da pesquisa de imagens do Google, o IIIT 5K-word é uma coleção de palavras de letreiros, outdoors, placas de matrícula e cartazes. Ele contém imagens de palavras recortadas de 5K, tornando-o uma das coleções mais extensas de conjuntos de dados de reconhecimento de texto disponíveis.

  3. Banco de dados NIST

    O NIST ou o National Institute of Science oferece uma coleção gratuita de mais de 3600 amostras de caligrafia com mais de 810,000 imagens de caracteres

  4. Banco de dados MNIST

    Derivado do banco de dados especial 1 e 3 do NSIT, o banco de dados MNIST é uma coleção compilada de 60,000 números manuscritos para o conjunto de treinamento e 10,000 exemplos para o conjunto de teste. Esse banco de dados de código aberto ajuda a treinar modelos para reconhecer padrões enquanto gasta menos tempo no pré-processamento.

  5. Detecção de Texto

    Um banco de dados de código aberto, o conjunto de dados de detecção de texto contém cerca de 500 imagens internas e externas de placas, placas de portas, placas de advertência e muito mais.

  6. OCR de Stanford

    Publicado por Stanford, este conjunto de dados de uso gratuito é uma coleção de palavras manuscritas do MIT Spoken Language Systems Group.

  7. DDI-100

    Também chamado de Distorted Document Images Dataset, o DDI-100 é uma coleção de mais de 6658 páginas de documentos com vários padrões geométricos e distorções aplicadas. Além disso, o DDI-100 possui mais de 99870 imagens, máscaras de carimbo, máscaras de texto e caixas delimitadoras.

  8. RoadText-1K

    Um dos maiores conjuntos de dados que ajudam a treinar modelos para detectar texto em vídeos, o RoadText-1K contém 1000 videoclipes completos com anotação de texto de caixa delimitadora e transcrição do texto em cada quadro de vídeo.

  9. MSRA-TD500

    Contém 300 imagens de treinamento e 200 texto; o MSRA-TD500 contém caracteres dos idiomas chinês e inglês e é anotado no nível da frase.

  10. Conjunto de dados MJSynth

    Fornecido pela Universidade de Oxford, esse conjunto de dados de palavras possui quase 9 milhões de imagens geradas sinteticamente, abrangendo mais de 90 mil palavras em inglês.

  11. Texto do Street View

    Reunido a partir de imagens do Google Street View, este conjunto de dados possui imagens de detecção de texto principalmente de placas e placas de rua.

  12. Banco de Dados de Documentos

    O banco de dados de documentos é uma coleção de 941 documentos manuscritos, incluindo tabelas, fórmulas, desenhos, diagramas, listas e muito mais, de 189 escritores.

  13. Expressões Matemáticas

    O Mathematics Expressions é um banco de dados que contém 101 símbolos matemáticos e 10,000 expressões.

  14. Números de residências do Street View

    Extraído do Google Street View, este Street View House Numbers é um banco de dados contendo 73257 dígitos de números de casas de rua.

  15. Ambiente Natural OCR

    O Natural Environment OCR é um conjunto de dados de quase 660 imagens em todo o mundo e 5238 anotações de texto.

Esses foram alguns dos principais conjuntos de dados de código aberto para treinar modelos de ML para aplicativos de detecção de texto. Selecionar aquele que se alinha às suas necessidades de negócios e aplicativos pode levar tempo e esforço. No entanto, você deve experimentar esses conjuntos de dados antes de decidir sobre o apropriado.

Para ajudá-lo a progredir em direção a um aplicativo de detecção de texto confiável e eficiente está a Shaip – ​​o fornecedor de soluções de tecnologia de alto nível. Aproveitamos nossa experiência tecnológica para criar soluções personalizáveis, otimizadas e conjuntos de dados de treinamento de OCR eficientes para vários projetos de clientes. Para entender completamente nossas capacidades, entre em contato conosco hoje.

Ações Sociais