OCR de código aberto

22 Melhores Conjuntos de Dados OCR de Código Aberto para Treinar seus Modelos de Aprendizado de Máquina em 2026

O reconhecimento óptico de caracteres (OCR) agora impulsiona a digitalização de recibos, a verificação de identidade, a automação de faturas, a digitalização de arquivos históricos e aplicativos de anotações com caneta digital. O mercado de OCR deve atingir US$ 32.90 bilhões até 2030, com uma taxa de crescimento anual composta (CAGR) de 14.8% (Grand View Research, 2024), sendo o reconhecimento inteligente de caracteres — o ramo do OCR voltado para a leitura de escrita à mão — o segmento de crescimento mais rápido. Seja para análise de documentos, detecção de texto em cenas ou transcrição de escrita à mão, o conjunto de dados de OCR utilizado para treinamento define o limite de precisão. Este guia abrange 22 conjuntos de dados de OCR gratuitos e de código aberto — incluindo os melhores conjuntos de dados de escrita à mão — organizados por caso de uso e atualizados com os lançamentos mais recentes até 2024.

Principais lições

  • OCR (reconhecimento óptico de caracteres): Tecnologia que converte imagens de textos impressos, cenas ou manuscritos em dados legíveis por máquina.
  • Os conjuntos de dados OCR foram divididos em cinco grupos: documento/formulário, texto de cena, dígito/caractere, escrita à mão e multilíngue.
  • Conjuntos de dados OCR de documentos Capturar páginas estruturadas, como formulários e recibos; conjuntos de dados de cena-texto captura de texto “na natureza”.
  • IAM, MNIST, ICDAR e SROIE continuam sendo os benchmarks de OCR mais citados em pesquisas.
  • Os termos de licenciamento variam bastante — verifique cada conjunto de dados OCR antes de realizar treinamentos comerciais.

O que é OCR (reconhecimento óptico de caracteres)?

OCR é uma tecnologia que converte diferentes tipos de documentos, como documentos em papel digitalizados, PDFs ou imagens de texto, em dados editáveis ​​e pesquisáveis. Ela funciona por:

  • Analisando a estrutura do texto em uma imagem
  • Dividir o texto em linhas e caracteres
  • Convertendo esses caracteres visuais em texto legível por máquina

Os usos comuns incluem:

  • Convertendo documentos digitalizados em arquivos de texto editáveis
  • Digitalização de livros impressos
  • Extraindo texto de fotos
  • Convertendo prescrições manuscritas em texto digital
  • Reconhecimento de matrícula

Como escolher o conjunto de dados OCR correto?

A escolha de um conjunto de dados OCR depende de quatro fatores: tipo de texto, ambiente de captura, granularidade da anotação e licença. O OCR de documentos impressos requer dados de treinamento diferentes dos utilizados para texto manuscrito cursivo ou texto em cenas com curvas. Conjuntos de dados de documentos são adequados para faturas, formulários e recibos; conjuntos de dados de texto em cenas são adequados para sinalização e leitura de produtos; conjuntos de dados de escrita à mão são adequados para anotações, manuscritos e entrada por caneta digital. Anotações em nível de palavra e de linha são compatíveis com fluxos de trabalho OCR completos, enquanto conjuntos de dados em nível de caractere são adequados para linhas de base de classificação. Sempre verifique os termos da licença, pois alguns conjuntos de dados OCR são apenas para pesquisa ou exigem registro.

Quais são os melhores conjuntos de dados OCR para documentos e formulários?

Os conjuntos de dados OCR de documentos treinam modelos para analisar páginas estruturadas, como faturas, formulários, recibos e documentos de identificação. Isso possibilita a automação de documentos comerciais e a extração de valores-chave.

  1. FUNSD — 199 formulários digitalizados e anotados, com aparência realista e ruidosa. O padrão de referência para compreensão de formulários e extração de valores-chave.
  2. SROIE — Conjunto de dados de recibos digitalizados do ICDAR 2019, com aproximadamente 1,000 recibos, que oferece suporte à detecção de texto, reconhecimento e extração de informações em um único conjunto.
  3. CORDÃO — Um conjunto de dados consolidado de recibos, criado para análise pós-OCR, com rótulos detalhados em nível de campo para automação de faturas e recibos.
  4. XFUND — Extensão multilíngue do FUNSD abrangendo sete idiomas (alemão, espanhol, francês, italiano, japonês, português e chinês), com 199 páginas cada. Ideal para IA de documentos multilíngues.
  5. DDI-100 — Cerca de 100,000 imagens de documentos distorcidos para detecção e reconhecimento sob condições reais de degradação, como inclinação, desfoque e ruído.

Quais são os melhores conjuntos de dados OCR para texto em cenas?

Os conjuntos de dados de OCR de texto em cena treinam modelos para ler texto em imagens naturais, como placas, produtos e cenas de rua. Eles são essenciais para OCR em ambientes reais, onde os fundos são complexos.

  1. Leitura robusta do ICDAR — A família de referência por trás da maioria das pesquisas de texto em cena, incluindo os desafios de Texto de Cena Focado e Incidental com caixas delimitadoras em nível de palavra e transcrições.
  2. Texto COCO — Anotações de texto em grande escala sobrepostas a imagens MS-COCO. Altamente eficaz para detecção de texto em larga escala em cenas naturais.
  3. Texto completo — Especializa-se em textos curvos e com orientação arbitrária, um ponto fraco conhecido dos modelos de OCR mais antigos.
  4. SVT (Texto do Street View) — Imagens de palavras coletadas do Google Street View, geralmente de baixa resolução e alta variabilidade. Disponíveis nos servidores espelho do Papers with Code.
  5. HierText — Anotação hierárquica de parágrafo para linha e para palavra, abrangendo textos manuscritos e impressos. Útil para OCR com reconhecimento de layout.

Quais são os melhores conjuntos de dados OCR para dígitos e caracteres?

Os conjuntos de dados OCR de dígitos e caracteres treinam modelos para reconhecer símbolos individuais em ambientes controlados. Esses são os pontos de partida padrão para linhas de base de classificação.

  1. MNIST — 70,000 imagens de dígitos manuscritos em tons de cinza. A linha de base mais rápida para validar um classificador de dígitos.
  2. EMNIST — Amplia o MNIST com 814,255 letras e dígitos manuscritos derivados do Banco de Dados Especial 19 do NIST.
  3. SVHN (Números de casas do Street View) — Mais de 600,000 imagens de dígitos reais de números de casas. Uma melhoria prática em relação ao MNIST para condições de ruído.
  4. Caracteres 74K — 74,107 imagens abrangendo caracteres em inglês e canarês, provenientes de imagens naturais e fontes de computador.
  5. Banco de Dados Especial NIST 19 — Mais de 810,000 imagens de caracteres manuscritos de 3,600 escritores. A fonte da qual muitos benchmarks de OCR em inglês derivam.

Quais são os melhores conjuntos de dados de escrita à mão para OCR?

Os conjuntos de dados de escrita à mão treinam modelos de OCR para ler textos manuscritos cursivos, impressos e históricos. Os conjuntos de dados de escrita à mão abertos mais robustos continuam sendo os benchmarks mais citados para reconhecimento de texto manuscrito (HTR).

  1. Banco de dados de caligrafia IAM — O padrão ouro da caligrafia inglesa, com 13,353 linhas de texto de 657 escritores. Ainda é o conjunto de dados de caligrafia mais citado em pesquisas de OCR de 2024–2025.
  2. IAM-OnDB — A versão online do IAM para reconhecimento de traços de caneta, capturando dados de trajetória. O conjunto de dados canônico de escrita à mão para reconhecimento por caneta e tablet.
  3. Documentos de Bentham — Transcrição de manuscritos históricos em inglês do filósofo Jeremy Bentham. A principal referência em OCR para caligrafia histórica, acessível via Transkribus.
  4. GNHK (Coleção de Caligrafia GoodNotes) — Um conjunto de dados de 2021 com anotações manuscritas em inglês, sem restrições, do mundo real. Mais próximo de dados de produção desorganizados do que de dados de gerenciamento de identidade (IAM) impecáveis ​​de laboratório.

Quais são os melhores conjuntos de dados OCR multilíngues e não latinos?

 

Conjuntos de dados OCR multilíngues treinam modelos em sistemas de escrita além do inglês, incluindo chinês, árabe e notação matemática. Esses conjuntos de dados são essenciais para o reconhecimento global de documentos e escrita à mão.

  1. CASIA-HWDB — O padrão de referência OCR chinês, com 1.17 milhão de amostras de caracteres manuscritos de 1,020 escritores.
  2. KHATT — 1,000 formulários manuscritos em árabe, de 1,000 autores diferentes, digitalizados em múltiplas resoluções. O conjunto de dados OCR em árabe mais abrangente disponível publicamente.
  3. CROHME — Competição de reconhecimento de expressões matemáticas manuscritas online: mais de 10,000 expressões com mais de 101 símbolos matemáticos, em versões online e offline. Essencial para OCR de equações manuscritas.

Quais são as armadilhas comuns ao usar conjuntos de dados OCR gratuitos?

Três armadilhas costumam pegar a maioria das equipes.

Domínio incompatível: Treinar o usuário em um sistema IAM ou COCO-Text limpo e implantá-lo em faturas amassadas garante baixa precisão.

Cegueira em relação à licença: Diversos conjuntos de dados OCR de texto e históricos são destinados apenas para pesquisa ou exigem registro antes do uso comercial.

Lacunas de anotação: Muitos conjuntos de dados OCR não possuem os metadados de layout, as caixas delimitadoras em nível de linha ou os rótulos de campo que os sistemas de produção necessitam.

Imagine uma empresa de logística de médio porte automatizando a leitura de etiquetas de envio. O treinamento com textos em cenários públicos permite atingir 80% nos testes de referência, mas etiquetas reais com reflexos e dobras reduzem esse índice para 58%. Para superar essa lacuna, foi necessário um treinamento direcionado. anotação de dados de 6,000 imagens de rótulos no domínio antes do lançamento.

Benefícios e desafios dos conjuntos de dados de código aberto

Benefícios e desafios dos conjuntos de dados de código aberto

As empresas precisam comparar os benefícios e os desafios entre si para entender se devem optar por dados de uso gratuito para seus aplicativos de ML.

Benefícios

  • Os dados estão facilmente disponíveis para acesso. Devido à disponibilidade de dados, o custo de desenvolvimento do aplicativo é reduzido significativamente.
  • O tempo e o esforço gastos na coleta de dados para o aplicativo são significativamente reduzidos, pois o conjunto de dados está prontamente disponível.
  • Há uma abundância de fóruns da comunidade ou grupos de ajuda que ajudam a aprender, adaptar e otimizar o conjunto de dados.
  • Uma das principais vantagens do conjunto de dados de código aberto é que ele não impõe restrições à personalização.
  • Os dados de código aberto são acessíveis a uma grande parte da população, tornando possível a análise e a inovação sem barreiras monetárias.

Desafios

  • Os dados específicos do projeto são difíceis de adquirir. Além disso, existe a possibilidade de informações ausentes e uso incorreto dos dados disponíveis.
  • Adquirir dados proprietários leva tempo, esforço e é caro
  • Embora possa ser mais fácil adquirir dados, o custo do conhecimento e da análise pode superar a vantagem inicial.
  • Outros desenvolvedores também usam os mesmos dados para desenvolver aplicativos.
  • Esses conjuntos de dados são altamente vulneráveis ​​a violações de segurança, privacidade e consentimento.

Como a Shaip apoia projetos de OCR e reconhecimento de escrita manual?

Shaip's serviços de dados de treinamento OCR combine a curadoria de conjuntos de dados abertos com soluções personalizadas. coleta de dados Abrangendo mais de 60 idiomas, incluindo documentos impressos, manuscritos, recibos e documentos de identidade, os fluxos de trabalho de anotação do Shaip adicionam as camadas que os conjuntos de dados OCR públicos não incluem: caixas delimitadoras em nível de linha, rótulos em nível de campo, controle de qualidade da transcrição e metadados do autor.

Conclusão

Os 22 conjuntos de dados OCR acima fornecem uma base completa de código aberto para reconhecimento de documentos, textos em cenas, dígitos, escrita à mão e multilíngue até 2026. Comece com o conjunto de dados OCR que corresponde ao seu tipo de texto e ambiente de captura, valide-o com uma amostra reservada dos seus dados reais e reserve um orçamento para anotações personalizadas a fim de reduzir as lacunas de domínio. Essa combinação resulta em uma implementação mais rápida do que desenvolver tudo do zero.

O melhor conjunto de dados OCR gratuito depende da tarefa. O ICDAR Robust Reading é ideal para texto em cenas, o FUNSD e o SROIE para OCR de documentos e recibos, e o IAM para escrita à mão. Para reconhecimento de dígitos, o MNIST e o SVHN são padrões. A maioria das equipes combina dois ou três conjuntos de dados OCR em diferentes categorias, em vez de usar apenas um.

Nem todos os conjuntos de dados OCR de código aberto são gratuitos para uso comercial. MNIST, SVHN e COCO-Text usam licenças permissivas, enquanto IAM, conjuntos de dados ICDAR e conjuntos de dados históricos de escrita à mão geralmente exigem registro ou restringem o uso à pesquisa. Sempre revise a licença de cada conjunto de dados antes de treinar um modelo comercial.

Os conjuntos de dados OCR abrangem todo o reconhecimento de texto legível por máquina, incluindo documentos impressos, texto em cenas e dígitos, enquanto os conjuntos de dados de escrita à mão são o subconjunto focado em conteúdo manuscrito. Conjuntos de dados de escrita à mão, como IAM e Bentham, treinam modelos HTR, enquanto os conjuntos de dados OCR de documentos e texto em cenas lidam com texto impresso e em situações reais.

Os conjuntos de dados OCR multilíngues incluem o XFUND para formulários em sete idiomas, o CASIA-HWDB para chinês, o KHATT para árabe e o ICDAR MLT para texto de cena multilíngue. A combinação de conjuntos de dados OCR específicos para cada idioma com aumento de dados sintético geralmente supera o treinamento em qualquer conjunto de dados individual.

As necessidades de anotação personalizada dependem da distância entre seus documentos e os dados públicos. Formulários impressos limpos podem precisar de 1,000 a 5,000 amostras do domínio, enquanto caligrafia ilegível, recibos ou escritas raras geralmente precisam de 10,000 a 50,000. Os fluxos de trabalho de anotação da Shaip normalmente proporcionam um aumento de precisão de 15 a 30% em comparação com o treinamento de OCR usando apenas dados públicos.

Gostou deste artigo? Siga Shaip no LinkedIn para mais atualizações.

Ações Sociais