Conjunto de dados de idiomas árabe, tailandês, vietnamita, hindi, inglês e chinês

Caso de uso: OCR
Formato: Imagem
Contar: 150k
Anotação: Sim
Descrição: Conjunto de dados de idiomas árabe, tailandês, vietnamita, hindi, inglês e chinês
Conjunto de dados de texto em árabe

Caso de uso: OCR
Formato: Imagem
Contar: 1k
Anotação: Sim
Descrição: O Arabic Text Dataset contém uma coleção de amostras de texto escritas em árabe. Ele inclui várias formas de conteúdo, como artigos de notícias, postagens em mídias sociais, literatura e diálogo, abrangendo diferentes tópicos e estilos de escrita. Este conjunto de dados é usado para tarefas como processamento de linguagem natural (NLP), classificação de texto, análise de sentimento e tradução automática em aplicativos de idioma árabe.
Conjunto de dados de línguas chinesa, inglesa, tibetana e uigur

Caso de uso: OCR
Formato: Imagem
Contar: 38k
Anotação: Sim
Descrição: Conjunto de dados de línguas chinesa, inglesa, tibetana e uigur
Conjunto de dados de menu em chinês e inglês
Caso de uso: OCR
Formato: Imagem
Contar: 60k
Anotação: Sim
Descrição: O Chinese and English Menu Dataset contém imagens ou amostras de texto de menus de restaurantes que apresentam os idiomas chinês e inglês. Ele inclui várias fontes, layouts e estruturas de menu, apresentando nomes de pratos bilíngues, descrições e preços. Este conjunto de dados é útil para tarefas como reconhecimento óptico de caracteres (OCR), tradução automática e digitalização de menu em configurações multilíngues.
Conjunto de dados de composição manuscrita chinesa

Caso de uso: OCR
Formato: Imagem
Contar: 3k
Anotação: Sim
Descrição: O Chinese Handwritten Composition Dataset contém amostras de texto chinês manuscrito, incluindo composições, ensaios e outros textos longos. Ele apresenta vários estilos de caligrafia e níveis de complexidade, e é usado para tarefas como reconhecimento de caligrafia, análise de texto e treinamento de modelo de aprendizado de máquina.
Conjunto de dados de prompt de WIFI chinês

Caso de uso: OCR
Formato: Imagem
Contar: 1k
Anotação: Sim
Descrição: O Chinese WIFI Prompt Dataset consiste em amostras de texto encontradas em prompts de WIFI e telas de login escritas em chinês. Ele normalmente inclui vários prompts, instruções e mensagens de erro relacionadas à conexão ou gerenciamento de redes WIFI. Este conjunto de dados é usado para tarefas como reconhecimento de texto, processamento de linguagem natural e melhoria de interfaces de usuário para conectividade de rede.
Conjunto de dados de caligrafia em inglês e chinês

Caso de uso: OCR
Formato: Imagem
Contar: 12k
Anotação: Sim
Descrição: O English & Chinese Handwriting Dataset contém amostras manuscritas em inglês e chinês, mostrando vários estilos de escrita e complexidades de caracteres. Ele é normalmente usado para treinar e avaliar modelos de reconhecimento de caligrafia, dando suporte à análise de texto multilíngue e outras pesquisas relacionadas. O conjunto de dados inclui uma gama diversificada de caracteres, dígitos, palavras e frases em ambos os idiomas.
Conjunto de dados Shopsign em inglês e chinês

Caso de uso: OCR
Formato: Imagem
Contar: 30k
Anotação: Sim
Descrição: O conjunto de dados de sinalização de lojas em inglês e chinês inclui imagens de placas de lojas que apresentam texto em inglês e chinês. Ele captura vários elementos de sinalização, como nomes de lojas, anúncios, promoções e direções, exibidos em diversas fontes, estilos e formatos. Este conjunto de dados é usado para tarefas como detecção e reconhecimento de texto, compreensão de cenas multilíngues e aprimoramento de modelos de visão computacional para interpretação de sinalização bilíngue.
Conjunto de dados de texto de ângulo especial em inglês e chinês

Caso de uso: OCR
Formato: Imagem
Contar: 50k
Anotação: Sim
Descrição: O English & Chinese Special Angle Text Dataset contém imagens de texto exibidas em vários ângulos e orientações em inglês e chinês. Ele inclui texto de fontes como placas, anúncios e documentos que não são apresentados em formatos horizontais padrão. Este conjunto de dados é usado para treinar e avaliar modelos de detecção e reconhecimento de texto, particularmente aqueles capazes de lidar com texto em orientações e perspectivas não tradicionais.
Conjunto de dados do menu em inglês

Caso de uso: OCR
Formato: Imagem
Contar: 20k
Anotação: Sim
Descrição: O English Menu Dataset inclui imagens ou amostras de texto de menus de restaurantes escritos em inglês. Ele apresenta uma variedade de fontes, layouts e estilos de formatação, com conteúdo que varia de nomes de pratos a descrições e preços. Este conjunto de dados é frequentemente usado para tarefas como reconhecimento óptico de caracteres (OCR), extração de texto e digitalização de menus em aplicativos relacionados a alimentos.
Conjunto de dados de cenas em inglês

Caso de uso: OCR
Formato: Imagem
Contar: 33k
Anotação: Sim
Descrição: O English Scenes Text Dataset consiste em imagens contendo cenas naturais com texto em inglês incorporado. O texto aparece em várias formas, como placas, outdoors e pôsteres, geralmente em diversas fontes, tamanhos e orientações. Este conjunto de dados é comumente usado para treinar e testar modelos em tarefas de detecção de texto, reconhecimento e compreensão de cena.
Conjunto de dados de texto manuscrito

Caso de uso: Documento AI
Formato: HEIC (imagens) e .mov (vídeos)
Contar: 94053
Anotação: Não
Descrição: Live Photos com texto manuscrito para japonês, coreano e russo
Dispositivo de gravação: Câmera do iPhone e iPad
Condição de Gravação: - Iluminação/brilho agressivo - Flash da câmera ligado - Luz colorida - Pouca luz, sem flash da câmera - Normal
Conjunto de dados de idiomas japonês e coreano

Caso de uso: OCR
Formato: Imagem
Contar: 40k
Anotação: Sim
Descrição: O Conjunto de Dados de Língua Japonesa e Coreana inclui amostras de texto em japonês e coreano. Ele apresenta uma variedade de conteúdo, como sentenças, expressões e palavras, abrangendo vários contextos e estilos. Este conjunto de dados é usado para tarefas como processamento de linguagem natural (NLP), tradução automática e análise de texto em aplicativos multilíngues.
Conjunto de dados de texto regular/cursivo impresso (documento AI)

Caso de uso: Documento AI
Formato: HEIC (imagens) e .mov (vídeos)
Contar: 23930
Anotação: Não
Descrição: Live Photos com texto manuscrito para japonês, coreano e russo
Dispositivo de gravação: Câmera do iPhone e iPad
Condição de Gravação: - Iluminação/brilho agressivo - Flash da câmera ligado - Luz colorida - Pouca luz, sem flash da câmera - Normal
Texto + Audiovisual (Multilíngue/OCR/PNL) – Livros, Periódicos, Áudio+Texto
Caso de uso: Texto + Audiovisual (Multilíngue / OCR / PNL)
Formato: Vídeos
Contar: Mais de 100 mil vídeos de palestras + vídeos de formato longo em PPT
Anotação: Não
Descrição: Livros em chinês, livros em inglês, periódicos, políticas públicas, romances, crianças, áudio e texto em cantonês, vídeo de palestra e PPT, vídeo de formato longo Meio bilhão de livros, pares de perguntas e respostas, artigos

