Definição
A coleta de dados de texto é o processo de reunir linguagem escrita de fontes como livros, sites ou registros de bate-papo para uso em treinamento de IA.
Propósito
O objetivo é criar corpora para desenvolvimento de PNL e LLM.
Importância
- Fornece matéria-prima para modelos de linguagem.
- Levanta questões de direitos autorais e licenciamento.
- A diversidade de dados influencia a justiça e a precisão.
- Deve filtrar conteúdo prejudicial ou irrelevante.
Como Funciona
- Identificar fontes de texto (web, documentos, transcrições).
- Rastrear ou extrair texto com permissão.
- Limpe e normalize o conteúdo.
- Armazene com metadados para rastreabilidade.
- Use no pré-treinamento ou no ajuste fino.
Exemplos (mundo real)
- Rastreamento comum: grande corpus da web.
- Wikipédia dumps: conjunto de dados de texto estruturado.
- BooksCorpus: usado para treinamento de BERT.
Referências/Leituras Adicionais
- Fundação Common Crawl.
- Jurafsky & Martin. Processamento de Fala e Linguagem.
- ISO/IEC TR 20547-5: Arquitetura de referência de Big Data.
- Coleta de dados de texto específica do caso