Definição
Tokenização é o processo de dividir texto em unidades menores (tokens), como palavras, subpalavras ou caracteres, que servem como entradas para modelos de linguagem.
Propósito
O objetivo é padronizar o texto em componentes gerenciáveis para treinamento e inferência em LLMs.
Importância
- Etapa fundamental de pré-processamento em PNL.
- Impacta o tamanho e a eficiência do vocabulário.
- As escolhas de tokenização afetam a precisão e o desempenho.
- Relacionado a embeddings e treinamento de modelos.
Como Funciona
- Defina o esquema de tokenização (palavra, subpalavra, caractere).
- Aplique o tokenizador ao texto de entrada.
- Mapear tokens para IDs numéricos.
- Insira tokens no modelo para processamento.
- Converta tokens de saída de volta para texto.
Exemplos (mundo real)
- Codificação de pares de bytes (BPE) usada em modelos GPT.
- WordPiece usado em BERT.
- SentencePiece usado em PNL multilíngue.
Referências/Leituras Adicionais
- Sennrich et al. “Tradução Automática Neural de Palavras Raras com Unidades de Subpalavra”. ACL.
- Documentação do Google SentencePiece.
- Jurafsky & Martin. Processamento de Fala e Linguagem.