Definição
Aprendizado por Reforço a partir de Feedback Humano (RLHF) é um método para alinhar modelos de IA com valores humanos, incorporando julgamentos humanos ao processo de treinamento. É frequentemente usado para ajustar modelos de linguagem de grande porte.
Propósito
O objetivo é tornar os resultados da IA mais seguros, úteis e alinhados às preferências humanas. O RLHF aprimora os sistemas de conversação reduzindo respostas prejudiciais, tendenciosas ou irrelevantes.
Importância
- Fornece supervisão humana no treinamento de IA.
- Melhora a confiabilidade dos sistemas de IA.
- Exige muito trabalho devido às necessidades de anotação humana.
- Relacionado à modelagem de preferências e pesquisa de alinhamento.
Como Funciona
- Colete feedback humano comparando saídas do modelo.
- Treine um modelo de recompensa nas preferências humanas.
- Use o aprendizado de reforço para ajustar o modelo base.
- Avalie o desempenho em relação às metas de alinhamento.
- Repita com feedback adicional.
Exemplos (mundo real)
- OpenAI ChatGPT: ajustado com RLHF para respostas mais seguras.
- IA constitucional da Anthropic: guiada por princípios em vez de feedback direto.
- InstructGPT: modelo inicial do OpenAI demonstrando RLHF.
Referências/Leituras Adicionais
- Christiano et al. “Aprendizagem por Reforço Profundo a partir de Preferências Humanas”. NeurIPS 2017.
- Artigo do OpenAI InstructGPT.
- Estrutura de gerenciamento de riscos de IA do NIST.
- O que é Aprendizagem por Reforço com Feedback Humano (RLHF)?