Large Language Models (LLMs) como GPT-4 e Llama 3 afetaram o cenário da IA e fizeram maravilhas que vão do atendimento ao cliente à geração de conteúdo. No entanto, adaptar esses modelos para necessidades específicas geralmente significa escolher entre duas técnicas poderosas: Retrieval-Augmented Generation (RAG) e fine-tuning.
Embora ambas as abordagens aprimorem os LLMs, elas são articuladas em relação a objetivos diferentes e são bem-sucedidas em situações diferentes. Vamos estudar esses dois métodos em detalhes, vantagens e desvantagens, e como alguém pode selecionar um para sua necessidade.
Geração Aumentada de Recuperação (RAG) - O que é?

RAG é uma abordagem que sinergiza a generativa capacidades dos LLMs com recuperação para respostas contextualmente precisas. Em vez de usar apenas o conhecimento testado, o RAG busca informações relevantes por meio de bancos de dados externos ou repositórios de conhecimento para infundir as informações no processo de geração de respostas.
Como funciona o RAG

- Modelo de incorporação: Incorpora os documentos e as consultas no espaço vetorial para tornar a comparação mais eficiente.
- Retriever: Consulta uma base de conhecimento por meio de incorporações para obter documentos relevantes.
- Reclassificação: Pontua os documentos recuperados de acordo com sua relevância.
- Modelo de linguagem: Mescla os dados recuperados com as consultas de um usuário em uma resposta.
Vantagens do RAG
- Atualizações dinâmicas de conhecimento: Fornece uma quantidade eficiente de informações com processos de atualização bastante reduzidos por meio do processo de retreinamento do modelo.
- Redução de Alucinação: Ao fundamentar adequadamente as respostas em conhecimento externo, o RAG minimiza imprecisões factuais.
- Escalabilidade: Pode ser facilmente incorporado em conjuntos de dados grandes e diversos, permitindo assim opções para tarefas úteis, dinâmicas e abertas, como agentes de clientes e resumo de notícias.
Limitações do RAG
- latência: A própria atenção na extração de informações atrasa o tempo de saída, o que resulta em maior latência e a torna irrelevante para ambientes de trabalho em tempo real.
- Qualidade da Base de Conhecimento: A confiabilidade na recuperação e relevância do conhecimento externo se torna importante, pois as respostas dependem exclusivamente dessas fontes.
Ajuste fino - O que é?

O ajuste fino é um processo de retreinamento de um LLM pré-treinado em um conjunto de dados de domínio específico na preparação da execução de tarefas especializadas, permitindo que o modelo entenda completamente os padrões diferenciados existentes dentro do limite de um determinado contexto.
Como funciona o ajuste fino

- Preparação de dados: Conjuntos de dados específicos de tarefas terão que ser limpos e separados em subconjuntos de treinamento, validação e teste.
- Treinamento do modelo: O LLM terá que treinar esse conjunto de dados com métodos que incluem retropropagação e descida de gradiente.
- Conteúdo do ajuste de hiperparâmetros: Fornece ajuste fino em alguns dos conteúdos críticos de hiperparâmetros, como tamanho do lote e taxa de aprendizado, entre outros.
Vantagens do ajuste fino
- Personalização: Permite autoridades sobre as ações, o tom e o estilo do modelo nas saídas.
- Eficiência na Inferência: Quando um LLM é ajustado, ele produz respostas rápidas sem qualquer processo de recuperação externo.
- Conjunto de habilidades especializadas: Mais adequado para aplicações que exigem qualidade e precisão em domínios bem compreendidos, como congelamento, avaliações médicas e análise de contratos.
Contras do ajuste fino
- Intensivo em recursos: Requer grande poder computacional e dados rotulados de alta qualidade.
- Esquecimento catastrófico: O ajuste fino tende a substituir o conhecimento genérico adquirido anteriormente e, assim, limitar seu potencial para atender a novas tarefas.
- Base de conhecimento estática: Uma vez concluído o treinamento, seu conhecimento permanece intacto, a menos que seja reaprendido com novos dados adicionais.
Principais diferenças entre RAG e ajuste fino
| Característica | Geração Aumentada de Recuperação (RAG) | Afinação |
|---|---|---|
| Fonte de conhecimento | Bancos de dados externos (dinâmicos) | Internalizado durante o treinamento (estático) |
| Adaptabilidade a novos dados | Alto; atualizações por meio de fontes externas | Baixo; requer reciclagem |
| Latência | Maior devido às etapas de recuperação | Baixo; geração de resposta direta |
| Customização | Limitado; depende de dados externos | Alto; adaptado para tarefas específicas |
| Global | Fácil de escalar com grandes conjuntos de dados | Intensivo em recursos em escala |
| Exemplos de casos de uso | Perguntas e respostas em tempo real, verificação de fatos | Análise de sentimentos, tarefas específicas de domínio |
Quando escolher RAG vs. Fine-Tuning
Área de aplicação que necessita de informações em tempo real
Se o aplicativo precisa de conhecimento atualizado e em tempo real, então o RAG deve ser usado: sistemas de resumo de notícias e suporte ao cliente que contam com dados que mudam rapidamente. Exemplo: Assistente virtual buscando atualizações ao vivo, como preços de ações e dados meteorológicos.
Especialização em Domínios
Quando o ajuste fino é necessário para a precisão de um domínio estreito, pode-se optar pelo ajuste fino nas áreas de revisão de documentos legais e análise de texto médico. Exemplo: Um modelo ajustado fino treinado em literatura médica para uso no diagnóstico de condições com base em notas de pacientes.
Escala
O RAG é proeminente com escalonamento para consultas abertas em nosso espaço, buscando as descobertas de diferentes bases de conhecimento dinamicamente. Exemplo: Um mecanismo de busca com respostas de casos reais fornecendo comentários multissetoriais sem retreinamento.
Disponibilidade de recursos
O ajuste fino pode ser uma opção geral melhor para casos de uso de menor escala, onde um conjunto de dados estáticos seria suficiente. Exemplo: Um bot treinado em um conjunto de FAQs usado internamente por uma empresa.
Tendências emergentes
- Abordagens Híbridas: Combinando RAG com minimização, o melhor dos dois mundos. Por exemplo:
- RAG para recuperar contexto dinâmico enquanto ajusta o modelo de linguagem em nuances específicas da tarefa. Exemplo: assistentes jurídicos acessando leis de casos enquanto as resumem de forma coerente.
- Ajuste fino com eficiência de parâmetros (PEFT): LoRA (adaptação de baixa classificação) auxilia no esforço de minimizar atualizações de parâmetros durante o ajuste fino, resultando em esforços de computação muito limitados e, ao mesmo tempo, fornecendo precisões máximas.
- RAG multimodal: Avanços futuros adotarão uma visão combinada dos sistemas RAG, combinando texto, imagens e áudio para uma interação rica em diferentes mídias.
- Aprendizado por reforço em RAG: O aprendizado por reforço pode ajudar a otimizar estratégias de recuperação recompensando os modelos para gerar resultados mais relevantes e significativos.
[Leia também: Revolucionando a IA com modelos de linguagem multimodais grandes (MLLMs)]
Exemplos do mundo real de
| RAG | Afinação |
|---|---|
| Assistentes virtuais como Siri e Alexa recuperam informações ao vivo. | Modelos de análise de sentimentos são eventualmente destinados ao monitoramento de mídias sociais. |
| Ferramentas de suporte ao cliente que categorizam tickets usando dados históricos e perguntas frequentes. | IA jurídica treinada em jurisprudência baseada em jurisdição. |
| Ferramentas de pesquisa recuperam artigos de periódicos acadêmicos em tempo real para fornecer determinados insights. | Modelos de tradução que podem ser ajustados para pares de idiomas específicos do setor. |
Conclusão
Tanto o RAG quanto o ajuste fino são técnicas poderosas definidas para resolver diferentes desafios na otimização de LLMs. Opte por RAG quando a atenção à avaliação, dimensionamento e recuperação em tempo real é primordial, e, em contraste, o ajuste fino quando precisão, personalização e especialização orientadas à tarefa são essenciais.