RAG vs. Ajuste fino

RAG vs. Fine-Tuning: Qual é o mais adequado para o seu LLM?

Large Language Models (LLMs) como GPT-4 e Llama 3 afetaram o cenário da IA ​​e fizeram maravilhas que vão do atendimento ao cliente à geração de conteúdo. No entanto, adaptar esses modelos para necessidades específicas geralmente significa escolher entre duas técnicas poderosas: Retrieval-Augmented Generation (RAG) e fine-tuning.

Embora ambas as abordagens aprimorem os LLMs, elas são articuladas em relação a objetivos diferentes e são bem-sucedidas em situações diferentes. Vamos estudar esses dois métodos em detalhes, vantagens e desvantagens, e como alguém pode selecionar um para sua necessidade.

Geração Aumentada de Recuperação (RAG) - O que é?

O que é RAG?

RAG é uma abordagem que sinergiza a generativa capacidades dos LLMs com recuperação para respostas contextualmente precisas. Em vez de usar apenas o conhecimento testado, o RAG busca informações relevantes por meio de bancos de dados externos ou repositórios de conhecimento para infundir as informações no processo de geração de respostas.

Como funciona o RAG

Como funciona o RAG

  1. Modelo de incorporação: Incorpora os documentos e as consultas no espaço vetorial para tornar a comparação mais eficiente.
  2. Retriever: Consulta uma base de conhecimento por meio de incorporações para obter documentos relevantes.
  3. Reclassificação: Pontua os documentos recuperados de acordo com sua relevância.
  4. Modelo de linguagem: Mescla os dados recuperados com as consultas de um usuário em uma resposta.

Vantagens do RAG

  • Atualizações dinâmicas de conhecimento: Fornece uma quantidade eficiente de informações com processos de atualização bastante reduzidos por meio do processo de retreinamento do modelo.
  • Redução de Alucinação: Ao fundamentar adequadamente as respostas em conhecimento externo, o RAG minimiza imprecisões factuais.
  • Escalabilidade: Pode ser facilmente incorporado em conjuntos de dados grandes e diversos, permitindo assim opções para tarefas úteis, dinâmicas e abertas, como agentes de clientes e resumo de notícias.

Limitações do RAG

  • latência: A própria atenção na extração de informações atrasa o tempo de saída, o que resulta em maior latência e a torna irrelevante para ambientes de trabalho em tempo real.
  • Qualidade da Base de Conhecimento: A confiabilidade na recuperação e relevância do conhecimento externo se torna importante, pois as respostas dependem exclusivamente dessas fontes.

Ajuste fino - O que é?

O que é ajuste fino?

O ajuste fino é um processo de retreinamento de um LLM pré-treinado em um conjunto de dados de domínio específico na preparação da execução de tarefas especializadas, permitindo que o modelo entenda completamente os padrões diferenciados existentes dentro do limite de um determinado contexto.

Como funciona o ajuste fino

Como funciona o ajuste fino

  • Preparação de dados: Conjuntos de dados específicos de tarefas terão que ser limpos e separados em subconjuntos de treinamento, validação e teste.
  • Treinamento do modelo: O LLM terá que treinar esse conjunto de dados com métodos que incluem retropropagação e descida de gradiente.
  • Conteúdo do ajuste de hiperparâmetros: Fornece ajuste fino em alguns dos conteúdos críticos de hiperparâmetros, como tamanho do lote e taxa de aprendizado, entre outros.

Vantagens do ajuste fino

  • Personalização: Permite autoridades sobre as ações, o tom e o estilo do modelo nas saídas.
  • Eficiência na Inferência: Quando um LLM é ajustado, ele produz respostas rápidas sem qualquer processo de recuperação externo.
  • Conjunto de habilidades especializadas: Mais adequado para aplicações que exigem qualidade e precisão em domínios bem compreendidos, como congelamento, avaliações médicas e análise de contratos.

Contras do ajuste fino

  • Intensivo em recursos: Requer grande poder computacional e dados rotulados de alta qualidade.
  • Esquecimento catastrófico: O ajuste fino tende a substituir o conhecimento genérico adquirido anteriormente e, assim, limitar seu potencial para atender a novas tarefas.
  • Base de conhecimento estática: Uma vez concluído o treinamento, seu conhecimento permanece intacto, a menos que seja reaprendido com novos dados adicionais.

Principais diferenças entre RAG e ajuste fino

CaracterísticaGeração Aumentada de Recuperação
(RAG)
Afinação
Fonte de conhecimento
Bancos de dados externos (dinâmicos)Internalizado durante o treinamento (estático)
Adaptabilidade a novos dadosAlto; atualizações por meio de fontes externasBaixo; requer reciclagem
LatênciaMaior devido às etapas de recuperaçãoBaixo; geração de resposta direta
CustomizaçãoLimitado; depende de dados externosAlto; adaptado para tarefas específicas
GlobalFácil de escalar com grandes conjuntos de dadosIntensivo em recursos em escala
Exemplos de casos de usoPerguntas e respostas em tempo real, verificação de fatosAnálise de sentimentos, tarefas específicas de domínio

Quando escolher RAG vs. Fine-Tuning

Área de aplicação que necessita de informações em tempo real 

Se o aplicativo precisa de conhecimento atualizado e em tempo real, então o RAG deve ser usado: sistemas de resumo de notícias e suporte ao cliente que contam com dados que mudam rapidamente. Exemplo: Assistente virtual buscando atualizações ao vivo, como preços de ações e dados meteorológicos.

Especialização em Domínios

Quando o ajuste fino é necessário para a precisão de um domínio estreito, pode-se optar pelo ajuste fino nas áreas de revisão de documentos legais e análise de texto médico. Exemplo: Um modelo ajustado fino treinado em literatura médica para uso no diagnóstico de condições com base em notas de pacientes.

Escala

O RAG é proeminente com escalonamento para consultas abertas em nosso espaço, buscando as descobertas de diferentes bases de conhecimento dinamicamente. Exemplo: Um mecanismo de busca com respostas de casos reais fornecendo comentários multissetoriais sem retreinamento.

Disponibilidade de recursos

O ajuste fino pode ser uma opção geral melhor para casos de uso de menor escala, onde um conjunto de dados estáticos seria suficiente. Exemplo: Um bot treinado em um conjunto de FAQs usado internamente por uma empresa.

Tendências emergentes

  1. Abordagens Híbridas: Combinando RAG com minimização, o melhor dos dois mundos. Por exemplo:
    • RAG para recuperar contexto dinâmico enquanto ajusta o modelo de linguagem em nuances específicas da tarefa. Exemplo: assistentes jurídicos acessando leis de casos enquanto as resumem de forma coerente.
  2. Ajuste fino com eficiência de parâmetros (PEFT): LoRA (adaptação de baixa classificação) auxilia no esforço de minimizar atualizações de parâmetros durante o ajuste fino, resultando em esforços de computação muito limitados e, ao mesmo tempo, fornecendo precisões máximas.
  3. RAG multimodal: Avanços futuros adotarão uma visão combinada dos sistemas RAG, combinando texto, imagens e áudio para uma interação rica em diferentes mídias.
  4. Aprendizado por reforço em RAG: O aprendizado por reforço pode ajudar a otimizar estratégias de recuperação recompensando os modelos para gerar resultados mais relevantes e significativos.

[Leia também: Revolucionando a IA com modelos de linguagem multimodais grandes (MLLMs)]

Exemplos do mundo real de

RAGAfinação
Assistentes virtuais como Siri e Alexa recuperam informações ao vivo.Modelos de análise de sentimentos são eventualmente destinados ao monitoramento de mídias sociais.
Ferramentas de suporte ao cliente que categorizam tickets usando dados históricos e perguntas frequentes.IA jurídica treinada em jurisprudência baseada em jurisdição.
Ferramentas de pesquisa recuperam artigos de periódicos acadêmicos em tempo real para fornecer determinados insights.Modelos de tradução que podem ser ajustados para pares de idiomas específicos do setor.

Conclusão

Tanto o RAG quanto o ajuste fino são técnicas poderosas definidas para resolver diferentes desafios na otimização de LLMs. Opte por RAG quando a atenção à avaliação, dimensionamento e recuperação em tempo real é primordial, e, em contraste, o ajuste fino quando precisão, personalização e especialização orientadas à tarefa são essenciais.

Ações Sociais