“StreamingLLM: um método simples para melhorar o desempenho de chatbots em conversas longas”

Picture of Maurício "o Estagiario"

Maurício "o Estagiario"

Textos otimizado com nossa IA

Published on maio 2, 2024, 8:14 am

Quando uma conversa entre humanos e IA envolve muitas rodadas de diálogo contínuo, os potentes modelos de aprendizado de máquina em larga escala que impulsionam chatbots como o ChatGPT às vezes começam a falhar, fazendo com que o desempenho dos bots se deteriore rapidamente.

No entanto, um grupo de pesquisadores do MIT e outros lugares identificou uma causa surpreendente desse problema e desenvolveu uma solução simples que permite que um chatbot mantenha uma conversa sem interrupções, sem travar ou desacelerar.

A estratégia adotada por eles envolve um ajuste no cache chave-valor (que funciona como uma memória de conversação) presente em muitos modelos de linguagem em larga escala. Em alguns métodos, quando esse cache precisa armazenar mais informações do que suporta, as primeiras peças de dados são descartadas. Isso pode fazer com que o modelo falhe.

Garantindo que esses primeiros poucos pontos de dados permaneçam na memória, o método dos pesquisadores permite que um chatbot continue conversando independentemente da duração da conversa.

O método chamado StreamingLLM permite que um modelo seja eficiente mesmo quando a conversa ultrapassa 4 milhões de palavras. Quando comparado a outro método que evita falhas ao recomputar constantemente parte das conversas anteriores, o StreamingLLM foi mais de 22 vezes mais rápido.

Isso poderia permitir a um chatbot conduzir longas conversas ao longo do dia de trabalho sem precisar ser reiniciado continuamente, possibilitando assistentes virtuais eficientes para tarefas como redação, edição ou geração de código.

“Agora, com este método, podemos implantar persistentemente esses modelos de linguagem em larga escala. Ao criar um chatbot com o qual sempre possamos conversar e que possa sempre nos responder com base nas nossas conversas recentes, poderíamos usar esses chatbots em novas aplicações”, diz Guangxuan Xiao, estudante de pós-graduação em engenharia elétrica e ciência da computação do MIT e autor principal de um artigo sobre o StreamingLLM.

Os coautores do Xiao incluem seu orientador, Song Han, professor associado do departamento de engenharia elétrica e ciência da computação (EECS) e membro do MIT-IBM Watson AI Lab e cientista distinto da NVIDIA; Yuandong Tian, cientista pesquisador na Meta AI; Beidi Chen, professora assistente na Universidade Carnegie Mellon; e Mike Lewis, cientista pesquisador na Meta AI. O trabalho será apresentado na Conferência Internacional de Representações de Aprendizado.

**Um fenômeno intrigante**

Modelos de linguagem em larga escala codificam dados, como palavras em uma consulta do usuário, em representações chamadas tokens. Muitos modelos utilizam o que é conhecido como mecanismo de atenção para gerar novo texto com base nesses tokens.

Normalmente, um chatbot IA escreve novo texto com base no texto que acabou de ver. Por isso armazena os tokens recentes na memória – denominada Cache KV – para uso posterior. O mecanismo de atenção cria uma grade que inclui todos os tokens no cache, um “mapa de atenção” que mostra a relação entre cada token ou palavra.

Entender essas relações é uma das características que permitem que os modelos de linguagem em larga escala gerem texto semelhante ao humano.

No entanto, quando o cache fica muito grande, o mapa de atenção pode ficar ainda maior, o que reduz a velocidade de processamento.

Além disso, se a codificação exigir mais tokens do que o cache pode armazenar, o desempenho do modelo diminui. Por exemplo, um modelo popular pode armazenar 4.096 tokens, mas um artigo acadêmico tem cerca de 10.000 tokens.

Para contornar esses problemas, os pesquisadores utilizam um “cache deslizante” que descarta os tokens mais antigos para adicionar novos tokens. No entanto, o desempenho do modelo geralmente cai assim que esse primeiro token é descartado e as palavras recentemente geradas perdem qualidade rapidamente.

Neste novo artigo, os pesquisadores perceberam que manter o primeiro token no cache desliz

Compartilhe

Facebook
Twitter
LinkedIn
WhatsApp
Email
Print

Leia mais sobre este assunto:

Conteudize