Nova solução permite que chatbots mantenham conversas contínuas sem colapsar, diz estudo do MIT

Picture of Maurício "o Estagiario"

Maurício "o Estagiario"

Textos otimizado com nossa IA

Published on maio 10, 2024, 11:15 pm

Quando uma conversa entre um humano e uma IA envolve muitas rodadas de diálogo contínuo, os modelos poderosos de aprendizado de máquina em linguagem natural que impulsionam chatbots como o ChatGPT às vezes começam a colapsar, fazendo com que o desempenho dos bots se deteriore rapidamente.

Uma equipe de pesquisadores do MIT e de outros lugares identificou uma causa surpreendente desse problema e desenvolveu uma solução simples que permite a um chatbot manter uma conversa contínua sem travar ou diminuir a velocidade.

O método envolve um ajuste no cache chave-valor (que é como uma memória da conversa) presente no núcleo de muitos modelos grandes de linguagem. Em alguns métodos, quando esse cache precisa armazenar mais informações do que tem capacidade, as primeiras partes dos dados são descartadas. Isso pode fazer com que o modelo falhe.

Ao garantir que esses primeiros pontos de dados permaneçam na memória, o método dos pesquisadores permite que um chatbot continue conversando independentemente da duração da conversa.

O método, chamado StreamingLLM, permite que um modelo permaneça eficiente mesmo quando uma conversa se estende por mais de 4 milhões de palavras. Comparado a outro método que evita falhas ao recomputar constantemente parte das conversas anteriores, o StreamingLLM foi mais de 22 vezes mais rápido.

Isso poderia permitir que um chatbot conduza longas conversas ao longo do dia de trabalho sem precisar reiniciar continuamente, possibilitando assistentes virtuais eficientes para tarefas como redação, edição ou geração de código.

“Agora, com esse método, podemos implantar constantemente esses modelos grandes de linguagem. Ao criar um chatbot com o qual sempre podemos conversar e que pode sempre nos responder com base em nossas conversas recentes, podemos usar esses chatbots em novos aplicativos”, diz Guangxuan Xiao, estudante de pós-graduação em engenharia elétrica e ciência da computação (EECS) e autor principal de um artigo sobre o StreamingLLM.

Os coautores de Xiao incluem seu orientador, Song Han, professor associado na EECS, membro do MIT-IBM Watson AI Lab e cientista distinto da NVIDIA; Yuandong Tian, cientista de pesquisa do Meta AI; Beidi Chen, professor assistente na Universidade Carnegie Mellon; e Mike Lewis, cientista de pesquisa do Meta AI. O trabalho será apresentado na Conferência Internacional sobre Representações de Aprendizado.

Um fenômeno intrigante

Os modelos grandes de linguagem codificam dados, como palavras em uma consulta do usuário, em representações chamadas tokens. Muitos modelos utilizam o que é conhecido como mecanismo de atenção que utiliza esses tokens para gerar novo texto.

Normalmente, um chatbot escreve novo texto baseado no texto que acabou de ver e armazena os tokens recentes na memória, chamada KV Cache (memória chave-valor), para uso posterior. O mecanismo de atenção cria uma grade que inclui todos os tokens no cache, um “mapa de atenção” que mapeia o quanto cada token ou palavra se relaciona com cada outro token.

Entender essas relações é uma das características que permite aos modelos grandes de linguagem gerarem textos semelhantes aos escritos por seres humanos.

No entanto, quando o cache fica muito grande, o mapa de atenção pode se tornar ainda mais massivo, o que desacelera a computação.

Além disso, se a codificação do conteúdo exigir mais tokens do que o cache pode armazenar, o desempenho do modelo cai. Por exemplo, um modelo popular pode armazenar 4.096 tokens, mas há cerca de 10.000 tokens em um artigo acadêmico.

Para contornar esses problemas, os pesquisadores utilizam um “cache deslizante” que descarta os tokens mais antigos para adicionar novos tokens. No entanto, o desempenho do modelo frequentemente cai assim que o primeiro token é removido, reduzindo rapidamente a qualidade das palavras recém-geradas.

Neste novo artigo, os pesquisadores perceberam que se mantivessem o primeiro token no cache deslizante, o modelo manteria seu desempenho mesmo quando o tamanho

Compartilhe

Facebook
Twitter
LinkedIn
WhatsApp
Email
Print

Leia mais sobre este assunto:

Conteudize