Novo método permite que chatbots mantenham conversas longas sem travamentos

Picture of Maurício "o Estagiario"

Maurício "o Estagiario"

Textos otimizado com nossa IA

Published on maio 11, 2024, 11:14 pm

Quando uma conversa entre humano e IA envolve muitas rodadas de diálogo contínuo, os poderosos modelos de aprendizado de máquina de linguagem grande que alimentam chatbots como o ChatGPT às vezes começam a colapsar, fazendo com que o desempenho dos bots se deteriore rapidamente.

Uma equipe de pesquisadores do MIT e outros locais identificou uma causa surpreendente desse problema e desenvolveu uma solução simples que permite que um chatbot mantenha uma conversa ininterrupta sem travar ou desacelerar.

O método deles envolve um ajuste no cache chave-valor (que é como uma memória da conversa) no cerne de muitos modelos grandes de linguagem. Em alguns métodos, quando esse cache precisa armazenar mais informações do que sua capacidade permite, os primeiros dados são removidos. Isso pode fazer com que o modelo falhe.

Ao garantir que esses primeiros poucos pontos de dados permaneçam na memória, o método dos pesquisadores permite que um chatbot continue conversando não importa quanto tempo a conversa dure.

O método, chamado StreamingLLM, permite que um modelo permaneça eficiente mesmo quando uma conversa se estende por mais de 4 milhões de palavras. Comparado a outro método que evita falhas ao recomputar constantemente parte das conversas anteriores, o StreamingLLM foi mais de 22 vezes mais rápido.

Isso poderia permitir que um chatbot conduza conversas longas durante todo o expediente sem precisar ser reiniciado continuamente, possibilitando assistentes de IA eficientes para tarefas como redação, edição ou geração de código.

“Agora, com esse método, nós podemos implantar persistentemente esses grandes modelos de linguagem. Ao criar um chatbot com o qual possamos sempre conversar e que possa sempre nos responder com base em nossas conversas recentes, poderíamos usar esses chatbots em novas aplicações”, diz Guangxuan Xiao, aluno de pós-graduação em engenharia elétrica e ciência da computação (EECS) e autor principal do artigo sobre o StreamingLLM.

Os coautores de Xiao incluem seu orientador, Song Han, professor associado em EECS, membro do MIT-IBM Watson AI Lab e cientista distinto da NVIDIA; assim como Yuandong Tian, cientista pesquisador na Meta AI; Beidi Chen, professor assistente na Carnegie Mellon University; e Mike Lewis, autor sênior e cientista pesquisador na Meta AI. O trabalho será apresentado na Conferência Internacional sobre Representações de Aprendizado.

Um Fenômeno Curioso

Modelos de linguagem grande codificam dados, como palavras em uma consulta do usuário, em representações chamadas tokens. Muitos modelos utilizam o que é conhecido como mecanismo de atenção que usa esses tokens para gerar novo texto.

Normalmente, um chatbot de IA escreve novo texto com base no texto que acabou de ver. Portanto, ele armazena tokens recentes na memória chamada cache KV para uso posterior. O mecanismo de atenção cria uma grade que inclui todos os tokens no cache – um “mapa de atenção” que mapeia quão fortemente cada token ou palavra se relaciona com os outros tokens.

Compreender essas relações é uma das características que permitem a modelos grandes de linguagem gerarem texto semelhante ao humano.

Mas quando o cache fica muito grande, o mapa de atenção pode ficar ainda maior, o que diminui a velocidade do processamento.

Além disso, se a codificação do conteúdo exigir mais tokens do que o cache pode armazenar, o desempenho do modelo diminui. Por exemplo, um modelo popular pode armazenar 4.096 tokens, mas há cerca de 10.000 tokens em um artigo acadêmico.

Para contornar esses problemas, os pesquisadores utilizam um “cache deslizante” que remove os tokens mais antigos para adicionar novos tokens. No entanto, frequentemente o desempenho do modelo cai assim que o primeiro token é removido, reduzindo rapidamente a qualidade das palavras recém-geradas.

Neste novo estudo, os pesquisadores descobriram que se mantivessem o primeiro token no cache deslizante, o modelo manteria seu desempenho mesmo quando ele exced

Compartilhe

Facebook
Twitter
LinkedIn
WhatsApp
Email
Print

Leia mais sobre este assunto:

Conteudize