“Nova solução permite que chatbots mantenham conversas longas sem falhas de desempenho”

Picture of Maurício "o Estagiario"

Maurício "o Estagiario"

Textos otimizado com nossa IA

Published on maio 2, 2024, 2:44 am

Quando uma conversa entre humanos e IA envolve muitas rodadas de diálogo contínuo, os poderosos modelos de aprendizado de máquina com base em linguagem que impulsionam chatbots como o ChatGPT às vezes começam a falhar, fazendo com que o desempenho dos bots se deteriore rapidamente.

No entanto, uma equipe de pesquisadores do MIT e outros lugares descobriu uma causa surpreendente desse problema e desenvolveu uma solução simples que permite que um chatbot mantenha uma conversa ininterrupta sem travar ou desacelerar.

O método desenvolvido pela equipe envolve um ajuste no cache chave-valor (que é como uma memória da conversa) presente em muitos modelos de linguagem. Em alguns métodos, quando esse cache precisa armazenar mais informações do que tem capacidade para, as primeiras informações são removidas. Isso pode fazer com que o modelo apresente falhas.

Garantindo que esses primeiros pontos de dados permaneçam na memória, o método desenvolvido pelos pesquisadores permite que um chatbot continue conversando por quanto tempo for necessário.

Chamado de StreamingLLM, esse método possibilitou aos modelos manterem sua eficiência mesmo quando a conversa se estendeu por mais de 4 milhões de palavras. Quando comparado a outro método que evita falhas recomputando constantemente partes das conversas anteriores, o StreamingLLM foi mais de 22 vezes mais rápido.

Isso significa que um chatbot poderia conduzir longas conversas ao longo do dia de trabalho sem precisar ser reiniciado continuamente, permitindo assistentes virtuais eficientes para tarefas como redação, edição ou geração de código.

“Com esse método, podemos implantar persistentemente esses grandes modelos de linguagem. Ao criar um chatbot com o qual possamos sempre conversar e que possa sempre responder com base em nossas conversas recentes, poderíamos usar esses chatbots em novas aplicações”, explica Guangxuan Xiao, estudante de pós-graduação em engenharia elétrica e ciência da computação (EECS) e autor principal do artigo sobre o StreamingLLM.

Os coautores de Xiao incluem seu orientador, Song Han, professor associado na EECS, membro do MIT-IBM Watson AI Lab e cientista distinto da NVIDIA; bem como Yuandong Tian, cientista pesquisador na Meta AI; Beidi Chen, professor assistente na Universidade Carnegie Mellon; e Mike Lewis, cientista pesquisador na Meta AI. O trabalho será apresentado na Conferência Internacional sobre Representações de Aprendizagem.

Um fenômeno intrigante

Grandes modelos de linguagem codificam dados, como palavras em uma consulta do usuário, em representações chamadas tokens. Muitos modelos usam o que é conhecido como mecanismo de atenção para gerar novo texto a partir desses tokens.

Normalmente, um chatbot IA escreve novo texto com base no texto que acabou de ver e armazena os tokens recentes na memória, chamada cache KV (chave-valor), para uso posterior. O mecanismo de atenção constrói uma grade que inclui todos os tokens no cache: um “mapa de atenção” que mostra quão fortemente cada token ou palavra se relaciona com os outros tokens.

Compreender essas relações é uma das características que permitem que os modelos de linguagem gerem textos semelhantes aos escritos por humanos.

No entanto, quando o cache fica muito grande, o mapa de atenção pode se tornar ainda mais massivo, o que diminui a velocidade de computação. Além disso, se a codificação do conteúdo exige mais tokens do que o cache pode armazenar, o desempenho do modelo cai. Por exemplo, um modelo popular pode armazenar 4.096 tokens, mas um artigo acadêmico tem cerca de 10.000 tokens.

Para contornar esses problemas, os pesquisadores utilizam um “cache deslizante” que remove os tokens mais antigos para adicionar novos tokens. No entanto, o desempenho do modelo geralmente cai assim que o primeiro token é removido, reduzindo rapidamente a qualidade das palavras recém-geradas.

Neste novo artigo, os pesquisadores perceberam que manter o primeiro token no cache deslizante permite que o

Compartilhe

Facebook
Twitter
LinkedIn
WhatsApp
Email
Print

Leia mais sobre este assunto:

Conteudize