Como impedir que chatbots travem durante conversas longas

Picture of Maurício "o Estagiario"

Maurício "o Estagiario"

Textos otimizado com nossa IA

Published on maio 14, 2024, 7:16 am

Quando uma conversa humano-IA envolve muitas rodadas de diálogo contínuo, os poderosos modelos de aprendizado de linguagem por máquina, que impulsionam chatbots como ChatGPT, às vezes começam a ter problemas e o desempenho dos bots deteriora rapidamente.

Uma equipe de pesquisadores do MIT e de outros lugares identificou uma causa surpreendente desse problema e desenvolveu uma solução simples que permite que um chatbot mantenha uma conversa ininterrupta sem travamentos ou desaceleração.

O método usado pelos pesquisadores envolve um ajuste no cache chave-valor (que é como uma memória da conversa) dos grandes modelos de linguagem. Em alguns métodos, quando esse cache precisa armazenar mais informações do que tem capacidade, as primeiras informações são descartadas. Isso pode fazer com que o modelo falhe.

Ao garantir que esses primeiros dados permaneçam na memória, o método dos pesquisadores permite que um chatbot continue conversando, não importa por quanto tempo se estenda a conversa.

Denominado StreamingLLM, o método permite que um modelo permaneça eficiente mesmo quando a conversa ultrapassa 4 milhões de palavras. Em comparação com outro método que evita travamentos recomputando constantemente parte das conversas anteriores, o StreamingLLM é mais de 22 vezes mais rápido.

Isso poderia permitir que um chatbot conduza longas conversas ao longo do dia útil sem precisar ser reiniciado continuamente, possibilitando assistentes de IA eficientes para tarefas como redação publicitária, edição ou geração de código.

“Agora, com esse método, podemos implantar persistentemente esses grandes modelos de linguagem. Ao criar um chatbot com o qual possamos conversar sempre e que possa sempre nos responder com base em nossas conversas recentes, poderíamos usar esses chatbots em algumas novas aplicações”, diz Guangxuan Xiao, estudante de pós-graduação em engenharia elétrica e ciência da computação (EECS) e autor principal de um artigo sobre o StreamingLLM.

Os coautores de Xiao incluem seu orientador, Song Han, professor associado da EECS, membro do MIT-IBM Watson AI Lab e cientista distinto da NVIDIA; além de Yuandong Tian, cientista pesquisador da Meta AI; Beidi Chen, professor assistente na Carnegie Mellon University; e Mike Lewis, cientista pesquisador da Meta AI como autor sênior. O trabalho será apresentado na Conferência Internacional sobre Representações de Aprendizado.

Um fenômeno intrigante

Grandes modelos de linguagem codificam dados, como palavras em uma consulta do usuário, em representações chamadas tokens. Muitos modelos usam o que é conhecido como mecanismo de atenção para gerar novo texto com base nesses tokens.

Normalmente, um chatbot escreve novo texto com base no texto que acabou de ver e armazena os tokens recentes na memória, chamada Cache KV (chave-valor), para uso posterior. O mecanismo de atenção constrói uma grade que inclui todos os tokens armazenados no cache, um “mapa de atenção” que mostra quão fortemente cada token ou palavra se relaciona com os outros tokens.

Compreender essas relações é uma das características que permitem aos grandes modelos linguísticos gerar texto semelhante ao humano.

No entanto, quando o cache fica muito grande, o mapa de atenção pode se tornar ainda maior, o que diminui a velocidade de processamento.

Além disso, se a codificação do conteúdo exigir mais tokens do que o cache pode armazenar, o desempenho do modelo cai. Por exemplo, um modelo popular pode armazenar 4.096 tokens, mas há cerca de 10.000 tokens em um artigo acadêmico.

Para contornar esses problemas, os pesquisadores utilizam um “cache deslizante” que substitui os tokens mais antigos por novos tokens. No entanto, frequentemente, o desempenho do modelo cai assim que o primeiro token é descartado, reduzindo rapidamente a qualidade das palavras recém-geradas.

Neste novo artigo, os pesquisadores perceberam que manter o primeiro token no cache deslizante permite ao modelo manter seu desempenho mesmo quando o tamanho do

Compartilhe

Facebook
Twitter
LinkedIn
WhatsApp
Email
Print

Leia mais sobre este assunto:

Conteudize