Novo método permite que chatbots mantenham conversas ininterruptas, diz estudo do MIT

Picture of Maurício "o Estagiario"

Maurício "o Estagiario"

Textos otimizado com nossa IA

Published on maio 11, 2024, 11:14 pm

Quando uma conversa entre um humano e uma inteligência artificial (IA) envolve várias rodadas de diálogo contínuo, os modelos poderosos de aprendizado de máquina em larga escala que impulsionam chatbots como o ChatGPT às vezes começam a falhar, fazendo com que o desempenho dos bots se deteriore rapidamente.

Uma equipe de pesquisadores do MIT e de outros lugares identificou uma causa surpreendente desse problema e desenvolveu uma solução simples que permite que um chatbot mantenha uma conversa ininterrupta sem travar ou desacelerar.

Seu método envolve um ajuste ao cache chave-valor (que é como uma memória de conversa) no centro de muitos modelos de linguagem em larga escala. Em alguns métodos, quando esse cache precisa armazenar mais informações do que tem capacidade, os primeiros dados são removidos. Isso pode fazer com que o modelo falhe.

Garantindo que esses poucos primeiros pontos de dados permaneçam na memória, o método dos pesquisadores permite que um chatbot continue conversando independentemente do tempo da conversa.

O método, chamado StreamingLLM, permite que um modelo seja eficiente mesmo quando uma conversa ultrapassa 4 milhões de palavras. Comparado a outro método que evita travamentos recomputando constantemente parte das conversas anteriores, o StreamingLLM foi mais de 22 vezes mais rápido.

Isso poderia permitir que um chatbot conduza longas conversas ao longo do dia de trabalho sem precisar reiniciá-lo continuamente, possibilitando assistentes de IA eficientes para tarefas como redação, edição ou geração de código.

“Agora, com este método, podemos implantar persistentemente esses grandes modelos de linguagem. Ao criar um chatbot com o qual sempre possamos conversar, e que possa sempre responder com base em nossas conversas recentes, podemos usar esses chatbots em algumas novas aplicações”, diz Guangxuan Xiao, estudante de pós-graduação em engenharia elétrica e ciência da computação (EECS) e autor principal de um artigo sobre o StreamingLLM.

Os coautores de Xiao incluem seu orientador, Song Han, professor associado do EECS, membro do MIT-IBM Watson AI Lab e cientista distinto da NVIDIA; bem como Yuandong Tian, cientista pesquisador da Meta AI; Beidi Chen, professor assistente na Universidade Carnegie Mellon; e Mike Lewis, autor sênior e cientista pesquisador da Meta AI. O trabalho será apresentado na Conferência Internacional sobre Representações de Aprendizado.

Um fenômeno intrigante

Grandes modelos de linguagem codificam dados, como palavras em uma consulta do usuário, em representações chamadas tokens. Muitos modelos empregam o que é conhecido como mecanismo de atenção que usa esses tokens para gerar novo texto.

Normalmente, um chatbot de IA escreve novo texto com base no texto que acabou de ver. Portanto, ele armazena os tokens recentes na memória, chamada cache KV (chave-valor), para usar posteriormente. O mecanismo de atenção constrói uma grade que inclui todos os tokens no cache – um “mapa de atenção” que indica as relações entre cada token ou palavra.

Entender essas relações é uma das características que permitem que os grandes modelos de linguagem gerem textos semelhantes ao humano.

No entanto, quando o cache fica muito grande, o mapa de atenção pode se tornar ainda maior, o que diminui a velocidade de processamento.

Além disso, se a codificação de conteúdo requer mais tokens do que o cache pode armazenar, o desempenho do modelo cai. Por exemplo, um modelo popular pode armazenar 4.096 tokens, mas há cerca de 10.000 tokens em um artigo acadêmico.

Para contornar esses problemas, os pesquisadores usam um “cache deslizante” que remove os tokens mais antigos para adicionar novos tokens. No entanto, com esse método, o desempenho do modelo geralmente cai assim que o primeiro token é removido, reduzindo rapidamente a qualidade das palavras recém-geradas.

Neste novo artigo, os pesquisadores perceberam que se eles mantiverem o primeiro token no cache deslizante, o modelo

Compartilhe

Facebook
Twitter
LinkedIn
WhatsApp
Email
Print

Leia mais sobre este assunto:

Conteudize