Pesquisadores do MIT desenvolvem solução para melhorar desempenho de chatbots em conversas longas

Picture of Maurício "o Estagiario"

Maurício "o Estagiario"

Textos otimizado com nossa IA

Published on maio 15, 2024, 5:15 am

Quando uma conversa entre humanos e inteligência artificial (IA) envolve muitas rodadas de diálogo contínuo, os modelos poderosos de grandes aprendizados em linguagem das máquinas que impulsionam os chatbots, como o ChatGPT, às vezes começam a apresentar falhas, fazendo com que o desempenho dos bots se deteriore rapidamente.

Uma equipe de pesquisadores do MIT e de outros lugares descobriu a causa surpreendente desse problema e desenvolveu uma solução simples que permite que um chatbot mantenha uma conversa sem interrupções, sem travar nem desacelerar.

O método deles envolve um ajuste ao cache chave-valor (que é como uma memória da conversa) presente no cerne de muitos modelos grandes de linguagem. Em alguns métodos, quando esse cache precisa armazenar mais informações do que sua capacidade permite, as primeiras informações são descartadas. Isso pode fazer com que o modelo falhe.

Ao garantir que esses primeiros pontos de dados permaneçam na memória, o método dos pesquisadores permite que um chatbot continue conversando independentemente da duração da conversa.

O método chamado StreamingLLM permite que um modelo seja eficiente mesmo quando uma conversa ultrapassa 4 milhões de palavras. Ao ser comparado com outro método que evita travamentos recomputando constantemente parte das conversas anteriores, o StreamingLLM foi mais rápido em mais de 22 vezes.

Isso permitiria que um chatbot realizasse longas conversas ao longo do dia de trabalho sem precisar ser reiniciado continuamente. Isso possibilitaria assistentes virtuais eficientes para tarefas como redação, edição ou geração de código.

“Agora, com esse método, podemos implantar persistentemente esses modelos grandes de linguagem. Ao criar um chatbot com o qual possamos sempre conversar e que possa sempre nos responder com base em nossas conversas recentes, podemos usar esses chatbots em algumas novas aplicações”, diz Guangxuan Xiao, estudante de pós-graduação em engenharia elétrica e ciência da computação (EECS) e autor principal de um artigo sobre StreamingLLM.

Os coautores de Xiao incluem seu orientador Song Han, professor associado do EECS, membro do MIT-IBM Watson AI Lab e cientista distinguido da NVIDIA; Yuandong Tian, cientista pesquisador na Meta AI; Beidi Chen, professor assistente na Universidade Carnegie Mellon; e Mike Lewis, autor sênior e cientista pesquisador na Meta AI. O trabalho será apresentado na Conferência Internacional sobre Representações de Aprendizado.

Um fenômeno intrigante

Grandes modelos de linguagem codificam dados como palavras em uma pesquisa do usuário em representações chamadas tokens. Muitos modelos usam o que é conhecido como mecanismo de atenção que usa esses tokens para gerar novo texto.

Tipicamente, um chatbot IA escreve novo texto com base no texto que acabou de ver, então ele armazena os tokens recentes em uma memória chamada Cache KV para uso posterior. O mecanismo de atenção cria uma grade que inclui todos os tokens no cache chamado “mapa de atenção” que indica a força do relacionamento entre cada token ou palavra.

Compreender esses relacionamentos é uma das características que permite que grandes modelos de linguagem gerem textos parecidos com textos escritos por humanos.

No entanto, quando o cache fica muito grande, o mapa de atenção também pode ficar imenso, o que diminui a velocidade de computação.

Além disso, se a codificação do conteúdo exigir mais tokens do que o cache pode armazenar, o desempenho do modelo diminui. Por exemplo, um modelo popular pode armazenar 4.096 tokens, mas há cerca de 10.000 tokens em um artigo acadêmico.

Para contornar esses problemas, os pesquisadores utilizam um “cache em movimento” que descarta os tokens mais antigos para adicionar novos tokens. No entanto, o desempenho do modelo geralmente cai assim que o primeiro token é descartado e rapidamente reduz a qualidade das palavras recém-geradas.

Neste novo artigo, os pesquisadores perceberam que se mantivessem o primeiro token no cache em movimento, o modelo manteria seu desempenho

Compartilhe

Facebook
Twitter
LinkedIn
WhatsApp
Email
Print

Leia mais sobre este assunto:

Conteudize